:: Enseignements :: Master :: M2 :: 2007-2008 :: Stages ::

Prise en compte de Contraintes Structurelles dans la Comparaison de Séquences d'ARN : le problème LAPCCS

Ce stage concerne le domaine de l'Algorithmique au sein de la thématique AlgoB de l'IGM et ComBi du LINA.

Lieu du stage

Selon la provenance de l'étudiant, le stage est a effectuer au sein :

Soit au sein du LINA (Laboratoire d'Informatique de Nantes-Atlantique) qui se situe à
Faculté des Sciences et Techniques de l'Université de Nantes
2 rue de la Houssinière,
BP-92208,
44322 Nantes cedex 03
Soit au sein du Laboratoire d'informatique de l'Institut Gaspard Monge qui se situe à
l'Université Paris-Est Marne-la-Vallée
5, boulevard Descartes
Champs sur Marne
77454 Marne-la-Vallée Cedex 2

Plus précisément: un étudiant provenant du Master Recherche de Nantes fera son stage au LINA, un étudiant provenant du Master Recherche de Marne-la-Vallée fera son stage à l'IGM, et un étudiant d'une autre provenance choisira le lieu de stage de son choix, entre Nantes et Marne-la-Vallée.

Encadrement

Guillaume Blin de l'IGM - gblin@univ-mlv.fr
Guillaume Fertin du LINA - guillaume.fertin@univ-nantes.fr

Présentation générale du domaine

Le stage proposé s'inscrit dans le domaine de l'algorithmique en bio-informatique. Le but est d'étudier la "faisabilité" algo- rithmique de certains problèmes issus de la biologie, avant de proposer, d'implémenter et de tester des algorithmes rapides et efﬁcaces. Le type de problème étudié dans ce stage est l'extraction de motifs contraints dans les ARN.

Présentation et objectifs du stage

L'ARN et sa représentation sous forme de structure arc-annotée. L'ARN est un acide nucléique composé de quatre bases : A, U , C et G. Il peut donc être vu comme un mot (càd, une suite ordonnée) sur cet alphabet. Cependant, l'ARN est une molécule dite "simple brin", obtenue par repliement sur elle-même à la faveur d'appariements entre paires de nucléotides (A − U ou G − C). Donc, l'ARN ne peut être réduite à sa séquence : l'information donnée par son repliement doit être prise en compte. On parle alors de structure d'ARN. Dans ce cas, la modélisation est la suivante : l'ARN est représenté sous la forme d'une séquence arc-annotée (S1,P1), qui se compose:

d'une suite S1 de bases, S1 étant construite sur l'alphabet {A, C, G, U }
d'un ensemble d'arcs P1 qui relient des paires de bases

Le Problème LAPCCS. Dans ce projet, on s'intéresse au problème LAPCCS. Avant de le déﬁnir, nous présentons d'abord le problème LAPCS (pour "Longest Arc-Preserving Common Subsequence") : étant donné deux structures (S1,P1) et (S2,P2), ce problème consiste à trouver une sous-structure (S,P) arc-préservante commune à (S1,P1) et (S2,P2), et dont la longueur (en terme de bases) soit maximale. Le terme arc-préservant signiﬁe qu'il existe un arc entre deux bases dans (S,P) si et seulement si il existe un arc entre leurs bases correspondantes dans (S1,P1) et dans (S2,P2).

Exemple 1 : Soit (S1,P1) et (S2,P2) deux séquences tq:

 
P1 : (.....) 
S1 : AGGCGCU
S2 : ACGGCCU 
P2 : (.....)

Alors le LAPCS pour ces deux structures est (S3 , P3 ) et sa longueur est donc égale à 6.

 
P3 : (....) 
S3 : AGGCCU

Le problème auquel on s'intéresse est le problème LAPCCS (pour "Longest Arc-Preserving Common Constrained Subsequence"). En entrée du problème, on a maintenant trois structures (S1,P1), (S2,P2) et (Sh,Ph), et le but est de rechercher la plus longue sous-structure arc-préservante (S,P), sous la contrainte que (S,P) contienne elle-même (Sh,Ph) comme sous-structure arc-préservante.

Exemple 2 : Soit (S1,P1) et (S2,P2), (Sh,Ph) tq

 
P1 : (.....) 
S1 : AGGCGCU
				
Ph : (..) 
Sh : ACGU

S2 : ACGGCCU 
P2 : (.....)

Alors le LAPCCS pour ces trois structures est (S,P), et sa longueur est donc égale à 5.

 
Ph : (...) 
Sh : ACGCU

Ce problème a déjà été étudié dans le cas des séquences, ce qui peut être vu comme le cas (extrême) où aucune structure ne possède d'arcs (donc P1 = P2 = Ph = {}) [2,3,4]. Cependant, dans le cas des structures, aucun résultat n'existe.

Travail demandé

Le travail commencera par un étude des articles cités, lesquels ne nécessitent pas de connaissances préalables spéciﬁques en biologie ; cependant, un goût prononcé pour l'algorithmique sera indéniablement un avantage.
Le problème sera ensuite abordé sous l'angle de la complexité algorithmique. En effet, les données d'entrée (les séquences arc-annotées) peuvent être classiﬁées en fonction de "l'organisation" des arcs (par exemple, les structures n'ayant pas d'arcs qui se croisent appartiennent à une classe spéciﬁque – mais il en existe bien d'autres...). On va donc chercher à déterminer la com- plexité du problème LAP CCS en fonction des classes auxquelles appartiennent (S1,P1), (S2,P2) et (Sh,Ph), ce qui donne un grand nombre de cas possibles.
Pour chacun de ces cas, on cherchera donc à déterminer dans quelle classe de complexité se situe le problème :

s'il est polynomial, on proposera un algorithme performant pour le résoudre
s'il est NP-complet, après l'avoir prouvé, on tentera de contourner la difﬁculté, essentiellement dans deux directions :
- en fournissant des algorithmes approchés (pour lesquels on peut quantiﬁer l'écart entre la solution fournie et la solution optimale) ;
- en fournissant des algorithmes dits de "Fixed-Parameter Tractability", c'est-à-dire des algorithmes exponentiels, mais dont on sait que le paramètre à l'exposant reste petit dans la pratique.

On fournira, le cas échéant, des algorithmes, qui seront implémentés et testés sur des données réelles.

Bibliographie

P.A. Evans. Algorithms and Complexity for Annotated Sequence Analysis. PhD thesis, University of Victoria, 1999.
Chin, F. Y., De Santis, A., Ferrara, A. L., Ho, N. L., and Kim, S. K. 2004. A simple algorithm for the constrained se- quence problems. Inf. Process. Lett. 90, 4 (May. 2004), 175-179.
Zeshan Peng. Structure Comparisons in Bioinformatics. PhD thesis, The University of Hong Kong, January 2006.
Yin-Te Tsai : The constrained longest common subsequence problem. Inf. Process. Lett. 88(4) : 173-176 (2003).
G. Blin. Combinatoire and Bio-informatique : Comparaison de structures d'ARN et calcul de distances intergénomiques. PhD thesis, Université de Nantes, 2005.