Research > Projects

Professional training


LAPCCS

Lieu du stage
Le stage est a effectuer au sein du Laboratoire d'Informatique de l'Institut Gaspard Monge qui se situe à
l'Université Paris-Est Marne-la-Vallée
5, boulevard Descartes
Champs sur Marne
77454 Marne-la-Vallée Cedex 2
Encadrement
Présentation générale du domaine
Le stage proposé s'inscrit dans le domaine de l'algorithmique pour la bioinformatique. Le but est d'étudier la "faisabilité" algorithmique de certains problèmes issus de la biologie, avant de proposer, d'implémenter et de tester des algorithmes rapides et efficaces. Le type de problème étudié dans ce stage est l'extraction de motifs contraints dans les ARN.
Présentation et objectifs du stage
L'ARN et sa représentation sous forme de structure arc-annotée. L'ARN est un acide nucléique composé de quatre bases : A, U , C et G. Il peut donc être vu comme un mot (càd, une suite ordonnée) sur cet alphabet. Cependant, l'ARN est une molécule dite "simple brin", obtenue par repliement sur elle-même à la faveur d'appariements entre paires de nucléotides (A - U ou G - C). Donc, l'ARN ne peut être réduite à sa séquence : l'information donnée par son repliement doit être prise en compte. On parle alors de structure d'ARN. Dans ce cas, la modélisation est la suivante : l'ARN est représenté sous la forme d'une séquence arc-annotée (S1,P1), qui se compose: Le Problème LAPCCS. Dans ce projet, on s'intéresse au problème LAPCCS. Avant de le définir, nous présentons d'abord le problème LAPCS (pour "Longest Arc-Preserving Common Subsequence") : étant donné deux structures (S1,P1) et (S2,P2), ce problème consiste à trouver une sous-structure (S,P) arc-préservante commune à (S1,P1) et (S2,P2), et dont la longueur (en terme de bases) soit maximale. Le terme arc-préservant signifie qu'il existe un arc entre deux bases dans (S,P) si et seulement si il existe un arc entre leurs bases correspondantes dans (S1,P1) et dans (S2,P2).
Exemple 1 : Soit (S1,P1) et (S2,P2) deux séquences tq:
P1 : (.....) 
S1 : AGGCGCU
S2 : ACGGCCU 
P2 : (.....) 
Alors le LAPCS pour ces deux structures est (S3 , P3 ) et sa longueur est donc égale à 6.
 
P3 : (....) 
S3 : AGGCCU 
Le problème auquel on s'intéresse est le problème LAPCCS (pour "Longest Arc-Preserving Common Constrained Subsequence"). En entrée du problème, on a maintenant trois structures (S1,P1), (S2,P2) et (Sh,Ph), et le but est de rechercher la plus longue sous-structure arc-préservante (S,P), sous la contrainte que (S,P) contienne elle-même (Sh,Ph) comme sous-structure arc-préservante.
Exemple 2 : Soit (S1,P1) et (S2,P2), (Sh,Ph) tq
P1 : (.....) 
S1 : AGGCGCU
				
Ph : (..) 
Sh : ACGU

S2 : ACGGCCU 
P2 : (.....)
Alors le LAPCCS pour ces trois structures est (S,P), et sa longueur est donc égale à 5.
Ph : (...) 
Sh : ACGCU 
Ce problème a déjà été étudié dans le cas des séquences, ce qui peut être vu comme le cas (extrême) où aucune structure ne possède d'arcs (donc P1 = P2 = Ph = {}) [2,3,4]. Cependant, dans le cas des structures, aucun résultat n'existe.
Travail demandé
Le travail commencera par un étude des articles cités, lesquels ne nécessitent pas de connaissances préalables spécifiques en biologie ; cependant, un goût prononcé pour l'algorithmique sera indéniablement un avantage.
Le problème sera ensuite abordé sous l'angle de la complexité algorithmique. En effet, les données d'entrée (les séquences arc-annotées) peuvent être classifiées en fonction de "l'organisation" des arcs (par exemple, les structures n'ayant pas d'arcs qui se croisent appartiennent à une classe spécifique - mais il en existe bien d'autres...). On va donc chercher à déterminer la complexité du problème LAPCCS en fonction des classes auxquelles appartiennent (S1,P1), (S2,P2) et (Sh,Ph), ce qui donne un grand nombre de cas possibles.
Pour chacun de ces cas, on cherchera donc à déterminer dans quelle classe de complexité se situe le problème : Bibliographie

Research interests

A brief overview of our research interests Browse

Projects

A brief overview of the previous and current projects we are currently involved in Browse

Software

Some of our software Browse

Collaborators

A list of some of our collaborators Browse

CFP and conferences to come ...

A list of Calls For Papers and interesting Conferences on Computer Science, Algorithmics and Bioinformatics Browse

Talks

A set of slides used for talks at conferences or seminars Browse

Publications

A complete list of our publications Browse

Professional training

A list of professional training propositions Browse

- 2006-2018 ABligoo -