Le repliement d'une molécule d'ARN non-codant est initié et stabilisé par ce qu'on appelle les motifs tertiaires. Ces motifs sont présents de manière récurrente dans les ARN de différents organismes vivants; ce qui suggère que leur rôle biologique a été conservé à travers l'évolution. Un recensement exhaustif et détaillé de ces motifs récurrents, incluant nombre d'occurrences et variantes, est donc une étape essentielle pour une meilleure compréhension du phénomène de repliement. Ce recensement peut être obtenu de manière efficace grâce à des méthodes automatiques d'extraction. Un inconvénient majeur des méthodes existantes est que la récurrence d'un motif est démontrée lorsque les occurrences trouvées sont strictement identiques. Dans la réalité, ces occurrences ne sont pas toujours identiques mais similaires en ce sens qu'elles possèdent une sous-structure commune ayant des propriétés biologiques spécifiques. Dans notre approche, une structure tertiaire d'ARN est modélisée par un graphe général étiqueté sur les sommets et les arêtes. Les sommets représentent les nucléotides étiquetés par leur base et leur numéro dans la séquence. Les arêtes représentent les interactions entre les bases étiquetées par leur type d'interaction. Les occurrences d'un motif récurrent deviennent, selon ce modèle, des sous-graphes similaires dont la structure commune est a priori inconnue. Ce type de recherche fait appel au problème du sous-graphe commun maximum bien connu en complexité algorithmique pour être NP-difficile et inapproximable. Ce travail propose (1) une nouvelle mesure de similarité de graphe permettant d'identifier des occurrences similaires d'un motif tertiaire potentiel. Cette mesure est obtenue par un algorithme de calcul d'un sous-graphe commun maximum ayant des propriétés structurales spécifiques, (2) une nouvelle méthode automatique d'extraction et de classification de (familles de) motifs d'ARN récurrents utilisant la nouvelle mesure de similarité. Il existe deux types de motifs tertiaires récurrents : les motifs locaux incrustés dans des éléments de structure secondaire et les motifs d'interaction faisant intervenir deux ou plusieurs éléments de structure secondaire. La méthode d'extraction et classification proposée a été appliquée à un échantillon représentatif de structures d'ARN. Les résultats obtenus ont été expertisés par des biochimistes de l'Institut de Biologie Moléculaire et Cellulaire (IBMC) de Strasbourg.
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00785953 |
Date | 07 December 2009 |
Creators | Djelloul, Mahassine |
Publisher | Université Paris Sud - Paris XI |
Source Sets | CCSD theses-EN-ligne, France |
Language | French |
Detected Language | French |
Type | PhD thesis |
Page generated in 0.0017 seconds