L’accumulation récente de données de séquences génomiques a montré que l’évolution des gènes n’est pas strictement arborescente. De nombreux processus évolutifs, comme l’exon shuffling, la fusion de gènes ou la recombinaison illégitime remodèlent les gènes, créant des structures composites, formées de parties dont les histoires évolutives sont différentes. Le développement de réseaux de similarité de séquences fournit un cadre analytique permettant d’étudier l’impact de ces processus sur l’évolution moléculaire, en structurant les relations de ressemblance entre séquences et en formalisant en termes de graphes la détection de gènes (triplets intransitifs) et de familles de gènes (cliques minimales séparatrices) composites. La taille des jeux de données actuels, de l’ordre de plusieurs millions de séquences, a également requis le développement de nouveaux outils et méthodes : parallélisation des comparaisons de séquences, visualisation de très grands réseaux par simplification en communautés de Louvain et identification de grands cycles. Appliquées à des jeux de données de génomes eucaryotes et viraux, ces méthodes ont démontré la présence de gènes composites dans tout le vivant et les éléments génétiques mobiles. En proportion, les gènes composites sont plus nombreux dans les génomes eucaryotes ; en nombre absolu, ils sont plus nombreux à être portés par des virus. Chez ces derniers, la distribution fonctionnelle des gènes composites est biaisée (enrichissement dans les familles essentielles pour la perpétuation du cycle viral), et les éléments des gènes composites trouvent même parfois leurs origines dans le matériel génétique de classes virales différentes. Plus généralement, l’étendue des processus combinatoires, en révélant des liens évolutionnaires autres que les liens d’homologie au sens fort, justifie une étude pluraliste des relations de similarité entre séquences. / The recent accumulation of genomic sequence data has shown that gene evolution is not strictly tree-Like. Many evolutionary processes, like exon shuffling, gene fusion or nonhomologous recombination remodel genes by creating composite structures that are made from parts with different evolutionary histories. The development of sequence similarity networks provides an analytical framework to study the impact of these processes on molecular evolution, by structuring the resemblance relationships between sequences and by formalizing, in terms of graph theory, the detection of composite genes (intransitive triplets) and gene families (clique minimal separators). The size of current data sets, typically several million sequences, has also required the development of new tools and methods: sequence comparison parallelization, large networks visualization with Louvain communities and large cycles identification. When applied to eukaryotic and viral genome data sets, these methods have shown that composite genes are found throughout cellular organisms and mobile genetic elements. Proportionally, composite genes are more numerous in eukaryotic genomes; in absolute number, they are more numerous in viruses. In the latter, composite genes functional distribution is biased (enrichment of genes families that are essential for the perpetuation of the viral cycle), and the various parts of composite genes sometimes even originate from the genetic material of different viral classes. More generally, the extent of combinatorial processes, by unravelling other evolutionary bonds than homology bonds in the strictest sense, legitimates a pluralistic study of similarity relationships between sequences.
Identifer | oai:union.ndltd.org:theses.fr/2014PA066358 |
Date | 02 July 2014 |
Creators | Jachiet, Pierre-Alain |
Contributors | Paris 6, Bapteste, Éric, Lopez, Philippe |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | French, English |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text |
Page generated in 0.0017 seconds