La diversité du monde vivant repose pour une large part sur la diversité des protéines codées dans les génomes. Comment une telle diversité a-t-elle été générée ? La théorie classique postule que cette diversité résulte à la fois de la divergence de séquence et de la combinatoire des arrangements de protéines en domaines à partir de quelques milliers de domaines anciens, mais elle n’explique pas les nombreuses protéines orphelines.Dans cette thèse, nous avons étudié l’évolution des protéines du point de vue de leur décomposition en domaines en utilisant trois bases de données : HOGENOM (familles de protéines homologues), Pfam (familles de domaines expertisées) et ProDom (familles de modules protéiques construites automatiquement). Chaque famille d’HOGENOM a ainsi été décomposée en domaines de Pfam ou modules de ProDom. Nous avons modélisé l’évolution de ces familles par un réseau Bayésien basé sur l’arbre phylogénétique des espèces. Dans le cadre de ce modèle, on peut reconstituer rigoureusement les scénarios d’évolution les plus probables qui reflètent la présence ou l’absence de chaque protéine, domaine ou module dans les espèces ancestrales. La mise en relation de ces scénarios permet d’analyser l’émergence de nouvelles protéines en fonctions de domaines ou modules ancestraux. L’analyse avec Pfam suggère que la majorité de ces événements résulte de réarrangements de domaines anciens, en accord avec la théorie classique. Cependant une part très significative de la diversité des protéines est alors négligée. L’analyse avec ProDom, au contraire, suggère que la majorité des nouvelles protéines ont recruté de nouveaux modules protéiques. Nous discutons les biais de Pfam et de ProDom qui permettent d’expliquer ces points de vue différents. Nous proposons que l’émergence de nouveaux modules protéiques peut résulter d’un turn-over rapide de séquences codantes, et que cette innovation au niveau des modules est essentielle à l’apparition de nombreuses protéines nouvelles tout au long de l’évolution. / The diversity of life derives mostly from the variety of proteins coded in genomes. How did evolution produce such a tremendous diversity ? The classical theory postulates that this diversity results both from sequence divergence and from the combinatorial arrangements of a few thousand primary protein domain types. However this does not account for the increasing number of entirely unique proteins as found in most genomes.In this thesis, we study the evolution of proteins from the point of view of their domain decomposition and rely on three databases : HOGENOM (homologous protein families), Pfam (manually curated protein domain families) and ProDom (automatically built protein module families). Each protein family from HOGENOM has thus been decomposed into Pfam domains or ProDom modules. We have modelled the evolution of these families using a Bayesian network based on the phylogenetic species tree. In the framework of this model, we can rigorously reconstitute the most likely evolutionary scenarios reflecting the presence or absence of each protein, domain or module in ancestral species. The comparison of these scenarios allows us to analyse the emergence of new proteins in terms of ancestral domains or modules. Pfam analysis suggests that the majority of protein innovations results from rearrangements of ancient domains, in agreement with the classical paradigm of modular protein evolution. However a very significant part of protein diversity is then neglected. On the other hand ProDom analysis suggests that the majority of new proteins have recruited novel protein modules. We discuss the respective biases of Pfam and ProDom underlying these contrasting views. We propose that the emergence of new protein modules may result from a fast turnover of coding sequences and that this module innovation is essential to the emergence of numerous novel proteins throughout evolution
Identifer | oai:union.ndltd.org:theses.fr/2011LYO10153 |
Date | 12 September 2011 |
Creators | Sertier, Anne-Sophie |
Contributors | Lyon 1, Daubin, Vincent, Kahn, Daniel |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | French |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text |
Page generated in 0.013 seconds