Spelling suggestions: "subject:"phylogénomique"" "subject:"phylogénomiques""
21 |
Comparative and functional genome analysis of Acidithiobacillus bacteria / Analyse comparative et fonctionnelle des génomes du genre AcidithiobacillusTran, Thi Thanh Tam 14 October 2016 (has links)
Les bactéries acidophiles du genre Acidithiobacillus joue un rôle important dans les activités industrielles de récupération des métaux au sein des sites miniers. Dans cette thèse, la séquence du génome de la bactérie psychro-tolerante Acidithiobacillus ferrivorans CF27 a été re-séquencée. L’analyse comparative du génome de CF27 et des autres bactéries du genre Acidithiobacillus a permis de montrer: (i) une synthénie conservée entre 2 clusters de tRNAs trouvés dans les génomes de At. ferrivorans CF27 et At. ferrooxidans ATCC 23270, et qui ont contribué à la redondance génique des tRNAs chez ces 2 organismes. Notre analyse in silico à grande échelle de ces clusters de tRNAs au sein des génomes procaryotes a montré que les clusters de tRNAs sont présents dans très peu de phyla bactériens; (ii) la présence d’une importante proportion de gènes spécifiques chez CF27 et SS3, ce qui indique la très grande variabilité du contenu génique dans les génomes d’Acidithiobacillus et ainsi la nature unique de chaque groupe d’espèces. L’expression de ces gènes spécifiques a été confirmée chez CF27 cultivés en présence de Fer et soufre; et (iii) une composition taxonomique chimérique des génomes de la classe des Acidithiobacillia, confirmant ainsi que ce groupe appartient à une classe taxonomique particulière. Ces résultats apporte de nouvelles connaissances sur l’adaptation de CF27 à son environnement, ainsi que la nature chimérique des génomes de la classe taxonomique Acidithiobacillia. J’ai participé au projet ‘Thioredoxine réductase (TR)’ dont l’objectif est de définir la fonction biochimique, la structure moléculaire, ainsi que l’histoire évolutive de TRi, une réductase atypique. / The acidophilic Acidithiobacillus bacteria play an important role in industrial biomining operations for metal recovery. In this thesis, the genome sequence of a psychrotolerant Acidithiobacillus ferrivorans CF27 were first refined. The comparative genome analysis between CF27 and the closely related Acidithiobacillus genomes revealed: (i) a syntenic conservation of two tRNA array units which are only present in At. ferrivorans CF27 and At. ferrooxidans ATCC 23270 genomes and mainly contribute to the tRNA gene redundancy in both organisms. Moreover, our large-scale genome survey of the tRNA array units in prokaryotic organisms showed that tRNA arrays appear in few phyla; (ii) a high proportion of species-specific genes in CF27 and SS3 strains indicated the high variability of gene content in Acidithiobacillus genomes and therefore the unique nature of each group of species. Given that mRNA expression of some CF27 specific genes were confirmed in Fe(II)-grown cells and sulfur attached cells in CF27, these results highlighted the functional importance of specific genes for CF27 lifestyle; and (iii) the mosaic taxonomic composition of members of the Acidithiobacillia class, and thus confirmed that this group belongs to a particular taxonomic class, distinct to other proteobacterial groups. Taken together, our results provide insights into At. ferrivorans lifestyle as well as the chimeric genome nature of the Acidithiobacillus organisms. In addition, I also participated to the ‘Thioredoxin reductase’ project which aims to define the biochemical function, molecular structure and evolution of TRi, an atypical thioredoxin reductase.
|
22 |
Prédiction de liens fonctionnels par détection de coévolution entre familles de gènes : application aux gènes du cycle cellulaire chez les Firmicutes / Prediction of functional links by detecting coevolution of gene family : application to cell cycle genes in FirmicutesGarcia, Pierre 18 December 2018 (has links)
Le cycle cellulaire chez les bactéries est un processus très étudié mais il apparait que les modèles actuels ne rendent pas compte de la complexité et surtout de la diversité des machineries et des mécanismes de régulation impliqués. En fait, notre connaissance du cycle cellulaire repose sur l'étude de quelques organismes modèles. Or les analyses comparatives ont montré que certains systèmes et mécanismes décrits sont peu conservés et donc difficilement transposables d'un taxon à l'autre. Des approches évolutives telles que la phylogénomique peuvent être utilisées pour l'étude fonctionnelle de tels systèmes biologiques à l'échelle des bactéries. Ces approches permettent notamment de déterminer les évènements évolutifs clés qui ont conduit à une telle diversité mais également d'identifier des liens fonctionnels potentiels entre protéines. De plus, le développement des méthodes de séquençage à très haut débit a conduit à une accumulation de données génomiques sans précèdent, notamment chez les procaryotes. Dans ce contexte, j'ai réalisé une analyse phylogénomique à très large échelle des protéines impliquées dans le cycle cellulaire et sa régulation chez les Firmicutes. Mon objectif était de rechercher des patrons de coévolution entre familles protéiques pouvant refléter des liens fonctionnels. L'application des méthodes développées dans le cadre cette thèse aux protéines impliquées dans le cycle cellulaire chez les Firmicutes a permis de reconstruire l'histoire évolutive de ce processus cellulaire fondamental à l'échelle de ce phylum bactérien majeur. En particulier, j'ai pu mettre en évidence l'existence de quelques points chauds correspondant par exemple à l émergence des Bacilli ou des Streptococcaceae. L'émergence de ces taxa s'est accompagnée de nombreuses acquisitions et/ou de pertes de gènes ainsi que de nombreux réarrangements dans l'organisation des clusters de gènes codant pour ces protéines, suggérant que des changements majeurs se sont produits au niveau du cycle cellulaire et de sa régulation. J'ai également pu mettre en évidence de possibles liens fonctionnels qui n'ont jamais été décrits jusqu'à présent entre des gènes impliqués dans différentes machineries du cycle cellulaire. L'application de ces approches à l'ensemble des protéomes de Firmicutes a également permis d'identifier des protéines présentant des patrons de coévolution communs avec les protéines impliquées dans la division cellulaire et sa régulation, suggérant de possibles liens fonctionnels qu'il serait nécessaire de tester expérimentalement / The bacterial cell cycle is a very well studied process but current models don't reflect the complexity and diversity of involved molecular machineries and associated regulation mechanisms. In fact, our knowledge of cell cycle is based on study of a few model organisms. Yet, comparative analyses showed that some described systems and mechanisms are not conserved and not transposable from a taxon to another. Evolutionary approach such as phylogenomic can be used for functional studies of such systems at the bacterial scale. Those approaches allow to determine the key evolutionary events that lead to a such diversity but also to identify potential functional links between proteins. Furthermore, the development of high throughput sequencing methods leads to a big amount of genomic data, particularly for prokaryotes. In this context, I realized a very large scale phylogenomic analysis of proteins involved in cell cycle and its regulation in Firmicutes. My goal was to search some coevolution patterns between protein families reflecting potentially functional links. The application of methods that I developed during my PhD to cell cycle proteins allowed to reconstruct the evolutionary history of this cell process in Firmicutes. Notably, I highlighted some hot-spots corresponding for example to the emergence of Bacilli or Streptococcaceae. The emergence of such taxa has been accompanied by many acquisitions/losses of cell cycle genes but also many genomic rearrangements in gene clusters suggesting that major changes have occurred at the level of the cell cycle and its regulation. I also highlighted some potential functional links between genes involved in different machineries of cell cycle that have never been described. The application of these approaches to the entire proteomes of Firmicutes allowed to identify proteins presenting same evolution patterns than cell cycle proteins suggesting potential functional links that have to be experimentally tested
|
23 |
Phylogeny, biogeography, and breeding system evolution in Moraceae / Phylogénie, biogéographie et évolution des systèmes sexuels chez les MoraceaeZhang, Qian 16 July 2019 (has links)
Les Angiospermes sont le clade le plus diversifié des plantes actuelles et sont exceptionnellement riches en espèces dans les régions tropicales. Dans cette thèse, j’ai étudié l’évolution des systèmes sexuels et l’histoire biogéographique de la famille des Moraceae, clade modèle utilisé pour comprendre l’origine et l’évolution de la diversité chez les Angiospermes. Dans le Chapitre I, j’ai reconstruit et calibré un nouvel arbre phylogénétique daté pour les Moraceae. J’ai ensuite utilisé cet arbre pour reconstruire les états ancestraux des systèmes sexuels chez les Moraceae et Ficus. Les âges des groupes-couronne des Moraceae et du genre Ficus sont estimés au Crétacé et à l’Eocène, respectivement. La dioécie est inférée comme l’état ancestral des systèmes sexuels chez les Moraceae, avec plusieurs transitions ultérieures vers la monoécie, y compris chez Ficus. Ce résultat suggère que la dioécie ne représente pas nécessairement un cul-de-sac évolutif. Dans le Chapitre II, j’ai reconstruit un arbre phylogénétique daté pour la tribu des Dorstenieae, distribuée principalement dans les régions tropicales, à partir d’un nouveau jeu de données génomiques nucléaires produit avec une approche Hyb-Seq. L’histoire biogéographique du groupe a ensuite été reconstruite en utilisant les modèles de dispersion-extinction-cladogenèse. Les âges des groupes-couronne des Dorstenieae et du genre Dorstenia sont estimés au Crétacé et dans la période du Crétacé au Paléocène, respectivement. Deux évènements de dispersion à longue distance depuis l’Afrique continentale vers l’Amérique du Sud ont eu lieu au Cénozoïque (Dorstenia et Brosimum s.l.). Dans le Chapitre III, j’ai testé les différences de niche climatique (température et précipitation) entre les deux systèmes sexuels (monoécie et gynodioécie) chez Ficus avec un nouveau jeu de données fiables d’occurrences spatiales et de systèmes sexuels chez 183 espèces. À cette fin, j’ai utilisé deux approches comparatives : équations d’estimation généralisées (GEE) et modèles linéaires généralisés (GLM). Une relation positive entre précipitation et gynodioécie est soutenue par les analyses GLM, et aucune méthode ne soutient une relation entre température et système sexuel. Une meilleure capacité à se disperser et le potentiel d’autopollinisation sont deux explications possibles pour la colonisation et la survie des espèces monoïques dans des environnements plus secs. Cette thèse démontre le potentiel des méthodes phylogénétiques comparatives et des données phylogénomiques pour répondre aux questions d’évolution des systèmes sexuels et de biogéographie chez les Moraceae et ouvre plusieurs nouvelles perspectives importantes méritant d’être approfondies chez d’autres clades de plantes, telles que la relation entre système sexuel et niche climatique. / Angiosperms are the most diversified clade of extant plants and are exceptionally species-rich in tropical regions. In this thesis, I investigated breeding system evolution and biogeographic history in the family Moraceae, which I used as a model clade to understand the origin and evolution of diversity of angiosperms. In Chapter I, I reconstructed and calibrated a new dated phylogenetic tree for Moraceae as a whole. I then used this tree to reconstruct ancestral states of breeding systems in Moraceae and Ficus. The crown group ages of Moraceae and Ficus were estimated in the Cretaceous and in the Eocene, respectively. Dioecy was inferred as the ancestral breeding systems of Moraceae, with several subsequent transitions to monoecy, including in Ficus. This result suggests that dioecy is not necessarily an evolutionary dead end. In Chapter II, I reconstructed a dated phylogenetic tree for tribe Dorstenieae, mainly distributed in tropical regions, with a new data set of nuclear genomic data generated with a Hyb-Seq approach. Biogeographic history was then reconstructed using dispersal-extinction-cladogenesis models. The crown group ages of Dorstenieae and Dorstenia were estimated in the Cretaceous and in the Cretaceous/Paleocene period, respectively. Two long-distance dispersal events from continental Africa to South America occurred in the Cenozoic (Dorstenia and Brosimum s.l.). In Chapter III, I tested the climatic niche difference (temperature and precipitation) between the two breeding systems (monoecy and gynodioecy) in Ficus using a new dataset of cleaned spatial occurrence records and breeding systems for 183 species. I used two comparative approaches: generalized estimating equations (GEE) and generalized linear models (GLM). A positive relationship between precipitation and gynodioecy was supported by GLM, but not GEE analyses, and no relationship between temperature and breeding systems was supported by either method. Higher dispersal ability and the potential for self-fertilization may explain why monoecious species of Ficus have been able to colonize and survive in drier environments. This thesis highlights the potential of phylogenetic comparative methods and phylogenomic data to address questions of breeding system evolution and biogeography in Moraceae, and opens up several important new perspectives worth investigating in other plant clades, such as a relationship between breeding system and climatic niche.
|
24 |
Perspectives génomiques sur l’évolution des Dialioideae (Fabaceae/Leguminosae) : phylogénies et analyses de gènes fonctionnelsBourgeois-Racette, Laurence 07 1900 (has links)
La sous-famille des Dialioideae (Fabaceae/Leguminosae) regroupe 17 genres et 90 espèces réparties sur la majorité des continents. Bien que ce clade soit composé d’un nombre restreint d’espèces, une grande diversité de caractères morphologiques floraux est retrouvée au sein de ce groupe. Malgré les informations moléculaires et morphologiques apportées par plusieurs études, les relations évolutives entre les genres et les espèces demeurent peu résolues. En utilisant des données génomiques de 152 gènes nucléaires issues du séquençage ciblé, cette étude vise à établir une phylogénie bien supportée pour les Dialioideae. Nos résultats renforcent la position de plusieurs taxons, dont l’emplacement était mal défini dans les études précédentes, et fournissent de nouvelles perspectives sur l'histoire évolutive du clade. Nos analyses proposent que Koompassia forme un clade avec Apuleia, avec Distemonanthus comme groupefrère. Un placement pour le clade Martiodendron et Zenia est également suggéré, en tant que groupe-frère des Dialioideae excluant le groupement Baudouinia et Eligmocarpus ainsi que Poeppigia procera. De nouvelles relations au sein du clade qui regroupe Kalappia, Storckiella, Labichea et Petalostylis sont également présentées. De plus, cette étude propose une phylogénie basée sur des séquences du génome chloroplastique (matK-trnK, rps16 et trnL), présentant les relations évolutives entre les genres, mais également entre 38 espèces de Dialioideae. Étant donné le nombre réduit de gènes et de taxons utilisés dans les études actuelles, nous cherchions à obtenir une phylogénie présentant les relations évolutives à plusieurs niveaux taxonomiques. Nos résultats exposent des relations évolutives bien supportées et soulèvent le besoin d’échantillonnage des genres Dialium et Labichea. De plus, cette recherche fournit de nouvelles informations génomiques sur la conservation de copies paralogues de gènes fonctionnels associés à la morphologie florale et foliaire chez les végétaux (DICH, DIV, FLO/LFY-like, KNOX1, LEGCYC2, PALM1, PHAN, RAD, UFO). Nos résultats contribuent à la création de nouveau matériel pertinent pouvant être utilisé dans de futures études s’intéressant à la variabilité de caractères morphologiques existante entre les genres du clade. / Subfamily Dialioideae (Fabaceae/Leguminosae) comprises 17 genera and 90 species
distributed over Central and South America, Africa, Asia and Oceania. Although this clade
groups a small number of taxa, an important diversity of floral morphological characters is
found within this group. Despite the molecular and morphological information provided by
several studies, the evolutionary relationships amongst genera and species remain poorly
resolved. Using genomic data from targeted sequencing of 152 nuclear genes, this study aims
to establish a well-supported phylogeny for the Dialioideae. Our results strengthen the position
of several taxa and provide new insights into the evolutionary history of the clade. Our analyses
provide a resolution for Koompassia, whose position was not clearly defined in previous
studies, suggesting it forms a clade with Apuleia, sister to which is the genus Distemonanthus.
A placement for the Martiodendron and Zenia clade is also suggested, as a sister group to all
Dialioideae except the Baudouinia and Eligmocarpus lineage, and Poeppigia procera, the sister
group to all Dialioideae. New relationships within the clade including Kalappia, Storckiella,
Labichea and Petalostylis are also presented. Furthermore, this study proposes a phylogeny
based on chloroplast sequences (matK-trnK, rps16 and trnL), presenting the evolutionary
relationships amongst genera, but also amongst 38 species of Dialioideae. Our results highlight
well-supported evolutionary relationships and raise the need for increased sampling of the
genera Dialium and Labichea. Furthermore, this research provides new genomic information
on the conservation of paralogous copies of functional genes associated with floral and leaf
morphology in plants (DICH, DIV, FLO/LFY-like, KNOX1, LEGCYC2, PALM1, PHAN, RAD,
UFO). Our results contribute to the creation of new relevant material that can be used in future
studies to investigate variability in morphology observed in Dialioideae.
|
25 |
Phylogénomique des ArchéesGrenier, Jean-Christophe 07 1900 (has links)
Les transferts horizontaux de gènes (THG) ont été démontrés pour jouer un rôle important dans l'évolution des procaryotes. Leur impact a été le sujet de débats intenses, ceux-ci allant même jusqu'à l'abandon de l'arbre des espèces. Selon certaines études, un signal historique dominant est présent chez les procaryotes, puisque les transmissions horizontales stables et fonctionnelles semblent beaucoup plus rares que les transmissions verticales (des dizaines contre des milliards). Cependant, l'effet cumulatif des THG est non-négligeable et peut potentiellement affecter l'inférence phylogénétique. Conséquemment, la plupart des chercheurs basent leurs inférences phylogénétiques sur un faible nombre de gènes rarement transférés, comme les protéines ribosomales. Ceux-ci n'accordent cependant pas autant d'importance au modèle d'évolution utilisé, même s'il a été démontré que celui-ci est important lorsqu'il est question de résoudre certaines divergences entre ancêtres d'espèces, comme pour les animaux par exemple.
Dans ce mémoire, nous avons utilisé des simulations et analyser des jeux de données d'Archées afin d'étudier l'impact relatif des THG ainsi que l'impact des modèles d'évolution sur la précision phylogénétique. Nos simulations prouvent que (1) les THG ont un impact limité sur les phylogénies, considérant un taux de transferts réaliste et que (2) l'approche super-matrice est plus précise que l'approche super-arbre. Nous avons également observé que les modèles complexes expliquent non seulement mieux les données que les modèles standards, mais peuvent avoir un impact direct sur différents groupes phylogénétiques et sur la robustesse de l'arbre obtenu. Nos résultats contredisent une publication récente proposant que les Thaumarchaeota apparaissent à la base de l'arbre des Archées. / Horizontal gene transfer (HGT) had been demonstrated to play an important role in the evolution of prokaryotes. Their impact on phylogeny was the subject of a heated debate, with some proposing that the concept of a species tree should be abandoned. The phylogeny of prokaryotes does contain a major part of the historical signal, because stable and functional horizontal transmissions appear to be by far rarer than vertical transmissions (tens versus billions). However, the cumulative effect of HGT is non-negligible and can potentially affect phylogenetic inference. Therefore, most researchers base their phylogenetic inference on a low number of rarely transferred genes such as ribosomal proteins, but they assume the selection of the model of evolution as less important, this despite the fact that it has been shown of prime importance for much less deep divergences, e.g. like animals.
Here, we used a combination of simulations and of real data from Archaea to study the relative impact of HGT and of the inference methods on the phylogenetic accuracy. Our simulations prove that (1) HGTs have a limited impact on phylogeny, assuming a realistic rate and (2) the supermatrix is much more accurate than the supertree approach. We also observed that more complex models of evolution not only have a better fit to the data, but can also have a direct impact on different phylogenetic groups and on the robustness of the tree. Our results are in contradiction to a recent publication proposing that the Thaumarchaeota are at the base of the Archaeal tree.
|
26 |
Amélioration de l'exactitude de l'inférence phylogénomiqueRoure, Béatrice 04 1900 (has links)
L’explosion du nombre de séquences permet à la phylogénomique, c’est-à-dire l’étude des liens de parenté entre espèces à partir de grands alignements multi-gènes, de prendre son essor. C’est incontestablement un moyen de pallier aux erreurs stochastiques des phylogénies simple gène, mais de nombreux problèmes demeurent malgré les progrès réalisés dans la modélisation du processus évolutif. Dans cette thèse, nous nous attachons à caractériser certains aspects du mauvais ajustement du modèle aux données, et à étudier leur impact sur l’exactitude de l’inférence. Contrairement à l’hétérotachie, la variation au cours du temps du processus de substitution en acides aminés a reçu peu d’attention jusqu’alors. Non seulement nous montrons que cette hétérogénéité est largement répandue chez les animaux, mais aussi que son existence peut nuire à la qualité de l’inférence phylogénomique. Ainsi en l’absence d’un modèle adéquat, la suppression des colonnes hétérogènes, mal gérées par le modèle, peut faire disparaître un artéfact de reconstruction. Dans un cadre phylogénomique, les techniques de séquençage utilisées impliquent souvent que tous les gènes ne sont pas présents pour toutes les espèces. La controverse sur l’impact de la quantité de cellules vides a récemment été réactualisée, mais la majorité des études sur les données manquantes sont faites sur de petits jeux de séquences simulées. Nous nous sommes donc intéressés à quantifier cet impact dans le cas d’un large alignement de données réelles. Pour un taux raisonnable de données manquantes, il appert que l’incomplétude de l’alignement affecte moins l’exactitude de l’inférence que le choix du modèle. Au contraire, l’ajout d’une séquence incomplète mais qui casse une longue branche peut restaurer, au moins partiellement, une phylogénie erronée. Comme les violations de modèle constituent toujours la limitation majeure dans l’exactitude de l’inférence phylogénétique, l’amélioration de l’échantillonnage des espèces et des gènes reste une alternative utile en l’absence d’un modèle adéquat. Nous avons donc développé un logiciel de sélection de séquences qui construit des jeux de données reproductibles, en se basant sur la quantité de données présentes, la vitesse d’évolution et les biais de composition. Lors de cette étude nous avons montré que l’expertise humaine apporte pour l’instant encore un savoir incontournable. Les différentes analyses réalisées pour cette thèse concluent à l’importance primordiale du modèle évolutif. / The explosion of sequence number allows for phylogenomics, the study of species relationships based on large multi-gene alignments, to flourish. Without any doubt, phylogenomics is essentially an efficient way to eliminate the problems of single gene phylogenies due to stochastic errors, but numerous problems remain despite obvious progress realized in modeling evolutionary process. In this PhD-thesis, we are trying to characterize some consequences of a poor model fit and to study their impact on the accuracy of the phylogenetic inference. In contrast to heterotachy, the variation in the amino acid substitution process over time did not attract so far a lot of attention. We demonstrate that this heterogeneity is frequently observed within animals, but also that its existence can interfere with the quality of phylogenomic inference. In absence of an adequate model, the elimination of heterogeneous columns, which are poorly handled by the model, can eliminate an artefactual reconstruction. In a phylogenomic framework, the sequencing strategies often result in a situation where some genes are absent for some species. The issue about the impact of the quantity of empty cells was recently relaunched, but the majority of studies on missing data is performed on small datasets of simulated sequences. Therefore, we were interested on measuring the impact in the case of a large alignment of real data. With a reasonable amount of missing data, it seems that the accuracy of the inference is influenced rather by the choice of the model than the incompleteness of the alignment. For example, the addition of an incomplete sequence that breaks a long branch can at least partially re-establish an artefactual phylogeny. Because, model violations are always representing the major limitation of the accuracy of the phylogenetic inference, the improvement of species and gene sampling remains a useful alternative in the absence of an adequate model. Therefore, we developed a sequence-selection software, which allows the reproducible construction of datasets, based on the quantity of data, their evolutionary speed and their compositional bias. During this study, we did realize that the human expertise still furnishes an indispensable knowledge. The various analyses performed in the course of this PhD thesis agree on the primordial importance of the model of sequence evolution.
|
27 |
Phylogénomique et stratégies d'histoires de vie des mammifères placentaires : apports de la théorie de la conversion génique biaisée / Phylogenomic and life-history strategies of placental mammals : insights of the biased gene conversion theoryRomiguier, Jonathan 22 November 2012 (has links)
Des souris aux baleines en passant par les humains, la diversité écologique des mammifères placentaires est des plus fascinantes. Bien qu'il s'agisse là d'un des groupes les plus étudiés, leur origine fait pourtant l'objet de bien des mystères. Leurs relations de parenté les plus basales restent en effet incertaines, et l'on ignore encore beaucoup du mode de vie qu'avaient nos ancêtres du Crétacé, ces mammifères placentaires qui auraient côtoyé les dinosaures pendant plus de 30 millions d'années.Afin d'aborder ces questions, cette thèse a utilisé l'outil de la génomique comparative. L'une de ses principales originalités est la prise en compte d'un distorteur majeur de notre évolution moléculaire: la conversion génique biaisée. Truquant la loterie génétique, ce mécanisme associé à la recombinaison méiotique avantage les nucléotides G et C au détriment des nucléotides A et T. Façonnés par son influence, nos paysages nucléotidiques présentent ainsi ponctuellement des taux de GC anormalement élevés.Jusque là, ce phénomène n'avait été étudié que chez une poignée d'organismes modèles. Son analyse chez plus d'une trentaine de génomes mammaliens a mis en évidence une série de résultats clés. En particulier, l'évolution du contenu en GC des gènes s'est avéré dépendre de la masse corporelle et la longévité des espèces. E nreliant ainsi évolution moléculaire et traits d'histoire de vie, des reconstructions de séquences ancestrales ont permis d'estimer la durée de vie des premiers mammifères placentaires à plus de 25 ans. Cette longévité va bien au delà de ce que peuvent espérer atteindre les souris ou musaraignes actuelles, des animaux au mode de vie pourtant jusqu'ici supposé comme étant proche de celui de nos ancêtres.Parallèlement à ces résultats, une tendance à produire des phylogénies inexactes a été détectée chez les gènes les plus GC-riches. Moins soumis à la conversion génique biaisée, les gènes AT-riches se sont montrés plus fiables, tout en soutenant que les espèces originaires d'Afrique sont situés à la base de l'arbre des placentaires. Ce résultat suggère ainsi la possible résolution d'un des noeuds les plus controversés de notre histoire évolutive.Du simple nucléotide à la naissance d'une infraclasse de plus de 4000espèces, ce travail révèle comment l'évolution moléculaire peut porter un nouveau regard sur nos origines les plus profondes. / From mice to whales through humans, placental mammals present astunning diversity. Despite being one of the most studied group ever,mysteries persist about their origin. Indeed, their most basalrelationships still remain uncertain, and nothing is really knownabout the lifestyle of our cretaceous ancestors, these placentalmammals which lived side by side with non-avian dinosaurs during 30My.To answer these evolutionnary questions, comparative genomic studiesof placental mammals have been conducted. One of its originalities isto take into account biased gene conversion. Rigging the geneticlottery, this recombination-associated mechanism involves a reparationbias favouring the G and C nucleotides over the A and T ones, whichmark the mammalian genomic landscapes by inducing localized peaks ofGC-content.This phenomenon has been so far studied in few model species. Theexploration of biased gene conversion in more than 30 mammal genomesled to several key results. In particular, GC content evolution hasproved to be correlated to the longevity and the body mass of species.By linking together molecular evolution and life history traits, thereconstruction of ancestral sequences allowed us to estimate alife-span above 25 years for early placental mammals. This value ismarkedly different from that of mice or shrews, although our mammalianancestors have often been represented as such. In addition to these results, GC-rich genes were found to be prone toproduce false phylogenies. Less affected by recombination associatedartifacts, AT-rich genes are shown to be more reliable, and to supportspecies of African origin as the sister group of all other placentalmammals - perhaps resolving one of the most controversial nodes of themammalian tree.From nucleotide to the birth of a 4,000 species infraclass, this workreveals how molecular evolution can shed new light onour deepest origins.
|
28 |
Apport de la phylogénomique pour l’étude des interactions moléculaires entre Henipavirus et leurs réservoirs : les chauves-souris du genre Pteropus / Contribution of phylogenomics to the study of molecular interactions between Henipaviruses and their reservoir : Pteropus BatsFouret, Julien 14 December 2018 (has links)
Les chauve-souris représentant un réservoir important pour de nombreux virus pathogènes pour l’homme, un ensemble d’études en évolution moléculaire converge vers l’évidence d’une forte pression de sélection au niveau de gènes impliqués dans l’immunité dans l’ordre Chiroptera. En particulier, les chauves-souris du genre Pteropus hébergent des virus de la famille Henipavirus: Nipah et Hendra. Ces virus sont responsables d'épidémies en Asie du sud-est, et bien qu'ayant un taux d'incidence bas, les maladies résultantes de l'infection ont un taux de létalité allant de 40% à 90% chez l'homme. L’infection atteint aussi la plupart des mammifères avec des symptômes clinique graves, (e.g. porc ou cheval : espèces d’intérêt agronomique). La particularité du genre Pteropus est de ne pas développer ces symptômes cliniques graves d’infection. Afin d'en identifier les bases génétiques, nous avons utilisé l'analyse de sélection positive sur l’ensemble du génome codant sans restreindre notre analyse aux gènes de l’immunité. Nous avons mis en place les outils informatiques innovants et nécessaires au déploiement de cette démarche. Ces analyses, reposent sur des séquences de références pour les génomes de différentes espèces, et en absence du génome de référence pour P. giganteus, nous l’avons préalablement séquencé et assemblé. Or, tous les gènes sous sélection ne sont pas forcément liés à notre phénotype d’intérêt mais possiblement à d’autres (e.g. capacité de vol). Nous avons mis en place un algorithme afin d’établir un lien fonctionnel potentiel entre ces gènes identifiés sous sélection positive et un phénotype d’intérêt. / Bats represent a considerable reservoir for an extensive group of human pathogenic viruses. A number of molecular evolution studies points toward the evidence of a strong selection pressure in Chiroptera immune-related genes. Notably, Pteropus bats host viruses from Henipavirus genus: Nipah and Hendra. These viruses are responsible for epidemics in South-Est Asia, and, while the incidence is low, the resulting diseases are highly lethal, ranging between 40 to 90% in humans. Most of mammals are susceptible to the infection (including pigs and horses, animals valued in agronomy), and develop severe clinical symptoms. Specificity of Pteropus genus lies in the absence of clinical symptoms following the infection. In order to identify the genetic basis of this interesting phenomenon, we applied positive selection analysis to the entire coding genome, without bounding our analysis to immune-regulating genes. We have set breakthrough computational tools, without which our analysis would not have been possible. Reference sequences from genome of several species are the groundwork for our analysis. As P. giganteus reference genome has not yet been resolved, we sequenced and assembled it. However, not all genes under positive selection are necessarily linked to a phenotype of interest, but may be linked to other phenotypes (such as the flying ability). We have thus developed an algorithm to establish a possible functional link between the genes identified under positive selection and a phenotype of interest, which allows new perspectives in phylogenomic research.
|
29 |
Phylogénie et évolution des Archaea, une approche phylogénomique / Phylogny and evolution of Archaea, a phylogenomic approachPetitjean, Celine 27 September 2013 (has links)
En 1977, Carl Woese sépare les procaryotes en deux grands groupes en proposant une nouvelle classification basée sur des critères phylogénétiques. Les Archaea deviennent ainsi un domaine à part entière aux cotés des Bacteria et des Eucarya. Depuis, la compréhension de ce nouveau groupe et de ses relations avec les deux autres domaines, essentielles pour comprendre l’évolution ancienne du vivant, est largement passée par l’étude de leur phylogénie. Presque 40 ans de recherche sur les archées ont permis de faire évoluer leur image : de bactéries vivant dans des milieux spécialisés, souvent extrêmes, on est passé à un domaine indépendant, très diversifié aussi bien génétiquement, métaboliquement ou encore écologiquement. Ces dernières années la barre symbolique de cent génomes complets d’archées séquencés a été franchie et, parallèlement, les projets génomiques et métagénomiques sur des groupes peu caractérisés ou de nouvelles lignées de haut rang taxonomique (e.g. Nanohaloarchaea, Thaumarchaeota, ARMAN, Aigarchaeota, groupe MGC, groupe II des Euryarchaeota, etc.) se sont multipliés. Tout ceci apporte un matériel sans précédent pour l’étude de l’histoire évolutive et de la diversité des Archaea. Les protéines ribosomiques ont été utilisées de façon courante pour inférer la position phylogénétique des nouvelles lignées d’Archaea. Néanmoins, les phylogénies résultantes ne sont pas complètement résolues, laissant des interrogations concernant d’importantes relations de parenté. La recherche de nouveaux marqueurs est donc cruciale et c’est dans ce contexte que mon projet de thèse s’inscrit. À partir de l’analyse des génomes de deux Thaumarchaeota et d’une Aigarchaeota, nous avons identifié 200 protéines conservées et bien représentées dans les différents phyla d’archées. Ces protéines sont impliquées dans de nombreux processus cellulaires, ce qui peut apporter un signal phylogénétique complémentaire à celui des marqueurs de type informationnel utilisés par le passé. En plus de confirmer la plupart des relations phylogénétiques inférées à partir de ces derniers (i.e., protéines ribosomiques et sous unités de l’ARN polymérase), l’analyse phylogénétique de ces nouveaux marqueurs apporte un signal permettant une meilleure résolution de la phylogénie des archées et la clarification de certaines relations jusqu’ici confuses. Un certain nombre de ces nouveaux marqueurs sont aussi présents chez les bactéries. Les relations entre les grands phyla d’archées restant encore non résolues, nous avons utilisé ces protéines pour essayer de placer la racine de l’arbre des Archaea en utilisant comme groupe extérieur les bactéries. Nous avons ainsi pu identifier 38 protéines, parmi les 200 sélectionnées précédemment, ayant un signal phylogénétique suffisamment fiable pour cette étude, auxquelles nous avons ajouté 32 protéines ribosomiques universelles. L’utilisation conjointe de ces données nous a permis de placer la racine entre les Euryarchaeota, d’une part, et un groupe rassemblant les Thaumarchaeota, les Aigarchaeota, les Korarchaeota et les Crenarchaeota, d’autre part. Ce nouvel éclairage sur l’évolution ancienne des archées nous a amené à proposer une révision de leur taxonomie avec, principalement, la création du nouveau phylum "Proteoarchaeota" contenant les quatre phyla actuels que nous proposons de rétrograder en classes : Thaumarchaea, Aigarchaea, Korarchaea et Crenarchaea.Finalement, l’analyse des protéines codées dans les trois génomes qui ont servi de point de départ de ma thèse nous a permis de générer une masse considérable de données qui ont révélé des traits particuliers ou encore des histoires évolutives inattendues. Un exemple est l’histoire du complexe formé par la chaperonne DnaK et de ses co-chaperonnes GrpE, DnaJ, et DnaJ-Fer chez les Thaumarchaeota, impliquant plusieurs transferts horizontaux entre les trois domaines du vivant. / In 1977, Carl Woese proposed a new classification of organisms based on phylogenetic criteria where he divided prokaryotes into two major groups. Thus, Archaea were defined as a new domain, together with Bacteria and Eucarya. Since then, the study of this group and its relationships with the two other domains, essential to understand the early evolution of Life, has been largely done through the investigation of its phylogeny. Almost 40 years of research on the archaea have led to a significant evolution of the knowledge on this group: from considering them as bacteria living in specialized environments, most often extreme ones, to defining them as an independent domain, highly diversified in genetic, metabolic and ecological terms. During the last years, the symbolic barrier of 100 complete archaeal genome sequences has been reached and, simultaneously, many genome projects from poorly-known groups or new high-rank lineages (e.g., Nanohaloarchaea, Thaumarchaeota, ARMAN, Aigarchaeota, MGC, group II Euryarchaeota, etc.) have been launched. All this provides unprecedented information to study the evolutionary history of Archaea. Ribosomal proteins have been used recurrently to infer the phylogenetic position of new archaeal lineages. Nevertheless, the resulting phylogenies are not fully resolved and several important nodes remain uncertain. The identification of new phylogenetic markers is therefore crucial. This represents the framework of my PhD thesis project. On the basis of the analysis of the genome sequences of two Thaumarchaeota and one Aigarchaeota, we have identified 200 conserved proteins well represented among the different archaeal phyla. These proteins are involved in a number of cellular functions, thus providing a phylogenetic signal complementary to the one obtained from the informational proteins (i.e., ribosomal proteins and RNA polymerase subunits). The phylogenetic analysis of these new markers has led to a better resolution of the archaeal phylogeny, including several relationships that remained unclear. Several of the new markers are also present in bacteria. Since the relationships among the different archaeal phyla are not yet resolved, we have used those markers to try to place the root of the archaeal phylogeny using the bacterial sequences as outgroup. We have identified 38 proteins among the 200 detected before containing a phylogenetic signal useful for that purpose, to which we have added 32 universal ribosomal proteins. The use of this complete dataset allowed us locating the root between the Euryarchaeota and a large group joining the Thaumarchaeota, Aigarchaeota, Korarchaeota and Crenarchaeota. This new result on the ancient evolutionary history of Archaea has led us to propose a taxonomic revision for this domain, in particular the erection of a new phylum "Proteoarchaeota", containing the current four phyla that we propose to retrograde into classes (Thaumarchaeales, Aigarchaeales, Korarchaeales and Crenarchaeales). Finally, the analysis of the proteins encoded by the three reference genomes at the origin of this work has generated a large amount of data, which reveals particular traits in certain organisms or unexpected evolutionary histories. One example concerns the evolution in Thaumarchaeota of the protein complex composed of the DnaK chaperon and its co-chaperons GrpE, DnaJ, and DnaJ-Fer, which involves several horizontal gene transfer events among the three domains of Life.
|
30 |
Amélioration de l'exactitude de l'inférence phylogénomiqueRoure, Béatrice 04 1900 (has links)
L’explosion du nombre de séquences permet à la phylogénomique, c’est-à-dire l’étude des liens de parenté entre espèces à partir de grands alignements multi-gènes, de prendre son essor. C’est incontestablement un moyen de pallier aux erreurs stochastiques des phylogénies simple gène, mais de nombreux problèmes demeurent malgré les progrès réalisés dans la modélisation du processus évolutif. Dans cette thèse, nous nous attachons à caractériser certains aspects du mauvais ajustement du modèle aux données, et à étudier leur impact sur l’exactitude de l’inférence. Contrairement à l’hétérotachie, la variation au cours du temps du processus de substitution en acides aminés a reçu peu d’attention jusqu’alors. Non seulement nous montrons que cette hétérogénéité est largement répandue chez les animaux, mais aussi que son existence peut nuire à la qualité de l’inférence phylogénomique. Ainsi en l’absence d’un modèle adéquat, la suppression des colonnes hétérogènes, mal gérées par le modèle, peut faire disparaître un artéfact de reconstruction. Dans un cadre phylogénomique, les techniques de séquençage utilisées impliquent souvent que tous les gènes ne sont pas présents pour toutes les espèces. La controverse sur l’impact de la quantité de cellules vides a récemment été réactualisée, mais la majorité des études sur les données manquantes sont faites sur de petits jeux de séquences simulées. Nous nous sommes donc intéressés à quantifier cet impact dans le cas d’un large alignement de données réelles. Pour un taux raisonnable de données manquantes, il appert que l’incomplétude de l’alignement affecte moins l’exactitude de l’inférence que le choix du modèle. Au contraire, l’ajout d’une séquence incomplète mais qui casse une longue branche peut restaurer, au moins partiellement, une phylogénie erronée. Comme les violations de modèle constituent toujours la limitation majeure dans l’exactitude de l’inférence phylogénétique, l’amélioration de l’échantillonnage des espèces et des gènes reste une alternative utile en l’absence d’un modèle adéquat. Nous avons donc développé un logiciel de sélection de séquences qui construit des jeux de données reproductibles, en se basant sur la quantité de données présentes, la vitesse d’évolution et les biais de composition. Lors de cette étude nous avons montré que l’expertise humaine apporte pour l’instant encore un savoir incontournable. Les différentes analyses réalisées pour cette thèse concluent à l’importance primordiale du modèle évolutif. / The explosion of sequence number allows for phylogenomics, the study of species relationships based on large multi-gene alignments, to flourish. Without any doubt, phylogenomics is essentially an efficient way to eliminate the problems of single gene phylogenies due to stochastic errors, but numerous problems remain despite obvious progress realized in modeling evolutionary process. In this PhD-thesis, we are trying to characterize some consequences of a poor model fit and to study their impact on the accuracy of the phylogenetic inference. In contrast to heterotachy, the variation in the amino acid substitution process over time did not attract so far a lot of attention. We demonstrate that this heterogeneity is frequently observed within animals, but also that its existence can interfere with the quality of phylogenomic inference. In absence of an adequate model, the elimination of heterogeneous columns, which are poorly handled by the model, can eliminate an artefactual reconstruction. In a phylogenomic framework, the sequencing strategies often result in a situation where some genes are absent for some species. The issue about the impact of the quantity of empty cells was recently relaunched, but the majority of studies on missing data is performed on small datasets of simulated sequences. Therefore, we were interested on measuring the impact in the case of a large alignment of real data. With a reasonable amount of missing data, it seems that the accuracy of the inference is influenced rather by the choice of the model than the incompleteness of the alignment. For example, the addition of an incomplete sequence that breaks a long branch can at least partially re-establish an artefactual phylogeny. Because, model violations are always representing the major limitation of the accuracy of the phylogenetic inference, the improvement of species and gene sampling remains a useful alternative in the absence of an adequate model. Therefore, we developed a sequence-selection software, which allows the reproducible construction of datasets, based on the quantity of data, their evolutionary speed and their compositional bias. During this study, we did realize that the human expertise still furnishes an indispensable knowledge. The various analyses performed in the course of this PhD thesis agree on the primordial importance of the model of sequence evolution.
|
Page generated in 0.0773 seconds