• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 67
  • 26
  • 3
  • Tagged with
  • 90
  • 23
  • 22
  • 17
  • 15
  • 13
  • 13
  • 13
  • 11
  • 11
  • 11
  • 9
  • 8
  • 8
  • 7
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
71

Diversité des génomes et adaptation locale des petits ruminants d’un pays méditerranéen : le Maroc / Genome diversity and local adaptation in small ruminants from a Mediterranean country : Morocco

Benjelloun, Badr 01 September 2015 (has links)
Les progrès technologiques récents nous permettent d'accéder à la variation des génomes complets ce qui nous ouvre la porte d'une meilleure compréhension de leur diversification via des approches de génomique des populations et de génomique du paysage. Ce travail de thèse se base sur l'analyse des données de génomes complets (WGS) pour caractériser la diversité génétique des petits ruminants (chèvre et moutons) et rechercher les bases génétiques d'adaptations locales.Dans un premier temps, ce travail appréhende un aspect méthodologique et examine la précision et le biais de différentes approches d'échantillonnage des génomes pour caractériser la variabilité génétique, en les comparant aux données WGS. Nous mettons en évidence un fort biais des approches classiques (i.e. puces à ADN, capture de l'exome) ainsi que des séquençages de génomes à faibles taux de couverture (1X et 2X), et nous suggérons des alternatives basées sur un échantillonnage aléatoire de marqueurs dont la densité est variable selon les objectifs d'étude (évaluation de la diversité neutre, déséquilibre de liaison, signatures de sélection). Le jeu de données produit a permis d'évaluer l'état des ressources génétiques de différentes populations domestiques (races locales marocaines, iraniennes, races industrielles) et sauvages (aegagre, mouflon asiatique). Nous relevons une très forte diversité génétique dans les populations indigènes et sauvages qui constituent des réservoirs d'allèles et peuvent jouer un rôle important pour préserver le potentiel adaptatif des petits ruminants domestiques dans un contexte de changement climatique. L'étude plus approfondie des populations de chèvres du Maroc montre une forte diversité génétique faiblement structurée géographiquement, et met en évidence des portions de génome présentant des signaux de sélection. Leur étude montre l'existence de mécanismes adaptatifs potentiellement différents selon les populations (e.g. transpiration/halètement dans l'adaptation probable à la chaleur).Enfin, nous explorons les bases génétiques de l'adaptation locale à l'environnement chez les moutons et chèvres via une approche de génomique de paysage. En scannant les génomes de 160 moutons et 161 chèvres représentant la diversité éco-climatique du Maroc, nous identifions de nombreux variants et gènes candidats qui permettent d'identifier les voies physiologiques potentiellement sous-jacentes à l'adaptation locale. En particulier, il apparait que les mécanismes respiratoires et les processus cardiaques joueraient un rôle clé dans l'adaptation à l'altitude. Les résultats suggèrent que les chèvres et moutons ont probablement développé différents mécanismes adaptatifs pour répondre aux mêmes variations environnementales. Cependant, nous identifions plusieurs cas probables de voies adaptatives communes à plusieurs espèces. Par ailleurs, nous avons caractérisé les patrons de variations du niveau de différenciation de régions chromosomiques sous sélection en fonction de l'altitude. Cela nous permet de visualiser la diversité des réponses adaptatives selon les gènes (par exemple, sélection de variants à faible et/ou haute altitude). Ainsi, ce travail pose les bases de la compréhension de certains mécanismes d'adaptation locale. / Recent technological developments allow an unprecedented access to the whole genome variation and would increase our knowledge on genome diversification using population and landscape genomics. This work is based on the analysis of Whole Genome Sequence data (WGS) with the purpose of characterising genetic diversity in small ruminants (sheep and goats) and exploring genetic bases of local adaptation.First, we addressed a methodological aspect by investigating the accuracy and possible bias in the widely used genotyping approaches to characterize genetic variation in comparison with WGS data. We highlighted strong bias in conventional approaches (SNP chips and exome capture) and also in low-coverage whole genome re-sequencing (1X and 2X), and we suggested effective solutions based on sampling panels of random markers over the genome depending the purpose of the study (assessing neutral diversity, linkage disequilibrium, selection signatures). The various datasets produced allowed assessing genetic resources in various domestic (Moroccan and Iranian indigenous breeds and industrials) and wild populations (bezoars and Asiatic mouflons). We identified a very high diversity in indigenous and wild populations. They constitute a reservoir of alleles allowing them to play a possible key role in the preservation of these species in the context of global changes. The deep study of Moroccan goats showed a high diversity that is weakly structured in geography and populations, and highlighted numerous genomic regions showing signatures of selection. These regions identified different putative adaptive mechanisms according to the population (e.g. panting/sweating to adapt to warm/desert environment).Then, we explored genetic bases of local adaptation to the environment in sheep and goats using a landscape genomics framework. We scanned genomes of 160 sheep and 161 goats representing the eco-climatic Moroccan-wide diversity. We identified numerous candidate variants and genes, which allowed for identifying physiological pathways possibly underlying local adaptation. Especially, it seems that respiration and cardiac process have key roles in the adaptation to altitude. Our results suggest dissimilar adaptive mechanisms for the same environment in sheep and goats. However, we highlighted several cases of common metabolic pathways in different species. Moreover, we characterized some patterns for the variation of genetic differentiation in some candidate genomic regions over environmental gradients. This allowed us to visualise different adaptive reaction depending genes. This work points the way towards a better understanding of some mechanisms underlying local adaptation.
72

Des protéines et de leurs interactions aux principes évolutifs des systèmes biologiques / From proteins and their interactions to evolutionary principles of biological systems

Carvunis, Anne-Ruxandra 26 January 2011 (has links)
Darwin a révélé au monde que les espèces vivantes ne cessent jamais d’évoluer, mais les mécanismes moléculaires de cette évolution restent le sujet de recherches intenses. La biologie systémique propose que les relations entre génotype, environnement et phénotype soient sous-tendues par un ensemble de réseaux moléculaires dynamiques au sein de la cellule, mais l’organisation de ces réseaux demeure mystérieuse. En combinant des concepts établis en biologie évolutive et systémique avec la cartographie d’interactions protéiques et l’étude des méthodologies d’annotation de génomes, j’ai développé de nouvelles approches bioinformatiques qui ont en partie dévoilé la composition et l’organisation des systèmes cellulaires de trois organismes eucaryotes : la levure de boulanger, le nématode Caenorhabditis elegans et la plante Arabidopsis thaliana. L’analyse de ces systèmes m’a conduit à proposer des hypothèses sur les principes évolutifs des systèmes biologiques. En premier lieu, je propose une théorie selon laquelle la traduction fortuite de régions intergéniques produirait des peptides sur lesquels la sélection naturelle agirait pour aboutir occasionnellement à la création de protéines de novo. De plus, je montre que l’évolution de protéines apparues par duplication de gènes est corrélée avec celle de leurs profils d’interactions. Enfin, j’ai mis en évidence des signatures de la co-évolution ancestrale hôte-pathogène dans l’organisation topologique du réseau d‘interactions entre protéines de l’hôte. Mes travaux confortent l’hypothèse que les systèmes moléculaires évoluent, eux aussi, de manière darwinienne. / Darwin exposed to the world that living species continuously evolve. Yet the molecular mechanisms of evolution remain under intense research. Systems biology proposes that dynamic molecular networks underlie relationships between genotype, environment and phenotype, but the organization of these networks is mysterious. Combining established concepts from evolutionary and systems biology with protein interaction mapping and the study of genome annotation methodologies, I have developed new bioinformatics approaches that partially unveiled the composition and organization of cellular systems for three eukaryotic organisms: the baker’s yeast, the nematode Caenorhabditis elegans and the plant Arabidopsis thaliana. My analyses led to insights into the evolution of biological systems. First, I propose that the translation of peptides from intergenic regions could lead to de novo birth of new protein-coding genes. Second, I show that the evolution of proteins originating from gene duplications and of their physical interaction repertoires are tightly interrelated. Lastly, I uncover signatures of the ancestral host-pathogen co-evolution in the topology of a host protein interaction network. My PhD work supports the thesis that molecular systems also evolve in a Darwinian fashion.
73

Diversification et adaptation génomique des virus entomopathogènes / Genomic diversification and adaptation of entomopathogenic viruses

Thézé, Julien 31 May 2013 (has links)
À différentes échelles de temps, le but de ma thèse a été de comprendre l'évolution des virus entomopathogènes à travers l’étude de la diversification et de l’adaptation génomique de grands virus à ADN d’insectes. Dans un premier temps, j’ai pu estimer les âges de diversifications des baculovirus et des nudivirus, et proposer un scénario de coévolution à long terme entre ces virus et leurs hôtes insectes. Puis, me plaçant sur une échelle de temps moindre, j’ai montré que les hôtes insectes sont le facteur principal de la diversification des baculovirus, et de façon surprenante, j’ai également observé que l'environnement biotique de ces virus, c’est-à-dire les plantes hôtes des insectes, joue un rôle central dans leur évolution. Dans un second temps, des mutations ponctuelles ont pu être reliées à l’adaptation locale de populations différentiées du baculovirus SeMNPV. Enfin, l’étude de l'adaptation génomique convergente entre les entomopoxvirus et les baculovirus a mis en évidence que les transferts horizontaux de gènes sont une source importante de variabilité pour les grands virus à ADN, pour l'adaptation aux mêmes niches écologiques. Les gènes et les mécanismes identifiés dans ce travail de thèse apportent des éléments nouveaux pour comprendre comment les génomes sont façonnés par l’écologie. / At different timescales, the purpose of my PhD was to understand insect virus evolution through the study of the genomic diversification and adaptation of insect large DNA viruses. Firstly, I was able to estimate the ages of baculovirus and nudivirus diversifications, and to propose a long-term coevolutionary scenario between these viruses and their insect hosts. Then, on a narrower timescale, I showed that insect hosts are the major factor in baculovirus diversification, and surprisingly, I also observed that the virus biotic environment, i.e. insect host plants, plays a central role in their evolution. Secondly, punctual mutations have been linked to the local adaptation of differentiated populations of the baculovirus SeMNPV. Finally, the study of convergent genomic adaptation between entomopoxviruses and baculoviruses highlighted that horizontal gene transfers are an important source of variability for large DNA viruses, for the adaption to the same ecological niches. Genes and mechanisms identified in this PhD work provide new insights to understand how genomes are shaped by ecology.
74

Systèmes Ta de la famille ccd, de simples gènes égoïstes? / ccd TA systems, are just selfish genes?

Saavedra De Bast, Manuel 20 March 2009 (has links)
Les systèmes toxine-antitoxine (TA) sont très répandus au sein des génomes bactériens. Ces opérons bicistroniques de petite taille ont été découverts sur des plasmides à bas nombre de copies. Dans ce contexte génétique, les systèmes TA confèrent un avantage sélectif à leurs molécules-hôtes en tuant les bactéries-filles qui ne les ont pas héritées par le mécanisme de tuerie post-ségrégationnelle (PSK, post-segregational killing). Ces systèmes génétiques sont également appelés modules d’addiction étant donné qu’ils rendent la descendance des bactéries qui les contiennent dépendantes de leur présence. Alors que leur rôle dans les molécules d’ADN épisomiques est relativement bien établi, le sens biologique de la présence d’homologues à ces systèmes épisomiques au sein des chromosomes bactériens est sujet à d’intenses débats. L’idée que les systèmes TA chromosomiques confèrent un avantage sélectif a été mise en évidence dans plusieurs modèles. Selon ces modèles, les systèmes TA permettent aux bactéries de mieux faire face à des conditions environnementales stressantes. <p>Entre-temps, la compréhension de l’évolution des génomes bactériens a connu des avancées significatives. L’impressionnante capacité d’adaptation des bactéries est aujourd’hui majoritairement attribuée au transfert horizontal de gènes (THG) provoqué par les éléments génétiques mobiles (phages, plasmides, transposons…). Dans le débat du rôle des systèmes TA chromosomiques, très peu d’attention a été accordée aux relations phylogénétiques et interactions entre systèmes plasmidiques et chromosomiques co-existant au sein d’un même hôte ainsi qu’à l’impact du THG sur leur évolution. Notre travail de thèse vise à mieux comprendre la biologie des systèmes TA en tenant compte de ces paramètres. Nous nous sommes intéressés à des systèmes homologues au système plasmidique ccdF. Nous avons étudié expérimentalement les 4 systèmes ccd (ccd1, ccd2, ccd3 et ccd4) qui co-habitent au sein du chromosome d’Erwinia chrysanthemi 3937 (une bactérie phytopathogène), leurs interactions intragénomiques et les interactions de ces systèmes avec le système plasmidique ccdF. Ce cadre expérimental a mené à la construction du modèle d’anti-addiction. Ce modèle propose que certains systèmes chromosomiques puissent conférer un avantage sélectif à leurs hôtes bactériens en interférant avec le PSK médié par leurs homologues plasmidiques. Cet avantage sélectif pourrait permettre la fixation de systèmes TA latéralement acquis au sein des populations bactériennes. Nous avons également recherché de nouveaux systèmes ccd au sein des génomes bactériens afin d’avoir un aperçu de leur distribution, des contextes génétiques dans lesquels ils existent et de l’implication du THG dans leur dispersion. Les réflexions qui ont accompagné notre recherche nous ont mené à proposer une synthèse sur le rôle des systèmes TA (plasmidiques et chromosomiques). Celle-ci se nourrit des avancées qui ont été effectuées, ces dernières années, dans la compréhension de l’évolution des génomes bactériens, de la théorie hiérarchique de la sélection naturelle et des processus non-adaptatifs et contingents qui pourraient expliquer la présence et la propagation des systèmes TA au sein des génomes bactériens sans que ceux-ci en soient les agents causaux. <p><p> / Doctorat en sciences, Spécialisation biologie moléculaire / info:eu-repo/semantics/nonPublished
75

A la recherche de la fonction des systèmes toxine-antitoxine chromosomiques d'E. coli K12

Tsilibaris, Virginie 27 May 2008 (has links)
Les systèmes toxine-antitoxines (TA) sont abondants dans la majorité des génomes bactériens séquencés à ce jour. Ces systèmes codent une toxine stable qui inhibe soit la transcription, soit la traduction, et une antitoxine qui contrecarre l’effet de la toxine par formation d’un complexe avec celle-ci. L’antitoxine est instable suite à sa dégradation continue par les protéases ATP-dépendantes. Afin de maintenir un ratio antitoxine :toxine constant en condition normale de croissance, l’expression des systèmes TA est régulée négativement au niveau transcriptionnel par le complexe toxine-antitoxine.<p><p>Au début de notre travail, cinq systèmes TA étaient identifiés dans le chromosome d’E. coli. Il avait été montré par notre laboratoire que parmi ces systèmes, seul yefM-yoeB était activé en condition de surproduction de la protéase ATP-dépendante Lon. Ce résultat était surprenant puisque Lon était connue pour dégrader également l’antitoxine RelB du système chromosomique relBE. Un des objectifs de notre travail était de comprendre les mécanismes sous-jacents à cette spécificité. Nous avons montré que l’antitoxine YefM était dégradée à la fois par Lon et les protéases ClpAP et ClpXP. Nous avons également montré qu’en condition de surproduction de Lon, YefM était fortement instable (t1/2~ 10 min. vs 60 min en condition normale). Cette instabilité accrue permet donc l’activation du système yefM-yoeB, c’est-à-dire la libération de la toxine YoeB du complexe qu’elle forme avec YefM. Nous avons également avons montré que le t1/2 de RelB n’était pas affecté par la surproduction de Lon, ce qui explique pourquoi le système relBE n’est pas activé dans ces conditions. Notre hypothèse était qu’un cofacteur soit nécessaire à la dégradation de RelB par Lon et que celui-ci serait limitant dans nos conditions expérimentales. Le crible génétique que nous avons réalisé n’a cependant pas permis d’identifier de cofacteur de dégradation ni de régulateur transcriptionnel en trans du système relBE. <p><p>Un deuxième volet de notre travail de thèse a consisté en l’étude de la fonction des systèmes TA chromosomiques. L’hypothèse prévalente au début de notre travail était que les systèmes TA soient intégrés dans les voies adaptatives de réponses au stress. Cependant, le résultat de leur activation était controversé. L’hypothèse du groupe de Gerdes était que leur activation mène à un état bactériostatique réversible alors que le groupe d’Engelberg-Kulka montrait que le système mazEF était un système de mort programmée. Afin d’éclaircir le rôle des cinq systèmes TA dans la physiologie d’E. coli, nous avons testé l’effet de nombreux stress sur la croissance et la viabilité de souches sauvages et de souches délétées de ces systèmes. Aucune des conditions que nous avons testées n’a entraîné une diminution de la viabilité excluant de manière définitive l’hypothèse de la mort programmée. De plus, l’inhibition de croissance causée par ces différents stress s’est avérée être indépendante des cinq systèmes, de même que la phase de récupération suivant les différents stress. Enfin, nos expériences de compétition ont clairement démontré que les cinq systèmes ne procuraient aucun avantage sélectif aux bactéries dans des conditions de compétition en carence nutritive. Les systèmes TA étudiés dans ce travail ne jouent donc aucun rôle dans l’adaptation aux stress que nous avons testé puisqu’ils n’améliorent ni l’aptitude (fitness), ni la compétitivité des bactéries dans ces conditions. <p><p> / Doctorat en Sciences / info:eu-repo/semantics/nonPublished
76

Etude de l'émergence de la diversité d'Escherichia coli in vivo par séquençage de génomes complets / Study of the emergence of the diversity of Escherichia coli in vivo by whole genome sequencing

Launay, Adrien 27 October 2016 (has links)
Escherichia coli est une espèce commensale du tube digestif, mais elle peut aussi se révéler être un dangereux pathogène intra ou extra intestinal. Un même clone pouvant passer d'un état commensal à pathogène, la compréhension des mécanismes impliqués dans la diversification d'E. coli dans ces deux habitats représente un enjeu majeur de santé publique. Des expériences d'évolution expérimentale utilisant E. coli ont permis de révéler différentes facettes de l'adaptation bactérienne. Cependant, ces expériences de laboratoire utilisant des conditions artificielles, on peut s'interroger sur la pertinence des observations qui en découlent en milieu naturel et plus globalement s’interroger sur la part de la sélection naturelle dans la diversification de E. coli dans la nature. Pour répondre à ces questions, j'ai analysé les profils génomiques de diversification de E. coli au cours (1) d’une adaptation au tube digestif de souris ou (2) dans des infections extra-intestinales. Dans les deux cas, j’ai pu montrer une importante convergence au niveau du gène : un même gène étant muté plusieurs fois indépendamment, un signe que l’adaptation est active. Dans les infections aigues, des mutations touchant des régulateurs globaux ont été retrouvées, alors que dans le tube digestif les cibles de l’adaptation semblaient plus spécifiques. Enfin, les échantillons issus des infections incluant des souches a fort taux de mutation dites mutatrices, j'ai pu documenter pour la première fois la génomique de l'émergence de bactéries mutatrices en milieu naturel.En conclusion, mes travaux montrent que l’adaptation joue un rôle important dans la diversification de E. coli en milieu naturel et que ce processus s’apparente à celui observé dans des milieux artificiels de laboratoire. L’adaptation semble néanmoins plus active en conditions d’infections aigues que dans le tube digestif de souris. / Escherichia coli is a commensal species living in the digestive tract of vertebrates, but can also be a harmful pathogen involved in both intra and extraintestinal diseases. As clones can behave both as commensals and pathogens, the comprehension of the mechanisms involved in the diversification of E. coli in those two habitats represents a major public health concern. In vitro experimental evolution studies using E. coli have unraveled the different faces of bacterial adaptation. However, as those experiments used artificial conditions, the relevance of these observations and more generally the contribution of adaptation to the diversification of E. coli in the wild remain questionable. To answer these questions, I analyzed the genomic profiles of diversification of E. coli during (1) adaptation to the mice digestive tract or (2) during acute extraintestinal infections. In both cases, I found a strong convergence at the gene level, i.e. observation of several impendent mutations in the same gene, suggesting a dynamic adaptation. In acute infections, mutations in global regulators were recovered, while more specific genes were recruited in the mice gut. Finally, the existence of clones with high mutation rate in the infections, allowed me to document for the first time the genomics of mutator emergence in the wild. In conclusion, my work shows that adaptation is playing an important role in the diversification of E. coli, and that this process is fairly similar to the one observed in the laboratory. Nevertheless, adaptation seems more active during infections than in the mice gut.
77

Staphylococcus capitis en réanimation néonatale : épidémiologie, caractérisation moléculaire et physiopathologie / Staphylococcus capitis in neonatal intensive care units : epidemiology, molecular characterization and pathophysiology

Butin, Marine 16 May 2017 (has links)
Les infections néonatales tardives (INT, survenant après 3 jours de vie) sont fréquentes et sont associées à une mortalité et une morbidité importantes chez les nouveau-nés prématurés. Dans ce contexte, il a été récemment décrit un clone de Staphylococcus capitis, appelé NRCS-A, impliqué spécifiquement dans ces INT dans différents services de réanimation néonatale (RN) à travers la France, et présentant un profil multirésistant atypique chez cette espèce, incluant notamment une sensibilité diminuée à la vancomycine, qui est pourtant l'antibiotique de première ligne en cas de suspicion d'INT. Dans le cadre de ce travail, nous avons démontré la distribution endémique du clone NRCS-A dans au moins 17 pays à travers le monde, spécifiquement dans les services de RN. De plus des données épidémiologiques issues des services de RN français ont identifié une prévalence élevée du clone dans certains services, illustrant sa capacité à s'implanter puis à persister dans ces services. Une caractérisation génétique du clone NRCS-A a été réalisée afin de mettre en évidence d'éventuels facteurs génétiques pouvant favoriser son implantation dans les services de RN. Cette analyse a démontré le rôle des éléments génétiques mobiles dans l'émergence du phénotype multirésistant du clone NRCS-A. En revanche aucun gène de virulence spécifique du clone n'a pu être mis en évidence. L'analyse des gènes spécifiques du clone a toutefois permis d'identifier le gène nsr codant pour la résistance à la nisine, bactériocine active sur de nombreuses bactéries à Gram positif et sécrétée par les bactéries de la flore commensale digestive. Ce gène pourrait donc conférer un avantage sélectif au clone NRCS-A pour s'implanter dans le microbiote des nouveau-nés prématurés. La persistance du clone dans les services de RN évoque la présence de réservoirs inertes ou humains au sein de ces services. Grâce à la mise au point d'une technique d'identification de S. capitis par gélose chromogénique sélective, nous avons pu démontrer la diffusion et la persistance de S. capitis dans un service de RN, sans toutefois identifier un réservoir unique responsable de cette colonisation. Nous avons également observé une inefficacité partielle des mesures de décontamination. Il n'existe en revanche pas de portage chronique chez le personnel soignant, ni de colonisation vaginale chez les femmes enceintes. Par ailleurs, nous avons pu mettre en évidence par repiquages successifs in vitro une capacité particulière du clone NRCS-A à acquérir de façon rapide et stable une résistance à la vancomycine sous pression de sélection par cet antibiotique. Cette capacité constitue un avantage sélectif majeur pour ce clone et pourrait avoir favorisé son implantation et sa persistance dans les services de RN où la pression de sélection par la vancomycine est élevée. Pour compléter ces résultats, une étude de cohorte prospective menée en RN a permis de démontrer que l'administration de vancomycine constituait un facteur de risque indépendant de survenue d'INT à S. capitis. Au-delà de la problématique spécifique des INT à S. capitis en RN, nos travaux illustrent plus largement un des enjeux majeurs de santé publique qui est l'impact écologique potentiel de l'utilisation des antibiothérapies probabilistes à large spectre sur l'émergence et la sélection de bactéries multirésistantes impliquées secondairement dans des infections nosocomiales. Ces travaux ouvrent de nouveaux axes de recherche concernant d'une part la meilleure compréhension de la physiopathologie des INT à S. capitis, et d'autre part plus largement les modalités de prévention des INT en RN et d'amélioration du diagnostic précoce des INT / Pas de résumé en anglais
78

Développement et utilisation de marqueurs RADseq pour l'étude de l'impact de Wolbachia sur l'évolution des génomes mitochondriaux chez les Arthropodes / Development and use of RADseq markers to study the impact of Wolbachia on the evolution of mitochondrial genomes in Arthropods

Cariou, Marie 08 July 2015 (has links)
La propagation de bactéries intracellulaires invasives peut entrainer celle des génomes mitochondriaux qui leur sont liés génétiquement au sein du cytoplasme. Cette sélection par autostop peut conduire à une réduction de la taille efficace (Ne) pour le génome mitochondrial. Elle peut également favoriser l'introgression d'une mitochondrie introduite dans une espèce suite à une hybridation. Le principal objectif de ma thèse est de quantifier ces différents effets, de manière globale, au moyen d'un large échantillonnage d'Arthropodes de Polynésie française. Les événements d'introgressions mitochondriales sont à l'origine de discordances entre les histoires évolutives des génomes mitochondriaux et nucléaires. Afin de rechercher de telles discordances, nous avons développé des marqueurs génomiques nucléaires de type RADseq, permettant de reconstruire l'histoire des populations étudiées. J'ai pu montrer au moyen de simulations que ce type de données pouvait être utilisé pour inférer des relations phylogénétiques entre espèces (Cariou et al. 2013). Des améliorations du protocole RADseq nous ont également permis de démontrer l'applicabilité de cette méthode à de nombreux spécimens au sein de librairies hautement multiplexées (Henri et al. 2015). A partir d'analyses in silico, j'ai par ailleurs évalué l'importance de différents biais liés à l'utilisation de marqueurs RADseq pour estimer les diversités génétiques et proposé une méthode permettant de corriger certains d'entre eux. A partir de ces développements, j'ai pu démontrer que sur 30 espèces de Diptères et de Lépidoptères testées à ce jour, la proximité génétique mitochondriale est systématiquement confirmée par les marqueurs nucléaires, rejetant ainsi l'hypothèse d'une introgression mitochondriale récente. Sur un plus large échantillon, nous avons en revanche mis en évidence une réduction significative du Ne mitochondrial dans les lignées infectées par Wolbachia, suffisante pour réduire le polymorphisme, mais insuffisante pour générer une réduction notable de l'efficacité de la sélection naturelle / The spread of endosymbiotic bacteria can drive that of the linked mitochondrial genomes within the cytoplasm. This hitchhiking selection can lead to a reduction of the effective population size of the mitochondrial genomes (Ne). 1t can also facilitate mitochondrial introgression, following the introduction of exogenous mitochondria in a species by hybridization. The main objective of my thesis is to quantify these different effects, on a global scale, using a large sample of Arthropods. Mitochondrial introgressions can lead to discrepancies between the evolutionary histories of mitochondrial and nuclear genomes. To investigate such patterns, we used RADseq genomic markers, that allow reconstructing population histories, and developed improvements for the library preparation and data analysis. Using in silico experiments, 1 showed that RADseq data is suitable for phylogenetic inferences (Cariou et al. 2013). Adjustments in the RADseq protocol also allowed us to demonstrate the applicability of this method for highly multiplexed libraries (Henri et al. 2015). The impact of various biases related the estimation of population genetic diversity using RADseq was also investigated in silico, which lead me to propose an ABC method to correct some of them. Following these developments, 1 showed on 30 species of Diptera and Lepidoptera that nuclear markers always confirmed the mitochondrial genetic relatedness, ruling out the hypothesis of recent mitochondrial introgressions. On a larger sample, we detected a reduction of the mitochondrial Ne in Wolbachia infected lineages. This reduction caused a significant decrease in the polymorphism of infected populations, but appeared insufficient to reduce the efficacy of natural selection
79

Algorithmes de comparaison de génomes appliqués aux génomes bactériens / Algorithms for the comparisons of genomic sequences applied to bacterial genomes

Uricaru, Raluca 14 December 2010 (has links)
Avec plus de 1000 génomes complets disponibles (la grande majorité venant de bactéries), les analyses comparatives de génomes deviennent indispensables pour leurs annotations fonctionnelles, ainsi que pour la compréhension de leur structure et leur évolution, et s'appliquent par exemple en phylogénomique ou au design des vaccins. L'une des approches de plus utilisées pour comparer des génomes est l'alignement de leurs séquences d'ADN, i.e. alignement de génomes complets, c'est à dire identifier les régions de similarité en s'affranchissant de toute annotation. Malgré des améliorations significatives durant les dernières années, des outils performants pour cette approche ainsi que des méthodes pour l'estimation de la qualité des résultats qu'elle produit, en particulier sur les génomes bactériens, restent encore à développer. Outre leurs grandes tailles qui rendent les solutions classiques basées sur la programmation dynamique inutilisables, l'alignement de génomes complets posent des difficultés supplémentaires dues à leur évolution particulière, comprenant: la divergence, qui estompe les similarités entre les séquences, le réordonnancent des portions génomiques (réarrangements), ou l'acquisition de matériel génétique extérieur, qui produit des régions non alignables entres les séquences, e.g. transfert horizontal des gènes, phages. En conséquence, les solutions pour l'alignement de génomes sont des heuristiques, dont la plus commune est appelée stratégie basée sur des ancres. Cette stratégie commence par identifier un ensemble initial de régions de similarité (phase 1). Ensuite une phase de chaînage sélectionne un sous-ensemble (non-chevauchantes et généralement colinéaires) de ces similarités de poids maximal, nommées ancres (phase 2). Les phases 1 et 2 sont appliquées de manière récursive sur les régions encore non-alignées (phase 3). La dernière phase consiste en l'application systématique des outils d'alignement classiques sur toutes les régions courtes qui n'ont pas encore été alignées. Cette thèse adresse plusieurs problèmes liés à l'alignement de génomes complets dont: l'évaluation de la qualité des résultats produits par les outils d'alignement et l'amélioration de la stratégie basée sur des ancres. Premièrement, nous avons créé un protocole pour évaluer la qualité des résultats d'alignement, contenant des mesures de calcul quantitatives et qualitatives, dont certaines basées sur des connaissances biologiques. Une analyse de la qualité des alignements produits par deux des principaux outils existants sur des paires de génomes bactériens intra-espèces révèle leurs limitations: des similarités non détectées et des portions d'alignement incorrectes. À partir de ces résultats, qui suggèrent un manque de sensibilité et spécificité, nous proposons un nouvel outil pour l'alignement deux à deux de génomes complets, YOC, qui implémente une version simplifiée de la stratégie basée sur des ancres, contenant seulement deux phases. Dans la phase 1, YOC améliore la sensibilité en utilisant comme ancres, pour la première fois dans cette stratégie, des similarités locales basées sur des graines espacées, capables de détecter des similarités plus longues dans des régions plus divergentes. Cette phase est suivie par une méthode de chainage adaptée aux similarités locales, un nouveau type de chaînage colinéaire, permettant des chevauchements proportionnels. Nous avons donné une formulation de ce nouveau problème et réalisé un premier algorithme. L'algorithme, qui adopte une approche de programmation dynamique basée sur le paradigme de la ``sweep-line'', donne une solution optimale, i.e. est exacte, et s'exécute en temps quadratique. Nous avons montré que cet algorithme, comparé au chainage colinéaire classique, améliore les résultats sur des génomes bactériens, tout en restant aussi efficace en pratique. / With more than 1000 complete genomes available (among which, the vast majority come from bacteria), comparative genomic analysis become essential for the functional annotation of genomes, the understanding of their structure and evolution and have applications in phylogenomics or vaccine design. One of the main approaches for comparing genomes is by aligning their DNA sequences, i.e. whole genome alignment (WGA), which means identifying the similarity regions without any prior annotation knowledge. Despite the significant improvements during the last years, reliable tools for WGA and methodology for estimating its quality, in particular for bacterial genomes, still need to be designed. Besides their extremely large lengths that make classical dynamic programming alignment methods unsuitable, aligning whole genomes involves several additional difficulties, due to the mechanisms through which genomes evolve: the divergence, which let sequence sim ilarity vanish over time, the reordering of genomic segments (rearrangements), or the acquisition of external genetic material generating regions that are unalignable between sequences, e.g. horizontal gene transfer, phages. Therefore, whole genome alignment tools implement heuristics, among which the most common is the anchor based strategy. It starts by detecting an initial set of similarity regions (phase 1), and, through a chaining phase (phase 2), selects a non-overlapping maximum-weighted, usually collinear, subset of those similarities, called anchors. Phases 1 and 2 are recursively applied on yet unaligned regions (phase 3). The last phase (phase 4) consists in systematically applying classical alignment tools to all short regions still left unaligned.This thesis addresses several problems related to whole genome alignment: the evaluation of the quality of results given by WGA tools and the improvement of the classical anchor based strategy. We first designed a protocol for evaluating the quality of alignment results, based on both computational and biological measures. An evaluation of the results given by two state of the art WGA tools on pairs of intra-species bacterial genomes revealed their shortcomings: the failure of detecting some of the similarities between sequences and the misalignment of some regions. Based on these results, which imply a lack in both sensitivity and specificity, we propose a novel, pairwise whole genome alignment tool, YOC, implementing a simplified two-phase version of the anchor strategy. In phase 1, YOC improves sensitivity by using as anchors, for the first time, local similarities based on spaced seeds that are capable of detecting larger similarity regions in divergent sequences. This ph ase is followed by a chaining method adapted to local similarities, a novel type of collinear chaining, allowing for proportional overlaps. We give a formulation for this novel problem and provide the first algorithm for it. The algorithm, implementing a dynamic programming approach based on the sweep-line paradigm, is exact and runs in quadratic time. We show that, compared to classical collinear chaining, chaining with overlaps improves on real bacterial data, while remaining almost as efficient in practice. Our novel tool, YOC, is evaluated together with other four WGA tools on a dataset composed of 694 pairs of intra-species bacterial genomes. The results show that YOC improves on divergent cases by detecting more distant similarities and by avoiding misaligned regions. In conclusion, YOC should be easier to apply automatically and systematically to incoming genomes, for it does not require a post-filtering step to detect misalignment and is less complex to calibrate.
80

De novo algorithms to identify patterns associated with biological events in de Bruijn graphs built from NGS data / Algorithmes de novo pour l'identification de motifs associés à des événements biologiques dans les graphes de De Bruijn construits à partir de données NGS

Ishi Soares de Lima, Leandro 23 April 2019 (has links)
L'objectif principal de cette thèse est le développement, l'amélioration et l'évaluation de méthodes de traitement de données massives de séquençage, principalement des lectures de séquençage d'ARN courtes et longues, pour éventuellement aider la communauté à répondre à certaines questions biologiques, en particulier dans les contextes de transcriptomique et d'épissage alternatif. Notre objectif initial était de développer des méthodes pour traiter les données d'ARN-seq de deuxième génération à l'aide de graphes de De Bruijn afin de contribuer à la littérature sur l'épissage alternatif, qui a été exploré dans les trois premiers travaux. Le premier article (Chapitre 3, article [77]) a exploré le problème que les répétitions apportent aux assembleurs de transcriptome si elles ne sont pas correctement traitées. Nous avons montré que la sensibilité et la précision de notre assembleur local d'épissage alternatif augmentaient considérablement lorsque les répétitions étaient formellement modélisées. Le second (Chapitre 4, article [11]) montre que l'annotation d'événements d'épissage alternatifs avec une seule approche conduit à rater un grand nombre de candidats, dont beaucoup sont importants. Ainsi, afin d'explorer de manière exhaustive les événements d'épissage alternatifs dans un échantillon, nous préconisons l'utilisation combinée des approches mapping-first et assembly-first. Étant donné que nous avons une énorme quantité de bulles dans les graphes de De Bruijn construits à partir de données réelles d'ARN-seq, qui est impossible à analyser dans la pratique, dans le troisième travail (Chapitre 5, articles [1, 2]), nous avons exploré théoriquement la manière de représenter efficacement et de manière compacte l'espace des bulles via un générateur des bulles. L'exploration et l'analyse des bulles dans le générateur sont réalisables dans la pratique et peuvent être complémentaires aux algorithmes de l'état de l'art qui analysent un sous-ensemble de l'espace des bulles. Les collaborations et les avancées sur la technologie de séquençage nous ont incités à travailler dans d'autres sous-domaines de la bioinformatique, tels que: études d'association à l'échelle des génomes, correction d'erreur et assemblage hybride. Notre quatrième travail (Chapitre 6, article [48]) décrit une méthode efficace pour trouver et interpréter des unitigs fortement associées à un phénotype, en particulier la résistance aux antibiotiques, ce qui rend les études d'association à l'échelle des génomes plus accessibles aux panels bactériens, surtout ceux qui contiennent des bactéries plastiques. Dans notre cinquième travail (Chapitre 7, article [76]), nous évaluons dans quelle mesure les méthodes existantes de correction d'erreur ADN à lecture longue sont capables de corriger les lectures longues d'ARN-seq à taux d'erreur élevé. Nous concluons qu'aucun outil ne surpasse tous les autres pour tous les indicateurs et est le mieux adapté à toutes les situations, et que le choix devrait être guidé par l'analyse en aval. Les lectures longues d'ARN-seq fournissent une nouvelle perspective sur la manière d'analyser les données transcriptomiques, puisqu'elles sont capables de décrire les séquences complètes des ARN messagers, ce qui n'était pas possible avec des lectures courtes dans plusieurs cas, même en utilisant des assembleurs de transcriptome de l'état de l'art. En tant que tel, dans notre dernier travail (Chapitre 8, article [75]), nous explorons une méthode hybride d'assemblage d'épissages alternatifs qui utilise des lectures à la fois courtes et longues afin de répertorier les événements d'épissage alternatifs de manière complète, grâce aux lectures courtes, guidé par le contexte intégral fourni par les lectures longues / The main goal of this thesis is the development, improvement and evaluation of methods to process massively sequenced data, mainly short and long RNA-sequencing reads, to eventually help the community to answer some biological questions, especially in the transcriptomic and alternative splicing contexts. Our initial objective was to develop methods to process second-generation RNA-seq data through de Bruijn graphs to contribute to the literature of alternative splicing, which was explored in the first three works. The first paper (Chapter 3, paper [77]) explored the issue that repeats bring to transcriptome assemblers if not addressed properly. We showed that the sensitivity and the precision of our local alternative splicing assembler increased significantly when repeats were formally modeled. The second (Chapter 4, paper [11]), shows that annotating alternative splicing events with a single approach leads to missing out a large number of candidates, many of which are significant. Thus, to comprehensively explore the alternative splicing events in a sample, we advocate for the combined use of both mapping-first and assembly-first approaches. Given that we have a huge amount of bubbles in de Bruijn graphs built from real RNA-seq data, which are unfeasible to be analysed in practice, in the third work (Chapter 5, papers [1, 2]), we explored theoretically how to efficiently and compactly represent the bubble space through a bubble generator. Exploring and analysing the bubbles in the generator is feasible in practice and can be complementary to state-of-the-art algorithms that analyse a subset of the bubble space. Collaborations and advances on the sequencing technology encouraged us to work in other subareas of bioinformatics, such as: genome-wide association studies, error correction, and hybrid assembly. Our fourth work (Chapter 6, paper [48]) describes an efficient method to find and interpret unitigs highly associated to a phenotype, especially antibiotic resistance, making genome-wide association studies more amenable to bacterial panels, especially plastic ones. In our fifth work (Chapter 7, paper [76]), we evaluate the extent to which existing long-read DNA error correction methods are capable of correcting high-error-rate RNA-seq long reads. We conclude that no tool outperforms all the others across all metrics and is the most suited in all situations, and that the choice should be guided by the downstream analysis. RNA-seq long reads provide a new perspective on how to analyse transcriptomic data, since they are able to describe the full-length sequences of mRNAs, which was not possible with short reads in several cases, even by using state-of-the-art transcriptome assemblers. As such, in our last work (Chapter 8, paper [75]) we explore a hybrid alternative splicing assembly method, which makes use of both short and long reads, in order to list alternative splicing events in a comprehensive manner, thanks to short reads, guided by the full-length context provided by the long reads

Page generated in 0.1355 seconds