• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 4
  • 3
  • Tagged with
  • 6
  • 6
  • 5
  • 4
  • 2
  • 2
  • 2
  • 2
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Statistique des comparaisons de génomes complets bactériens / Statistics of complete bacterial genome comparisons

Devillers, Hugo 22 February 2011 (has links)
La génomique comparative est l'étude des relations structurales et fonctionnelles entre des génomes appartenant à différentes souches ou espèces. Cette discipline offre ainsi la possibilité d'étudier et de comprendre les processus qui façonnent les génomes au cours de l'évolution. Dans le cadre de cette thèse, nous nous sommes intéressés à la génomique comparative des bactéries et plus particulièrement aux méthodes relatives à la comparaison des séquences complètes d'ADN des génomes bactériens. Ces dix dernières années, le développement d'outils informatiques permettant de comparer des génomes entiers à l'échelle de l'ADN est devenu une thématique de recherche à part entière. Actuellement, il existe de nombreux outils dédiés à cette tâche. Cependant, jusqu'à présent, la plupart des efforts ont été dirigés vers la réduction du temps de calcul et l'optimisation de la mémoire au détriment de l'évaluation de la qualité des résultats obtenus. Pour combler ce vide, nous avons travaillé sur différents problèmes statistiques soulevés par la comparaison de génomes complets bactériens. Notre travail se divise en deux axes de recherche. Dans un premier temps, nous nous sommes employés à évaluer la robustesse des alignements de génomes complets bactériens. Nous avons proposé une méthode originale fondée sur l'application de perturbations aléatoires sur les génomes comparés. Trois scores différents sont alors calculés pour estimer la robustesse des alignements de génomes à différentes échelles, allant des nucléotides aux séquences entières des génomes. Notre méthode a été expérimentée sur des données génomiques bactériennes réelles. Nos scores permettent d'identifier à la fois les alignements robustes et non robustes. Ils peuvent être employés pour corriger un alignement ou encore pour comparer plusieurs alignements obtenus à partir de différents outils. Dans un second temps, nous avons étudié le problème de la paramétrisation des outils de comparaisons de génomes entiers. En effet, la plupart des outils existants manquent à la fois de documentation et de valeurs par défaut fiables pour initialiser leurs paramètres. Conséquemment, il y a un besoin crucial de méthodes spécifiques pour aider les utilisateurs à définir des valeurs appropriées pour les paramètres de ces outils. Une grande partie des outils de comparaisons de génomes complets est fondée sur la détection des matches (mots communs exacts). Le paramètre essentiel pour ces méthodes est la longueur des matches à considérer. Au cours de cette thèse, nous avons développé deux méthodes statistiques pour estimer une valeur optimale pour la taille des matches. Notre première approche utilise un modèle de mélange de lois géométriques pour caractériser la distribution de la taille des matches obtenus lorsque l'on compare deux séquences génomiques. La deuxième approche est fondée sur une approximation de Poisson de la loi du comptage des matches entre deux chaînes de Markov. Ces méthodes statistiques nous permettent d'identifier facilement une taille optimale de matches à la fois pour des séquences simulées et pour des données génomiques réelles. Nous avons également montré que cette taille optimale dépend des caractéristiques des génomes comparés telles que leur taille, leur composition en base ou leur divergence relative. Cette thèse représente une des toutes premières études dont l'objectif est d'évaluer et d'améliorer la qualité des comparaisons des génomes complets. L'intérêt et les limites de nos différentes approches sont discutés et plusieurs perspectives d'évolution sont proposées. / Comparative genomics is the study of the structural and functional relationships between genomes belonging to different strains or species. This discipline offers great opportunities to investigate and to understand the processes that shape genomes across the evolution. In this thesis, we focused on the comparative genomics of bacteria and more precisely, on methods dedicated to the comparison of the complete DNA sequences of bacterial genomes. This last decade, the design of specific computerized methods to compare complete genomes at the DNA scale has become a subject of first concern. Now, there exist many tools and methods dedicated to this task. However, until now, most of the efforts were directed to reduce execution time and memory usage at the expense of the evaluation of the quality of the results. To fill this gap, we worked on different statistical issues related to the comparison of complete bacterial genomes. Our work was conducted into two directions. In the first one, we investigated the assessment of the robustness of complete bacterial genome alignments. We proposed an original method based on random perturbations of the compared genomes. Three different scores were derived to estimate the robustness of genome alignments at different scales, from nucleotides to the complete genome sequences. Our method was trained on bacterial genomic data. Our scores allow us to identify robust and non robust genome alignments. They can be used to correct an alignment or to compare alignments performed with different tools. Secondly, we studied the problem of the parametrization of comparison tools. Briefly, most of the existing tools suffer from a lack of information and of reliable default values to set their parameters. Consequently, there is a crucial need of methods to help users to define reliable parameter values for these tools. Most of the comparison tools are rooted on the detection of word matches. The key parameter for all these tools is the length of the matches to be considered. During this thesis, we developed two statistical methods to estimate an optimal length for these matches. Our first approach consisted in using a mixture model of geometric distributions to characterize the distribution of the length of matches retrieved from the comparison of two genomic sequences. The second approach is rooted on a Poisson approximation of the number of matches between two Markov chains. These statistical methods allow us to easily identify an optimal length for the matches from both simulated and real genomic data. We also showed that this optimal length depends on the characteristics of the compared genomes such as their length, their nucleotide composition, and their relative divergence. This thesis represents one of the earliest attempts to statistically evaluate and to improve the quality of complete genome comparisons. The interest and limitations of our different methods are discussed and some perspectives are proposed.
2

Virulence et spécificité d’hôte de leptospires pathogènes endémiques de Madagascar et ses îles voisines / Virulence and host-specificity of pathogenic Leptospira endemic to Madagascar and surrounding islands

Cordonin, Colette 19 March 2019 (has links)
La leptospirose est une zoonose d’importance médicale majeure dans les îles du Sud-Ouest de l’Océan Indien (SOOI) dont certaines enregistrent des incidences parmi les plus élevées au monde. Durant la dernière décennie, les données épidémiologiques moléculaires obtenues avec une approche « One Health » ont mis en évidence une grande diversité de lignées de leptospires ainsi que différentes chaines de transmission sur les différentes îles de la région. Les données moléculaires montrent la présence de leptospires pathogènes et de réservoirs animaux introduits ou endémiques de cette région. La distribution de ces différentes lignées de leptospires est associée à (i) un contraste épidémiologique incluant des différences dans la sévérité des cas humains et (ii) des niveaux de spécificité d’hôtes différents selon les leptospires considérés. Plus particulièrement, les leptospires endémiques du SOOI semblent être moins pathogènes chez les humains et montrent une plus forte affinité pour leur réservoir que les leptospires cosmopolites. Pour compléter nos connaissances sur l’histoire évolutive des leptospires du SOOI, nous avons produit des données provenant de chauves-souris de l’Afrique de l’Est. Ces données confirment la spécificité de certaines lignées de leptospires envers leurs hôtes chiroptères et suggèrent que les chauves-souris d’Afrique ont colonisé Madagascar tout en étant infectées par leurs leptospires. Afin de mieux comprendre le rôle des différents leptospires dans l’épidémiologie régionale de la leptospirose, nous avons mesuré la pathogénicité de trois souches de leptospires retrouvées dans cette région à l’aide d’un modèle hamster. Des souches de Leptospira mayottensis et Leptospira borgpetersenii ont été isolés respectivement de Tenrec ecaudatus (tenrec) et Triaenops menamena (chauve-souris), deux mammifères endémiques du SOOI. Une souche de Leptospira interrogans, dont le génotype est retrouvé dans la majorité des cas humains graves à la Réunion, a été isolée de Rattus rattus (rat). En cohérence avec les données épidémiologiques humaines de Mayotte et de La Réunion, les leptospires endémiques se sont révélées être significativement moins pathogènes que la souche L. interrogans. La spécificité d’hôte des deux souches isolées de mammifères endémiques a été mise à l’épreuve par des infections expérimentales de Rattus norvegicus, connu comme un réservoir important de leptospires. Les rats ont été infectés avec les trois isolats précédemment utilisés. Les rats infectés par les souches endémiques n’ont pas développé d’infection rénale chronique contrairement à la souche cosmopolite. Ces résultats montrent que la spécificité d’hôte des leptospires endémiques observée in natura est probablement due à des facteurs génétiques plutôt qu’à des facteurs écologiques, comme un manque de contacts physiques entre les réservoirs animaux endémiques et introduits. Enfin, le séquençage complet de souches de leptospires du SOOI a été réalisé afin d’identifier des caractéristiques génétiques pouvant être associées à la pathogénicité et la spécificité d’hôte des leptospires pathogènes. Une classification précise de souches de leptospires du SOOI a pu être réalisée sur la base des génomes complets. La comparaison de ces génomes a permis d’identifier des gènes spécifiques à un groupe ou une espèce de leptospires. Cependant des modifications génomiques complexes rendent difficiles l’identification de caractéristiques génomiques responsables d’un phénotype particulier tel que la virulence ou la spécificité d’hôte. / Leptospirosis is a zoonosis of main medical concern on several islands of southwestern Indian Ocean (SWIO), some of which recording among the highest human incidence worldwide. Over the last decade, molecular epidemiology investigations carried out under a One Health framework have revealed a wide variety of Leptospira lineages and distinct transmission chains throughout the islands of the region. These islands are home to pathogenic Leptospira lineages and animal reservoirs that are either introduced or endemic to the SWIO region. Interestingly, the regional distribution of Leptospira diversity is associated with (i) a contrasted severity of human cases and (ii) distinct levels of specificity of Leptospira towards their mammalian hosts. Specifically, endemic Leptospira appear less pathogenic in humans and display higher specificity towards their animal reservoirs than their cosmopolitan counterparts. To complete the dataset of Leptospira diversity in the SWIO region, we produced data from bats of eastern Africa. Results support the previously observed pattern of host specificity of Leptospira towards their bats hosts and, overlaid upon the biogeographic history of Malagasy bats, suggest that these volant mammals have colonized Madagascar from continental Africa while hosting pathogenic Leptospira. To better understand the role of distinct Leptospira lineages in the contrasted epidemiology observed in the SWIO, we investigated the pathogenicity of three Leptospira isolates from this region using a hamster model. Leptospira mayottensis and Leptospira borgpetersenii isolates were obtained from Tenrec ecaudatus (tenrec) on Mayotte and Triaenops menamena (bat) in Madagascar, respectively, both mammals endemic to the SWIO region. A Leptospira interrogans strain, which genotype has been reported in the majority of human acute cases on La Réunion, was isolated from the introduced Rattus rattus (rat). In keeping with a distinct severity of the disease on Mayotte and La Réunion, endemic bat-borne and tenrec-borne Leptospira were significantly less pathogenic than the control cosmopolitan rat-borne isolate. The host specificity of the isolates obtained from endemic hosts was addressed using experimental infection of Rattus norvegicus, a known reservoir of pathogenic Leptospira. This animal model was challenged with all three isolates and mostly failed in supporting chronic infection with bat-borne and tenrec-borne Leptospira. Hence, the strong host-specificity of endemic Leptospira toward their hosts observed in the wild likely results from genetic determinants shaped by long-term co-evolutionary processes rather than from ecological constraints such as a lack of physical contact between introduced and endemic animal reservoirs. Finally, we undertook full genome sequencing of regional strains in order to highlight genomic features that may be associated with virulence and host specificity. Whole genome sequencing allowed the accurate classification of Leptospira isolates obtained on SWIO islands. Comparative genomics allowed to identify genes specific to a group or species of Leptospira but complex changes in Leptospira genome make difficult the identification of genomic elements responsible for specific traits such as virulence and host specificity.
3

Diversité des génomes et adaptation locale des petits ruminants d’un pays méditerranéen : le Maroc / Genome diversity and local adaptation in small ruminants from a Mediterranean country : Morocco

Benjelloun, Badr 01 September 2015 (has links)
Les progrès technologiques récents nous permettent d'accéder à la variation des génomes complets ce qui nous ouvre la porte d'une meilleure compréhension de leur diversification via des approches de génomique des populations et de génomique du paysage. Ce travail de thèse se base sur l'analyse des données de génomes complets (WGS) pour caractériser la diversité génétique des petits ruminants (chèvre et moutons) et rechercher les bases génétiques d'adaptations locales.Dans un premier temps, ce travail appréhende un aspect méthodologique et examine la précision et le biais de différentes approches d'échantillonnage des génomes pour caractériser la variabilité génétique, en les comparant aux données WGS. Nous mettons en évidence un fort biais des approches classiques (i.e. puces à ADN, capture de l'exome) ainsi que des séquençages de génomes à faibles taux de couverture (1X et 2X), et nous suggérons des alternatives basées sur un échantillonnage aléatoire de marqueurs dont la densité est variable selon les objectifs d'étude (évaluation de la diversité neutre, déséquilibre de liaison, signatures de sélection). Le jeu de données produit a permis d'évaluer l'état des ressources génétiques de différentes populations domestiques (races locales marocaines, iraniennes, races industrielles) et sauvages (aegagre, mouflon asiatique). Nous relevons une très forte diversité génétique dans les populations indigènes et sauvages qui constituent des réservoirs d'allèles et peuvent jouer un rôle important pour préserver le potentiel adaptatif des petits ruminants domestiques dans un contexte de changement climatique. L'étude plus approfondie des populations de chèvres du Maroc montre une forte diversité génétique faiblement structurée géographiquement, et met en évidence des portions de génome présentant des signaux de sélection. Leur étude montre l'existence de mécanismes adaptatifs potentiellement différents selon les populations (e.g. transpiration/halètement dans l'adaptation probable à la chaleur).Enfin, nous explorons les bases génétiques de l'adaptation locale à l'environnement chez les moutons et chèvres via une approche de génomique de paysage. En scannant les génomes de 160 moutons et 161 chèvres représentant la diversité éco-climatique du Maroc, nous identifions de nombreux variants et gènes candidats qui permettent d'identifier les voies physiologiques potentiellement sous-jacentes à l'adaptation locale. En particulier, il apparait que les mécanismes respiratoires et les processus cardiaques joueraient un rôle clé dans l'adaptation à l'altitude. Les résultats suggèrent que les chèvres et moutons ont probablement développé différents mécanismes adaptatifs pour répondre aux mêmes variations environnementales. Cependant, nous identifions plusieurs cas probables de voies adaptatives communes à plusieurs espèces. Par ailleurs, nous avons caractérisé les patrons de variations du niveau de différenciation de régions chromosomiques sous sélection en fonction de l'altitude. Cela nous permet de visualiser la diversité des réponses adaptatives selon les gènes (par exemple, sélection de variants à faible et/ou haute altitude). Ainsi, ce travail pose les bases de la compréhension de certains mécanismes d'adaptation locale. / Recent technological developments allow an unprecedented access to the whole genome variation and would increase our knowledge on genome diversification using population and landscape genomics. This work is based on the analysis of Whole Genome Sequence data (WGS) with the purpose of characterising genetic diversity in small ruminants (sheep and goats) and exploring genetic bases of local adaptation.First, we addressed a methodological aspect by investigating the accuracy and possible bias in the widely used genotyping approaches to characterize genetic variation in comparison with WGS data. We highlighted strong bias in conventional approaches (SNP chips and exome capture) and also in low-coverage whole genome re-sequencing (1X and 2X), and we suggested effective solutions based on sampling panels of random markers over the genome depending the purpose of the study (assessing neutral diversity, linkage disequilibrium, selection signatures). The various datasets produced allowed assessing genetic resources in various domestic (Moroccan and Iranian indigenous breeds and industrials) and wild populations (bezoars and Asiatic mouflons). We identified a very high diversity in indigenous and wild populations. They constitute a reservoir of alleles allowing them to play a possible key role in the preservation of these species in the context of global changes. The deep study of Moroccan goats showed a high diversity that is weakly structured in geography and populations, and highlighted numerous genomic regions showing signatures of selection. These regions identified different putative adaptive mechanisms according to the population (e.g. panting/sweating to adapt to warm/desert environment).Then, we explored genetic bases of local adaptation to the environment in sheep and goats using a landscape genomics framework. We scanned genomes of 160 sheep and 161 goats representing the eco-climatic Moroccan-wide diversity. We identified numerous candidate variants and genes, which allowed for identifying physiological pathways possibly underlying local adaptation. Especially, it seems that respiration and cardiac process have key roles in the adaptation to altitude. Our results suggest dissimilar adaptive mechanisms for the same environment in sheep and goats. However, we highlighted several cases of common metabolic pathways in different species. Moreover, we characterized some patterns for the variation of genetic differentiation in some candidate genomic regions over environmental gradients. This allowed us to visualise different adaptive reaction depending genes. This work points the way towards a better understanding of some mechanisms underlying local adaptation.
4

Etude de l'émergence de la diversité d'Escherichia coli in vivo par séquençage de génomes complets / Study of the emergence of the diversity of Escherichia coli in vivo by whole genome sequencing

Launay, Adrien 27 October 2016 (has links)
Escherichia coli est une espèce commensale du tube digestif, mais elle peut aussi se révéler être un dangereux pathogène intra ou extra intestinal. Un même clone pouvant passer d'un état commensal à pathogène, la compréhension des mécanismes impliqués dans la diversification d'E. coli dans ces deux habitats représente un enjeu majeur de santé publique. Des expériences d'évolution expérimentale utilisant E. coli ont permis de révéler différentes facettes de l'adaptation bactérienne. Cependant, ces expériences de laboratoire utilisant des conditions artificielles, on peut s'interroger sur la pertinence des observations qui en découlent en milieu naturel et plus globalement s’interroger sur la part de la sélection naturelle dans la diversification de E. coli dans la nature. Pour répondre à ces questions, j'ai analysé les profils génomiques de diversification de E. coli au cours (1) d’une adaptation au tube digestif de souris ou (2) dans des infections extra-intestinales. Dans les deux cas, j’ai pu montrer une importante convergence au niveau du gène : un même gène étant muté plusieurs fois indépendamment, un signe que l’adaptation est active. Dans les infections aigues, des mutations touchant des régulateurs globaux ont été retrouvées, alors que dans le tube digestif les cibles de l’adaptation semblaient plus spécifiques. Enfin, les échantillons issus des infections incluant des souches a fort taux de mutation dites mutatrices, j'ai pu documenter pour la première fois la génomique de l'émergence de bactéries mutatrices en milieu naturel.En conclusion, mes travaux montrent que l’adaptation joue un rôle important dans la diversification de E. coli en milieu naturel et que ce processus s’apparente à celui observé dans des milieux artificiels de laboratoire. L’adaptation semble néanmoins plus active en conditions d’infections aigues que dans le tube digestif de souris. / Escherichia coli is a commensal species living in the digestive tract of vertebrates, but can also be a harmful pathogen involved in both intra and extraintestinal diseases. As clones can behave both as commensals and pathogens, the comprehension of the mechanisms involved in the diversification of E. coli in those two habitats represents a major public health concern. In vitro experimental evolution studies using E. coli have unraveled the different faces of bacterial adaptation. However, as those experiments used artificial conditions, the relevance of these observations and more generally the contribution of adaptation to the diversification of E. coli in the wild remain questionable. To answer these questions, I analyzed the genomic profiles of diversification of E. coli during (1) adaptation to the mice digestive tract or (2) during acute extraintestinal infections. In both cases, I found a strong convergence at the gene level, i.e. observation of several impendent mutations in the same gene, suggesting a dynamic adaptation. In acute infections, mutations in global regulators were recovered, while more specific genes were recruited in the mice gut. Finally, the existence of clones with high mutation rate in the infections, allowed me to document for the first time the genomics of mutator emergence in the wild. In conclusion, my work shows that adaptation is playing an important role in the diversification of E. coli, and that this process is fairly similar to the one observed in the laboratory. Nevertheless, adaptation seems more active during infections than in the mice gut.
5

Algorithmes de comparaison de génomes appliqués aux génomes bactériens / Algorithms for the comparisons of genomic sequences applied to bacterial genomes

Uricaru, Raluca 14 December 2010 (has links)
Avec plus de 1000 génomes complets disponibles (la grande majorité venant de bactéries), les analyses comparatives de génomes deviennent indispensables pour leurs annotations fonctionnelles, ainsi que pour la compréhension de leur structure et leur évolution, et s'appliquent par exemple en phylogénomique ou au design des vaccins. L'une des approches de plus utilisées pour comparer des génomes est l'alignement de leurs séquences d'ADN, i.e. alignement de génomes complets, c'est à dire identifier les régions de similarité en s'affranchissant de toute annotation. Malgré des améliorations significatives durant les dernières années, des outils performants pour cette approche ainsi que des méthodes pour l'estimation de la qualité des résultats qu'elle produit, en particulier sur les génomes bactériens, restent encore à développer. Outre leurs grandes tailles qui rendent les solutions classiques basées sur la programmation dynamique inutilisables, l'alignement de génomes complets posent des difficultés supplémentaires dues à leur évolution particulière, comprenant: la divergence, qui estompe les similarités entre les séquences, le réordonnancent des portions génomiques (réarrangements), ou l'acquisition de matériel génétique extérieur, qui produit des régions non alignables entres les séquences, e.g. transfert horizontal des gènes, phages. En conséquence, les solutions pour l'alignement de génomes sont des heuristiques, dont la plus commune est appelée stratégie basée sur des ancres. Cette stratégie commence par identifier un ensemble initial de régions de similarité (phase 1). Ensuite une phase de chaînage sélectionne un sous-ensemble (non-chevauchantes et généralement colinéaires) de ces similarités de poids maximal, nommées ancres (phase 2). Les phases 1 et 2 sont appliquées de manière récursive sur les régions encore non-alignées (phase 3). La dernière phase consiste en l'application systématique des outils d'alignement classiques sur toutes les régions courtes qui n'ont pas encore été alignées. Cette thèse adresse plusieurs problèmes liés à l'alignement de génomes complets dont: l'évaluation de la qualité des résultats produits par les outils d'alignement et l'amélioration de la stratégie basée sur des ancres. Premièrement, nous avons créé un protocole pour évaluer la qualité des résultats d'alignement, contenant des mesures de calcul quantitatives et qualitatives, dont certaines basées sur des connaissances biologiques. Une analyse de la qualité des alignements produits par deux des principaux outils existants sur des paires de génomes bactériens intra-espèces révèle leurs limitations: des similarités non détectées et des portions d'alignement incorrectes. À partir de ces résultats, qui suggèrent un manque de sensibilité et spécificité, nous proposons un nouvel outil pour l'alignement deux à deux de génomes complets, YOC, qui implémente une version simplifiée de la stratégie basée sur des ancres, contenant seulement deux phases. Dans la phase 1, YOC améliore la sensibilité en utilisant comme ancres, pour la première fois dans cette stratégie, des similarités locales basées sur des graines espacées, capables de détecter des similarités plus longues dans des régions plus divergentes. Cette phase est suivie par une méthode de chainage adaptée aux similarités locales, un nouveau type de chaînage colinéaire, permettant des chevauchements proportionnels. Nous avons donné une formulation de ce nouveau problème et réalisé un premier algorithme. L'algorithme, qui adopte une approche de programmation dynamique basée sur le paradigme de la ``sweep-line'', donne une solution optimale, i.e. est exacte, et s'exécute en temps quadratique. Nous avons montré que cet algorithme, comparé au chainage colinéaire classique, améliore les résultats sur des génomes bactériens, tout en restant aussi efficace en pratique. / With more than 1000 complete genomes available (among which, the vast majority come from bacteria), comparative genomic analysis become essential for the functional annotation of genomes, the understanding of their structure and evolution and have applications in phylogenomics or vaccine design. One of the main approaches for comparing genomes is by aligning their DNA sequences, i.e. whole genome alignment (WGA), which means identifying the similarity regions without any prior annotation knowledge. Despite the significant improvements during the last years, reliable tools for WGA and methodology for estimating its quality, in particular for bacterial genomes, still need to be designed. Besides their extremely large lengths that make classical dynamic programming alignment methods unsuitable, aligning whole genomes involves several additional difficulties, due to the mechanisms through which genomes evolve: the divergence, which let sequence sim ilarity vanish over time, the reordering of genomic segments (rearrangements), or the acquisition of external genetic material generating regions that are unalignable between sequences, e.g. horizontal gene transfer, phages. Therefore, whole genome alignment tools implement heuristics, among which the most common is the anchor based strategy. It starts by detecting an initial set of similarity regions (phase 1), and, through a chaining phase (phase 2), selects a non-overlapping maximum-weighted, usually collinear, subset of those similarities, called anchors. Phases 1 and 2 are recursively applied on yet unaligned regions (phase 3). The last phase (phase 4) consists in systematically applying classical alignment tools to all short regions still left unaligned.This thesis addresses several problems related to whole genome alignment: the evaluation of the quality of results given by WGA tools and the improvement of the classical anchor based strategy. We first designed a protocol for evaluating the quality of alignment results, based on both computational and biological measures. An evaluation of the results given by two state of the art WGA tools on pairs of intra-species bacterial genomes revealed their shortcomings: the failure of detecting some of the similarities between sequences and the misalignment of some regions. Based on these results, which imply a lack in both sensitivity and specificity, we propose a novel, pairwise whole genome alignment tool, YOC, implementing a simplified two-phase version of the anchor strategy. In phase 1, YOC improves sensitivity by using as anchors, for the first time, local similarities based on spaced seeds that are capable of detecting larger similarity regions in divergent sequences. This ph ase is followed by a chaining method adapted to local similarities, a novel type of collinear chaining, allowing for proportional overlaps. We give a formulation for this novel problem and provide the first algorithm for it. The algorithm, implementing a dynamic programming approach based on the sweep-line paradigm, is exact and runs in quadratic time. We show that, compared to classical collinear chaining, chaining with overlaps improves on real bacterial data, while remaining almost as efficient in practice. Our novel tool, YOC, is evaluated together with other four WGA tools on a dataset composed of 694 pairs of intra-species bacterial genomes. The results show that YOC improves on divergent cases by detecting more distant similarities and by avoiding misaligned regions. In conclusion, YOC should be easier to apply automatically and systematically to incoming genomes, for it does not require a post-filtering step to detect misalignment and is less complex to calibrate.
6

Vers une cartographie fine des polymorphismes liés à la résistance aux antimicrobiens / Fine mapping of antibiotic resistance determinants

Jaillard Dancette, Magali 12 December 2018 (has links)
Mieux comprendre les mécanismes de la résistance aux antibiotique est un enjeu important dans la lutte contre les maladies infectieuses, qui fait face à la propagation de bactéries multi-résistantes. Les études d'association à l'échelle des génomes sont des outils puissants pour explorer les polymorphismes liés aux variations phénotypiques dans une population. Leur cadre méthodologique est très documenté pour les eucaryotes, mais leur application aux bactéries est très récente. Durant cette thèse, j'ai cherché à rendre ces outils mieux adaptés aux génomes plastiques des bactéries, principalement en travaillant sur la représentation des variations génétiques. En effet, parce que les bactéries ont la capacité à échanger du matériel génétique avec leur environnement, leurs génomes peuvent être trop différents au sein d'une espèce pour être alignés contre une référence. La description des variations par des fragments de séquence de longueur k, les k-mers, offre la flexibilité nécessaire mais ne permet pas une interprétation directe des résultats obtenus. La méthode mise au point teste l'association de ces k-mers avec le phénotype, et s'appuie sur un graphe de De Bruijn pour permettre la visualisation du contexte génomique des k-mers identifiés par le test, sous forme de graphes. Cette vue synthétique renseigne sur la nature de la séquence identifiée: il peut par exemple s'agir de polymorphisme local dans un gène ou de l'acquisition d'un gène dans un plasmide. Le type de variant représenté dans un graphe peut être prédit avec une bonne performance à partir de descripteurs du graphe, rendant plus opérationnelles les approches par k-mers pour l'étude des génomes bactériens / The emergence and spread of multi-drug resistance has become a major worldwide public health concern, calling for better understanding of the underlying resistance mechanisms. Genome-wide association studies are powerful tools to finely map the genetic polymorphism linked to the phenotypic variability observed in a population. However well documented for eukaryotic genome analysis, these studies were only recently applied to prokaryota.Through this PhD project, I searched how to better adapt these tools to the highly plastic bacterial genomes, mainly by working on the representation of the genetic variations in these genomes. Indeed, because the bacteria have the faculty to acquire genetic material by a means other than direct inheritance from a parent cell, their genomes can differ too much within a species to be aligned against a reference. A representation using sequence fragments of length k - the so-called k-mers - offers the required flexibility but generates redundancy and does not allow for a direct interpretation of the identified associations. The method we set up tests the association of these k-mers with the phenotype, and takes advantage of a De Bruijn graph (DBG) built over all genomes to remove the local redundancy of k-mers, and offer a visualisation of the genomic context of the k-mers identified by the test. This synthetic view as DBG subgraphs informs on the nature of the identified sequence: e.g. local polymorphism in a gene or gene acquired through a plasmid. The type of variant can be predicted correctly in 96% of the cases from descriptors of the subgraphs, providing a tractable framework for k-mer-based association studies

Page generated in 0.0508 seconds