Return to search

Génomique et métagénomique comparatives des bactéries

Les domaines de la génomique et de la métagénomique ont apporté un support incommensurable à l'avancement de nos connaissances sur la génétique des bactéries. Les bactéries pathogènes sont maintenant séquencées et analysées pour identifier les facteurs causant leur virulence et/ou leur résistance aux antibiotiques ainsi que leur capacité à transmettre ces éléments génétiques qui sont d'un intérêt clinique. Les bactéries commensales, quant à elles, sont de plus en plus associées à la santé humaine et sont étudiées à l'aide de la métagénomique pour contrer les difficultés liées à leur culture étant donné leur grande diversité en matière de besoins métaboliques. Les nouvelles technologies de séquençages permettent donc de produire en masse ces séquences d'ADN à des fins de caractérisation et de comparaison dans le but d'élucider des questions souvent reliées à la santé humaine. Les avancées en génomique et en métagénomique requièrent des logiciels bio-informatiques capables de gérer et de s'adapter à la quantité massive et croissante des données biologiques. Les deux premières hypothèses de ce doctorat concernaient le développement de méthodes efficaces et flexibles pour l'analyse de génomes et de métagénomes bactériens. Plusieurs méthodes d'analyses bio-informatiques ont été explorées et ont mené à l'implémentation de deux logiciels pour supporter les hypothèses de recherche : Ray Surveyor et kAAmer. La première hypothèse de recherche consistait à vérifier s'il était possible d'obtenir une comparaison de génomes, depuis leur simple contenu en k-mers de séquences d'ADN, avec des résultats analogues aux comparaisons génomiques standards comme le pourcentage moyen d'identités ou les arbres phylogénétiques, mais sans nécessiter d'alignements de séquences. Nous avons démontré avec le logiciel Ray Surveyor et plusieurs analyses de génomique et de métagénomique bactérienne, qu'il était possible d'obtenir de tels comparaisons à l'aide de séquences d'ADN découpées en k-mer. Dans l'étude qui présenta les résultats de l'hypothèse de recherche, nous avons aussi estimé la propension génotypique de plusieurs espèces bactériennes à des phénotypes d'intérêt clinique à l'aide de bases de données de gènes spécialisées. La deuxième hypothèse était de tester s'il était possible de développer un logiciel pour l'identification de séquences protéiques, basé sur des k-mers d'acides aminés, qui serait plus performant que les logiciels existants, spécifiquement pour l'identification de protéines avec un haut degré d'homologie. Les travaux menèrent à l'implémentation de kAAmer, un logiciel permettant de créer des bases de données de protéines où la recherche de séquence se fait par association exacte de k-mers tout en supportant l'alignement de séquences. KAAmer s'est avéré très efficace pour la recherche de séquences de protéines avec des performances surpassant même, dans la majorité des scénarios, les aligneurs de séquences les plus rapides. D'autres fonctionnalités intéressantes sont aussi offertes par kAAmer, tel que la possibilité d'héberger une base de données en tant que service de manière permanente. Enfin, la troisième et dernière hypothèse de recherche visait à valider si les deux logiciels développés durant le projet de doctorat (Ray Surveyor et kAAmer) produiraient des résultats viables dans une analyse métagénomique du microbiote intestinal en lien avec l'obésité. Les profilages taxonomique et fonctionnel furent donc réalisés avec kAAmer et la comparaison de novo des métagénomes investiguée avec Ray Surveyor. Les résultats obtenus se sont avérés significatifs et ont démontrés, entre autres, une tendance vers une abondance relative plus élevée pour le phylum Bacteroidetes et moins élevée pour les phyla Firmicutes et Acinetobacteria chez les sujets obèses. Une multitude de fonctions métaboliques se sont aussi avérées significativement différentes dans les conditions normales et d'obésités des métagénomes, avec une mention particulière à celles reliées au métabolisme des acides gras à chaîne courte qui sont reconnues pour être associées à l'obésité. / The fields of genomics and metagenomics have provided immeasurable support to the advancement of our knowledge of bacterial genetics. Pathogenic bacteria are now routinely sequenced and analyzed to identify the factors causing their virulence or antibiotic resistance as well as their ability to transmit genetic elements. Commensal bacteria are increasingly associated with human health and are being studied using metagenomics to counter the issues associated with their culture due to their wide range of metabolic needs. Next generation sequencing enabled us to mass-produce these DNA sequences for characterization and comparison purposes in order to elucidate questions related to human health. Improvement in genomics and metagenomics studies required bio-informatics software that are able to manage and adapt to an increasing availability of biological sequences data. The first two hypotheses of this thesis include the development of efficient and flexible methods for the analysis of bacterial genomes and metagenomes. Several bio-informatics analysis methods were explored and led to the implementation of two software to support the research hypotheses: Ray Surveyor and kAAmer. The first research hypothesis was to test the possibility of obtaining a comparison of genomes, from their simple DNA k-mers content, with results analogous to standard genomic comparisons such as average nucleotide identity or phylogenetic trees, but without the need for sequence alignments. Using Ray Surveyor software and several bacterial genomic and metagenomic analyses, we have demonstrated that it is possible to obtain such comparisons using k-mers from DNA sequences. In the study that presented the results of the research hypothesis, we also estimated the genotypic propensity of several bacterial species to clinically relevant phenotypes using specialized gene databases. The second hypothesis was to test the possibility of developing a software for protein sequence identification, based on amino acid k-mers, which would be more efficient than existing software, specifically for the identification of proteins with a high degree of homology. The work led to the implementation of kAAmer, a software solution that allows the creation of protein databases where the sequence search is done by exact match of k-mers, while supporting sequence alignment. KAAmer has proven to be very efficient for protein sequence search with performances surpassing even the fastest sequence aligners in most scenarios. Other interesting features are also offered by kAAmer, such as the possibility to host a database as a service on a permanent basis. Finally, the third and last research hypothesis aimed to test the capacity the two software developed during the PhD project (Ray Surveyor and kAAmer) to produce viable results in a metagenomic analysis of the gut microbiota in relation to obesity. Taxonomic and functional profiling was performed with kAAmer as the de novo comparison of metagenomes with Ray Surveyor. The results obtained were significant and showed, among others, a trend towards higher relative abundance of the Bacteroidetes phylum and lower relative abundance of the Firmicutes and Acinetobacteria phyla in obese subjects. Several metabolic functions were also found to be significantly different in the normal and obese conditions, with a particular mention to the metabolism of short-chain fatty acids (SCFA) that are known to be associated with obesity.

Identiferoai:union.ndltd.org:LAVAL/oai:corpus.ulaval.ca:20.500.11794/71605
Date28 January 2022
CreatorsDéraspe, Maxime
ContributorsLaviolette, François, Corbeil, Jacques
Source SetsUniversité Laval
LanguageFrench
Detected LanguageFrench
Typethèse de doctorat, COAR1_1::Texte::Thèse::Thèse de doctorat
Format1 ressource en ligne (xxiv, 176 pages), application/pdf
Rightshttp://purl.org/coar/access_right/c_abf2

Page generated in 0.003 seconds