Return to search

Analyse de la diversité microbienne par séquençage massif : méthodes et applications

Les avancées des nouvelles techniques de séquençage (NGS) ont permis dans le cadre des études en écologie microbienne de passer de l'analyse de quelques centaines de séquences par étude à des centaines de millions de séquences. Cette différence quantitative des données produites a induit des différences qualitatives quant aux études réalisées. En effet, avec le changement du type de données, les approches classiques d'analyse ne peuvent être appliquées et il est devenu nécessaire de définir de nouvelles stratégies en tenant compte des contraintes que posent ces données. Alors qu'il était possible d'insérer classiquement quelques dizaines de séquences issues des techniques de première génération dans des phylogénies expertisées, le nombre de séquences généré aujourd'hui par les NGS à chaque expérience rend cette tâche irréalisable et nécessite la mise en place de nouvelles stratégies et l'utilisation d'outils adaptés. Par ailleurs, les outils disponibles d'analyse de la diversité microbienne adaptés aux amplicons de nouvelle génération, implémentent des approches probabilistes et/ou de recherche de similitude pour l'identification des séquences environnementales. L'approche phylogénétique quant à elle, bien qu'elle soit la plus robuste, n'est pas utilisée pour l'annotation taxonomique de ce type de données du fait de ses besoins en temps et en ressources de calcul. Au-delà de l'approche d'annotation taxonomique, les nouvelles techniques de séquençage posent également le problème de la qualité des séquences produites et son impact sur l'estimation de la diversité. Ainsi, ce travail de thèse avait pour objectif la définition d'une stratégie d'analyse bioinformatique de données de séquençage massif dans le contexte de l'étude de la diversité microbienne, en tenant compte des limitations imposées par les ressources informatiques actuelles (matérielles et logicielles) d'un côté, et de l'avantage des méthodes phylogénétiques par rapport aux autres approches d'annotation taxonomique. Ce travail a donné lieu au développement d'une chaîne de traitement proposant une série d'analyses allant des séquences brutes jusqu'à la visualisation des résultats, tout en replaçant les séquences environnementales dans un contexte évolutif. L'approche développée a été optimisée pour la gestion de gros volumes de données, et a été comparée en terme de précision d'affiliation aux autres approches communément utilisées en écologie microbienne. Les tests et simulations ont montré qu'à partir d'une taille d'amplicons de 400 pb, l'affiliation phylogénétique avait les meilleurs résultats mais aussi, que la qualité de cette affiliation différait selon la région hypervariable ciblée. La chaîne de traitements mise en place a ensuite été par implémentée dans un contexte de calcul à haute performance, notamment sur un cluster de calcul, pour proposer un service web dédié à l'analyse de la diversité microbienne.

Identiferoai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00926896
Date29 August 2013
CreatorsTaïb, Najwa
PublisherUniversité Blaise Pascal - Clermont-Ferrand II
Source SetsCCSD theses-EN-ligne, France
Languagefra
Detected LanguageFrench
TypePhD thesis

Page generated in 0.002 seconds