Spelling suggestions: "subject:"assignation taxonomic"" "subject:"assignation taxonomia""
1 |
Algorithmes pour la reconstruction de séquences de marqueurs conservés dans des données de métagénomique / Algorithms for conserved markers sequences reconstruction in metagenomics dataPericard, Pierre 27 October 2017 (has links)
Les progrès récents en termes de séquençage d’ADN permettent maintenant d’accéder au matériel génétique de communautés microbiennes extraites directement d’échantillons environnementaux naturels. Ce nouveau domaine de recherche, appelé métagénomique, a de nombreuses applications en santé, en agro-alimentaire, en écologie, par exemple. Analyser de tels échantillons demande toutefois de développer de nouvelles méthodes bio-informatiques pour déterminer la composition taxonomique de la communauté étudiée. L’identification précise des organismes présents est en effet une étape essentielle à la compréhension des écosystèmes même les plus simples. Cependant, les technologies de séquençage actuelles produisent des fragments d’ADN courts et bruités, qui ne couvrent que partiellement les séquences complètes des gènes, ce qui pose un véritable défi pour l’analyse taxonomique à haute résolution. Nous avons développé MATAM, une nouvelle méthode bio-informatique dédiée à la reconstruction rapide et sans erreurs de séquences complètes de marqueurs phylogénétiques conservés, à partir de données brutes de séquençage. Cette méthode est composée d’une succession d’étapes qui réalisent la construction et l’analyse d’un graphe de chevauchement de lectures. Nous l’avons appliquée à l’assemblage de la petite sous-unité de l’ARN ribosomique sur des métagénomes simulés, synthétiques et réels. Les résultats obtenus sont de très bonne qualité et améliorent l’état de l’art. / Recent advances in DNA sequencing now allow studying the genetic material from microbial communities extracted from natural environmental samples. This new research field, called metagenomics, is leading innovation in many areas such as human health, agriculture, and ecology. To analyse such samples, new bioinformatics methods are still needed to ascertain the studied community taxonomic composition because accurate organisms identification is a necessary step to understand even the simplest ecosystems. However, current sequencing technologies are generating short and noisy DNA fragments, which only partially cover the complete genes sequences, giving rise to a major challenge for high resolution taxonomic analysis. We developped MATAM, a new bioinformatic methods dedicated to fast reconstruction of low-error complete sequences from conserved phylogenetic markers, starting from raw sequencing data. This methods is a multi-step process that builds and analyses a read overlap graph. We applied MATAM to the reconstruction of the small sub unit ribosomal ARN in simulated, synthetic and genuine metagenomes. We obtained high quality results, improving the state of the art.
|
2 |
Analyse de la diversité microbienne par séquençage massif : méthodes et applications / No title availableTaïb, Najwa 29 August 2013 (has links)
Les avancées des nouvelles techniques de séquençage (NGS) ont permis dans le cadre des études en écologie microbienne de passer de l'analyse de quelques centaines de séquences par étude à des centaines de millions de séquences. Cette différence quantitative des données produites a induit des différences qualitatives quant aux études réalisées. En effet, avec le changement du type de données, les approches classiques d'analyse ne peuvent être appliquées et il est devenu nécessaire de définir de nouvelles stratégies en tenant compte des contraintes que posent ces données. Alors qu'il était possible d'insérer classiquement quelques dizaines de séquences issues des techniques de première génération dans des phylogénies expertisées, le nombre de séquences généré aujourd'hui par les NGS à chaque expérience rend cette tâche irréalisable et nécessite la mise en place de nouvelles stratégies et l'utilisation d'outils adaptés. Par ailleurs, les outils disponibles d'analyse de la diversité microbienne adaptés aux amplicons de nouvelle génération, implémentent des approches probabilistes et/ou de recherche de similitude pour l'identification des séquences environnementales. L'approche phylogénétique quant à elle, bien qu'elle soit la plus robuste, n'est pas utilisée pour l'annotation taxonomique de ce type de données du fait de ses besoins en temps et en ressources de calcul. Au-delà de l'approche d'annotation taxonomique, les nouvelles techniques de séquençage posent également le problème de la qualité des séquences produites et son impact sur l'estimation de la diversité. Ainsi, ce travail de thèse avait pour objectif la définition d'une stratégie d'analyse bioinformatique de données de séquençage massif dans le contexte de l'étude de la diversité microbienne, en tenant compte des limitations imposées par les ressources informatiques actuelles (matérielles et logicielles) d'un côté, et de l'avantage des méthodes phylogénétiques par rapport aux autres approches d'annotation taxonomique. Ce travail a donné lieu au développement d'une chaîne de traitement proposant une série d'analyses allant des séquences brutes jusqu'à la visualisation des résultats, tout en replaçant les séquences environnementales dans un contexte évolutif. L'approche développée a été optimisée pour la gestion de gros volumes de données, et a été comparée en terme de précision d'affiliation aux autres approches communément utilisées en écologie microbienne. Les tests et simulations ont montré qu'à partir d'une taille d'amplicons de 400 pb, l'affiliation phylogénétique avait les meilleurs résultats mais aussi, que la qualité de cette affiliation différait selon la région hypervariable ciblée. La chaîne de traitements mise en place a ensuite été par implémentée dans un contexte de calcul à haute performance, notamment sur un cluster de calcul, pour proposer un service web dédié à l'analyse de la diversité microbienne. / The characterization of microbial community structure via SSU rRNA gene profiling has been greatly advanced in recent years by the introduction of NGS amplicons, leading to a better representation of sample diversity at a lower cost. This progress in method development has provided a new window into the composition of microbial communities and sparked interest in the members of the rare biosphere. Concurrently, the processing of such amount of data has become an important bottleneck for the effectiveness of microbial ecology studies, and a multitude of analysis platforms have been developed for the handling of these data. As implemented, these tools have a steep learning curve for the biologist who is not computationally inclined, as they require extensive user intervention and consume many CPU hours due to dataset analysis and complexity, which can present a significant barrier to researchers. Moreover, although phylogenetic affiliation has been shown to be more accurate for the taxonomic assignment of NGS reads, the existing tools assign taxonomy by either a similarity search or a probabilistic approach, with the phylogenies being restricted to samples' comparison. Beyond the taxonomic assignment, the new sequencing technologies also arise the problem of the quality of the generated sequences and its impact on the richness estimation. In this work, we aimed to define a strategy for the bioinformatic analysis of high-throughput sequences in order to depict the microbial diversity, taking into account both the limitations imposed by current computer resources (hardware and software), and the advantage of the phylogenetic methods over the other taxonomic annotation approaches. This work has led to the development of a pipeline offering a set of analyzes ranging from raw sequences processing to the visualization of the results, while replacing the environmental sequences in an evolutionary framework. The developed approach was optimized for managing large volumes of data, and has been compared in term of the accuracy of taxonomic assignment to the approaches commonly used in the field of microbial ecology. This pipeline was then used to the developement of a dedicated web server for high-throughput sequencing analysis, that relies on a computing cluster and performs large-scale phylogeny-based analyses of rRNA genes with no need for specialized informatics expertise, and uses the phylogenies for both the taxonomy assessment and the delineation of monophyletic groups to highlight clades of interest.
|
3 |
Analyse de la diversité microbienne par séquençage massif : méthodes et applicationsTaïb, Najwa 29 August 2013 (has links) (PDF)
Les avancées des nouvelles techniques de séquençage (NGS) ont permis dans le cadre des études en écologie microbienne de passer de l'analyse de quelques centaines de séquences par étude à des centaines de millions de séquences. Cette différence quantitative des données produites a induit des différences qualitatives quant aux études réalisées. En effet, avec le changement du type de données, les approches classiques d'analyse ne peuvent être appliquées et il est devenu nécessaire de définir de nouvelles stratégies en tenant compte des contraintes que posent ces données. Alors qu'il était possible d'insérer classiquement quelques dizaines de séquences issues des techniques de première génération dans des phylogénies expertisées, le nombre de séquences généré aujourd'hui par les NGS à chaque expérience rend cette tâche irréalisable et nécessite la mise en place de nouvelles stratégies et l'utilisation d'outils adaptés. Par ailleurs, les outils disponibles d'analyse de la diversité microbienne adaptés aux amplicons de nouvelle génération, implémentent des approches probabilistes et/ou de recherche de similitude pour l'identification des séquences environnementales. L'approche phylogénétique quant à elle, bien qu'elle soit la plus robuste, n'est pas utilisée pour l'annotation taxonomique de ce type de données du fait de ses besoins en temps et en ressources de calcul. Au-delà de l'approche d'annotation taxonomique, les nouvelles techniques de séquençage posent également le problème de la qualité des séquences produites et son impact sur l'estimation de la diversité. Ainsi, ce travail de thèse avait pour objectif la définition d'une stratégie d'analyse bioinformatique de données de séquençage massif dans le contexte de l'étude de la diversité microbienne, en tenant compte des limitations imposées par les ressources informatiques actuelles (matérielles et logicielles) d'un côté, et de l'avantage des méthodes phylogénétiques par rapport aux autres approches d'annotation taxonomique. Ce travail a donné lieu au développement d'une chaîne de traitement proposant une série d'analyses allant des séquences brutes jusqu'à la visualisation des résultats, tout en replaçant les séquences environnementales dans un contexte évolutif. L'approche développée a été optimisée pour la gestion de gros volumes de données, et a été comparée en terme de précision d'affiliation aux autres approches communément utilisées en écologie microbienne. Les tests et simulations ont montré qu'à partir d'une taille d'amplicons de 400 pb, l'affiliation phylogénétique avait les meilleurs résultats mais aussi, que la qualité de cette affiliation différait selon la région hypervariable ciblée. La chaîne de traitements mise en place a ensuite été par implémentée dans un contexte de calcul à haute performance, notamment sur un cluster de calcul, pour proposer un service web dédié à l'analyse de la diversité microbienne.
|
4 |
Développement de modèles spécifiques aux séquences génomique virales / Developing viral genomic data-specific classification modelsSchmitt, Louise-Amelie 19 July 2017 (has links)
Le séquençage ADN d'échantillons complexes contenant plusieurs espèces est une technique de choix pour étudier le paysage viral d'un milieu donné. Or les génomes viraux sont difficiles à identifier, de par leur extrême variabilité et la relation étroite qu'ils entretiennent avec leurs hôtes. Nous proposons de nouvelles pistes de recherche pour apporter une solution spécifique aux séquences virales afin de répondre au besoin d'identification pour lequel les solutions génériques existantes n'apportent pas de réponse satisfaisante. / DNA sequencing of complex samples containing various living species is a choice approach to study the viral landscape of a given environment. Viral genomes are hard to identify due to their extreme variability and the tight relationship they have with their hosts. We hereby provide new leads for the development of a virusesspecific solution to the need for accurate identification that hasn't found a satisfactory solution in the existing universal software so far.
|
Page generated in 1.1346 seconds