Global ETD Search

1	Développements méthodologiques autour de l'analyse des données de metabarcoding ADN / Methodological developments surrounding the analysis of DNA metabarcoding data. Mercier, Celine 31 March 2015 (has links) Cette thèse s'inscrit dans le cadre du traitement des données issues de séquençage haut débit, et en particulier des données produites en metabarcoding ADN. Le metabarcoding ADN consiste à identifier des taxons ou des groupes taxinomiques à partir de l'ADN présent dans des échantillons environnementaux (eau, sol, fèces...). Après extraction de l'ADN, de courtes séquences utilisées comme marqueurs taxinomiques sont amplifiées par PCR puis séquencées en utilisant les nouvelles techniques de séquençage haut débit. De très importants volumes de données sont ainsi générés, le plus souvent, de plusieurs milliers à plusieurs centaines de milliers de séquences par échantillon. L'objectif principal de cette thèse était le développement de méthodes d'analyse de ces séquences. Les méthodes de classification permettent de traiter de nombreuses problématiques en metabarcoding ADN. La classification supervisée est utilisée pour assigner les séquences à des taxons en les comparant aux séquences de bases de données de référence. Les méthodes de classification non supervisée permettent de créer des groupes taxinomiques (MOTU) à partir des séquences, afin de faire des estimations de biodiversité. Ces méthodes sont aussi employées pour identifier les séquences erronées produites par la PCR et le séquençage notamment, où les séquences erronées dérivent souvent des vraies séquences et leur sont très similaires. Les méthodes de classification demandent une méthode de comparaison des séquences qui soit idéalement à la fois très rapide et exacte. Une telle méthode a été développée, en utilisant un algorithme d'alignement global de type Needleman-Wunsch calculant la longueur de la plus longue sous-séquence commune entre les séquences à aligner, associé à un filtre sans perte permettant d'éviter l'alignement de certaines paires de séquences n'ayant aucune chance de présenter une similarité supérieure à un seuil choisi. L'utilisation d'instructions Single Instruction, Multiple Data, de même que le multithreading optionnel des calculs, permettent d'associer rapidité et exactitude. Cette méthode de comparaison est implantée dans SUMATRA, un programme calculant toutes les similarités deux à deux d'un jeu de données ou entre deux jeux de données, avec possibilité de fixer un seuil de similarité en dessous duquel les similarités ne sont pas rapportées. Elle est aussi utilisée dans SUMACLUST. SUMACLUST est un programme regroupant les séquences en utilisant un algorithme de clustering en étoile, où chaque groupe possède une séquence représentative. Il peut être utilisé pour créer des MOTU, ou pour détecter les séquences erronées dérivant de vraies séquences. Plus spécialisé, le programme SUMACLEAN a été développé pour détecter les séquences contenant des erreurs ponctuelles de PCR. Pour cela, des graphes orientés acycliques sont générés, dont la topologie correspond parfaitement aux cascades d'erreurs générées par les erreurs ponctuelles de PCR. Par ailleurs, une réflexion a été menée pour le développement d'une nouvelle approche de classification supervisée pour l'assignation taxinomique des séquences. Aujourd'hui, la plupart des approches d'assignation utilisent des méthodes mal adaptées au polymorphisme important des marqueurs, et ne considèrent pas suffisamment l'incomplétude et les erreurs inhérentes aux bases de données de référence. Une nouvelle approche a été testée, basée sur l'idée d'un départ depuis la racine de l'arbre taxinomique, suivi d'une descente jusqu'à un arrêt possible lorsque descendre à un niveau taxinomique plus précis semble irraisonnable. Cela permettrait en théorie de mieux gérer les problèmes inhérents aux bases de données de référence, mais pose le problème de la représentation des séquences aux différents niveaux de l'arbre, et du modèle de choix du chemin à prendre, pour lesquels aucune solution complètement satisfaisante n'a été trouvée à ce jour. / This thesis positions itself in the context of the processing of high-throughput sequencing data, and specifically DNA metabarcoding data. DNA metabarcoding consists of the identification of taxa or taxonomic groups from DNA extracted from environmental samples (water, soil, animal feces). After extraction of the DNA, short sequences used as taxonomic markers are amplified by PCR, then sequenced using high-throughput sequencing technologies. Important volumes of data are produced that way, usually from several thousands to several hundreds of thousands sequences per sample. This thesis aimed for the development of methods for the analysis of these sequences. Classification methods allow the treatment of numerous problems in DNA metabarcoding. Supervised classification is used for the taxonomic assignment of sequences to taxa, by comparing them to the sequences of a reference database. Unsupervised classification methods are used to create taxonomic groups (MOTUs) from the sequences, in order to estimate biodiversity. They are also used to identify the erroneous sequences generated during the PCR and sequencing steps in particular, where erroneous sequences often derive from true sequences and remain very close to them. Classification approaches used in the context of DNA metabarcoding necessitate a sequence comparison method that should be both fast and exact. Such a method was developed, using a Needleman-Wunsch type global alignment algorithm computing the length of the longest common subsequence between the two sequences being aligned, associated with a lossless filter allowing to avoid the alignment of some pairs of sequences that have no chance to present a similarity superior to a chosen threshold. The use of Single Instruction, Multiple Data instructions, as well as the availability of multithreading speed up the calculations. This comparison method is implanted in SUMATRA, a program computing all the pairwise similarities of a dataset or between two datasets, with the possibility to set a threshold under which similarities are ignored. It is also used in SUMACLUST, a program grouping sequences using a star clustering algorithm, where each cluster possesses a representative sequence. This algorithm can be used to generate MOTUs, or to identify erroneous sequences deriving from true sequences, by using the fact that true sequences tend to end up as the representative sequences of their cluster. More specialized, the SUMACLEAN program was developed to identify sequences containing ponctual PCR errors. To that end, directed acyclic graphs are created, whose topology matches perfectly the successions of errors generated by ponctual errors during PCR. A new approach for the taxonomic assignment of sequences with a supervised classification method was also studied. Nowadays, most taxononomic assignment approaches use methods that are badly suited for the important polymorphism of markers, and don't take in account enough the incompleteness and errors inherent to reference databases. A new approach was tested, based on the idea of a start from the root of the taxonomic tree, and a descent in it with a possible stop before reaching a leaf, if descending to a more precise taxonomic level seems unreasonable. This approach would theoretically allow for a better handling of the problems inherent to reference databases, but poses a few issues, such as the representation of sequences at intermediate tree levels, and the model used to make choices regarding the path to take in the tree, for which no satisfying solutions have been found yet. Barcoding ADN Metabarcoding ADN Écologie Bioinformatique DNA barcoding DNA metabarcoding Ecology Bioinformatics 570
2	Contribution à l'étude des Psychodopygina d'Equateur (Diptera, Psychodidae, Phlebotominae) : Biologie et systématique. / Molecular systematics and Biology of Psychodopygina (Diptera, Psychodidae, Phlebotominae) from Ecuador. Zapata, Sonia 09 July 2012 (has links) Des prospections réalisées en Equateur (Amazonie et côte pacifique) ont permis la collecte d'un matériel entomologique abondant et diversifié, notamment chez les Psychodopygina. Nos travaux ont permis de réaliser plusieurs travaux de systématique, essentiellement moléculaire. Afin de tester les hypothèses phylogénétiques développées par Galati (2010), nous avons conduit une étude de phylogénie moléculaire chez les Psychodopygina. Basée sur les séquences des domaines D1, C2 et D2 de l'ADNr 28S et sur celles d'une partie du cytochrome b de l'ADNmt, elle inclut 49 espèces représentant les sept genres de la sous tribu et la majorité des sous-genres et séries. Les marqueurs ribosomiques sont mieux adaptés à la problématique que le marqueur mitochondrial. Le genre Psychodopygus est monophylétique. En raison du positionnement de Ny. richardwardi parmi les Trichophoromyia, nous concluons à la paraphylie des genres Nyssomyia et Trichophoromyia. Le genre Psathyromyia est également paraphylétique, tout comme le genre Martinsmyia. Le genre Bichromomyia serait le groupe frère du genre Psychodopygus et la validité du genre Vianniamyia, inclus dans le genre Psathyromyia doit être discutée. Des phylogénies moléculaires plus terminales ont été réalisées par comparaison de séquences de l'ITS2, de l'EF-1α et du cytochrome b.Chez les Psychodopygus de la série Guyanensis, une étude moléculaire couplée à une étude morphologique et morphométrique de morphotypes différents chez Ps. geniculatus, en sympatrie avec Ps. corossoniensis et Ps. luisleoni nous a conduit à décrire une espèce nouvelle pour la science : Ps. francoisleponti.Chez Pa. aragaoi, notre étude pilote basée sur l'analyse de morphotypes différents allopatriques et sympatriques renforce l'hypothèse de l'existence probable d'un complexe d'espèces chez ce taxon. Chez Ny. trapidoi, les analyses moléculaires et enzymatiques conduites sur des exemplaires clairs et foncés ne supportent pas la mise en évidence de deux populations comme cela avait été auparavant démontré. Nos approches épidémiologiques ont permis de mettre en évidence l'ADN d'Endotrypanum monterogeii chez plusieurs exemplaires de Ny. trapidoi. Si aucun phlebovirus n'a été détecté dans les échantillons étudiés, nous rapportons la présence d'un flavivirus chez Pa. abonnenci. Mots-clés: Psychodopygina, Equateur, ADN ribosomique, ADN mitochondrial, phylogénie, Endotrypanum. / Most Ecuadorian sand flies studied so far belong to Psychodopygina sub tribe and the present research uses morphometric and modern molecular techniques to answer many some questions regarding this taxon in Ecuador. We present phenetic and phylogenetic analyses based on the sequences of the domains D1, C2 and D2 of the 28S rDNA and cytochrome b mtDNA were used to test the classification of Psychodopygina sub tribe proposed by Galati (2010). Our study includes 49 species representing the seven genera included in the sub tribe and its main subgenera and series. The results support the monophyly of the genus Psychodopygus. The genera Psathyromyia, Nyssomyia and Trichophoromyia are paraphyletic. Bichromomyia is the sister group of Psychodopygus and the validity of the genus Viannamyia is doubtful because it is included inside the Psathyromyia genus. Our data strongly suggest the presence of two populations within Ps. geniculatus and the lack of intermediate forms between these two morphotypes incited us to describe a new sympatric species, Psychodopygus francoisleponti.We also carried out a pilot study based on the analysis of different allopatric and sympatric morphotypes of Pa. aragaoi which suggested the existence of a possible complex of species in this taxa.Finally, we analyzed of mitochondrial gene sequences and isoenzymes from Ny. trapidoi collecte from Ecuador and our result did not support the existence of two sibling species within as previously reported in the literature. From an epidemiological point of view, we emphasize the probable vectorial role of Nyssomyia trapidoi for Endotrypanum monterogeii. Moreover, no phlebovirus was detected in the processed sand flies whereas a flavivirus has been found in a pool of Psathyromyia. abonnenci females.Key words: Psychodopygina, Ecuador, ribosomal DNA, mitochondrial DNA, phylogeny, Endotrypanum. Psychodopygina Morphologie Systématique moléculaire ADN ribosomique Barcoding ADN ADN mitochondrial Psychodopygina Morphology Molecular systematics Ribosomal DNA DNA barcoding Ecuador.

Search results

Développements méthodologiques autour de l'analyse des données de metabarcoding ADN / Methodological developments surrounding the analysis of DNA metabarcoding data.

Contribution à l'étude des Psychodopygina d'Equateur (Diptera, Psychodidae, Phlebotominae) : Biologie et systématique. / Molecular systematics and Biology of Psychodopygina (Diptera, Psychodidae, Phlebotominae) from Ecuador.