Cette thèse s'intéresse à la conception et le développement des techniques de bioinfor- matique qui peuvent faciliter l'utilisation de l'approche metabarcoding pour mesurer la diversité d'espèces. Le metabarcoding peut être utilisé avec le séquencage haut débit pour l'identification d'espèces multiples à partir d'un seul échantillon environnemental. La véritable force du metabarcoding réside dans l'utilisation de barcode marqueurs choisi pour une étude particulière et l'identification d'espèces ou des taxons peut être réalisé avec des marqueurs soigneusement conçu. Avec l'avancement des techniques haut débit de séquençage, une énorme quantité des données de séquences est produit qui contient un nombres substantiel des mutations. Ces mutations posent un grand problème pour les estimations correctes de la biodiversité et pour le d'assignation de taxon. Les trois problèmes majeurs dans le domaine de la bioinformatique que j'ai abordés dans cette thèse sont: i) évaluer la qualité d'une barcode marker , ii) concevoir des nouveaux région barcode et iii) d'analyser les données de séquençage pour traiter les erreurs et éliminer le bruit en séquences. Pour évaluer la qualité d'un barcode marker, on a développé deux mesures quantita- tive,formelle: la couverture (Bc) et la spécificité (Bs). La couverture donne une mesure de universalité d'une pairs de primer pour amplifier un large nombre de taxa, alors que la spécificité donne une mesure de capacité à discriminer entre les différents taxons. Ces mesures sont très utiles pour le classement des barcode marker et pour sélectionner les meilleurs markers. Pour trouver des nouveaux région barcode notamment pour les applications metabarcod- ing, j'ai développé un logiciel, ecoPrimers3. Basé sur ces deux mesures de qualité et de l'information taxinomique intégré, ecoPrimers nous permet de concevoir barcode markers pour n'importe quel niveau taxonomique . En plus, avec un grand nombre de paramètres réglables il nous permet de contrôler les propriétés des amorces. Enfin, grâce a des algorithmes efficaces et programmé en langage C, ecoPrimers est suffisamment efficace pour traiter des grosses bases de données, y compris génomes bactériens entièrement séquencés. Enfin pour traiter des erreurs présentes dans les données de séquencage , nous avons analysé un ensemble simple d'échantillons de PCR obtenus à partir de l'analyse du régime alimentaire de Snow Leopard. En mesurant les corrélations entre les différents paramètres des erreurs, nous avons observé que la plupart des erreurs sont produites pendant l'amplification par PCR. Pour détecter ces erreurs, nous avons développé un algorithme utilisant les graphes, qui peuvent différencier les vrai séquences des erreurs induites par PCR. Les résultats obtenus à partir de cet algorithme a montré que les données de-bruitée a donnent une estimation réaliste de la diversité des espèces étudiées dans les Alpes françaises. / This thesis is concerned with the design and development of bioinformatics techniques that can facilitate the use of metabarcoding approach for measuring species diversity. Metabarcoding coupled with next generation sequencing techniques have a strong po- tential for multiple species identification from a single environmental sample. The real strength of metabarcoding resides in the use of barcode markers chosen for a particular study. The identification at species or higher level taxa can be achieved with carefully designed barcode markers. Moreover with the advent of high throughput sequencing techniques huge amount of sequence data is being produced that contains a substantial level of mutations. These mutations pose a problem for the correct estimates of biodi- versity and for the taxon assignation process. Thus the three major challenges that we addressed in this thesis are: evaluating the quality of a barcode region, designing new barcodes and dealing with errors occurring during different steps of an experiment. To assess the quality of a barcode region we have developed two formal quantitative mea- sures called barcode coverage (Bc) and barcode specificity (Bs). Barcode coverage is concerned with the property of a barcode to amplify a broad range of taxa, whereas barcode specificity deals with its ability to discriminate between different taxa. These measures are extremely useful especially for ranking different barcodes and selecting the best markers. To deal with the challenge of designing new barcodes for metabarcoding applications we have developed an efficient software called ecoPrimers. Based on the above two quality measures and with integrated taxonomic information, ecoPrimers1 enables us to design primers and their corresponding barcode markers for any taxonomic level. Moreover with a large number of tunable parameters it allows us to control the properties of primers. Finally, based on efficient algorithms and implemented in C language, ecoPrimers is efficient enough to deal with large data bases including fully sequenced bacterial genomes. Finally to deal with errors present in DNA sequence data, we have analyzed a simple set of PCR samples obtained from the diet analysis of snow leopard. We grouped closely related sequences and by measuring the correlation between different parameters of mutations, we have shown that most of the errors were introduced during PCR amplification. In order to deal with such errors, we have further developed an algorithm using graphs approach, that can differentiate true sequences from PCR induced errors. The results obtained from this algorithm showed that de-noised data gave a realistic estimate of species diversity studied in French Alpes. This algorithm is implemented in program obiclean.
Identifer | oai:union.ndltd.org:theses.fr/2011GRENV076 |
Date | 23 November 2011 |
Creators | Riaz, Tiayyba |
Contributors | Grenoble, Coissac, Éric |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | French |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text |
Page generated in 0.0029 seconds