Global ETD Search

21	Génomique en temps réel appliquée aux isolats bactériens cliniques atypiques / Real-time genomics applied to atypical clinical bacterial isolates Beye, Mamadou 24 November 2017 (has links) Le diagnostic, la caractérisation et l'identification rapides et précis des agents pathogènes sont essentiels pour guider le traitement, détecter les événements de transmission ou les échecs de traitement. Cependant le monde biomédical est confronté à des pathogènes émergents et ré-émergents. Ainsi certaines souches bactériennes cliniques présentent des spécificités de virulence, contagiosité et/ou de résistance aux antibiotiques. Le séquençage génomique à haut débit et l’analyse comparative des génomes bactériens constituent une bonne stratégie pour étudier rapidement les caractéristiques de ces pathogènes émergents. En à peine un peu plus de 20 ans, la génomique a connu un développement considérable grâce aux nouvelles technologies de séquençage à haut débit et à l’intérêt des scientifiques, qui ont permis l’augmentation exponentielle du nombre de génomes bactériens séquencés et disponibles dans les bases de données publiques. La génomique en temps-réel consiste en une analyse rapide du génome d’une souche bactérienne clinique pour identifier les déterminants génétiques de ses caractéristiques phénotypiques inhabituelles. C’est ainsi que les objectifs de ce projet de thèse étaient : d’exploiter rapidement les données de séquençage de génomes complets pour déterminer les répertoires de résistance et de virulence ; de comparer les génomes provenant des bactéries cliniques atypiques à ceux d’autres bactéries des mêmes espèces pour identifier leurs caractéristiques spécifiques ; d’utiliser les génomes comme outil taxonomique pour décrire rapidement les nouvelles espèces bactériennes isolées dans le laboratoire par culturomique. / Rapid and accurate diagnosis, characterization and identification of pathogens are essential to guide treatment and detect transmission events or treatments failures. However, the biomedical field is confronted with emerging and re-emerging pathogens. Some of these clinical bacterial strains exhibit specificities concerning the virulence, contagiousness and / or resistance to antibiotics. High-throughput sequencing and comparative analysis of bacterial genomes is a reliable strategy enabling the rapid study of the characteristics of these emerging pathogens. In a short period, not exceeding 20 years, genomics has known a considerable revolution. In effect the introduction of the new high-throughput sequencingtechnologies and the increased concern of the scientist into this field, led to an exponential increase of number of available sequenced bacterial genomes in public databases. Real-time genomics is a strategy consisting on rapid analysis of the genome of a clinical bacterial strain in order to identify the genetic determinants justifying its unusual phenotypic characteristics. Thus, the objectives of this thesis project were: to rapidly exploit whole-genome sequencing data for identification of the virulence or resistance repertoire; to compare genomes from atypical clinical bacteria to those of other bacteria of the same species in order to identify their specific features; to use genomes as a taxonomic tool to rapidly describe the new bacterial species isolated in the laboratory by culturomics approach. Génomique Séquençage à haut débit Microbiologie Analyse bio-Informatique Virulence Résistance aux antibiotiques Genomics High-Throughput sequencing Microbiology Bio-Informatics analysis Virulence Antibiotics resistance
22	Décryptage des réseaux d'interactions plante-champignon pour une meilleure gestion des subéraies méditerranéennes / Deciphring of plant-fungus interactions networks for better Management of Mediterranean cork oak Maghnia, Fatima-Zahra 19 July 2017 (has links) Le chêne-liège (Quercus suber) est une essence forestière d’une grande importance écologique et socio-économique pour les habitants de Méditerranée. Cependant, au cours des dernières décennies, ces subéraies et particulièrement les subéraies marocaines ont été soumises à de fortes contraintes climatiques, environnementales et humaines entrainant une accélération des processus de dégradation. La conservation de ces écosystèmes est fortement dépendante de notre capacité à prédire les changements induits par ces différentes pressions ainsi que du développement d’approches durables pour leur réhabilitation. Dans ce contexte, l’identification d’indicateurs biologiques de l’état de santé des subéraies et l'intensification des processus de facilitation entre plantes (arbres/arbustes) apparaissent comme des stratégies écologiques prometteuses. Le succès de ces approches est cependant assujetti à notre compréhension des interactions entre les communautés végétales et les champignons du sol, notamment les champignons mycorhiziens, éléments clés du fonctionnement des écosystèmes forestiers. Ce travail a visé le décryptage des réseaux fongiques, notamment mycorhiziens associés au chêne-liège et la végétation du sous-bois dans trois subéraies marocaines (Maâmora, Benslimane, Chefchaoun) caractérisées par différents niveaux de dégradation. La diversité fongique associée aux racines du chêne-liège et à plusieurs plantes arbustives représentatives des subéraies (Cistus salviifolius, Cistus monpeliensis et Lavandula stoechas) a été étudiée en combinant les méthodes traditionnelles basées sur l’aspect morphologique des mycorhizes et les nouvelles technologies de séquençage haut-débit par identification moléculaire des communautés fongiques.Les résultats obtenus représentent la plus vaste enquête de la diversité fongique du sol, notamment mycorhizienne, au sein des subéraies marocaines. Différents niveaux de structuration des communautés de champignons du sol ont été révélés, fonction de l’habitat, du type de plantes et de l'état de dégradation. Une large gamme d’indicateurs fongiques de l’état de dégradation de la subéraie, en lien avec la plantes hôte, ont pu être mise en évidence au sein des différents habitats, soulignant l’importance de plusieurs champignons ectomycorhiziens (notamment Cenococcum, Russula, Terfezia et Tomentella) mais aussi des champignons mycorhiziens éricoïdes (Cladophialophora, Oidiodendron) et à arbuscules (Rhizophagus, Redeckera, Racocetra, Paraglomus). Ce travail a permis d’établir une base de données majeure sur l’écologie des champignons du sol dans les subéraies marocaines, et de proposer un nouvel éclairage sur leur potentiel pour le suivi de l’état de santé des subéraies, ainsi que pour la mise en place de programmes de conservation adaptés tenant compte aussi des champignons associés. L’application des approches proposées à une plus large diversité d’écosystèmes forestiers devrait constituer un atout important pour la meilleure compréhension du fonctionnement biologique des écosystèmes forestiers et leur sauvegarde face à l’aggravation des pressions humaines et climatiques au niveau mondial. / The Cork oak (Quercus suber) forests play an important role in terms of ecological services and socio-economic development for the Mediterranean populations. However, the cork oak forests, notably in the Southern Mediterranean basin are highly threatened by increasing human and climate pressures, which accelerates desertication. The conservation of this ecosytem is strongly dependent of our ability to predict the environmental changes induced by these pressures as well as to develop sustainable approach for their restoration. In this context, the identification of biological indicators of cork oak health and the intensification of plant-plant facilitation processes appears as promisising ecological strategies. Their success is however subjected to our understanding of plant-fungal interactions, notably with fungal mycorrhiza, key factors of forest ecosystem functionning. The current work aimed at deciphering plant-fungal networks, notably mycorrhizal networks with cork oak and its understory shrub vegetation in three Moroccan cork oak habitats (Maâmora, Benslimane, Chefchaoun) characterized by different degradation levels. The root-fungal diversity associated to cork oak and major components of its understory shrub vegetation (Cistus salviifolius, Cistus monpeliensis et Lavandula stoechas) has been analysed by combining traditional methods based on morphological identification, and new generation high- throughput DNA sequencing methods to characterize communities at the molecular level.The study represents the most extensive survey of soil fungal diversity, notably mycorrhizal diversity, in Moroccan cork oak ecosystems. Different fungal community structures were revealed, depending on habitat, plant host type, and degradation forest status. A wide range of fungal indicators of plant type × forest status has been identified, highlighting the importance of several ectomycorrhizal fungi (notably Cenococcum, Russula, Terfezia and Tomentella) as well as ericoid mycorrhizal fungi (Cladophialophora, Oidiodendron) and arbuscular mycorrhizal fungi (Rhizophagus, Redeckera, Racocetra, and Paraglomus). The current work provides an extensive database on the ecology of soil fungi related to the Moroccan cork oak forest, offers new insights into the potential of soil fungi for monitoring the health of the cork oak forest, and for the developement of efficient conservation programs of this ecosystem by taking into account the soil fungal communties associated. The use of proposed appoaches to a larger diversity of forest ecosystems are promising to better understand the biological fonctionning of forest ecosystem and their conservation in response to the worsening of worldwide human and climate pressures. Subéraie Communautés Champignons mycorhiziens Indicateur biologique Dégradation Cork-Oak forest Community Mycorrhizal fungi Biological indicator Degradation New generation DNA sequencing
23	La méthylation de l'ADN est altérée dans les cellules nasales et sanguines des patients atteints de mucoviscidose / DNA Methylation is altered in cystic fibrosis nasal epithelial and blood cells Magalhaes, Milena 23 September 2016 (has links) La mucoviscidose (CF) est la maladie génétique récessive létale la plus fréquente dans la population caucasienne. Elle est caractérisée par une obstruction et des infections des voies respiratoires et une inflammation chronique. La morbidité et la mortalité sont principalement dues à l'atteinte pulmonaire, qui est variable chez les patients, même lorsqu’ils sont porteurs du même génotype. Les facteurs responsables sont multiples : les mutations dans CFTR (le gène responsable de la maladie), les gènes modificateurs, mais aussi les facteurs environnementaux et les modifications épigénétiques. L'objectif principal de ce projet était de déterminer s'il y avait une corrélation entre la méthylation de l'ADN et la sévérité de l'atteinte pulmonaire chez les patients CF. Nous avons obtenu la cohorte METHYLCF (49 patients CF p.Phe508del homozygotes et 24 témoins sains) ainsi qu’une biobanque d'ADN à partir de sang total et de cellules épithéliales nasales (NEC). Les patients CF ont été stratifiés en fonction de leur VEMS, ajusté à l’âge. D’une part, nous avons analysé la méthylation de l'ADN dans CFTR plus 13 gènes modificateurs en utilisant la méthode de conversion au bisulfite et séquençage de nouvelle génération (plateforme 454 Roche). D’autre part, nous avons réalisé une analyse pan-génomique de la méthylation de l'ADN avec la plateforme 450k BeadChip (Illumina). Les sites différentiellement méthylés (DMS) sélectionnés ont été validés par pyroséquençage (PyroMark Q24, Qiagen). Deux gènes modificateurs ont été identifiés comme différentiellement méthylés chez les patients CF par rapport aux témoins: EDNRA dans le sang et HMOX1 dans le sang et dans les NEC. De façon intéressante, dans les NEC, la méthylation de EDNRA, HMOX1 et GSTM3 a été corrélée avec la sévérité de l’atteinte pulmonaire. De plus, de faibles niveaux de méthylation d'ADN dans GSTM3 ont été associés à la présence de l'allèle GSTM3B, un polymorphisme de séquence qui a un effet protecteur chez les patients CF. Grâce à l'analyse tout-génome, nous avons identifié 1267 DMS, associés à 638 gènes, chez les patients CF par rapport aux témoins, et 187 DMS, associés à 116 gènes, chez les patients CF sévères par rapport aux modérés. Parmi ces gènes, il y a de nombreux gènes importants pour l’adhésion cellulaire et les réponses immunitaire et inflammatoire. Les DMS identifiés sont enrichis dans des régions prédites comme enhancers, pouvant représenter des séquences régulatrices, mais également en régions intergéniques. De façon intéressante, 80 gènes différentiellement méthylés sur 638 étaient différentiellement exprimés (méta-analyse de données transcriptomiques disponibles). Six sur neuf DMS sélectionnés ont été validés et cinq DMS sur six ont été répliqués dans une population indépendante. De plus, 23 DMS, dont 10 intergéniques, étaient corrélés avec le VEMS. Notre étude a montré que la méthylation de l'ADN est profondément modifiée dans le sang et dans les NEC des patients CF. Des faibles changements de méthylation de l'ADN ont été observés dans des gènes modificateurs connus ; des changements de méthylation plus importants ont été observés dans d'autres gènes qui pourraient représenter de nouveaux modificateurs de la fonction pulmonaire. Ensemble, ces gènes pourraient moduler la sévérité de l’atteinte pulmonaire chez les patients CF. / Cystic fibrosis (CF) is the most common life-threatening recessive genetic disease in the Caucasian population. It is characterized by airway obstruction, respiratory infection and inflammation. Morbidity and mortality are mainly due to lung disease, which is variable among CF patients, even for those having the same genotype. Contributing factors are mutations in CFTR (the disease-causing gene), modifier genes, but also environmental factors and epigenetics. The main goal of this project was to determine whether there was a correlation between DNA methylation and the severity of CF lung disease. We built the METHYLCF cohort (49 p.Phe508del homozygous CF patients and 24 healthy controls) and a DNA biobank from whole blood and nasal epithelial cells (NEC). CF patients were stratified accordion to their FEV1% predicted, adjusted to age. We profiled DNA methylation at 14 modifier genes using bisulfite conversion and next-generation sequencing (454 Roche). Genome-wide DNA methylation was analyzed with the 450K Beadchip (Illumina). Selected differentially methylated sites (DMS) were validated by pyrosequencing. Using the candidate modifier gene approach, we showed that two CF modifier genes were differentially methylated in CF patients compared to controls: EDNRA in blood and HMOX1 in blood and NEC. Methylation of EDNRA, HMOX1 and GSTM3 was associated with lung disease severity in NEC. Interestingly, low DNA methylation levels at GSTM3 were associated with the GSTM3B allele, a polymorphic 3-bp deletion that has a protective effect on CF patients. In addition, through the genome-wide analysis, we identified 1267 DMS, associated with 638 genes, between CF patients and controls and 187 DMS, associated with 116 genes, between severe CF and mild CF patients. DMS were enriched at predicted enhancers, which may represent regulatory sequences, and also at intergenic regions. Gene ontology analyses highlighted cellular processes relevant to CF, i.e. cell adhesion and inflammatory and immune response. Interestingly, 80 out of 638 differentially methylated genes were differentially expressed in publicly available NEC transcriptomic data. Six out of 9 selected DMS were validated and five out of six DMS were replicated in an independent set of patients. Additionally, 23 DMS, 10 of which were intergenic, correlated with FEV1% predicted. Our study has shown that DNA methylation is altered in blood and NEC of CF patients. Small DNA methylation changes were observed at known CF modifier genes; more dramatic DNA methylation changes were found at other genes that may impact lung function. Collectively, these epigenomic variations may lead to different degrees of lung disease severity in CF patients. Mucoviscidose Épigénétique Méthylation ADN Cftr Gènes modificateurs Séquençage à haut débit Cystic fibrosis Epigenetics DNA methylation Cftr Modifier genes Next generation sequencing
24	Identification et caractérisation de virus aviaires par des approches de séquençage à haut débit / Identification and characterisation of avian viruses using high throughput sequencing Liais, Etienne 02 December 2014 (has links) En médecine humaine et vétérinaire, les agents pathogènes représentent la cause de mortalité principale à travers la planète. Les méthodes de diagnostic de ces pathogènes ont considérablement changé et évolué particulièrement depuis l’apparition du séquençage haut débit. Les nouvelles méthodes de séquençage massif ont considérablement diminué le prix d’une séquence permettant de rendre accessible cette technologie révolutionnaire. Dans le cadre de mes travaux de thèse, nous avons mis en place un protocole pour l’utilisation du séquençage Illumina® (avec le séquenceur MiSeq) comme méthode de diagnostic lors de différents cas pathologiques aviaires. L’utilisation de cette méthode nous a permis dans un premier temps d’identifier l’agent étiologique de la maladie foudroyante de la pintade. Cette étude nous a permis de valider l’utilisation de ce genre de méthode pour des cas ciblés, ici lors d’un épisode clinique particulier n’impliquant vraisemblablement qu’un seul candidat pathogène. Ce nouveau coronavirus a fait l’objet d’études complémentaires afin de le caractériser. Nous avons élargis les cibles recherchées en analysant dans un deuxième temps l’ensemble des virus ARN chez le canard lors d’épisodes cliniques respiratoires et/ou de chute de ponte. L’analyse des données a mis en évidence une importante diversité virale et a permis d’identifier des candidats responsables potentiels. L’ensemble des résultats obtenus nous permet de valider l’utilisation du séquençage à haut débit comme un outil puissant de diagnostic. / Infectious diseases are considered the most prevalent cause of mortality in humans as well as other animals worldwide. Since the advent of high throughput sequencing technologies, diagnostic methods for these conditions have quickly changed and evolved, as the continuously decreasing cost of mass sequencing is making this tool available to larger numbers of people. As part of my thesis project, an Illumina®-based sequencing method (on a MiSeq machine) was designed for diagnostic purposes in clinical cases in poultry. We first used this method to identify the causative agent of the fulminating disease of guinea fowl. This validated the use of our protocol to identify the pathogenic infectious agent behind a specific condition. This newly identified Coronavirus was further analysed and characterised. In a second study we used an unbiased mass sequencing approach to describe the RNA virus populations present in the duck respiratory tract during clinical episodes (respiratory illness or egg drops). Data showed an important viral diversity and we identified some candidate pathogens. Taken together, these results validate the use of high throughput sequencing as a powerful diagnostic tool. Séquençage à haut débit Outil de diagnostic Pathologie aviaire Coronavirus Métapneumovirus Bio-Informatique High throughput sequencing Diagnostic tools Avian pathology Coronavirus Metapneumovirus Bioinformatics
25	Identification de nouvelles bases moléculaires des cancers précoces par séquençage à haut débit. / Identification of new molecular basis of early-onset cancers by means of high-throughput sequencing Fermey, Pierre 13 December 2017 (has links) Une des plus grandes avancées en cancérologie et en génétique au cours des vingt dernières années fût l'identification des formes héréditaires de cancer et des gènes deprédisposition impliqués. Chez une majorité de patients soupçonnés de présenter une formehéréditaire de cancer, les analyses centrées sur les gènes connus pour être impliqués dansles prédispositions mendéliennes au cancer restent bien souvent négatives. Aujourd'hui,grâce à l'émergence du séquençage à haut-débit (NGS), il est possible de séquencerl'ensemble des exons (exome) d'un individu ou plusieurs centaines de gènes dans un lapsde temps court et à des coûts raisonnables. Dans ce contexte, nous avons appliqué plusieurs stratégies basées sur ces nouveaux outils, avec l'objectif d'identifier de nouvellesbases moléculaires des cancers héréditaires à survenue précoce. Tout d’abord, nous avons employé une stratégie d'analyse exomique intrafamiliale dans une famille atypique présentant des chondrosarcomes de localisation thoracique pour lesquels aucune base moléculaire n'avait pu être mise en évidence. Grâce à cette stratégie, nous avons pu identifier une altération tronquante du gène EXT2 (NM_000401.3; c.237G>A; p.Trp79). Les altérations perte de fonction documentées pour ce gène sont impliquées dans la maladie des ostéochondromes multiples (OM), des tumeurs bénignes. Or, dans cette famille, aucun signe clinique d'OM n'était présent. Ces travaux nous ont donc permis d'étendre le spectre phénotypique des mutations EXT2 et de modifier la prise en charge clinique de cette famille. Nous avons ensuite employé une stratégie d'analyse exomique soustractive de trio enfant malade / parents sains dans le but d’identifier des mutations de novo potentiellement responsables de la prédisposition génétique au cancer observée chez un jeune patient ayant développé un médulloblastome du cervelet à l’âge de 8 ans, suivi d’un méningiome à 22 ans. L’analyse exomique du trio a révélé l’existence chez ce patient d'une mutation de novo faux-sens affectant un acide aminé très conservé de la protéine HID-1. Cette dernière est particulièrement exprimée dans les cellules neuronales et sécrétrices, et semble fonctionner autour de l’appareil de Golgi pour réguler le tri des vésiculesnouvellement formées. Ainsi, notre hypothèse est qu’un défaut de la protéine HID-1, lié à une mutation du gène HID-1, perturberait la voie de sécrétion et participerait à la genèse du médulloblastome. Ces travaux, toujours en cours, démontrent à la fois la force de la stratégie exomique de trio pour identifier rapidement des mutations de novo et illustre toute la difficultéd'interprétation des variants détectés dans des gènes non impliqués dans le cancer. Par ailleurs, nous avons appliqué une stratégie exomique soustractive et interfamiliale à une cohorte de dix patients ayant développé un corticosurrénalome à un âge très précoce et pour lesquels aucune base moléculaire n'a pu être mise en évidence. Malheureusement, nous n'avons pas pu identifier de nouvelles bases moléculaires du corticosurrénalome de l'enfant par ces techniques. Enfin, sous l'hypothèse que des mutations rares ou privées dans un nombre limité de gènes impliqués dans le cancer contribueraient à des formes héréditaires de cancer, nous avons entrepris un projet visant à séquencer à haut débit 201 gènes fortement impliqués dans le cancer chez des patients ayant développé des tumeurs à un âge pédiatrique. Les premiers résultats de ce projet toujours en cours ont permis de confirmer la robustesse de cette technique et suggèrent une extension phénotypique du spectre des mutations DICER1 ainsi qu'une contribution oligogénique des gènes de réparation de l'ADN dans les tumeurs pédiatriques. L'ensemble de ces résultats seront bientôt compilés au sein d'une base de données et bénéficieront d'une analyse statistique fine avec l'objectif d'identifier des enrichissements en variants rares dans des gènes ou voies biologiques. / One of the greatest advances in oncology and genetics over the past 20 years has been the identification of hereditary forms of cancer and of the cancer genes. Nevertheless, in a majority of patients suspected to present an inherited form of cancer, analyses of the genes known to be involved in the Mendelian predispositions to cancer often remain negative. Today, thanks to the emergence of high-throughput sequencing (NGS), it is now possible to sequence all exons of an individual (exome) or several hundred genes in a short period of time and for a reasonable cost. In this context, we have applied several strategiesbased on these new tools in order to identify new molecular basis of early-onset cancers. First, we applied an intra-familial exome analysis strategy to an atypical family with chondrosarcomas of the chest, for which no molecular basis could be identified. Using this strategy, we were able to identify a truncating alteration of the EXT2 gene NM_000401.3; c.237G> A; p.Trp79 ). The documented loss of function alterations of this gene are implicated in a disease called multiple osteochondromas (OM), associated with benign lesions. Interestingly, these patients showed no clinical signs of OM indicating a potential phenotypic extension of EXT2 mutations. Plus, this work allowed us to change the clinical management of this family. We then used a strategy of subtractive exomic analysis of trio sick child/healthy parents in order to identify de novo mutations in a young patient who developed a medulloblastoma of the cerebellum at 8 years-old followed by a meningioma at 22 years-old. The analysis of the trio revealed the existence of a de novo mutation affecting a highly conserved amino acid of the HID-1 protein. HID-1 is specifically expressed in neuronal and secretory cells, and seems to function around the Golgi apparatus to regulate the sorting of newly formed vesicles. Our hypothesis is that a defect of the HID-1 protein linked to a mutation of the HID-1 gene, could alter the secretory pathway therefore contributing to the development of the tumor. This work, which is still ongoing, demonstrates both the strength of the trio strategy for the rapid identification of de novo mutations and illustrates all the difficulty of interpreting variants detected in genes not yet involved in cancer. Then, thanks to the recruitment of the Laboratory of Molecular Genetics of the CHU of Rouen, we have collected a cohort of 10 patients who developed an adrenocortical carcinoma (ACC) at a very early age and for which no molecular basis could be identified. Despite subtractive and inter-familial exomic analyses, we were unable to highlight new molecular bases for these cases of pediatric ACC. Finally, under the assumption that rare or private mutations in a limited number of genes involved in cancer could contribute to inherited forms of cancer, we undertook a project to sequence 201 genes involved in cancer in patients who developed tumors at a pediatric age. The first results of this project confirmed the robustness of this technique and suggested a phenotypic extension of the DICER1 mutation spectrum as well as an oligogenic contribution of DNA repair genes in pediatric tumors. Soon, these results will be compiled in a database and will benefit from a statistical analysis with the objective to identify enrichment of rare variants in specific genes or biological pathways in these patients compared to control individuals. Séquençage à haut-débit Cancer héréditaire Tumeurs pédiatriques Séquençage de l'exome Séquençage de panels de gènes High-throughput sequencing Hereditary cancer Pediatric tumors Exome sequencing Gene panel sequencing 616.994
26	Algorithme de recherche incrémentale d'un motif dans un ensemble de séquences d'ADN issues de séquençages à haut débit / Algorithms of on-line pattern matching in a set of highly sequences outcoming from next sequencing generation Ben Nsira, Nadia 05 December 2017 (has links) Dans cette thèse, nous nous intéressons au problème de recherche incrémentale de motifs dans des séquences fortement similaires (On-line Pattern Matching on Highly Similar Sequences), issues de technologies de séquençage à haut débit (SHD). Ces séquences ne diffèrent que par de très petites quantités de variations et présentent un niveau de similarité très élevé. Il y a donc un fort besoin d'algorithmes efficaces pour effectuer la recherche rapide de motifs dans de tels ensembles de séquences spécifiques. Nous développons de nouveaux algorithmes pour traiter ce problème. Cette thèse est répartie en cinq parties. Dans la première partie, nous présentons un état de l'art sur les algorithmes les plus connus du problème de recherche de motifs et les index associés. Puis, dans les trois parties suivantes, nous développons trois algorithmes directement dédiés à la recherche incrémentale de motifs dans un ensemble de séquences fortement similaires. Enfin, dans la cinquième partie, nous effectuons une étude expérimentale sur ces algorithmes. Cette étude a montré que nos algorithmes sont efficaces en pratique en terme de temps de calcul / In this thesis, we are interested in the problem of on-line pattern matching in highly similar sequences, On-line Pattern Matching on Highly Similar Sequences, outcoming from Next Generation Sequencing technologies (NGS). These sequences only differ by a very small amount. There is thus a strong need for efficient algorithms for performing fast pattern matching in such specific sets of sequences. We develop new algorithms to process this problem. This thesis is partitioned into five parts. In the first part, we present a state of the art on the most popular algorithms of finding problem and the related indexes. Then, in the three following parts, we develop three algorithms directly dedicated to the on-line search for patterns in a set of highly similar sequences. Finally, in the fifth part, we conduct an experimental study on these algorithms. This study shows that our algorithms are efficient in practice in terms of computation time. Algorithmes Structure d'indexation Recherche incrémentale Séquençage à haut débit Séquences d'ADN Compression selon la référence Complexités Algorithms Indexes On-line search Next generation sequencing DNA sequences Based-reference compression Complexities 005.4
27	Correction de données de séquençage de troisième génération / Error correction of third-generation sequencing data Morisse, Pierre 26 September 2019 (has links) Les objectifs de cette thèse s’inscrivent dans la large problématique du traitement des données issues de séquenceurs à très haut débit, et plus particulièrement des reads longs, issus de séquenceurs de troisième génération.Les aspects abordés dans cette problématiques se concentrent principalement sur la correction des erreurs de séquençage, et sur l’impact de la correction sur la qualité des analyses sous-jacentes, plus particulièrement sur l’assemblage. Dans un premier temps, l’un des objectifs de cette thèse est de permettre d’évaluer et de comparer la qualité de la correction fournie par les différentes méthodes de correction hybride (utilisant des reads courts en complément) et d’auto-correction (se basant uniquement sur l’information contenue dans les reads longs) de l’état de l’art. Une telle évaluation permet d’identifier aisément quelle méthode de correction est la mieux adaptée à un cas donné, notamment en fonction de la complexité du génome étudié, de la profondeur de séquençage, ou du taux d’erreurs des reads. De plus, les développeurs peuvent ainsi identifier les limitations des méthodes existantes, afin de guider leurs travaux et de proposer de nouvelles solutions visant à pallier ces limitations. Un nouvel outil d’évaluation, proposant de nombreuses métriques supplémentaires par rapport au seul outil disponible jusqu’alors, a ainsi été développé. Cet outil, combinant une approche par alignement multiple à une stratégie de segmentation, permet également une réduction considérable du temps nécessaire à l’évaluation. À l’aide de cet outil, un benchmark de l’ensemble des méthodes de correction disponibles est présenté, sur une large variété de jeux de données, de profondeur de séquençage, de taux d’erreurs et de complexité variable, de la bactérie A. baylyi à l’humain. Ce benchmark a notamment permis d’identifier deux importantes limitations des outils existants : les reads affichant des taux d’erreurs supérieurs à 30%, et les reads de longueur supérieure à 50 000 paires de bases. Le deuxième objectif de cette thèse est alors la correction des reads extrêmement bruités. Pour cela, un outil de correction hybride, combinant différentes approches de l’état de l’art, a été développé afin de surmonter les limitations des méthodes existantes. En particulier, cet outil combine une stratégie d’alignement des reads courts sur les reads longs à l’utilisation d’un graphe de de Bruijn, ayant la particularité d’être d’ordre variable. Le graphe est ainsi utilisé afin de relier les reads alignés, et donc de corriger les régions non couvertes des reads longs. Cette méthode permet ainsi de corriger des reads affichant des taux d’erreurs atteignant jusqu’à 44%, tout en permettant un meilleur passage à l’échelle sur de larges génomes et une diminution du temps de traitement, par rapport aux méthodes de l’état de l’art les plus efficaces. Enfin, le troisième objectif de cette thèse est la correction des reads extrêmement longs. Pour cela, un outil utilisant cette fois une approche par auto-correction a été développé, en combinant, de nouveau, différentes méthodologies de l’état de l’art. Plus précisément, une stratégie de calcul des chevauchements entre les reads, puis une double étape de correction, par alignement multiple puis par utilisation de graphes de de Bruijn locaux, sont utilisées ici. Afin de permettre à cette méthode de passer efficacement à l’échelle sur les reads extrêmement longs, la stratégie de segmentation mentionnée précédemment a été généralisée. Cette méthode d’auto-correction permet ainsi de corriger des reads atteignant jusqu’à 340 000 paires de bases, tout en permettant un excellent passage à l’échelle sur des génomes plus complexes, tels que celui de l’humain. / The aims of this thesis are part of the vast problematic of high-throughput sequencing data analysis. More specifically, this thesis deals with long reads from third-generation sequencing technologies. The aspects tackled in this topic mainly focus on error correction, and on its impact on downstream analyses such a de novo assembly. As a first step, one of the objectives of this thesis is to evaluate and compare the quality of the error correction provided by the state-of-the-art tools, whether they employ a hybrid (using complementary short reads) or a self-correction (relying only on the information contained in the long reads sequences) strategy. Such an evaluation allows to easily identify which method is best tailored for a given case, according to the genome complexity, the sequencing depth, or the error rate of the reads. Moreover, developpers can thus identify the limiting factors of the existing methods, in order to guide their work and propose new solutions allowing to overcome these limitations. A new evaluation tool, providing a wide variety of metrics, compared to the only tool previously available, was thus developped. This tool combines a multiple sequence alignment approach and a segmentation strategy, thus allowing to drastically reduce the evaluation runtime. With the help of this tool, we present a benchmark of all the state-of-the-art error correction methods, on various datasets from several organisms, spanning from the A. baylyi bacteria to the human. This benchmark allowed to spot two major limiting factors of the existing tools: the reads displaying error rates above 30%, and the reads reaching more than 50 000 base pairs. The second objective of this thesis is thus the error correction of highly noisy long reads. To this aim, a hybrid error correction tool, combining different strategies from the state-of-the-art, was developped, in order to overcome the limiting factors of existing methods. More precisely, this tool combines a short reads alignmentstrategy to the use of a variable-order de Bruijn graph. This graph is used in order to link the aligned short reads, and thus correct the uncovered regions of the long reads. This method allows to process reads displaying error rates as high as 44%, and scales better to larger genomes, while allowing to reduce the runtime of the error correction, compared to the most efficient state-of-the-art tools.Finally, the third objectif of this thesis is the error correction of extremely long reads. To this aim, aself-correction tool was developed, by combining, once again, different methologies from the state-of-the-art. More precisely, an overlapping strategy, and a two phases error correction process, using multiple sequence alignement and local de Bruijn graphs, are used. In order to allow this method to scale to extremely long reads, the aforementioned segmentation strategy was generalized. This self-correction methods allows to process reads reaching up to 340 000 base pairs, and manages to scale very well to complex organisms such as the human genome. Séquençage à haut débit Correction d'erreurs Assemblage Graphe de de Bruijn Alignement multiple High-throughput sequencing Error correction Assembly De Bruijn graphs Multiple Sequence Alignment 005.6
28	Genetic Susceptibility and Molecular Characterization of Glioma / Susceptibilité génétique et caractérisation moléculaire des gliomes Labreche, Karim 27 June 2018 (has links) Les gliomes constituent les plus fréquentes des tumeurs malignes primaires du système nerveux central. Les liens qui existent entre ces tumeurs et un certain nombre de cancers rares héréditaires, comme les Neurofibromatoses I et II ou les syndromes de Turcot et de Li-Fraumeni, attestent d’une prédisposition génétique aux gliomes. L’observation d’un risque deux fois plus élevé de développer un gliome chez les parents de premier degré de patients atteints suggère aussi une possible prédisposition génétique dans les gliomes sporadiques. Par ailleurs, l’analyse à haut débit permet de préciser le profil somatique des gliomes et d’identifier des biomarqueurs pronostiques voire prédictifs et s’inscrire dans une démarche de traitement personnalisé du patient. Durant ma thèse, je me suis focalisé sur deux axes de recherches complémentaires; l’identification de gènes de susceptibilité et la découverte de nouveaux gènes fréquemment mutés dans les gliomes, afin de déterminer les voies de signalisation contribuant à la gliomagenèse. Dans leur ensemble, les résultats obtenus dans cette thèse apportent non seulement des informations importantes sur la nature de la prédisposition génétique aux gliomes mais également de son association spécifique pour les différents sous-types de tumeurs. La découverte d’un nouveau gène muté, offre la perspective à plus long terme d’un traitement personnalisé pour chaque patient sur la base du profil génétique de sa tumeur. / Gliomas are the most common adult malignant primary tumour of the central nervous system. Thus far, no environmental exposures has been linked to risk except for ionizing radiation, which only accounts for a very small number of cases. Direct evidence for inherited predisposition to glioma is provided by a number of rare inherited cancer syndromes, such as Turcot's and Li–Fraumeni syndromes, and neurofibromatosis. Even collectively, these diseases however account for little of the twofold increased risk of glioma seen in first-degree relatives of glioma patients. My research was centred on two complementary research activities: Identifying susceptibility genes for glioma to delineate key biological pathways contributing to disease pathogenesis and to identify new recurrent mutated genes for glioma to provide for further insights into glial oncogenesis and suggesting targets for novel therapeutic strategies. Collectively the findings in this thesis provide increased insight into the nature of genetic predisposition to glioma and substantiate the often distinct associations between susceptibility variants and glioma molecular groups. In addition the discovery of a new mutated gene in glioma offers the potential to support drug development and advance precision medicine for this tumours. Genomique du Cancer Susceptibilité génétique au cancer Gliomes Étude d'association génomique Séquençage à haut débit Cancer genomics Genetic Susceptibility to Cancer Glioma Genome Wide Association Studies High Throughtput Sequencing
29	Tempo et mode de l'évolution des populations cavernicoles de l'espèce Astyanax mexicanus / Tempo and mode of the Astyanax mexicanus cavefish evolution Fumey, Julien 12 December 2016 (has links) Le poisson Astyanax mexicanus est un modèle particulièrement intéressant pour l'étude de l'évolution. En effet, dans cette espèce de poissons d'eau douce, il existe des populations vivant de façon pérenne dans des grottes. Dans cet environnement, l'obscurité est totale et permanente et les ressources en nourriture souvent faibles. Les poissons cavernicoles se sont adaptés à la vie souterraine et ils présentent de nombreuses modifications phénotypiques comme la dépigmentation, la perte des yeux, l’augmentation du nombre et de la taille d’organes sensoriels non-visuels et plusieurs changements du comportement. Un des problèmes majeurs est de savoir si ces modifications phénotypiques sont dues à des mutations préexistantes à la colonisation de l'environnement cavernicole ou si elles sont apparues après. Pour répondre à cette question, connaître l'âge des populations est un facteur important car dans une population récente, il n'y aura probablement pas eu suffisamment de temps pour l'apparition de beaucoup de mutations et leur fixation. L'objet de cette thèse est donc l'estimation de l'âge d'une population, celle de la grotte Pachón qui est souvent considérée comme étant une des plus anciennes et une des plus isolées. Au cours de ces travaux de thèse, nous avons développé une nouvelle méthode de datation qui repose d’une part sur la caractérisation du polymorphisme nucléotidique à l’intérieur de chaque population et entre populations, et d’autre part la comparaison de ces données avec des simulations de l’évolution du polymorphisme. Les résultats obtenus, ainsi que la réanalyse de données sur le polymorphisme d’haplotypes mitochondriaux et de loci microsatellites précédemment publiées, suggèrent que les populations cavernicoles seraient bien plus récentes qu’habituellement indiqué dans la littérature (quelques milliers d’années, et non plusieurs centaines de milliers d’années). Les conséquences d’un tempo rapide d’évolution sur le mode d’évolution de ces poissons cavernicoles ont aussi été présentées. / The fish Astyanax mexicanus is a particularly suitable model for evolutionary biology studies. Indeed, in this species there are several subterranean populations which live in the total and permanent darkness of cave. These cavefish are well adapted to the life in this inhospitable environment and they show several differences with their surface conspecific such as depigmentation, eye loss and behavioral changes. A major unresolved issue is about the relative role of surface fish standing genetic variation and de novo mutations appeared in cavefish populations after their settlement in caves in their phenotypic evolution. In order to examine this issue, accurate estimations of population ages are very important because many new mutations cannot appear and fix in a recent population. In this thesis we aimed to estimate the age of the Pachón cave population which is considered as one of the oldest and most isolated populations. We developed a new method which is based on measures of the distribution of single nucleotide polymorphism within each population and between populations. Our results, as well as reanalyses of published data about mitochondrial haplotypes and microsatellite loci polymorphism suggest that cavefish populations are much more recent than previously thought (several thousand years and not several hundred thousand years). The consequences of a fast tempo of evolution on the mode of evolution of cavefish are also discussed. Poissons cavernicoles Séquençage à haut débit Transcriptomique comparée Modélisation Datation moléculaire Adaptation Cavefish High troughput sequencing Comparative transcriptomic Modelisation Molecular datation Adaptation
30	Apprentissage d'atlas cellulaires par la méthode de Factorized embeddings Trofimov, Assya 02 1900 (has links) Le corps humain contient plus de 3.72X10^13 cellules qui se distinguent par leur morphologie, fonction et état. Leur catalogage en atlas cellulaires c'est entamé il y a plus de 150 ans, avec l'invention des colorants cellulaires en microscopie. Notre connaissance des types cellulaires et leur phénotypes moléculaires nous permet de connaître et prédire leurs fonctions et patrons d'interactions. Ces connaissances sont à la base de la capacité à poser des diagnostics, créer des médicaments et même faire pousser des organes en biologie synthétique. Surprenamment, notre connaissance est loin d'être complète et c'est pourquoi la caractérisation systématique des cellules et l'assemblage des connaissances en atlas cellulaires est nécessaire. Le développement du séquençage à haut débit a révolutionné la biologie des systèmes et ce type de données est parfait pour la construction d'atlas cellulaires entièrement basés sur les données. Un tel atlas cellulaire contiendra une représentation des cellules par des vecteurs de nombres, où chaque vecteur encode le profil moléculaire capturant des informations biologiques de chaque cellule. Chaque expérience de séquençage d'ARN (RNA-Seq) produit des dizaines de milliers de mesures extrêmement riches en information dont l'analyse demeure non-triviale. Des algorithmes de réduction de dimensionnalité, entre autres, permettent d'extraire des données des patrons importants et encoder les échantillons dans des espaces plus interprétables. De cette manière, les cellules similaires sont groupés sur la base d'une multitude de mesures qu'offre le RNA-Seq. Nous avons donc créé un modèle, le Factorized Embedding (FE), qui permet d'organiser les données de séquençage d'ARN de la sorte. Le modèle apprend simultanément deux espaces d'encodage: un pour les échantillons et l'autre pour les gènes. Nous avons observé qu'une fois entraîné, que ce modèle groupe les échantillons sur la base de leur similarité d'expression génique et permet l'interpolation dans l'espace d'encodage et donc une certaine interprétabilité de l'espace d'encodage. Du côté de l'encodage des gènes, nous avons remarqué que les gènes se regroupaient selon leurs patrons de co-expression ainsi que selon des similarité de fonctions, trouvées via des ontologies de gènes (Gene Ontology, GO). Nous avons ensuite exploré les propriétés d'une modification du modèle FE, baptisée le Transcriptome Latent (TLT, de l'anglais The Latent Transcriptome), où l'encodage des gènes est remplacé par une fonction d'encodage de k-mers provenant de données brutes de RNA-Seq. Cette modification du modèle capture dans son espace d'encodage des séquence à la fois de l'information sur la similarité et l'abondance des séquences ADN. L'espace d'encodage a ainsi permis de détecter des anormalités génomiques tels les translocations, ainsi que des mutations spécifiques au patient, rendant cet espace de représentation utile autant pour la visualisation que pour l'analyse de données. Finalement, la dernière itération explorée dans cette thèse, du modèle FE, baptisée cette fois-ci le TCRome, encode des séquences TCR (récepteurs de cellules T) plutôt que des k-mers, venant du séquençage de répertoires immuns (TCR-Seq). Une irrégularité dans la performance du modèle a mené à une analyse des séquences plus approfondie et à la détection de deux sous-types de TCR. Nous avons analysé les répertoires TCR de plus de 1000 individus et rapportons que le répertoire TCR est composé de deux types de TCR ontogéniquement et fonctionellement distincts. Nous avons découvert des patrons distincts dans les abondances de l'un ou l'autre type, changeant en fonction du sexe, l'âge et dans le cadre de maladies telles chez les sujets portant des mutations dans le gène AIRE et dans le cadre de la maladie du greffon contre l'hôte (GVHD). Ces résultats pointent vers la nécessité d'utiliser des données de séquençage multi-modales pour la construction d'atlas cellulaires, c'est à dire en plus des séquence TCR, des données sur l'expression génique ainsi que des caractérisation moléculaires seront probablement utiles, mais leur intégration sera non-triviale. Le modèle FE (et ses modifications) est un bon candidat pour ce type d'encodage, vu sa flexibilité d'architecture et sa résilience aux données manquantes. / The human body contains over 3.72 x 10^13 cells, that distinguish themselves by their morphology, function and state. Their cataloguing into cell atlases has started over 150 years ago, with the invention of cellular stains for microscopy. Our knowledge of cell types and molecular phenotypes allows is to better know and predict their functions and interaction patterns. This knowledge is at the basis of the ability to diagnose disease, create drugs and even grow organs in synthetic biology. Surprisingly, our knowledge is far from complete and this is why a systematic characterization of cells and the assembly of cell atlases is important. The development of high throughput sequencing has revolutionized systems biology and this type of data is perfect for the construction of entirely data-driven cell atlases. Such an atlas will contain a representation of cells by vectors of numbers, where each vector encodes a molecular profile, capturing biological data about each cell. Each sequencing experiment yields tens of thousands of measurements, extremely rich in information, but their analysis remains non-trivial. Dimensionnality reduction algorithms allow to extract from the data important patterns and encode samples into interpretable spaces. This way, similar cells are grouped on the basis of a multitude of measurements that comes from high throughput sequencing. We have created a model, the Factorized Embedding (FE), that allows to organize RNA sequencing (RNA-Seq) data in such a way. The FE model learns simultaneously two encoding spaces: one for samples and one for genes. We have found that the model groups samples on the basis of similar gene expression and allows for smooth interpolation in the encoding space and thus some manner of interpretability. As for the gene encoding space, we observed that gene coordinates were grouped according to co-expression patterns as well as similarity in function, found via gene ontology (GO). We then explored a modification of the FE model, names The Latent Transcriptome (TLT), where the gene encoding function is replaced by a function encoding k-mers, calculated from raw RNA-Seq data. This modification of the model captured in the k-mer encoding space both sequence similarity and sequence abundance. The encoding space allowed for the detection of genomic abnormalities such as translocations, as well as patient-specific mutations, making the encoding space useful for both visualisation and data analysis. Finally, the last iteration of the FE model that we explored, called TCRome, encodes amino-acid TCR sequences rather than k-mers. An irregularity in the model's performance led us to discover two TCR subtypes, entirely based on their sequence. We have thus analyzed TCR repertoires of over 1000 individuals and report that the TCR repertoire is composed of two ontogenically and functionally distinct types. We have discovered distinct pattens in the abundances of each of the sub-types, changing with age, sex and in the context of some diseases such as in individuals carrying a mutated AIRE gene and in graft versus host disease (GVHD). Collectively, these results point towards the necessity to use multi-modal sequencing data for the construction of cell atlases, namely gene expression data, TCR sequencing data and possibly various molecular characterizations. The integration of all this data will however be non-trivial. The FE model (and its modifications) is a good candidate for this type of data organisation, namely because of its flexibility in architecture and resilience to missing data. séquençage à haut débit apprentissage automatique réseaux de neurones artificiels séquençage de TCR atlas cellulaires high throughput sequencing machine learning artificial neural network TCR sequencing cell atlas

Search results