Spelling suggestions: "subject:"séquençage à haut débit"" "subject:"séquençage à haut ambit""
21 |
Etude génétique du complexe synaptique lié au récepteur NMDA et caractérisation de modèles à complexité variable dans l'autisme / Genetic study of the NMDA receptor associated multi-protein complex in autism : characterization of variable complexity genetic modelsAlirol, Servane 31 March 2015 (has links)
L'autisme est un trouble du développement du système nerveux central défini par des altérations des interactions sociales et de la communication, et par des comportements restreints et répétitifs. Sa prévalence est actuellement évaluée jusqu'à 1% dans la population générale. L'autisme est caractérisé par une grande hétérogénéité sur les plans phénotypiques et génétiques. À ce jour, plus de 300 gènes candidats ont été caractérisés soit par des variations du nombre de copies (CNV) et/ou des variations nucléotidiques (SNV). Leur identification a permis de mettre en évidence une contribution significative de mutation de novo, ainsi que l'implication de voies physiopathologiques cibles, en particulier la densité post-synaptique (PSD). / Autism is a developmental disorder of the central nervous system defined by impairments in social interaction and communication, and by restricted and repetitive behavior. Its prevalence is currently estimated at around 1% in the general population. Autism is characterized by a wide heterogeneity at both phenotypic and genetic level. To date, more than 300 candidate genes were characterized either by copy number variations (CNV) and/or nucleotide variations (SNV). Their identification has highlighted a significant contribution of de novo mutations, as well as the involvement of targeted pathophysiological pathways, particularly post-synaptic density (PSD).
|
22 |
Génomique en temps réel appliquée aux isolats bactériens cliniques atypiques / Real-time genomics applied to atypical clinical bacterial isolatesBeye, Mamadou 24 November 2017 (has links)
Le diagnostic, la caractérisation et l'identification rapides et précis des agents pathogènes sont essentiels pour guider le traitement, détecter les événements de transmission ou les échecs de traitement. Cependant le monde biomédical est confronté à des pathogènes émergents et ré-émergents. Ainsi certaines souches bactériennes cliniques présentent des spécificités de virulence, contagiosité et/ou de résistance aux antibiotiques. Le séquençage génomique à haut débit et l’analyse comparative des génomes bactériens constituent une bonne stratégie pour étudier rapidement les caractéristiques de ces pathogènes émergents. En à peine un peu plus de 20 ans, la génomique a connu un développement considérable grâce aux nouvelles technologies de séquençage à haut débit et à l’intérêt des scientifiques, qui ont permis l’augmentation exponentielle du nombre de génomes bactériens séquencés et disponibles dans les bases de données publiques. La génomique en temps-réel consiste en une analyse rapide du génome d’une souche bactérienne clinique pour identifier les déterminants génétiques de ses caractéristiques phénotypiques inhabituelles. C’est ainsi que les objectifs de ce projet de thèse étaient : d’exploiter rapidement les données de séquençage de génomes complets pour déterminer les répertoires de résistance et de virulence ; de comparer les génomes provenant des bactéries cliniques atypiques à ceux d’autres bactéries des mêmes espèces pour identifier leurs caractéristiques spécifiques ; d’utiliser les génomes comme outil taxonomique pour décrire rapidement les nouvelles espèces bactériennes isolées dans le laboratoire par culturomique. / Rapid and accurate diagnosis, characterization and identification of pathogens are essential to guide treatment and detect transmission events or treatments failures. However, the biomedical field is confronted with emerging and re-emerging pathogens. Some of these clinical bacterial strains exhibit specificities concerning the virulence, contagiousness and / or resistance to antibiotics. High-throughput sequencing and comparative analysis of bacterial genomes is a reliable strategy enabling the rapid study of the characteristics of these emerging pathogens. In a short period, not exceeding 20 years, genomics has known a considerable revolution. In effect the introduction of the new high-throughput sequencingtechnologies and the increased concern of the scientist into this field, led to an exponential increase of number of available sequenced bacterial genomes in public databases. Real-time genomics is a strategy consisting on rapid analysis of the genome of a clinical bacterial strain in order to identify the genetic determinants justifying its unusual phenotypic characteristics. Thus, the objectives of this thesis project were: to rapidly exploit whole-genome sequencing data for identification of the virulence or resistance repertoire; to compare genomes from atypical clinical bacteria to those of other bacteria of the same species in order to identify their specific features; to use genomes as a taxonomic tool to rapidly describe the new bacterial species isolated in the laboratory by culturomics approach.
|
23 |
Décryptage des réseaux d'interactions plante-champignon pour une meilleure gestion des subéraies méditerranéennes / Deciphring of plant-fungus interactions networks for better Management of Mediterranean cork oakMaghnia, Fatima-Zahra 19 July 2017 (has links)
Le chêne-liège (Quercus suber) est une essence forestière d’une grande importance écologique et socio-économique pour les habitants de Méditerranée. Cependant, au cours des dernières décennies, ces subéraies et particulièrement les subéraies marocaines ont été soumises à de fortes contraintes climatiques, environnementales et humaines entrainant une accélération des processus de dégradation. La conservation de ces écosystèmes est fortement dépendante de notre capacité à prédire les changements induits par ces différentes pressions ainsi que du développement d’approches durables pour leur réhabilitation. Dans ce contexte, l’identification d’indicateurs biologiques de l’état de santé des subéraies et l'intensification des processus de facilitation entre plantes (arbres/arbustes) apparaissent comme des stratégies écologiques prometteuses. Le succès de ces approches est cependant assujetti à notre compréhension des interactions entre les communautés végétales et les champignons du sol, notamment les champignons mycorhiziens, éléments clés du fonctionnement des écosystèmes forestiers. Ce travail a visé le décryptage des réseaux fongiques, notamment mycorhiziens associés au chêne-liège et la végétation du sous-bois dans trois subéraies marocaines (Maâmora, Benslimane, Chefchaoun) caractérisées par différents niveaux de dégradation. La diversité fongique associée aux racines du chêne-liège et à plusieurs plantes arbustives représentatives des subéraies (Cistus salviifolius, Cistus monpeliensis et Lavandula stoechas) a été étudiée en combinant les méthodes traditionnelles basées sur l’aspect morphologique des mycorhizes et les nouvelles technologies de séquençage haut-débit par identification moléculaire des communautés fongiques.Les résultats obtenus représentent la plus vaste enquête de la diversité fongique du sol, notamment mycorhizienne, au sein des subéraies marocaines. Différents niveaux de structuration des communautés de champignons du sol ont été révélés, fonction de l’habitat, du type de plantes et de l'état de dégradation. Une large gamme d’indicateurs fongiques de l’état de dégradation de la subéraie, en lien avec la plantes hôte, ont pu être mise en évidence au sein des différents habitats, soulignant l’importance de plusieurs champignons ectomycorhiziens (notamment Cenococcum, Russula, Terfezia et Tomentella) mais aussi des champignons mycorhiziens éricoïdes (Cladophialophora, Oidiodendron) et à arbuscules (Rhizophagus, Redeckera, Racocetra, Paraglomus). Ce travail a permis d’établir une base de données majeure sur l’écologie des champignons du sol dans les subéraies marocaines, et de proposer un nouvel éclairage sur leur potentiel pour le suivi de l’état de santé des subéraies, ainsi que pour la mise en place de programmes de conservation adaptés tenant compte aussi des champignons associés. L’application des approches proposées à une plus large diversité d’écosystèmes forestiers devrait constituer un atout important pour la meilleure compréhension du fonctionnement biologique des écosystèmes forestiers et leur sauvegarde face à l’aggravation des pressions humaines et climatiques au niveau mondial. / The Cork oak (Quercus suber) forests play an important role in terms of ecological services and socio-economic development for the Mediterranean populations. However, the cork oak forests, notably in the Southern Mediterranean basin are highly threatened by increasing human and climate pressures, which accelerates desertication. The conservation of this ecosytem is strongly dependent of our ability to predict the environmental changes induced by these pressures as well as to develop sustainable approach for their restoration. In this context, the identification of biological indicators of cork oak health and the intensification of plant-plant facilitation processes appears as promisising ecological strategies. Their success is however subjected to our understanding of plant-fungal interactions, notably with fungal mycorrhiza, key factors of forest ecosystem functionning. The current work aimed at deciphering plant-fungal networks, notably mycorrhizal networks with cork oak and its understory shrub vegetation in three Moroccan cork oak habitats (Maâmora, Benslimane, Chefchaoun) characterized by different degradation levels. The root-fungal diversity associated to cork oak and major components of its understory shrub vegetation (Cistus salviifolius, Cistus monpeliensis et Lavandula stoechas) has been analysed by combining traditional methods based on morphological identification, and new generation high- throughput DNA sequencing methods to characterize communities at the molecular level.The study represents the most extensive survey of soil fungal diversity, notably mycorrhizal diversity, in Moroccan cork oak ecosystems. Different fungal community structures were revealed, depending on habitat, plant host type, and degradation forest status. A wide range of fungal indicators of plant type × forest status has been identified, highlighting the importance of several ectomycorrhizal fungi (notably Cenococcum, Russula, Terfezia and Tomentella) as well as ericoid mycorrhizal fungi (Cladophialophora, Oidiodendron) and arbuscular mycorrhizal fungi (Rhizophagus, Redeckera, Racocetra, and Paraglomus). The current work provides an extensive database on the ecology of soil fungi related to the Moroccan cork oak forest, offers new insights into the potential of soil fungi for monitoring the health of the cork oak forest, and for the developement of efficient conservation programs of this ecosystem by taking into account the soil fungal communties associated. The use of proposed appoaches to a larger diversity of forest ecosystems are promising to better understand the biological fonctionning of forest ecosystem and their conservation in response to the worsening of worldwide human and climate pressures.
|
24 |
La méthylation de l'ADN est altérée dans les cellules nasales et sanguines des patients atteints de mucoviscidose / DNA Methylation is altered in cystic fibrosis nasal epithelial and blood cellsMagalhaes, Milena 23 September 2016 (has links)
La mucoviscidose (CF) est la maladie génétique récessive létale la plus fréquente dans la population caucasienne. Elle est caractérisée par une obstruction et des infections des voies respiratoires et une inflammation chronique. La morbidité et la mortalité sont principalement dues à l'atteinte pulmonaire, qui est variable chez les patients, même lorsqu’ils sont porteurs du même génotype. Les facteurs responsables sont multiples : les mutations dans CFTR (le gène responsable de la maladie), les gènes modificateurs, mais aussi les facteurs environnementaux et les modifications épigénétiques. L'objectif principal de ce projet était de déterminer s'il y avait une corrélation entre la méthylation de l'ADN et la sévérité de l'atteinte pulmonaire chez les patients CF. Nous avons obtenu la cohorte METHYLCF (49 patients CF p.Phe508del homozygotes et 24 témoins sains) ainsi qu’une biobanque d'ADN à partir de sang total et de cellules épithéliales nasales (NEC). Les patients CF ont été stratifiés en fonction de leur VEMS, ajusté à l’âge. D’une part, nous avons analysé la méthylation de l'ADN dans CFTR plus 13 gènes modificateurs en utilisant la méthode de conversion au bisulfite et séquençage de nouvelle génération (plateforme 454 Roche). D’autre part, nous avons réalisé une analyse pan-génomique de la méthylation de l'ADN avec la plateforme 450k BeadChip (Illumina). Les sites différentiellement méthylés (DMS) sélectionnés ont été validés par pyroséquençage (PyroMark Q24, Qiagen). Deux gènes modificateurs ont été identifiés comme différentiellement méthylés chez les patients CF par rapport aux témoins: EDNRA dans le sang et HMOX1 dans le sang et dans les NEC. De façon intéressante, dans les NEC, la méthylation de EDNRA, HMOX1 et GSTM3 a été corrélée avec la sévérité de l’atteinte pulmonaire. De plus, de faibles niveaux de méthylation d'ADN dans GSTM3 ont été associés à la présence de l'allèle GSTM3*B, un polymorphisme de séquence qui a un effet protecteur chez les patients CF. Grâce à l'analyse tout-génome, nous avons identifié 1267 DMS, associés à 638 gènes, chez les patients CF par rapport aux témoins, et 187 DMS, associés à 116 gènes, chez les patients CF sévères par rapport aux modérés. Parmi ces gènes, il y a de nombreux gènes importants pour l’adhésion cellulaire et les réponses immunitaire et inflammatoire. Les DMS identifiés sont enrichis dans des régions prédites comme enhancers, pouvant représenter des séquences régulatrices, mais également en régions intergéniques. De façon intéressante, 80 gènes différentiellement méthylés sur 638 étaient différentiellement exprimés (méta-analyse de données transcriptomiques disponibles). Six sur neuf DMS sélectionnés ont été validés et cinq DMS sur six ont été répliqués dans une population indépendante. De plus, 23 DMS, dont 10 intergéniques, étaient corrélés avec le VEMS. Notre étude a montré que la méthylation de l'ADN est profondément modifiée dans le sang et dans les NEC des patients CF. Des faibles changements de méthylation de l'ADN ont été observés dans des gènes modificateurs connus ; des changements de méthylation plus importants ont été observés dans d'autres gènes qui pourraient représenter de nouveaux modificateurs de la fonction pulmonaire. Ensemble, ces gènes pourraient moduler la sévérité de l’atteinte pulmonaire chez les patients CF. / Cystic fibrosis (CF) is the most common life-threatening recessive genetic disease in the Caucasian population. It is characterized by airway obstruction, respiratory infection and inflammation. Morbidity and mortality are mainly due to lung disease, which is variable among CF patients, even for those having the same genotype. Contributing factors are mutations in CFTR (the disease-causing gene), modifier genes, but also environmental factors and epigenetics. The main goal of this project was to determine whether there was a correlation between DNA methylation and the severity of CF lung disease. We built the METHYLCF cohort (49 p.Phe508del homozygous CF patients and 24 healthy controls) and a DNA biobank from whole blood and nasal epithelial cells (NEC). CF patients were stratified accordion to their FEV1% predicted, adjusted to age. We profiled DNA methylation at 14 modifier genes using bisulfite conversion and next-generation sequencing (454 Roche). Genome-wide DNA methylation was analyzed with the 450K Beadchip (Illumina). Selected differentially methylated sites (DMS) were validated by pyrosequencing. Using the candidate modifier gene approach, we showed that two CF modifier genes were differentially methylated in CF patients compared to controls: EDNRA in blood and HMOX1 in blood and NEC. Methylation of EDNRA, HMOX1 and GSTM3 was associated with lung disease severity in NEC. Interestingly, low DNA methylation levels at GSTM3 were associated with the GSTM3*B allele, a polymorphic 3-bp deletion that has a protective effect on CF patients. In addition, through the genome-wide analysis, we identified 1267 DMS, associated with 638 genes, between CF patients and controls and 187 DMS, associated with 116 genes, between severe CF and mild CF patients. DMS were enriched at predicted enhancers, which may represent regulatory sequences, and also at intergenic regions. Gene ontology analyses highlighted cellular processes relevant to CF, i.e. cell adhesion and inflammatory and immune response. Interestingly, 80 out of 638 differentially methylated genes were differentially expressed in publicly available NEC transcriptomic data. Six out of 9 selected DMS were validated and five out of six DMS were replicated in an independent set of patients. Additionally, 23 DMS, 10 of which were intergenic, correlated with FEV1% predicted. Our study has shown that DNA methylation is altered in blood and NEC of CF patients. Small DNA methylation changes were observed at known CF modifier genes; more dramatic DNA methylation changes were found at other genes that may impact lung function. Collectively, these epigenomic variations may lead to different degrees of lung disease severity in CF patients.
|
25 |
Identification et caractérisation de virus aviaires par des approches de séquençage à haut débit / Identification and characterisation of avian viruses using high throughput sequencingLiais, Etienne 02 December 2014 (has links)
En médecine humaine et vétérinaire, les agents pathogènes représentent la cause de mortalité principale à travers la planète. Les méthodes de diagnostic de ces pathogènes ont considérablement changé et évolué particulièrement depuis l’apparition du séquençage haut débit. Les nouvelles méthodes de séquençage massif ont considérablement diminué le prix d’une séquence permettant de rendre accessible cette technologie révolutionnaire. Dans le cadre de mes travaux de thèse, nous avons mis en place un protocole pour l’utilisation du séquençage Illumina® (avec le séquenceur MiSeq) comme méthode de diagnostic lors de différents cas pathologiques aviaires. L’utilisation de cette méthode nous a permis dans un premier temps d’identifier l’agent étiologique de la maladie foudroyante de la pintade. Cette étude nous a permis de valider l’utilisation de ce genre de méthode pour des cas ciblés, ici lors d’un épisode clinique particulier n’impliquant vraisemblablement qu’un seul candidat pathogène. Ce nouveau coronavirus a fait l’objet d’études complémentaires afin de le caractériser. Nous avons élargis les cibles recherchées en analysant dans un deuxième temps l’ensemble des virus ARN chez le canard lors d’épisodes cliniques respiratoires et/ou de chute de ponte. L’analyse des données a mis en évidence une importante diversité virale et a permis d’identifier des candidats responsables potentiels. L’ensemble des résultats obtenus nous permet de valider l’utilisation du séquençage à haut débit comme un outil puissant de diagnostic. / Infectious diseases are considered the most prevalent cause of mortality in humans as well as other animals worldwide. Since the advent of high throughput sequencing technologies, diagnostic methods for these conditions have quickly changed and evolved, as the continuously decreasing cost of mass sequencing is making this tool available to larger numbers of people. As part of my thesis project, an Illumina®-based sequencing method (on a MiSeq machine) was designed for diagnostic purposes in clinical cases in poultry. We first used this method to identify the causative agent of the fulminating disease of guinea fowl. This validated the use of our protocol to identify the pathogenic infectious agent behind a specific condition. This newly identified Coronavirus was further analysed and characterised. In a second study we used an unbiased mass sequencing approach to describe the RNA virus populations present in the duck respiratory tract during clinical episodes (respiratory illness or egg drops). Data showed an important viral diversity and we identified some candidate pathogens. Taken together, these results validate the use of high throughput sequencing as a powerful diagnostic tool.
|
26 |
Identification de nouvelles bases moléculaires des cancers précoces par séquençage à haut débit. / Identification of new molecular basis of early-onset cancers by means of high-throughput sequencingFermey, Pierre 13 December 2017 (has links)
Une des plus grandes avancées en cancérologie et en génétique au cours des vingt dernières années fût l'identification des formes héréditaires de cancer et des gènes deprédisposition impliqués. Chez une majorité de patients soupçonnés de présenter une formehéréditaire de cancer, les analyses centrées sur les gènes connus pour être impliqués dansles prédispositions mendéliennes au cancer restent bien souvent négatives. Aujourd'hui,grâce à l'émergence du séquençage à haut-débit (NGS), il est possible de séquencerl'ensemble des exons (exome) d'un individu ou plusieurs centaines de gènes dans un lapsde temps court et à des coûts raisonnables. Dans ce contexte, nous avons appliqué plusieurs stratégies basées sur ces nouveaux outils, avec l'objectif d'identifier de nouvellesbases moléculaires des cancers héréditaires à survenue précoce. Tout d’abord, nous avons employé une stratégie d'analyse exomique intrafamiliale dans une famille atypique présentant des chondrosarcomes de localisation thoracique pour lesquels aucune base moléculaire n'avait pu être mise en évidence. Grâce à cette stratégie, nous avons pu identifier une altération tronquante du gène EXT2 (NM_000401.3; c.237G>A; p.Trp79*). Les altérations perte de fonction documentées pour ce gène sont impliquées dans la maladie des ostéochondromes multiples (OM), des tumeurs bénignes. Or, dans cette famille, aucun signe clinique d'OM n'était présent. Ces travaux nous ont donc permis d'étendre le spectre phénotypique des mutations EXT2 et de modifier la prise en charge clinique de cette famille. Nous avons ensuite employé une stratégie d'analyse exomique soustractive de trio enfant malade / parents sains dans le but d’identifier des mutations de novo potentiellement responsables de la prédisposition génétique au cancer observée chez un jeune patient ayant développé un médulloblastome du cervelet à l’âge de 8 ans, suivi d’un méningiome à 22 ans. L’analyse exomique du trio a révélé l’existence chez ce patient d'une mutation de novo faux-sens affectant un acide aminé très conservé de la protéine HID-1. Cette dernière est particulièrement exprimée dans les cellules neuronales et sécrétrices, et semble fonctionner autour de l’appareil de Golgi pour réguler le tri des vésiculesnouvellement formées. Ainsi, notre hypothèse est qu’un défaut de la protéine HID-1, lié à une mutation du gène HID-1, perturberait la voie de sécrétion et participerait à la genèse du médulloblastome. Ces travaux, toujours en cours, démontrent à la fois la force de la stratégie exomique de trio pour identifier rapidement des mutations de novo et illustre toute la difficultéd'interprétation des variants détectés dans des gènes non impliqués dans le cancer. Par ailleurs, nous avons appliqué une stratégie exomique soustractive et interfamiliale à une cohorte de dix patients ayant développé un corticosurrénalome à un âge très précoce et pour lesquels aucune base moléculaire n'a pu être mise en évidence. Malheureusement, nous n'avons pas pu identifier de nouvelles bases moléculaires du corticosurrénalome de l'enfant par ces techniques. Enfin, sous l'hypothèse que des mutations rares ou privées dans un nombre limité de gènes impliqués dans le cancer contribueraient à des formes héréditaires de cancer, nous avons entrepris un projet visant à séquencer à haut débit 201 gènes fortement impliqués dans le cancer chez des patients ayant développé des tumeurs à un âge pédiatrique. Les premiers résultats de ce projet toujours en cours ont permis de confirmer la robustesse de cette technique et suggèrent une extension phénotypique du spectre des mutations DICER1 ainsi qu'une contribution oligogénique des gènes de réparation de l'ADN dans les tumeurs pédiatriques. L'ensemble de ces résultats seront bientôt compilés au sein d'une base de données et bénéficieront d'une analyse statistique fine avec l'objectif d'identifier des enrichissements en variants rares dans des gènes ou voies biologiques. / One of the greatest advances in oncology and genetics over the past 20 years has been the identification of hereditary forms of cancer and of the cancer genes. Nevertheless, in a majority of patients suspected to present an inherited form of cancer, analyses of the genes known to be involved in the Mendelian predispositions to cancer often remain negative. Today, thanks to the emergence of high-throughput sequencing (NGS), it is now possible to sequence all exons of an individual (exome) or several hundred genes in a short period of time and for a reasonable cost. In this context, we have applied several strategiesbased on these new tools in order to identify new molecular basis of early-onset cancers. First, we applied an intra-familial exome analysis strategy to an atypical family with chondrosarcomas of the chest, for which no molecular basis could be identified. Using this strategy, we were able to identify a truncating alteration of the EXT2 gene NM_000401.3; c.237G> A; p.Trp79 *). The documented loss of function alterations of this gene are implicated in a disease called multiple osteochondromas (OM), associated with benign lesions. Interestingly, these patients showed no clinical signs of OM indicating a potential phenotypic extension of EXT2 mutations. Plus, this work allowed us to change the clinical management of this family. We then used a strategy of subtractive exomic analysis of trio sick child/healthy parents in order to identify de novo mutations in a young patient who developed a medulloblastoma of the cerebellum at 8 years-old followed by a meningioma at 22 years-old. The analysis of the trio revealed the existence of a de novo mutation affecting a highly conserved amino acid of the HID-1 protein. HID-1 is specifically expressed in neuronal and secretory cells, and seems to function around the Golgi apparatus to regulate the sorting of newly formed vesicles. Our hypothesis is that a defect of the HID-1 protein linked to a mutation of the HID-1 gene, could alter the secretory pathway therefore contributing to the development of the tumor. This work, which is still ongoing, demonstrates both the strength of the trio strategy for the rapid identification of de novo mutations and illustrates all the difficulty of interpreting variants detected in genes not yet involved in cancer. Then, thanks to the recruitment of the Laboratory of Molecular Genetics of the CHU of Rouen, we have collected a cohort of 10 patients who developed an adrenocortical carcinoma (ACC) at a very early age and for which no molecular basis could be identified. Despite subtractive and inter-familial exomic analyses, we were unable to highlight new molecular bases for these cases of pediatric ACC. Finally, under the assumption that rare or private mutations in a limited number of genes involved in cancer could contribute to inherited forms of cancer, we undertook a project to sequence 201 genes involved in cancer in patients who developed tumors at a pediatric age. The first results of this project confirmed the robustness of this technique and suggested a phenotypic extension of the DICER1 mutation spectrum as well as an oligogenic contribution of DNA repair genes in pediatric tumors. Soon, these results will be compiled in a database and will benefit from a statistical analysis with the objective to identify enrichment of rare variants in specific genes or biological pathways in these patients compared to control individuals.
|
27 |
Algorithme de recherche incrémentale d'un motif dans un ensemble de séquences d'ADN issues de séquençages à haut débit / Algorithms of on-line pattern matching in a set of highly sequences outcoming from next sequencing generationBen Nsira, Nadia 05 December 2017 (has links)
Dans cette thèse, nous nous intéressons au problème de recherche incrémentale de motifs dans des séquences fortement similaires (On-line Pattern Matching on Highly Similar Sequences), issues de technologies de séquençage à haut débit (SHD). Ces séquences ne diffèrent que par de très petites quantités de variations et présentent un niveau de similarité très élevé. Il y a donc un fort besoin d'algorithmes efficaces pour effectuer la recherche rapide de motifs dans de tels ensembles de séquences spécifiques. Nous développons de nouveaux algorithmes pour traiter ce problème. Cette thèse est répartie en cinq parties. Dans la première partie, nous présentons un état de l'art sur les algorithmes les plus connus du problème de recherche de motifs et les index associés. Puis, dans les trois parties suivantes, nous développons trois algorithmes directement dédiés à la recherche incrémentale de motifs dans un ensemble de séquences fortement similaires. Enfin, dans la cinquième partie, nous effectuons une étude expérimentale sur ces algorithmes. Cette étude a montré que nos algorithmes sont efficaces en pratique en terme de temps de calcul / In this thesis, we are interested in the problem of on-line pattern matching in highly similar sequences, On-line Pattern Matching on Highly Similar Sequences, outcoming from Next Generation Sequencing technologies (NGS). These sequences only differ by a very small amount. There is thus a strong need for efficient algorithms for performing fast pattern matching in such specific sets of sequences. We develop new algorithms to process this problem. This thesis is partitioned into five parts. In the first part, we present a state of the art on the most popular algorithms of finding problem and the related indexes. Then, in the three following parts, we develop three algorithms directly dedicated to the on-line search for patterns in a set of highly similar sequences. Finally, in the fifth part, we conduct an experimental study on these algorithms. This study shows that our algorithms are efficient in practice in terms of computation time.
|
28 |
Correction de données de séquençage de troisième génération / Error correction of third-generation sequencing dataMorisse, Pierre 26 September 2019 (has links)
Les objectifs de cette thèse s’inscrivent dans la large problématique du traitement des données issues de séquenceurs à très haut débit, et plus particulièrement des reads longs, issus de séquenceurs de troisième génération.Les aspects abordés dans cette problématiques se concentrent principalement sur la correction des erreurs de séquençage, et sur l’impact de la correction sur la qualité des analyses sous-jacentes, plus particulièrement sur l’assemblage. Dans un premier temps, l’un des objectifs de cette thèse est de permettre d’évaluer et de comparer la qualité de la correction fournie par les différentes méthodes de correction hybride (utilisant des reads courts en complément) et d’auto-correction (se basant uniquement sur l’information contenue dans les reads longs) de l’état de l’art. Une telle évaluation permet d’identifier aisément quelle méthode de correction est la mieux adaptée à un cas donné, notamment en fonction de la complexité du génome étudié, de la profondeur de séquençage, ou du taux d’erreurs des reads. De plus, les développeurs peuvent ainsi identifier les limitations des méthodes existantes, afin de guider leurs travaux et de proposer de nouvelles solutions visant à pallier ces limitations. Un nouvel outil d’évaluation, proposant de nombreuses métriques supplémentaires par rapport au seul outil disponible jusqu’alors, a ainsi été développé. Cet outil, combinant une approche par alignement multiple à une stratégie de segmentation, permet également une réduction considérable du temps nécessaire à l’évaluation. À l’aide de cet outil, un benchmark de l’ensemble des méthodes de correction disponibles est présenté, sur une large variété de jeux de données, de profondeur de séquençage, de taux d’erreurs et de complexité variable, de la bactérie A. baylyi à l’humain. Ce benchmark a notamment permis d’identifier deux importantes limitations des outils existants : les reads affichant des taux d’erreurs supérieurs à 30%, et les reads de longueur supérieure à 50 000 paires de bases. Le deuxième objectif de cette thèse est alors la correction des reads extrêmement bruités. Pour cela, un outil de correction hybride, combinant différentes approches de l’état de l’art, a été développé afin de surmonter les limitations des méthodes existantes. En particulier, cet outil combine une stratégie d’alignement des reads courts sur les reads longs à l’utilisation d’un graphe de de Bruijn, ayant la particularité d’être d’ordre variable. Le graphe est ainsi utilisé afin de relier les reads alignés, et donc de corriger les régions non couvertes des reads longs. Cette méthode permet ainsi de corriger des reads affichant des taux d’erreurs atteignant jusqu’à 44%, tout en permettant un meilleur passage à l’échelle sur de larges génomes et une diminution du temps de traitement, par rapport aux méthodes de l’état de l’art les plus efficaces. Enfin, le troisième objectif de cette thèse est la correction des reads extrêmement longs. Pour cela, un outil utilisant cette fois une approche par auto-correction a été développé, en combinant, de nouveau, différentes méthodologies de l’état de l’art. Plus précisément, une stratégie de calcul des chevauchements entre les reads, puis une double étape de correction, par alignement multiple puis par utilisation de graphes de de Bruijn locaux, sont utilisées ici. Afin de permettre à cette méthode de passer efficacement à l’échelle sur les reads extrêmement longs, la stratégie de segmentation mentionnée précédemment a été généralisée. Cette méthode d’auto-correction permet ainsi de corriger des reads atteignant jusqu’à 340 000 paires de bases, tout en permettant un excellent passage à l’échelle sur des génomes plus complexes, tels que celui de l’humain. / The aims of this thesis are part of the vast problematic of high-throughput sequencing data analysis. More specifically, this thesis deals with long reads from third-generation sequencing technologies. The aspects tackled in this topic mainly focus on error correction, and on its impact on downstream analyses such a de novo assembly. As a first step, one of the objectives of this thesis is to evaluate and compare the quality of the error correction provided by the state-of-the-art tools, whether they employ a hybrid (using complementary short reads) or a self-correction (relying only on the information contained in the long reads sequences) strategy. Such an evaluation allows to easily identify which method is best tailored for a given case, according to the genome complexity, the sequencing depth, or the error rate of the reads. Moreover, developpers can thus identify the limiting factors of the existing methods, in order to guide their work and propose new solutions allowing to overcome these limitations. A new evaluation tool, providing a wide variety of metrics, compared to the only tool previously available, was thus developped. This tool combines a multiple sequence alignment approach and a segmentation strategy, thus allowing to drastically reduce the evaluation runtime. With the help of this tool, we present a benchmark of all the state-of-the-art error correction methods, on various datasets from several organisms, spanning from the A. baylyi bacteria to the human. This benchmark allowed to spot two major limiting factors of the existing tools: the reads displaying error rates above 30%, and the reads reaching more than 50 000 base pairs. The second objective of this thesis is thus the error correction of highly noisy long reads. To this aim, a hybrid error correction tool, combining different strategies from the state-of-the-art, was developped, in order to overcome the limiting factors of existing methods. More precisely, this tool combines a short reads alignmentstrategy to the use of a variable-order de Bruijn graph. This graph is used in order to link the aligned short reads, and thus correct the uncovered regions of the long reads. This method allows to process reads displaying error rates as high as 44%, and scales better to larger genomes, while allowing to reduce the runtime of the error correction, compared to the most efficient state-of-the-art tools.Finally, the third objectif of this thesis is the error correction of extremely long reads. To this aim, aself-correction tool was developed, by combining, once again, different methologies from the state-of-the-art. More precisely, an overlapping strategy, and a two phases error correction process, using multiple sequence alignement and local de Bruijn graphs, are used. In order to allow this method to scale to extremely long reads, the aforementioned segmentation strategy was generalized. This self-correction methods allows to process reads reaching up to 340 000 base pairs, and manages to scale very well to complex organisms such as the human genome.
|
29 |
Genetic Susceptibility and Molecular Characterization of Glioma / Susceptibilité génétique et caractérisation moléculaire des gliomesLabreche, Karim 27 June 2018 (has links)
Les gliomes constituent les plus fréquentes des tumeurs malignes primaires du système nerveux central. Les liens qui existent entre ces tumeurs et un certain nombre de cancers rares héréditaires, comme les Neurofibromatoses I et II ou les syndromes de Turcot et de Li-Fraumeni, attestent d’une prédisposition génétique aux gliomes. L’observation d’un risque deux fois plus élevé de développer un gliome chez les parents de premier degré de patients atteints suggère aussi une possible prédisposition génétique dans les gliomes sporadiques. Par ailleurs, l’analyse à haut débit permet de préciser le profil somatique des gliomes et d’identifier des biomarqueurs pronostiques voire prédictifs et s’inscrire dans une démarche de traitement personnalisé du patient. Durant ma thèse, je me suis focalisé sur deux axes de recherches complémentaires; l’identification de gènes de susceptibilité et la découverte de nouveaux gènes fréquemment mutés dans les gliomes, afin de déterminer les voies de signalisation contribuant à la gliomagenèse. Dans leur ensemble, les résultats obtenus dans cette thèse apportent non seulement des informations importantes sur la nature de la prédisposition génétique aux gliomes mais également de son association spécifique pour les différents sous-types de tumeurs. La découverte d’un nouveau gène muté, offre la perspective à plus long terme d’un traitement personnalisé pour chaque patient sur la base du profil génétique de sa tumeur. / Gliomas are the most common adult malignant primary tumour of the central nervous system. Thus far, no environmental exposures has been linked to risk except for ionizing radiation, which only accounts for a very small number of cases. Direct evidence for inherited predisposition to glioma is provided by a number of rare inherited cancer syndromes, such as Turcot's and Li–Fraumeni syndromes, and neurofibromatosis. Even collectively, these diseases however account for little of the twofold increased risk of glioma seen in first-degree relatives of glioma patients. My research was centred on two complementary research activities: Identifying susceptibility genes for glioma to delineate key biological pathways contributing to disease pathogenesis and to identify new recurrent mutated genes for glioma to provide for further insights into glial oncogenesis and suggesting targets for novel therapeutic strategies. Collectively the findings in this thesis provide increased insight into the nature of genetic predisposition to glioma and substantiate the often distinct associations between susceptibility variants and glioma molecular groups. In addition the discovery of a new mutated gene in glioma offers the potential to support drug development and advance precision medicine for this tumours.
|
30 |
Tempo et mode de l'évolution des populations cavernicoles de l'espèce Astyanax mexicanus / Tempo and mode of the Astyanax mexicanus cavefish evolutionFumey, Julien 12 December 2016 (has links)
Le poisson Astyanax mexicanus est un modèle particulièrement intéressant pour l'étude de l'évolution. En effet, dans cette espèce de poissons d'eau douce, il existe des populations vivant de façon pérenne dans des grottes. Dans cet environnement, l'obscurité est totale et permanente et les ressources en nourriture souvent faibles. Les poissons cavernicoles se sont adaptés à la vie souterraine et ils présentent de nombreuses modifications phénotypiques comme la dépigmentation, la perte des yeux, l’augmentation du nombre et de la taille d’organes sensoriels non-visuels et plusieurs changements du comportement. Un des problèmes majeurs est de savoir si ces modifications phénotypiques sont dues à des mutations préexistantes à la colonisation de l'environnement cavernicole ou si elles sont apparues après. Pour répondre à cette question, connaître l'âge des populations est un facteur important car dans une population récente, il n'y aura probablement pas eu suffisamment de temps pour l'apparition de beaucoup de mutations et leur fixation. L'objet de cette thèse est donc l'estimation de l'âge d'une population, celle de la grotte Pachón qui est souvent considérée comme étant une des plus anciennes et une des plus isolées. Au cours de ces travaux de thèse, nous avons développé une nouvelle méthode de datation qui repose d’une part sur la caractérisation du polymorphisme nucléotidique à l’intérieur de chaque population et entre populations, et d’autre part la comparaison de ces données avec des simulations de l’évolution du polymorphisme. Les résultats obtenus, ainsi que la réanalyse de données sur le polymorphisme d’haplotypes mitochondriaux et de loci microsatellites précédemment publiées, suggèrent que les populations cavernicoles seraient bien plus récentes qu’habituellement indiqué dans la littérature (quelques milliers d’années, et non plusieurs centaines de milliers d’années). Les conséquences d’un tempo rapide d’évolution sur le mode d’évolution de ces poissons cavernicoles ont aussi été présentées. / The fish Astyanax mexicanus is a particularly suitable model for evolutionary biology studies. Indeed, in this species there are several subterranean populations which live in the total and permanent darkness of cave. These cavefish are well adapted to the life in this inhospitable environment and they show several differences with their surface conspecific such as depigmentation, eye loss and behavioral changes. A major unresolved issue is about the relative role of surface fish standing genetic variation and de novo mutations appeared in cavefish populations after their settlement in caves in their phenotypic evolution. In order to examine this issue, accurate estimations of population ages are very important because many new mutations cannot appear and fix in a recent population. In this thesis we aimed to estimate the age of the Pachón cave population which is considered as one of the oldest and most isolated populations. We developed a new method which is based on measures of the distribution of single nucleotide polymorphism within each population and between populations. Our results, as well as reanalyses of published data about mitochondrial haplotypes and microsatellite loci polymorphism suggest that cavefish populations are much more recent than previously thought (several thousand years and not several hundred thousand years). The consequences of a fast tempo of evolution on the mode of evolution of cavefish are also discussed.
|
Page generated in 0.0769 seconds