61 |
Analyse du séquençage de l’exome basée sur le phénotype pour le diagnostic moléculaire des syndromes polymalformatifs / Phenotype-based analysis of exome sequencing for the molecular diagnosis of polymalformative syndromesThuriot, Fanny January 2017 (has links)
Bien que l’hétérogénéité des désordres génétiques nous limite dans l’identification du gène causal avec les approches diagnostiques conventionnelles, le séquençage de l’exome a permis d’accroitre le nombre de diagnostics moléculaires posés récemment. Par contre, le grand nombre de variants identifiés par cette méthode pose un défi significatif dans l’interprétation clinique de ses variants. Nous avons donc élaboré PhenoVar, un logiciel qui intègre les données phénotypiques et génotypiques pour retourner une courte liste de diagnostics potentiels. Nous voulons valider cette approche par phénotype au niveau clinique et montrer qu’elle peut être efficace pour diagnostiquer des patients atteints de maladies génétiques rares. Pour ce faire, le séquençage de l’exome a été effectué sur une cohorte de 51 patients. Ceux-ci présentent des dysmorphismes avec ou sans désordres neurodéveloppementaux dont l’étiologie reste indéterminée après plusieurs analyses conventionnelles. Suite au séquençage de l’exome, un pipeline d’analyse bio-informatique nous a permis de filtrer les variations pour garder seulement les variations rares, codantes, ayant une bonne qualité et pour éliminer les artéfacts de séquençage. Ensuite, pour analyser ces variations filtrées, une analyse manuelle et une analyse avec PhenoVar ont été faites. L’analyse manuelle consiste à regarder manuellement chaque variation pour voir son impact et identifier le diagnostic, sans regarder le phénotype du patient. Puis, Exomiser, un autre logiciel utilisant le phénotype, a été utilisé pour comparer les performances de PhenoVar. En comparaison avec l’analyse manuelle, PhenoVar nous a permis de diminuer de six fois le temps d’analyse et de diminuer de moitié le nombre de diagnostics potentiels. Avec ces deux méthodes, nous avons pu trouver le diagnostic moléculaire de 18 patients, soit un rendement diagnostic de 35%. Il est à noter qu’un diagnostic a été manqué par PhenoVar. Cependant, ce diagnostic a été récupéré en enlevant un filtre au niveau du phénotype. De plus, parmi les diagnostics effectués, 16 (89%) se retrouvent dans les dix premiers rangs de PhenoVar, tandis que seulement 10 (56%) se retrouvent dans les dix premiers rangs d’Exomiser. En conclusion, PhenoVar est supérieur à Exomiser pour trouver un diagnostic dans les dix premiers rangs. De plus, il se compare à l’analyse manuelle tout en diminuant le temps d’analyse et le nombre de variants. / Abstract: Although the heterogeneity of genetic disorders limits our capacity to identify the causal gene with conventional approaches, exome sequencing has increased the diagnostic yield. However, the large number of variants identified by this method poses a significant challenge in their clinical interpretation. Thus, we developed PhenoVar: a software that integrates phenotypic and genotypic data and produces a short list of potential diagnoses. The objective of this study is to validate this phenotype-based approach on a clinical level and show that it can be efficient to diagnose patients with rare genetic disorders. Exome sequencing was performed on a cohort of 51 patients. These presented with dysmorphic features with or without neurodevelopmental disorders of undetermined etiology, following conventional analysis. Following exome sequencing, a bioinformatics pipeline allowed us to filter variations, keeping only rare coding variations harboring high quality. Then, we analysed these filtered variations with both manual analysis and PhenoVar. In the manual analysis each variant was manually examined to determine its impact and to identify the diagnosis without taking the patient’s phenotype into consideration. Then, Exomiser, another phenotype-based tool, was used to compare PhenoVar’s performances. In comparison to the manual analysis, PhenoVar has allowed us to reduce the analysis time by six-fold and to reduce by half the number of potential diagnoses. With both methods, we found the molecular diagnosis in 18 patients; a rate of 35%. Moreover, among these diagnoses, 16 (89%) are found in the top 10 ranks of PhenoVar, compared to only 10 (56%) for Exomiser. In conclusion, PhenoVar proved to Exomiser in prioritizing the correct diagnosis in the top 10 ranks. Finally, diagnostic yield of PhenoVar is comparable to the manual analysis while reducing the analysis time and the number of variants.
|
62 |
Développement de nouvelles stratégies analytiques pour la caractérisation moléculaire des états d'oxydation à l'échelle protéomique / Development of new analytical strategies for the molecular characterization of oxidation states at a proteomic scaleShakir, Shakir Mahmood Shakir 17 December 2015 (has links)
L'analyse des modifications post-traductionnelles (PTMs) est une des contributions les plus importantes de la protéomique aux sciences du vivant. Malgré les progrès importants des techniques séparatives et de la spectrométrie de masse, la quantification des PTMs reste un défi analytique. Le nombre limité de PTMs identifiées robustement dans une recherche, la nécessité d'enrichissement et l'estimation quantitative basée sur un seul peptide ne représentent que les difficultés les plus évidentes. De plus, la quantification des PTMs doit toujours être associée au profil d'expression de la protéine pour éviter les faux positifs.Nous avons développé de nouvelles stratégies analytiques de quantification des PTMs, en prenant en compte le niveau d'expression des protéines. Ces stratégies ont été appliquées à l'étude de l'oxydation des cystéines dans le cadre du stress oxydatif et de l'homéostasie redox.La stratégie OcSILAC est une adaptation de la technique biotin switch au marquage métabolique des cultures cellulaires et a été appliquée à un modèle de levure n'exprimant pas la thiorédoxine réductase. OcSILAC apporte des améliorations techniques importantes et une innovation dans le traitement des données. Les résultats obtenus sont en accord avec le système redox de ce modèle. OcSILAC a ensuite été adaptée au fractionnement subcellulaire pour étendre la couverture du redoxome.Une deuxième stratégie, OxiTMT, a été développée en se basant sur des tandem mass tags spécifiques de la cystéine. OxiTMT a été employée à l'étude de cellules E. Coli soumises à un traitement oxydatif. OxiTMT offre l'avantage d'une large gamme d'applications qui peut s'étendre aux tissus et aux biopsies. / The analysis of protein Post-Translational Modifications (PTMs) is probably the most important contribution that proteomics can give to life sciences. Although separative techniques and mass spectrometry have improved tremendously, the quantitative analysis of PTMs remains an analytical challenge. The limited number of PTMs that can be robustly computed in a single research, the necessity of enrichment steps and performing quantitative estimations using only one peptide, are just the most evident difficulties faced. Furthermore, PTMs quantification should always be associated to protein expression levels to avoid false positives. We have developed new analysis methods allowing the quantification of PTM changes while taking into account protein expression levels. These strategies were applied to the study of cysteine oxidation within the contexts of oxidative stress and redox homeostasis. The first strategy, OcSILAC, is a revision of the biotin switch adapted to Stable Isotope Labelling by Amino acids in Cell culture; it was applied to the study of a thioredoxin reductase silenced yeast model. OcSILAC leads to important technical improvements and data analysis innovations. The results obtained are in agreement with the extensive existing literature concerning the yeast redox system. OcSILAC was then adapted to a subcellular fractionation kit to extend the coverage of the cysteine redoxome. A second strategy called OxiTMT was developed based on cysteine specific tandem mass tags. OxiTMT was used to study E. Coli cells exposed to oxidative treatment. OxiTMT offers the advantage of a wide range of applications that can extended to the study of tissues and biopsies.
|
63 |
développement méthodologique et applications de la prédiction des interactions protéine-protéine / methodology development and applications of protein-protein interaction predictionYu, Jinchao 30 January 2017 (has links)
Les interactions protéine-protéine (IPP) jouent un rôle essentiel dans le vivant. Mon travail de thèse s’est concentré sur développement de méthodes bio-informatiques pour la prédiction et la modélisation structurale des IPP. Mon objectif était d'améliorer le pouvoir prédictif des méthodes permettant de prédire les structures d’assemblages macromoléculaires (docking) et d'aborder les problèmes rencontrés par les biologistes sur des cas réels d’interactions.Pour obtenir des modèles de protéines isolées de meilleure qualité, j’ai tout d’abord développé le serveur HHalign-Kbest basé sur des algorithmes d’alignements sous-optimaux. Ensuite, dans le domaine du « docking », j’ai élaboré le serveur InterEvDock qui prend en compte les informations de coévolution entre protéines. Les validations en aveugle montrent que ce serveur atteint de meilleures performances que d’autres serveurs de référence lorsque l’information évolutive est disponible.Afin de tester plus à fond nos méthodes, nous avons participé au concours CAPRI - un concours international pour la prédiction des interactions protéiques. Sur les sessions couvrant la période 2013-2016, notre groupe s’est classé 1er. Enfin, j'ai développé un jeu de données d’apprentissage et de test, PPI4DOCK. Il contient un très grand nombre de cibles de complexes (plus de 1000) et permettra d'améliorer les méthodes de docking à partir des structures expérimentales ou de modèles.En termes d'applications, je me investis dans différents projets collaboratifs, qui touchent des domaines aussi variés que, la recherche de partenaires pour le chaperon d’histone Asf1; la prédiction des modes d’interaction entre CENP-F et Nup133 dans le contexte de la mitose et de Exo70 et Abi dans celui de la régulation de la mobilité cellulaire; la simulation des modes de liaison entre le complexe Ku et ses partenaires peptidiques, dans les voies de réparation de l'ADN. / Protein-protein interactions (PPIs) play essential roles in life. My PhD work aimed at developing advanced bioinformatics methods in the field of PPI prediction at the structural scale. My goal was to improve the predictive power of methods which model the structures of macromolecular assemblies (docking) and to tackle real-life problems faced by biologists.First, I developed HHalign-Kbest server using algorithms for the search of suboptimal solutions to gain better-quality models. Second, in the field of protein docking, I built InterEvDock server which can take co-evolutionary information into account. It yields better performance than other state-of-the-art servers. In order to further test our methods, we participated in CAPRI – an international challenge for prediction of protein interactions. Over years 2013-2016, our group ranked 1st at the 6th CAPRI evaluation meeting. At last, I developed a realistic benchmark dataset PPI4DOCK, largest dataset so far, in order to improve docking methods for the scientific community.In terms of applications, I was involved in a variety of collaborative projects with different labs. As representative examples, I searched for binding partners of the histone chaperone Asf1; I studied the CENP-F/Nup133 interaction in the context of mitosis and the Exo70/Abi interaction related to cell mobility regulation; I also simulated the binding modes of multiple peptides, partners of Ku complex involved in DNA repair pathway.
|
64 |
Computational modeling to design and analyze synthetic metabolic circuits / Modélisation pour la conception et l’analyse de circuits métaboliques synthétiquesKoch, Mathilde 28 November 2019 (has links)
Les buts de cette thèse sont doubles, et concernent les circuits métaboliques synthétiques, qui permettent de détecter des composants chimiques par transmission de signal et de faire du calcul en utilisant des enzymes. La première partie a consisté à développer des outils d’apprentissage actif et par renforcement pour améliorer la conception de circuits métaboliques et optimiser la biodétection et la bioproduction. Pour atteindre cet objectif, un nouvel algorithme (RetroPath3.0) fondé sur une recherche arborescente de Monte Carlo guidée par similarité est présenté. Cet algorithme, combiné à des règles de réaction apprises sur des données et des niveaux différents de promiscuité enzymatique, permet de focaliser l’exploration sur les composés et les chemins les plus prometteurs en bio-rétrosynthèse. Les chemins obtenus par rétrosynthèse peuvent être implémentés dans des cellules ou des systèmes acellulaires. Afin de concevoir le meilleur milieu pour optimiser la productivité du système, une méthode d’apprentissage actif qui explore efficacement l’espace combinatoire des composants du milieu a été développée.La deuxième partie a consisté à développer des méthodes d’analyse, pour générer des connaissances à partir de données biologiques, et modéliser les réponses de biocapteurs. Dans un premier temps, l’effet du nombre de copies de plasmides sur la sensibilité d’un biocapteur utilisant un facteur de transcription a été modélisé. Ensuite, en utilisant des systèmes acellulaires qui permettent un meilleur contrôle des variables expérimentales comme la concentration d’ADN, l’utilisation des ressources a été modélisée pour assurer que notre compréhension actuelle des phénomènes sous-jacents est suffisante pour rendre compte du comportement du circuit, en utilisant des modèles empiriques ou mécanistiques. Couplés aux outils de conception de circuits métaboliques, ces modèles ont ensuite permis de développer une nouvelle approche de calcul biologique, appelée perceptrons métaboliques.Dans l’ensemble, cette thèse présente des outils de conception et d’analyse pour les circuits métaboliques synthétiques. Ces outils ont été utilisés pour développer une nouvelle méthode permettant d’effectuer des calculs en biologie synthétique. / The aims of this thesis are two-fold, and centered on synthetic metabolic circuits, which perform sensing and computation using enzymes.The first part consisted in developing reinforcement and active learning tools to improve the design of metabolic circuits and optimize biosensing and bioproduction. In order to do this, a novel algorithm (RetroPath3.0) based on similarity-guided Monte Carlo Tree Search to improve the exploration of the search space is presented. This algorithm, combined with data-derived reaction rules and varying levels of enzyme promiscuity, allows to focus exploration on the most promising compounds and pathways for bio-retrosynthesis. As retrosynthesis-based pathways can be implemented in whole cell or cell-free systems, an active learning method to efficiently explore the combinatorial space of components for rational media optimization was also developed, to design the best media maximizing cell-free productivity.The second part consisted in developing analysis tools, to generate knowledge from biological data and model biosensor response. First, the effect of plasmid copy number on sensitivity of a transcription-factor based biosensor was modeled. Then, using cell-free systems allowing for broader control over the experimental factors such as DNA concentration, resource usage was modeled to ensure our current knowledge of underlying phenomenons is sufficient to account for circuit behavior, using either empirical models or mechanistic models. Coupled with metabolic circuit design, those models allowed us to develop a new biocomputation approach, called metabolic perceptrons.Overall, this thesis presents tools to design and analyse synthetic metabolic circuits, which are a novel way to perform computation in synthetic biology.
|
65 |
Traitement des données scRNA-seq issues de la technologie Drop-Seq : application à l’étude des réseaux transcriptionnels dans le cancer du seinDavid, Marjolaine 01 1900 (has links)
Les technologies récentes de séquençage de l’ARN de cellules uniques (scRNA-seq, pour single cell
RNA-seq) ont permis de quantifier le niveau d’expression des gènes au niveau de la cellules, alors que les
technologies standards de séquençage de l’ARN (RNA-seq, ou bulk RNA-seq) ne permettaient de
quantifier que l’expression moyenne des gènes dans un échantillon de cellules. Cette résolution supérieure
a permis des avancées majeures dans le domaine de la recherche biomédicale, mais a également posé de
nouveaux défis, notamment computationnels.
Les données qui découlent des technologies de scRNA-seq sont en effet complexes et plus bruitées
que les données de bulk RNA-seq. En outre, les technologies sont nombreuses et leur nombre explose,
nécessitant chacune un prétraitement plus ou moins différent. De plus en plus de méthodes sont ainsi
développées, mais il n’existe pas encore de norme établie (gold standard) pour le prétraitement et l’analyse
de ces données.
Le laboratoire du Dr. Mader a récemment fait l’acquisition de la technologie Drop-Seq (une
technologie haut débit de scRNA-seq), nécessitant une expertise nouvelle pour le traitement des données
qui en découlent. Dans ce mémoire, différentes étapes du prétraitement des données issues de la
technologie Drop-Seq sont donc passées en revue et le fonctionnement de certains outils dédiés à cet effet
est étudié, permettant d’établir des lignes directrices pour de futures expériences au sein du laboratoire du
Dr. Mader.
Cette étude est menée sur les premiers jeux de données générés avec la technologie Drop-Seq du
laboratoire, issus de lignées cellulaires du cancer du sein. Les méthodes d’analyses, moins spécifiques à
la technologie, ne sont pas étudiées dans ce mémoire, mais une analyse exploratoire des jeux de données
du laboratoire pose les bases pour une analyse plus poussée. / Recent single cell RNA sequencing technologies (scRNA-seq) have enabled the quantification of
gene expression levels at the cellular level, while standard RNA sequencing technologies (RNA-seq, or
bulk RNA-seq) have only been able to quantify the average gene expression in a sample of cells. This
higher resolution has allowed major advances in biomedical research, but has also raised new challenges,
in particular computational ones.
The data derived from scRNA-seq technologies are indeed complex and noisier than bulk RNA-seq
data. In addition, the number of scRNA-seq technologies is exploding, each of them requiring a rather
different pre-processing. More and more methods are thus being developed, but there is still no gold
standard for the preprocessing and analysis of these data.
Dr. Mader’s laboratory has recently invested in the Drop-Seq technology (a high-throughput scRNAseq
technology), requiring new expertise for the processing of the resulting data. In this thesis, different
steps for the pre-processing of Drop-Seq data are reviewed and the behavior of some of the dedicated tools
are studied, allowing to establish guidelines for future experiments in Dr. Mader’s laboratory.
This study is conducted on the first data sets generated with the Drop-Seq technology of the
laboratory, derived from breast cancer cell lines. Analytical methods, less specific to the technology, are
not investigated in this thesis, but an exploratory analysis of the lab’s datasets lays the foundation for
further analysis.
|
66 |
Développement de nouveaux outils pour l'intégration des données du ChIP-Seq et leurs applications pour l'étude du contrôle de la transcriptionJoly Beauparlant, Charles 24 April 2018 (has links)
Les progrès fulgurants des technologies de séquençage permettent de développer des projets de recherche très complexes. De plus, les consortiums internationaux tels qu’ENCODE, Roadmap Epigenomics et Fantom offrent publiquement de vastes jeux de donnés à la communauté scientifique. Ainsi, mon projet de recherche au doctorat a pour but de développer de nouvelles approches bioinformatiques afin d’analyser efficacement les données génomiques de type ChIP-Seq pour cibler les changements dans les patrons d’interactions entre les protéines et l’ADN. De nouveaux outils R tels ENCODExplorer et FantomTSS ont donc été développés afin de faciliter l’intégration des données publiques. De plus, l’outil metagene, développé dans le cadre de mon doctorat, permet de comparer les patrons d’enrichissement des protéines interagissant avec l’ADN. Il extrait efficacement la couverture des régions génomiques, normalise le signal et d’utilise les contrôles pour retirer le bruit de fond. Il produit des graphiques pour comparer visuellement les facteurs et conditions et offre des outils statistiques pour cibler les profils significativement différents. Afin de valider mon approche expérimentale, j’ai analysé une centaine de jeux de données de ChIP-Seq de la lignée GM12878 pour étudier les profils d’enrichissement au niveau des amplificateurs et des promoteurs en fonction de leur activité transcriptionnelle. Cette étude a ciblé deux modes de recrutement distincts, soit l’effet gradient et l’effet seuil. Face à la complexité et la quantité de données disponibles, il est essentiel de développer de nouvelles approches méthodologiques et statistiques afin d’améliorer notre compréhension des mécanismes biologiques. ENCODExplorer et metagene sont disponibles sur Bioconductor. / Recent progress in sequencing technologies opened the possibility of performing very complex research experiments. Combined with the vast public datasets produced by intenational consortiums such as ENCODE, Roadmap Epigenomics and Fantoms, the amount of data to process can be daunting. The goal of my doctoral project is to develop new bioinformatic approaches to facilitate the integration of ChIP-Seq data for the study of the dynamic of the interactions between proteins and DNA. New tools such as ENCODExplorer and FantomTSS were developped in R to make the publicly available datasets easier to integrate. Futhermore, the metagene package allows the comparison of enrichment patterns of DNA-interacting proteins. This package efficiently extracts read coverage from genomic regions of interest, normalize the signal and uses controls to remove background noise. The main functionnality of the metagene package is to visually compare enrichment profiles from multiple groups of genomic regions and to offer statistical tools to caracterize and compare those profiles. To validate my experimental approach, I used over a hundred datasets from the GM12878 cell line produced by the ENCODE consortium to study the enrichment profiles of transcription factors and histones in enhnacer and promoter regions. I was able to define two distinct recruitment patterns: the gradient effect and the threshold effect. With the ever growing complexity of genomic datasets, it is essential to develop new methodotical approaches to allow a better understanding of the underlying biological processes. ENCODExplorer and metagene are both available on Bioconductor.
|
67 |
Bio-informatique pour la génomique et le diagnostic des maladies infectieusesRaymond, Frédéric 17 April 2018 (has links)
Le séquençage du génome d’un microorganisme est un jalon important dans l’étude de sa biologie. Quel que soit cet organisme, les outils bio-informatiques nécessaires pour comprendre son génome et le comparer aux autres génomes séquencés seront similaires. Dans cette thèse, l’ADN génomique de parasites et de virus est mis à profit afin de mieux comprendre ces microorganismes. Dans un premier temps, le parasite protozoaire Leishmania est étudié par transcriptomique et par génomique comparative afin de mieux comprendre son infectivité, sa résistance aux antiparasitaires et son mode de vie dimorphique. Ce parasite alterne entre le stade flagellé (promastigote) et le stade intracellulaire aflagellé (amastigote). Afin de faciliter l’analyse par biopuces du transcriptome de Leishmania, un système de gestion et d’analyse de données de biopuces a été conçu. Quatre études utilisant ce système sont présentées sommairement et leurs implications sont discutées. Deuxièmement, le génome de l’espèce Leishmania (sauroleishmania) tarentolae, qui n’est pas pathogène pour l’humain, a été séquencé et comparé à trois espèces infectant l’homme. Cette étude a montré que, même si peu de gènes différencient les espèces, L. tarentolae possède moins de gènes associés au stade amastigote que les autres espèces. Deux familles de gènes ont été trouvées en nombre de copies élevées chez L. tarentolae : GP63 et PSA31C. Ces résultats permettent une meilleure compréhension de la biologie de L. tarentolae et de la virulence des autres espèces de Leishmania. Dans un deuxième temps, les séquences des génomes de virus respiratoires disponibles dans les bases de données publiques ont été analysées pour créer un test diagnostique permettant la détection et l’identification de 25 types de virus respiratoires, dont la grippe A (H1N1) responsable de la pandémie de 2009 et la grippe aviaire A (H5N1). Le test a été validé avec des échantillons de laboratoire et avec des échantillons cliniques. Même si l’étude du parasite Leishmania était indépendante de celle des virus respiratoires, les approches utilisées pour ces deux projets étaient similaires. Ainsi, la bio-informatique est un outil essentiel en microbiologie, car elle est indispensable pour résoudre des problèmes de diverses natures chez des organismes différents. / Sequencing a genome is a milestone in the study of an organism. Bioinformatics allow both to better understand single organisms and to compare them to related species through comparative genomics. This thesis centers on the idea that genome sequence of parasites and viruses can be used in various ways to better understand these microorganisms. Transcriptomics and comparative genomics were used to study the protozoan parasite Leishmania in order to better understand its virulence, its resistance to antiparasitic drugs, and its dimorphic life-cycle, which includes a flagellated free form named promastigote and an aflagellate intracellular form named amastigote. In order to study gene expression in Leishmania, an integrated management and analysis system was created, along with protocols designed for Leishmania microarrays analysis. Four studies using this system are briefly described. In another study, the genome of Leishmania (sauroleishmania) tarentolae, a lizard parasite, was sequenced and compared to human pathogenic Leishmania species. This study showed little difference between the Leishmania species, although L. tarentolae seems to contain less genes associated to the amastigote life-cycle, including the amastin gene. Two gene families were highly expanded in L. tarentolae: the surface metalloprotease GP63 and the promastigote antigen protein PSA31C. These results provide a better understanding of L. tarentolae biology and give insights on the genes involved in virulence in pathogenic Leishmania species. The second part of this thesis concerns the creation of a molecular diagnostic assay for the detection and identification of 25 respiratory virus types, including the influenza A/H1N1 pandemic strain and the avian influenza A/H5N1 strain. This assay was created by analyzing genome sequences available from public repositories and it was afterwards tested on laboratory and clinical virus strains. Although Leishmania and respiratory viruses are distantly related, the approaches used in both projects were similar. Thus, bioinformatics is an essential and ubiquitous science that allows to solve problems in different areas (“omics”) of biology.
|
68 |
Développement d'un pipeline bio-informatique de caractérisation de la variation génétique structurale et ponctuelle en contexte de génomique des populations : application au saumon atlantique du bassin de la rivière RomaineLecomte, Laurie 25 March 2024 (has links)
Titre de l'écran-titre (visionné le 30 octobre 2023) / Les variations structurales (SV) sont maintenant reconnues comme la principale source de polymorphisme génétique intraspécifique et peuvent contribuer aux processus évolutifs chez plusieurs organismes. Elles demeurent toutefois peu documentées en contexte de génomique des populations sauvages, en raison des nombreuses difficultés que comportent leur détection et leur génotypage. Le saumon atlantique (Salmo salar), qui montre une importante variabilité interpopulationnelle dans ses traits d'histoire de vie et son habitat, représente une espèce idéale pour étudier les SV d'importance adaptative. Dans ce contexte, nous avons développé un pipeline bio-informatique permettant de caractériser et d'analyser l'ensemble de la variation génétique à une échelle populationnelle, soit les SV, les polymorphismes nucléotidiques simples (SNP) et les indels courts. Ce pipeline repose, entre autres, sur la combinaison de données de séquençage en lectures courtes et en lectures longues et sur l'intégration des graphes pangénomiques. À l'aide de ce pipeline, nous avons catalogué 115,907 SV, 8,777,832 SNP et 1,089,321 indels courts dans les génomes de 60 saumons des rivières Romaine et Puyjalon (Côte-Nord, Québec), deux populations présumément adaptées localement dont les individus diffèrent fortement dans leurs traits d'histoire de vie, incluant l'âge de la maturité sexuelle et le taux de croissance. L'analyse comparative des trois formes de polymorphisme a révélé une excellente concordance entre elles quant à la structure de population et à l'ampleur de la différenciation génétique entre les saumons des deux populations. De plus, plusieurs variants présentant la signature moléculaire de sélection naturelle touchent à des gènes impliqués dans la fonction du système nerveux : ces variants pourraient donc indirectement contribuer à la variation phénotypique observée chez les populations à l'étude, et ainsi avoir un rôle dans leur adaptation locale. Ce travail démontre la faisabilité de l'étude populationnelle des SV et témoigne de sa pertinence pour la génomique des populations des salmonidés. / Structural variants (SVs) are now recognized as the main component of intraspecific genetic polymorphism and can contribute to evolutionary processes in various organisms. However, they are inherently difficult to detect and genotype and therefore remain poorly documented in wild populations. Atlantic salmon (Salmo salar), which displays strong interpopulation variability in life history traits and habitat, offers a prime context for studying adaptive SVs. Here, we developed a population-scale variant characterization and analysis pipeline targeting SVs, single nucleotide polymorphisms (SNPs) and short indels. This pipeline mainly relies on the combination of both short- and long-read sequencing and on the integration of pangenome graphs. Using this pipeline, we catalogued 115,907 SVs, 8,777,832 SNPs and 1,089,321 short indels in the genomes of 60 salmon from the Romaine and Puyjalon rivers (Côte-Nord, Québec), two putatively locally adapted populations exhibiting pronounced variation in life history traits, namely age at maturity and growth rate. Comparative analysis of the three types of polymorphism revealed a highly consistent population structure and genetic differentiation between both populations. In addition, numerous variants bearing molecular signatures of natural selection were located nearby genes involved in nervous system function: these variants might thus indirectly contribute to the observed phenotypic variation in the Romaine and Puyjalon populations, especially in age at smoltification, and could therefore play a role in their local adaptation. This research demonstrates the feasibility of population-scale study of SVs and highlights its relevance for population genomics of salmonids.
|
69 |
Modélisation bio-informatique du mécanisme d'action d'inhibiteurs de la voie de biosynthèse du peptidoglycaneGodzaridis, Élénie 18 April 2018 (has links)
La résistance développée par les bactéries aux antibiotiques est un problème d'échelle mondiale qui a récemment attiré beaucoup d'intérêt. En effet, particulièrement chez les bactéries à Gram-négatif, on constate une depletion rapide de la quantité d'antibiotiques efficaces. De nos jours, les programmes de recherche de nouveaux antibiotiques commencent souvent par le criblage de cibles cellulaires. Les enzymes Mur, impliquées dans la biosynthèse de la paroi, sont uniques aux cellules bactériennes et nécessaires à leur survie. Le présent mémoire décrit l'utilisation des méthodes de bio-informatique structurale pour mettre en lumière un possible mécanisme d'action pour deux inhibiteurs des Mur ligases précédemment découverts : MurDpl etMurFpl. De plus, les recherches ici présentées ont permis de découvrir une grande similarité entre MurDpl et une famille de peptides antimicrobiens naturels, les tigerinines. Leur capacité à pénétrer les cellules bactériennes et la difficulté pour les bactéries de développer une résistance aux peptides antimicrobiens en général en font des composés de départ prometteurs. Nous suggérons que MurD pourrait être une cible intracellulaire des tigerinines et proposons un mécanisme d'action. De plus, par des moyens informatiques, nous évaluons les possibilités de raffiner MurDpl, MurFpl et les tigerinines de façon à augmenter leur activité.
|
70 |
Une étude bioinformatique du dialogue métabolique entre un trypanosome non pathogène et son endosymbiote à des buts évolutifs et fonctionnelsKlein, Cecilia Coimbra 12 November 2013 (has links) (PDF)
Lors de cette thèse, nous avons présenté trois principaux types d'analyses du métabolisme, dont la plupart impliquaient la symbiose : dialogue métabolique entre un trypanosomatide et son symbiote, analyses comparatives de réseaux métaboliques et exploration de données métabolomiques. Tous ont été essentiellement basés sur des données de génomique où les capacités métaboliques ont été prédites à partir des gènes annotés de l'organisme cible, et ont été affinées avec d'autres types de données en fonction de l'objectif et de la portée de chaque analyse. Le dialogue métabolique entre un trypanosomatide et son symbiote a été exploré avec des objectifs fonctionnels et évolutifs qui comprennaient une analyse des voies de synthèse des acides aminés essentiels et des vitamines telles que ces voies sont classiquement définies, une exploration de réseaux complets métaboliques et une recherche de potentiels transferts horizontaux de gènes des bactéries vers les trypanosomatides. Les analyses comparatives effectuées ont mis l'accent sur les capacités métaboliques communes de bactéries appartenant à différents groupes de vie, et nous avons proposé une méthode pour établir automatiquement les activités métaboliques communes ou spécifiques à chaque groupe. En plus de la génomique, la dernière étude présentée dans cette thèse a porté sur des données métabolomiques. Nous avons appliqué notre méthode d'énumération d'histoires métaboliques à la réponse de la levure à une exposition au cadmium comme une validation de cette approche sur une réaction au stress bien étudiée. Nous avons montré que la méthode a bien capté la connaissance que nous avons de cette réponse en plus de permettre de nouvelles interprétations des données métabolomiques mappées sur le réseau métabolique complet de la levure.
|
Page generated in 0.0971 seconds