Global ETD Search

311	Diversité génétique, génomique et fonctionnelle de Lactococcus lactis / Genetic, genomic and functional diversity of Lactococcus lactis Passerini, Delphine 03 November 2011 (has links) Lactococcus lactis est une espèce appartenant au groupe des bactéries lactiques, largement utilisées dans l’industrie pour leur capacité à produire de l’acide lactique au cours de la fabrication des produits laitiers fermentés. L’étude de la diversité globale de L. lactis ssp. lactis a été entreprise par l’intégration de données biologiques obtenues à partir d’analyses génétiques, génomiques, physiologiques, transcriptomiques et métaboliques. L’accès à la phylogénie de l’espèce par l’étude de la variabilité génétique du génome cœur par MLST (MultiLocus Sequence Typing) a permis de décrire deux groupes de souches : les souches environnementales, génétiquement très diverses, isolées de laits crus, de plantes ou d’animaux et les souches domestiquées, génétiquement très proches, isolées des levains utilisés dans l’industrie laitière. Malgré la perte de diversité génétique observée dans les souches domestiquées probablement associée à un processus de spécialisation à un environnement technologique, l’approche intégrative a permis de montrer que ce groupe présente une diversité génomique et fonctionnelle aussi importante que les souches environnementales. L’investigation des génomes de la sous-espèce lactis par la mesure de la taille des chromosomes et la caractérisation en nombre et en taille du contenu plasmidique, a révélé une variabilité de plus de 300 kb en capacité de codage génétique des souches domestiquées et environnementales. D’autre part, les souches domestiquées appartenant au biovar Diacetylactis ont montré des physiologies et des régulations métaboliques différentes, résultant en une production d’arômes de type diacetyl ou acétoïne variable selon la souche. Enfin, le séquençage du génome de la souche environnementale A12 isolée d’un levain de panification, et sa comparaison avec les 4 génomes actuellement séquencés de L. lactis a révélé un pangénome (ensemble des gènes de l’espèce) étendu, montrant que cette espèce offre un grand réservoir de diversité. Environ 20 % des gènes spécifiques de souches ont été mis en évidence témoignant des grandes capacités adaptatives de la sous-espèce. L’étude approfondie de la souche A12 par une analyse transcriptomique a permis de rendre compte des mécanismes impliqués dans l’adaptation d’une souche à un écosystème complexe / The Lactococcus lactis species belong to lactic acid bacteria group widely used for their ability to produce lactic acid in fermented dairy products. The study of the global diversity of L. lactis ssp. lactis was carry out by the integration of biological data obtained from genetic, genomic, physiological, transcriptomic and metabolic analyses. The genetic variability investigated by MLST (MultiLocus Sequence Typing) describe two strains groups according to their phylogeny : the “environmental” strains, displaying high genetic diversity and isolated from different natural environments such as raw milks, plants and animals and the “domesticated” strains, genetically closely related, isolated from starters in dairy industries. Despite the lost of genetic diversity in domesticated strains, probably associated to a specialisation process, the integrative approach showed a genomic and functional diversity as huge as in environmental strains. The characterization of chromosome size and plasmidic content of the lactis subspecies revealed a variation higher than 300 kb in genetic coding capacity for domesticated and environmental strains. Moreover, the domesticated strains belonging to the biovar Diacetylactis showed different physiologies and metabolic regulations resulting in variable amount of aroma produced according to the strains. Finally, the genome sequencing of the A12 strain isolated from sourdough bread and its comparison with 4 other L. lactis genomes already sequenced revealed a spread pangenome (all the genes of a species). Approximately 20 % of each genome correspond to strain specific genes, showing large adaptive capacities of the subspecies. The in-depth study of the A12 strain by transcriptomic analysis allows to highlight mechanisms involved in the adaptation of a strain to a complex ecosystem Lactococcus lactis Biovar Diacetylactis Diversité Phylogénie Adaptation Génomique fonctionnelle Lactococcus lactis Biovar Diacetylactis Diversity Phylogeny Adaptation Functional genomic 578.4
312	Les longs ARN non codants, une nouvelle classe de régulateurs génomique tissu-spécifique : signature moléculaire spécifique des neurones dopaminergiques et sérotoninergiques / Long non coding RNA, a new class of tissu-specific genomic regulators : dopaminergic and serotoninergic neurons specific molecular signatures Gendron, Judith 30 October 2017 (has links) Seul 1,2% du génome code des protéines :98,8% est non-codant,cependant 93% du génome est transcrit, principalement en longs ARN non-codants (lncRNA). Or ces lncRNA constituent une nouvelle classe de régulateurs génomique agissant à tous les niveaux d’expression des gènes et ils sont fortement spécifiques du tissu,modulés au cours du temps et en conditions physiopathologiques.Ainsi,nous proposons que chaque cellule spécifiée exprime son répertoire de lncRNA spécifique avec une carte des zones de chromatines ouvertes renseignant son identité cellulaire.Dans cette perspective,nous avons isolé par FACS 2types cellulaires impliqués dans des pathologies: i) des neurones dopaminergiques humains(nDA) différenciés à partir d’hiPS et ii) des neurones DA et sérotoninergiques (n5-HT)murins.Sur ces 2types neuraux isolés,nous avons identifié 1363 lncRNA exprimés dans les nDA (dont 989nouveaux) constituant le répertoire des neurones DA et 1257 lncRNA dans les n5-HT (719nouveaux) constituant le répertoire des n5-HT.Or leur comparaison a montré que seuls 194 lncRNA sont communs aux 2types cellulaires:la majorité des lncRNA est exprimée soit dans les nDA soit dans les n5-HT,attestant leur spécificité cellulaire.De plus,39%des zones de chromatines ouvertes/potentiellement régulatrices des nDA ne sont pas non plus retrouvées dans les n5-HT.Ainsi, nous avons généré un catalogue d’éléments non codants constituant des signatures moléculaires spécifiques des nDA et n5-HT,ouvrant de nouvelles pistes physiopathologiques:Dans cette optique,les signatures non codantes DA ont été comparées avec les SNP associés à la maladie de Parkinson et des études de fonction sur des lncRNA candidats ont été réalisées. / Only 1.2% of the genome codes for proteins; 98.8% is thus non-coding, despite 93% of the human genome being actively transcribed, mostly in long non-coding RNA (lncRNA).These lncRNA constitute a new class of genomic regulator capable of acting at all levels of gene expression and their expression is highly tissue-specific,modulated during the time and under normal/pathological conditions.Thus, we propose that each specified cell expresses a specific repertoire of lncRNA correlated to open/active chromatin regions specifying its cellular identity.In this context, we isolated by FACS 2neural types involved in many pathologies: i) human dopaminergic neurons (nDA) differentiated from hiPS and ii) DA and serotoninergic (n5-HT) neurons. From these 2neural types, we identified 1,363 lncRNA in nDA (among which 989 new, whether 73%) constituting the repertoire of nDA, and 1,257 lncRNA (among which 719 new) constituting the repertoire of n5-HT. Moreover,their comparison has shown that only 194 lncRNA are common to both neural types:thus the majority of lncRNA is expressed either in nDA or in n5-HT, indicating a high degree of cell-specificity.In addition, 39% of open chromatin regions, potentially regulatory, were also not detected in the n5-HT.Thus, we have generated DA and 5-HT specific catalogues of non-coding elements of the genome, which constitute DA and 5-HT specific molecular signatures, that could participate in deepening our knowledge regarding nDA or n5-HT development and dysfunctions. With this in mind,these DA specific elements have been compared with the SNP described as Parkinson Disease risk variants and candidate lncRNA were selected to perform studies of function. Longs ARN non-codants Dopaminergique Sérotoninergique Neurone Régulateurs génomique ADN non-codant Long non-coding RNA Dopaminergic neurons Serotoninergic neurons 573.8
313	Capacité de différents outils de typage moléculaire pour tracer Campylobacter jejuni et identifier l’origine de contamination en cas de campylobactériose / Ability of several genotyping methods to track Campylobacter jejuni and identify the source of human campylobacteriosis Thépault, Amandine 10 January 2018 (has links) Campylobacter est responsable de la zoonose bactérienne d’origine alimentaire la plus fréquemment reportée en Europe. Cette bactérie étant ubiquitaire, les sources et voies d’infection de l’Homme sont nombreuses. Cependant, afin de diminuer l’incidence de la maladie, il est nécessaire d’identifier les principaux réservoirs impliqués dans les infections humaines. Pour cela, nous avons dans un premier temps investigué la présence de Campylobacter dans trois réservoirs animaux (volaille, bovin, animaux de compagnie), ainsi que la diversité génétique des isolats de C. jejuni, en comparaison à celle d’isolats cliniques, à l’aide des techniques MLST (Multilocus sequence typing) et CGF (Comparative Genomic Fingerprinting). Afin d’identifier l’origine des campylobactérioses avec précision et de compenser notamment les limites techniques de la MLST, 15 marqueurs génétiques ont été sélectionnés comme marqueurs potentiellement indicateurs de l’hôte, après analyse de plus de 800 génomes de C. jejuni. Par la suite, la capacité de la MLST, la CGF40 et des 15 marqueurs à identifier l’origine des campylobactérioses a été étudiée. Ainsi, les 15 marqueurs se sont révélés être particulièrement performants pour l’attribution de sources des campylobactérioses, suivis ensuite par la MLST, tandis que la CGF40 est apparue comme étant peu adaptée. A partir des données MLST et des 15 marqueurs génétiques, une implication majoritaire des volailles et des bovins a été mis en évidence en France, tandis que les animaux de compagnie et l’environnement (comprenant eau et oiseaux sauvages) étaient faiblement impliqués. Ceci permet ainsi de renforcer les efforts de recherche relatifs aux moyens de lutte contre Campylobacter menés dans ces réservoirs. Ce travail a également permis de mettre en évidence de potentielles spécificités nationales dans la dynamique de transmission de C. jejuni à l’Homme. / Campylobacter is the causal agent of the main bacterial foodborne gastroenteritis in Europe. Since Campylobacter is frequently found in animal reservoirs, sources of human infection and transmission routes are various. However, to decrease the human burden of campylobacteriosis, it is essential to quantify the relative importance of the several reservoirs in human infections. For this purpose, we assessed the contamination of chicken, cattle and pets by Campylobacter spp., and further characterized C. jejuni isolates using MLST (Multilocus Sequence Typing) and CGF (Comparative Genomic Fingerprinting) in comparison with French clinical isolates. Then, in order to identify the most likely origin of campylobacteriosis cases in France and overcome MLST limitations in source attribution, about 800 C. jejuni genomes were analyzed which resulted in the identification of 15 genes as promising host segregating markers for source attribution. Subsequently, we assessed the ability of MLST, CGF40 and the 15 host-segregating markers to identify the most likely origin of campylobacteriosis. The 15 host-segregating markers were the most powerful in source attribution, followed by MLST, while CGF40 appeared to be not suitable for source attribution in our study. Based on MLST and the 15 markers, assignments of clinical cases emphasize the significant implication of chicken and ruminant in human infection by Campylobacter, while pets and the environment (including water and wild birds) were slightly involved, reinforcing the interest to focus control strategies on livestock. Finally this work highlights potential national variations in the transmission dynamics of C. jejuni to human. Campylobacter Attribution de sources Génomique Mlst Cgf40 Séquençage de génomes entiers Zoonose Campylobacter Source attribution Genomics Mlst Cgf40 Whole genome sequencing Zoonosis
314	L'importance du nucléole et des gènes d'ARN ribosomique 45S dans l'organisation 3D et la stabilité du génome chez Arabidopsis thaliana. / The importance of the nucleolus and ribosomal RNA 45S genes on genome 3D organization and integrity in Arabidopsis thaliana Picart Picolo, Ariadna 05 November 2019 (has links) Le nucléole est le site de biogenèse des ribosomes, qui commence par la transcription des gènes d’ARN ribosomique (ARNr). Cependant, le nucléole est également impliqué dans d'autres processus cellulaires, comme l’organisation 3D du génome. Ainsi, des régions génomiques appelées NADs pour Nucleolus-Associated chromatin Domains, ont été identifiées dans des cellules animales et végétales. Ces régions sont surtout hétérochromatiques et les gènes associés ont tendance a être peu ou pas transcrits. Un des objectifs de ma thèse a été d’étudier l’implication du nucléole dans l’organisation de la chromatine au sein du noyau et la régulation transcriptionnelle de gènes transcrits par l’ARN Polymérase II chez Arabidopsis thaliana. Par ailleurs, parmi les centaines de copies de gènes d’ARNr, uniquement une fraction participe au processus de biogenèse des ribosomes. Dans un second temps, j’ai donc étudié le rôle de ces copies inactives. On a pu démontrer que l’absence des gènes d’ARNr inactifs n’engendre pas de changements majeurs dans la fonction nucléolaire. Par contre, ces copies participent à la stabilité du génome. En effet, en leur absence, des duplications génomiques allant jusqu’à plusieurs centaines de kilobases s’accumulent, entraînant des duplications de gènes et des différences du niveau d’expression de ces derniers. Finalement, les effets de ces changements structuraux sur la biologie de la plante sont discutés. / The nucleolus is the site of ribosome biogenesis, which begins with the transcription of ribosomal RNA (rRNA) genes. However, the nucleolus is also involved in other cellular processes, such as the 3D genome organization. Thus, genomic regions called NADs for Nucleolus-Associated chromatin Domains, have been identified in animal and plant cells. These regions are mostly heterochromatic and the associated genes tend to be poorly transcribed. One of the objectives of my thesis was to study the involvement of the nucleolus in the 3D genome organization and the transcriptional regulation of genes transcribed by RNA Polymerase II in Arabidopsis thaliana. In addition, only a fraction of rRNA gene copies participates in the process of ribosome biogenesis. In a second time, I studied the role of the inactive rRNA gene copies. We show that in their absence, there is no major changes in the nucleolus function. However, these copies contribute to genome stability. Indeed, in their absence, up to several hundred of kilobases long duplication events accumulate, resulting in the duplication and the differential expression of hundreds of genes. Finally, the impact of these structural changes on the plant biology are discussed. Nucléole ADN ribosomique Architecture chromatinienne Intégrité génomique Arabidopsis FANoS Nucleolus Ribosomal DNA Chromatin architecture Genome integrity Arabidopsis FANoS 570
315	Genome-wide analysis of ATP-dependent chromatin remodeling functions in embryonic stem cells / Analyse de la fonction des facteurs de remodelage de chromatine ATP-dépendants dans le contrôle de l’expression du génome des cellules souches embryonnaires Bou Dargham, Daria 13 October 2015 (has links) Les cellules souches embryonnaires (cellules ES) constituent un excellent système modèle pour étudier les mécanismes épigénétiques contrôlant la transcription du génome mammifère. Un nombre important de membres de la famille des facteurs de remodelage de chromatine ATP-dépendants ont une fonction essentielle pour l’auto-renouvellement des cellules ES, ou au cours de la différentiation. On pense que ces facteurs exercent ces rôles essentiels en régulant l’accessibilité de la chromatine au niveau des éléments régulateurs de la transcription, en modulant la stabilité et le positionnement des nucléosome.Dans ce projet, nous avons conduit une étude génomique à grande échelle du rôle d’une dizaine des remodeleurs (Chd1, Chd2, Chd4, Chd6, Chd8, Chd9, Ep400, Brg1, Smarca3, Smarcad1, Smarca5, ATRX et Chd1l) dans les cellules ES. Une double stratégie expérimentale a été utilisée : Des expériences d’immunoprécipitation de la chromatine suivi par un séquençage à haute-débit (ChIP-seq) sur des cellules ES étiquetées pour les différents remodeleurs, pour étudier leur distribution sur le génome, et un approche transcriptomique sur des cellules déplétées de chaque remodeleur par traitement avec des vecteurs shRNA (knockdown). Nous avons établi les profils de liaison des remodeleurs sur des éléments régulateurs (promoteurs, enhancers et sites CTCF) sur le génome, et montré que ces facteurs occupent toutes les catégories d’éléments régulateurs du génome. La corrélation entre les données ChIP-seq et les données transcriptomiques nous a permis d’analyser le rôle des remodeleurs dans les réseaux de transcription essentiels des cellules ES. Nous avons notamment démontré l’importance particulière de certains remodeleurs comme Brg1, Chd4, Ep400 et Smarcad1 dans la régulation de la transcription chez les cellules ES. / The characteristics of embryonic stem cells (ES cells) make them one of the best models to study the epigenetic regulation exerted by different actors in order to control the transcription of the mammalian genome. Members of the Snf2 family of ATP-dependent chromatin remodeling factors were shown to be of specific importance for ES cell self-renewal and during differentiation. These factors are believed to play essential roles in modifying the chromatin landscape through their capacity to position nucleosomes and determine their occupancy throughout the genome, making the chromatin more or less accessible to DNA binding factors.In this project, a genome-wide analysis of the function of a number of ATP-dependent chromatin remodelers (Chd1, Chd2, Chd4, Chd6, Chd8, Chd9, Brg1, Ep400, ATRX, Smarca3, Smarca5, Smarcad1 and Alc1) in mouse embryonic stem (ES) cells was conducted. This was done using a double experimental strategy. First, a ChIP-seq (Chromatin Immunoprecipitation followed by deep sequencing) strategy was done on ES cells tagged for each factor in the goal of revealing the genomic binding profiles of the remodeling factors. Second, loss-of-function studies followed by transcriptome analysis in ES cells were performed in order to understand the functional role of remodelers. Data from both studies were correlated to acquire a better understanding of the role of remodelers in the transcriptional network of ES cells. Specific binding profiles of remodelers on promoters, enhancers and CTCF binding sites were revealed by our study. Transcriptomic data analysis of the deregulated genes upon remodeler factor knockdown, revealed the essential role of Chd4, Ep400, Smarcad1 and Brg1 in the control of transcription of ES cell genes. Altogether, our data highlight how the distinct chromatin remodeling factors cooperate to control the ES cell state. Facteurs de remodelage de la chromatin Cellules souches embryonnaires Génomique Régulation transcriptionelles Chromatin remodeling factors Embryonic stem cells Genome-Wide Transcriptional regulation
316	Étude intégrative du rôle de deux sous unités essentielles du Médiateur de la transcription dans la mise en place des complexes de pré-initiation / Integrative study of the role of two Mediator essential subunits in transcription initiation Eychenne, Thomas 22 September 2016 (has links) La transcription est la première étape de l’expression des gènes. Chez les eucaryotes, la transcription par l’ARN polymérase II (Pol II) est un processus hautement régulé. Elle commence par la fixation d’activateurs spécifiques sur des régions régulatrices. Cela permet le recrutement de co-activateurs suivi des facteurs généraux de la transcription (GTFs) et de l’ARN polymérase II pour former le complexe de préinitiation (PIC). Le Médiateur est un complexe co-activateur essentiel à ce processus. Chez la levure Saccharomyces cerevisiae, il est composé de 25 sous-unités dont 10 sont essentielles à la viabilité. Son rôle principal est d’intégrer les signaux de régulation pour les transmettre aux composants du PIC. On connait aujourd’hui un certain nombre de fonctions du Médiateur. Néanmoins, sa complexité et la présence de sous-unités essentielles compliquent la compréhension détaillée de son mécanisme de fonctionnement in vivo. Au cours de ma thèse, je me suis intéressé aux sous-unités essentielles Med10 et Med7, toutes deux appartenant au module du milieu du Médiateur, peu étudié jusqu’à présent. Nous avons construit une collection de mutants thermosensibles de ces deux sous-unités chez la levure S. cerevisiae. Nous avons caractérisés ces mutants par différentes approches de biologie moléculaire, biochimie et génomique fonctionnelle. L’étude de la sous-unité Med10 nous a permis de mettre en évidence in vivo un lien fonctionnel entre le Médiateur et TFIIB, un GTF essentiel au recrutement de la Pol II. Nous avons ainsi identifié les sous-unités Med14 et Med10 qui sont en contact avec TFIIB. Nos analyses de ChIP-seq montrent que le module du milieu et Med10, en particulier, est requis pour la formation correcte du PIC sur l’ensemble du génome. Ces données nous ont également permis de montrer que le Médiateur influence la formation du PIC en relation avec l’architecture des promoteurs en termes de présence de boîtes TATA, d’occupation des nucléosomes et leur dynamique. Ce travail nous a permis une meilleure compréhension du rôle du Médiateur dans l’activation de la transcription et donné des informations mécanistiques sur la façon dont l’interaction entre le Médiateur et TFIIB (et les autres GTFs) ainsi que l’architecture des promoteurs mènent à une régulation gène-spécifique. / Transcription is the first step of gene expression. In eukaryotes, messenger RNA (mRNA) transcription is a highly regulated process. Transcription begins with the binding of a specific transcription factor on a DNA regulatory sequence. This enable the recruitment of co-activators, followed by general transcription factors (GTFs) and RNA polymerase II (Pol II) to form preinitiation complex (PIC). Mediator is a co-activator complex which is essential in this process. In yeast Saccharomyces cerevisiae, Mediator is composed of 25 subunits, among which 10 are essential for cell viability, organized into four distinct modules. The main role of this complex is to transmit regulatory signal to PIC components. Although Mediator has been the subject of a large numbers of studies, its complexity prevents the detailed understanding of how it acts in vivo. During my PhD, I focused my work on the study of the two essential subunits Med7 and Med10. Both of these subunits belong to the middle module, poorly studied so far. We obtained a collection of temperature-sensitive mutants of Med7 and Med10 in yeast S. cerevisiae. We used different molecular biology and functional genomics to characterize these mutants. The work on Med10 subunit enabled us to highlight in vivo a functional link between Mediator and TFIIB, one of the GTFs. Notably, we have shown a new contact between Med14 subunit and TFIIB. Our ChIP-seq analysis shows that Mediator middle module, and in particular Med10 subunits, is crucial for PIC assembly genome-wide. These data also permit us to show that Mediator influence PIC formation in relation to promoter architecture. Taken together, these results indicates that Mediator in crucial to orchestrate the incorporation of the different proteins into the PIC. This work permit us to improve our understanding of how functional interplay between Mediator, TFIIB, other GTFs, and the promoter architecture leads to gene-specific transcription. Transcription Mediateur Génomique Régulation Saccharomyces cerevisiae ARN polymérase II Transcription Mediator Genomics Regulation Saccharomyces cerevisiae RNA polymerase II
317	Etude de la domestication et de l’adaptation de l’igname (Dioscorea spp) en Afrique par des approches génomiques / Study of the domestication and adaptation of yams (Dioscorea spp) in Africa using genomic approaches Akakpo, Roland 16 May 2018 (has links) L’igname (Dioscorea spp) est un aliment de base de plus de 100 millions de personnes en Afrique. L’objectif de cette thèse était d'étudier la diversité génomique de l'igname, comprendre les bases génétiques de sa domestication, et d'étudier son adaptation à différentes zones climatiques. L’étude du processus de domestication de l’igname a été menée par une approche de génomique comparée entre l’espèce cultivée D. rotundata et deux espèces sauvages apparentées D. praehensilis et D. abyssinica, en utilisant des données de séquençage NGS génomique. Nous avons mis en évidence des sélections fortes de gènes de la voie de biosynthèse de l’amidon. Des gènes impliqués dans la morphologie des tubercules ou l’aptitude au phototropisme, ainsi que des gènes du complexe NADH deshydrogenase ont également été identifiés comme sélectionnés durant la domestication. Ce même complexe NADH-DH a également été identifié lors de la recherche de gènes associés à la distribution d’une collection d’ignames selon la variabilité climatique. Nous avons aussi créé la première banque de novo d’éléments transposables (ET) de l’igname. L’étude que nous avons menée sur les éléments répétés (ER) du génome de l’igname nous a permis d’identifier une forte corrélation entre la variabilité des abondances relatives d’un grand nombre d’ERs et la variabilité climatique. Enfin, nous avons pu proposer une hypothèse quant à l’origine de l’igname cultivée D. rotundata. La domestication de l'igname dériverait de l'espèce inféodée au milieu forestier, D. praehensilis. Ces résultats remettent en cause l’hypothèse d’une origine stricte en zone de savane pour les espèces cultivées et l’agriculture en Afrique de l'Ouest. / Yam (Dioscorea spp) is a major staple for more than 100 million people in Africa. The main objectives of the present PhD project were to study yam genomic diversity, its domestication, and to characterize the genomic determinism of its adaptation to different climatic zones. We investigated the genetic basis of yam domestication in a comparative genomic approach between the cultivated species D. rotundata and two wild close relatives D. praehensilis and D. abyssinica, by exploiting NGS sequencing data. We demonstrated that genes from the starch biosynthesis were selected during yam domestication. Genes related to tuber morphology or phototropism ability, as well as genes of the NADH dehydrogenase complex were also under selection. The same NADH-DH complex was also identified when assessing adaptation to climate variability. We also created the first de novo database of yam transposable elements (TEs). The study we performed on these repeat elements (REs) highlighted a strong correlation between the variability in relative abundances of numerous REs and climatic variability. Finally, we were able to propose an hypothesis on the origin of the cultivated yam D. rotundata. Our hypothesis identifies the origin of yam in the forest areas, with the species D. praehensilis as the putative progenitor. Our results question the generally admitted hypothesis of savannah origins for crops and agriculture in Africa. Adaptation Dioscorea spp Domestication Eléments transposables Génomique des populations NGS Adaptation Domestication Dioscorea spp NGS Population genomics Transposable elements
318	Contributions to genomic selection and association mapping in structured and admixed populations : application to maize / Contributions à la sélection génomique et à la génétique d'association en populations structurées et admixées : application au maïs Rio, Simon 26 April 2019 (has links) L'essor des marqueurs moléculaires (SNPs) a révolutionné les méthodes de génétique quantitative en permettant l'identification de régions impliquées dans le déterminisme génétique des caractères (QTLs) via la génétique d'association (GWAS), ou encore la prédiction des performances d'individus sur la base de leur information génomique (GS). La stratification des populations en groupes génétiques est courante en sélection animale et végétale. Cette structure peut impacter les méthodes de GWAS et de GS via des différences de fréquence et d'effets des allèles des QTL, ainsi que par des différences de déséquilibre de liaison (LD) entre SNP et QTL selon les groupes.Pendant cette thèse, deux panels de diversité de maïs ont été utilisés, présentant des niveaux différents de structuration: le panel “Amaizing Dent” représentant les lignées dentées utilisées en Europe et le panel “Flint-Dent” incluant des lignées dentées, cornées européennes, ainsi que des lignées admixées entre ces deux groupes.En GS, l'impact de la structure génétique sur la qualité des prédictions a été évalué au sein du premier panel pour des caractères de productivité et de phénologie. Cette étude a mis en évidence l'intérêt d'une population d'entraînement (TS) dont la constitution en matière de groupes génétiques est similaire à celle de la population à prédire. Assembler les différents groupes au sein d'un TS multi-groupe apparaît comme une solution efficace pour prédire un large spectre de diversité génétique. Des indicateurs a priori de la précision des prédictions génomiques, basés sur le coefficient de détermination, ont également été évalués, mettant en évidence une efficacité variable selon le groupe et le caractère étudié.Une nouvelle méthodologie GWAS a ensuite été développée pour étudier l'hétérogénéité des effets capturés par les SNPs selon les groupes. L'intégration des individus admixés à l'analyse permet de séparer les effets des facteurs responsables de l'hétérogénéité des effets alléliques: différence génomique locale (liée au LD ou à une mutation spécifique d'un groupe) ou interactions épistatiques entre le QTL et le fonds génétique. Cette méthodologie a été appliquée au panel “Flint-Dent” pour la précocité de floraison. Des QTL ont été détéctés comme présentant des effets groupe-spécifiques interagissant ou non avec le fonds génétique. De nombreux QTL présentant un profil original ont pu être mis en évidence, incluant des locus connus tels que Vgt1, Vgt2 ou Vgt3. Une importante épistasie directionnelle a aussi été mise en évidence grâce aux individus admixés, confortant l'existence d'interactions épistatiques avec le fonds génétique pour ce caractère.Sachant l'existence de cette hétérogénéité d’effets alléliques, nous avons développé deux modèles de prédictions génomiques nommées Multi-group Admixed GBLUP (MAGBLUP). Ceux-ci modélisent des effets groupe-spécifiques aux QTLs et sont adaptés à la prédiction d'individus admixés. Le premier permet d'identifier la variance génétique additionnelle créée par l'admixture (variance de ségrégation), alors que le second permet d'évaluer le degré de conservation des effets alléliques entre groupes. Ces deux modèles ont montré un intérêt certain par rapport à des modèles standards pour prédire des caractères simulés, mais plus limité sur des caractères réels.Enfin, l'intérêt des individus admixés dans la constitution de TS multi-groupes a été évalué à l'aide du second panel. Si leur intérêt a clairement été mis en évidence pour des caractères simulés, des résultats plus variables ont été observés avec les caractères réels, pouvant s'expliquer par la présence d'interactions avec le fonds génétique.Les nouvelles méthodes et l'utilisation d'individus admixés ouvrent des pistes de recherches intéressantes pour les études de génétique quantitative en population structurée. / The advent of molecular markers (SNPs) has revolutionized quantitative genetics methods by enabling the identification of regions involved in the genetic determinism of traits (QTLs) thanks to association studies (GWAS), or the prediction of the performance of individuals using genomic information (GS). The stratification of populations into genetic groups is common in animal and plant breeding. This structure can impact GWAS and GS methods through group differences in QTL allele frequencies and effects, as well as in linkage disequilibrium (LD) between SNP and QTL.During this thesis, two maize diversity panels were used, presenting different levels of structuration: the "Amaizing Dent" panel representing the diversity of dent lines used in Europe and the "Flint-Dent" panel including dent, flint and admixed lines between these two groups.In GS, the impact of genetic structure on genomic prediction accuracy was evaluated in the first panel for productivity and phenology traits. This study highlighted the interest of a training population (TS) whose constitution in terms of genetic groups is similar to that of the population to be predicted. Assembling the different groups within a multi-group TS appears as an effective solution to predict a broad spectrum of genetic diversity. A priori indicators of genomic prediction accuracy, based on the coefficient of determination, were also evaluated and highlighted a variable efficiency depending on the group and the trait.A new GWAS methodology was then developed to study the heterogeneity of the allele effects captured by SNPs depending on the group. The integration of admixed individuals to such analyses allows to disentangle the factors causing the heterogeneity of allele effects across groups: local genomic difference (related to LD or group-specific mutation) or epistatic interactions between the QTL and the genetic background. This methodology was applied to the "Flint-Dent" panel for flowering time. QTLs have been detected as presenting group-specific effects interacting or not with the genetic background. QTLs with an original profile have been highlighted, including known loci such as Vgt1, Vgt2 or Vgt3. Significant directional epistasis has also been demonstrated using admixed individuals and supported the existence of epistatic interactions with the genetic background for this trait.Based on the existence of such heterogeneity of allele effects, we have developed two genomic prediction models named Multi-group Admixed GBLUP (MAGBLUP). Both model group-specific QTL effects and are suited to the prediction of admixed individuals. The first allows the identification the additional genetic variance created by the admixture (segregation variance), while the second allows the evaluations of the degree of conservation of SNP allele effects across groups. These two models showed a certain interest compared to standard models to predict simulated traits, but it was more limited on real traits.Finally, the interest of admixed individuals in multi-group TS was evaluated using the second panel. Although their interest has been clearly demonstrated for simulated traits, more variable results have been observed with the real traits, which can be explained by the presence of interactions with the genetic background.The new methods and the use of admixed individuals open interesting lines of research for quantitative genetics studies in structured population. Admixture Coefficient de Détermination (CD) Prédiction génomique Structure génétique Gwas Epistasie Admixture Coefficient of Determination Genomic Prediction Genetic Structure Gwas Epistasis
319	Identification of causal factors for recessive lethals in dairy cattle with special focus on large chromosomal deletions / Etude de délétions chromosomiques et de variants génétiques responsables de mortalité embryonnaire chez les bovins laitiers Uddin, Md Mesbah 17 September 2019 (has links) L'objectif général de cette thèse est d'identifier les variants causaux ou, à défaut, un ensemble de marqueurs prédictifs - qui présentent un déséquilibre de liaison élevé avec les variants causaux - pour la fertilité des vaches laitières. Nous avons abordé cet objectif général dans cinq articles: (i) décrit une approche systématique de cartographie des variants létaux récessifs chez les bovins Normands français basée sur la recherche de déficit en haplotypes homozygotes (HHD). Cette étude montre l’influence de la taille de l’échantillon, de la qualité des génotypes, de la qualité du phasage des génotypes en haplotypes et de l’imputation, de l’âge de l’haplotype et enfin, de la définition des seuils de signification prenant en compte les tests multiples, sur la découverte et la reproductibilité des résultats de HHD. Elle illustre également l’importance de la cartographie fine avec les données de généalogie et de séquence de génome entier (WGS), l’annotation intégrative (entre espèces) pour hiérarchiser les mutations candidates et, enfin, le génotypage à grande échelle de la mutation candidate, pour valider ou invalider les mutations initiales. (ii) décrit une cartographie à haute résolution de grandes délétions chromosomiques de séquences du génome dans une population de 175 animaux appartenant à trois races laitières nordiques. Cette étude utilise trois approches différentes pour valider les résultats de la cartographie. Le chapitre décrit les propriétés génétiques des populations et l’importance fonctionnelle des délétions identifiées. (iii) traite de trois questions liées à l’imputation de variants structuraux, ici de délétions chromosomiques importantes: la disponibilité des génotypes de délétion, la taille du panel de référence d'haplotypes et, enfin, l’imputation elle-même. Pour aborder les deux premières questions, cette étude décrit une approche basée sur un modèle de mélange gaussien dans laquelle les données de profondeur de lecture provenant de fichiers au format VCF (variant call format) sont utilisées pour génotyper un locus de délétion connu, en l’absence d’information sur la séquence brute. Enfin, il présente un pipeline pour l'imputation conjointe de variants WGS et de grandes délétions chromosomiques. (iv) décrit des études d'association pangénomiques de la fertilité femelle dans trois races de bovins laitiers nordiques à l'aide de variants WGS imputés et de grandes délétions chromosomiques. Cette étude concerne huit caractères de fertilité et utilise des analyses d'association mono-marqueur, conditionnelles et conjointes. Cette étude montre qu’une surestimation, ou « inflation », des statistiques de test peut être observée même après correction pour la stratification de la population à l'aide de composantes principales génomiques et pour les structures familiales à l'aide de matrices de relations génomiques. Ce biais était connu pour les caractères très polygéniques. Enfin, cette étude présente plusieurs locus de traits quantitatifs (QTL) nouveaux et confirme plusieurs autres déjà connus. Elle souligne également l’importance d’inclure les grandes délétions (imputées) pour la cartographie par association des caractères de fertilité. (v) décrit la prédiction des valeurs génomiques de fertilité (ou indice de fertilité) à l'aide de génotypes à puces SNP, de QTL sélectionnés et de délétions chromosomiques importantes. En utilisant la méthode de meilleure prédiction linéaire sans biais génomique (GBLUP) avec une ou plusieurs matrices de relations génomiques dérivées d'un ensemble de marqueurs sélectionnés, cette étude rapporte une précision de prédiction améliorée. Cette étude met également en évidence l’influence de la sélection des marqueurs les plus prédictifs, en particulier pour une race ayant une population d’apprentissage réduite, sur la précision des prédictions génomiques. Enfin, les résultats démontrent que les grandes délétions ont en général un pouvoir prédictif élevé. / The overall aim of this PhD thesis is to identify causal variants for recessive lethal mutations and select a set of predictive markers that are in high linkage-disequilibrium with the causal variants for female fertility in dairy cattle. We addressed this broad aim under five articles: (i) describes a systematic approach of mapping recessive lethals in French Normande cattle using homozygous haplotype deficiency (HHD). This study shows the influence of sample size, quality of genotypes, quality of (genotype) phasing and imputation, age of haplotype (of interest), and last but not the least, multiple testing corrections, on discovery and replicability of HHD results. It also illustrates the importance of fine-mapping with pedigree and whole-genome sequence (WGS) data, (cross-species) integrative annotation to prioritize candidate mutation, and finally, large-scale genotyping of the candidate mutation, to validate or invalidate initial results. (ii) describes a high-resolution population-scale mapping of large chromosomal deletions from whole-genome sequences of 175 animals from three Nordic dairy breeds. This study employs three different approaches to validate identified deletions. Next, it describes population genetic properties and functional importance of these deletions. (iii) deals with three main issues related to imputation of structural variants, in this case, large chromosomal deletions, e.g. availability of deletion genotypes, size of haplotype reference panel, and finally, imputation itself. To address the first two issues, this study describes a Gaussian mixture model-based approach where read-depth data from the variant call format (VCF) file is used to genotype a known deletion locus, without the need for raw sequence (BAM) file. Finally, it presents a pipeline for joint imputation of WGS variants along with large chromosomal deletions. (iv) describes genome-wide association studies for female fertility in three Nordic dairy cattle breeds using imputed WGS variants including large chromosomal deletions. This study is based on the analyses of eight fertility related traits using single-marker association, conditional and joint analyses. This study illustrates that inflation in association test-statistics could be seen even after correcting for population stratification using (genomic) principal components, and relatedness among the samples using genomic relationship matrices; however, this was known for traits with strong polygenic effects, among other factors. Finally, mapping of several new quantitative trait loci (QTL), along with the previously known ones, are reported in this study. This study also highlights the importance of including (imputed) large deletions for association mapping of fertility traits. (v) describes prediction of genomic breeding values for fertility using SNP array-chip genotypes, selected QTL and large chromosomal deletion. Using genomic best linear unbiased prediction (GBLUP) method with one or several genomic-relationship matrices derived from a set of selected markers, this study reports higher prediction accuracy compared with previous report. This study also highlights the influence of selecting markers with best predictability, especially for a breed with small training population, in accuracy of genomic prediction. The results demonstrate that large deletions in general have a high predictive performance. Mortalité embryonnaire Variations structurales Bovins laitiers Sélection génomique Recessive lethal Structural variants Dairy cattle Genomic prediction 636.0821
320	Network and machine learning approaches to dengue omics data / Approches d'analyses de réseaux et d'apprentissage automatique pour les données omiques de dengue Nikolayeva, Iryna 02 October 2017 (has links) Les 20 dernières années ont vu l'émergence de technologies de mesure puissantes, permettant l'analyse omique de diverses maladies. Ils fournissent souvent des moyens non invasifs pour étudier l'étiologie des maladies complexes nouvellement émergentes, telles que l'infection de la dengue, transmise par les moustiques. Ma thèse se concentre sur l'adaptation et l'application d'approches utilisant des réseaux d'interaction de gènes et l'apprentissage automatique pour l'analyse de données génomiques et transcriptomiques. La première partie va au-delà d'une analyse pangénomique précédemment publiée de 4 026 personnes en appliquant une analyse de réseaux d'interaction pour trouver des groupes de gènes qui interagissent dans un réseau d'interactions fonctionnelles et qui, pris ensemble, sont associés à la dengue sévère. Dans cette partie, j'ai d'abord recalculé les valeurs-p d'association des polymorphismes séquencés, puis j'ai travaillé sur le mapping des polymorphismes à des gènes fonctionnellement apparentés, et j'ai enfin exploré différentes bases de données de voies métaboliques et d'interactions génétiques pour trouver des groupes de gènes qui, pris ensemble, sont associés à la dengue sévère. La deuxième partie de ma thèse dévoile une approche théorique pour étudier un biais dans les algorithmes de recherche de réseau actifs. Mon analyse théorique suggère que le meilleur score de sous-réseaux d'une taille donnée devrait être normalisé en fonction de la taille, selon l'hypothèse selon laquelle il s'agit d'un échantillon d'une distribution de valeur extrême, et non un échantillon de la distribution normale, comme c'est généralement le cas dans la littérature. Je propose alors une solution théorique à ce biais. La troisième partie présente un nouvel outil de recherche de sous-réseaux que j'ai co-conçu. Son modèle sous-jacent et l'algorithme évite le biais de taille trouvé dans les méthodes existantes et génère des résultats facilement compréhensibles. Je présente une application aux données transcriptomiques de la dengue. Dans la quatrième et dernière partie, je décris l'identification d'un biomarqueur qui détecte la sévérité de la dengue à l'arrivée à l'hôpital en utilisant une nouvelle approche d'apprentissage automatique. Cette approche combine la régression monotone bidimensionnelle avec la sélection des variables. Le modèle sous-jacent va au-delà des approches linéaires couramment utilisées, tout en permettant de contrôler le nombre de transcrits dans le biomarqueur. Le petit nombre de transcrits accompagné de leur représentation visuelle maximisent la compréhension et l'interprétation du biomarqueur par les professionnels de la biomédecine. Je présente un biomarqueur à 18 gènes qui permet de distinguer, à leur arrivée à l'hôpital, les patients qui vont développer des symptômes de dengue sévères de ceux qui auront une dengue non sévère. Ce biomarqueur a une performance prédictive élevée et robuste. La performance prédictive du biomarqueur a été confirmée sur deux ensembles de données qui ont tous deux utilisé différentes technologies transcriptomiques et différents sous-types de cellules sanguines. / The last 20 years have seen the emergence of powerful measurement technologies, enabling omics analysis of diverse diseases. They often provide non-invasive means to study the etiology of newly emerging complex diseases, such as the mosquito-borne infectious dengue disease. My dissertation concentrates on adapting and applying network and machine learning approaches to genomic and transcriptomic data. The first part goes beyond a previously published genome-wide analysis of 4,026 individuals by applying network analysis to find groups of interacting genes in a gene functional interaction network that, taken together, are associated to severe dengue. In this part, I first recalculated association p-values of sequences polymorphisms, then worked on mapping polymorphisms to functionally related genes, and finally explored different pathway and gene interaction databases to find groups of genes together associated to severe dengue. The second part of my dissertation unveils a theoretical approach to study a size bias of active network search algorithms. My theoretical analysis suggests that the best score of subnetworks of a given size should be size-normalized, based on the hypothesis that it is a sample of an extreme value distribution, and not a sample of the normal distribution, as usually assumed in the literature. I then suggest a theoretical solution to this bias. The third part introduces a new subnetwork search tool that I co-designed. Its underlying model and the corresponding efficient algorithm avoid size bias found in existing methods, and generates easily comprehensible results. I present an application to transcriptomic dengue data. In the fourth and last part, I describe the identification of a biomarker that detects dengue severity outcome upon arrival at the hospital using a novel machine learning approach. This approach combines two-dimensional monotonic regression with feature selection. The underlying model goes beyond the commonly used linear approaches, while allowing controlling the number of transcripts in the biomarker. The small number of transcripts along with its visual representation maximize the understanding and the interpretability of the biomarker by biomedical professionals. I present an 18-gene biomarker that allows distinguishing severe dengue patients from non-severe ones upon arrival at the hospital with a unique biomarker of high and robust predictive performance. The predictive performance of the biomarker has been confirmed on two datasets that both used different transcriptomic technologies and different blood cell subtypes. Interactions Génomique Transcriptomique Apprentissage automatique Biomarqueur Dengue Réseau Interactions Genomics Transcriptomics Machine learning Biomarker Association Dengue Network 610.28

Search results