Spelling suggestions: "subject:"génomique."" "subject:"phénomique.""
311 |
Capacité de différents outils de typage moléculaire pour tracer Campylobacter jejuni et identifier l’origine de contamination en cas de campylobactériose / Ability of several genotyping methods to track Campylobacter jejuni and identify the source of human campylobacteriosisThépault, Amandine 10 January 2018 (has links)
Campylobacter est responsable de la zoonose bactérienne d’origine alimentaire la plus fréquemment reportée en Europe. Cette bactérie étant ubiquitaire, les sources et voies d’infection de l’Homme sont nombreuses. Cependant, afin de diminuer l’incidence de la maladie, il est nécessaire d’identifier les principaux réservoirs impliqués dans les infections humaines. Pour cela, nous avons dans un premier temps investigué la présence de Campylobacter dans trois réservoirs animaux (volaille, bovin, animaux de compagnie), ainsi que la diversité génétique des isolats de C. jejuni, en comparaison à celle d’isolats cliniques, à l’aide des techniques MLST (Multilocus sequence typing) et CGF (Comparative Genomic Fingerprinting). Afin d’identifier l’origine des campylobactérioses avec précision et de compenser notamment les limites techniques de la MLST, 15 marqueurs génétiques ont été sélectionnés comme marqueurs potentiellement indicateurs de l’hôte, après analyse de plus de 800 génomes de C. jejuni. Par la suite, la capacité de la MLST, la CGF40 et des 15 marqueurs à identifier l’origine des campylobactérioses a été étudiée. Ainsi, les 15 marqueurs se sont révélés être particulièrement performants pour l’attribution de sources des campylobactérioses, suivis ensuite par la MLST, tandis que la CGF40 est apparue comme étant peu adaptée. A partir des données MLST et des 15 marqueurs génétiques, une implication majoritaire des volailles et des bovins a été mis en évidence en France, tandis que les animaux de compagnie et l’environnement (comprenant eau et oiseaux sauvages) étaient faiblement impliqués. Ceci permet ainsi de renforcer les efforts de recherche relatifs aux moyens de lutte contre Campylobacter menés dans ces réservoirs. Ce travail a également permis de mettre en évidence de potentielles spécificités nationales dans la dynamique de transmission de C. jejuni à l’Homme. / Campylobacter is the causal agent of the main bacterial foodborne gastroenteritis in Europe. Since Campylobacter is frequently found in animal reservoirs, sources of human infection and transmission routes are various. However, to decrease the human burden of campylobacteriosis, it is essential to quantify the relative importance of the several reservoirs in human infections. For this purpose, we assessed the contamination of chicken, cattle and pets by Campylobacter spp., and further characterized C. jejuni isolates using MLST (Multilocus Sequence Typing) and CGF (Comparative Genomic Fingerprinting) in comparison with French clinical isolates. Then, in order to identify the most likely origin of campylobacteriosis cases in France and overcome MLST limitations in source attribution, about 800 C. jejuni genomes were analyzed which resulted in the identification of 15 genes as promising host segregating markers for source attribution. Subsequently, we assessed the ability of MLST, CGF40 and the 15 host-segregating markers to identify the most likely origin of campylobacteriosis. The 15 host-segregating markers were the most powerful in source attribution, followed by MLST, while CGF40 appeared to be not suitable for source attribution in our study. Based on MLST and the 15 markers, assignments of clinical cases emphasize the significant implication of chicken and ruminant in human infection by Campylobacter, while pets and the environment (including water and wild birds) were slightly involved, reinforcing the interest to focus control strategies on livestock. Finally this work highlights potential national variations in the transmission dynamics of C. jejuni to human.
|
312 |
L'importance du nucléole et des gènes d'ARN ribosomique 45S dans l'organisation 3D et la stabilité du génome chez Arabidopsis thaliana. / The importance of the nucleolus and ribosomal RNA 45S genes on genome 3D organization and integrity in Arabidopsis thalianaPicart Picolo, Ariadna 05 November 2019 (has links)
Le nucléole est le site de biogenèse des ribosomes, qui commence par la transcription des gènes d’ARN ribosomique (ARNr). Cependant, le nucléole est également impliqué dans d'autres processus cellulaires, comme l’organisation 3D du génome. Ainsi, des régions génomiques appelées NADs pour Nucleolus-Associated chromatin Domains, ont été identifiées dans des cellules animales et végétales. Ces régions sont surtout hétérochromatiques et les gènes associés ont tendance a être peu ou pas transcrits. Un des objectifs de ma thèse a été d’étudier l’implication du nucléole dans l’organisation de la chromatine au sein du noyau et la régulation transcriptionnelle de gènes transcrits par l’ARN Polymérase II chez Arabidopsis thaliana. Par ailleurs, parmi les centaines de copies de gènes d’ARNr, uniquement une fraction participe au processus de biogenèse des ribosomes. Dans un second temps, j’ai donc étudié le rôle de ces copies inactives. On a pu démontrer que l’absence des gènes d’ARNr inactifs n’engendre pas de changements majeurs dans la fonction nucléolaire. Par contre, ces copies participent à la stabilité du génome. En effet, en leur absence, des duplications génomiques allant jusqu’à plusieurs centaines de kilobases s’accumulent, entraînant des duplications de gènes et des différences du niveau d’expression de ces derniers. Finalement, les effets de ces changements structuraux sur la biologie de la plante sont discutés. / The nucleolus is the site of ribosome biogenesis, which begins with the transcription of ribosomal RNA (rRNA) genes. However, the nucleolus is also involved in other cellular processes, such as the 3D genome organization. Thus, genomic regions called NADs for Nucleolus-Associated chromatin Domains, have been identified in animal and plant cells. These regions are mostly heterochromatic and the associated genes tend to be poorly transcribed. One of the objectives of my thesis was to study the involvement of the nucleolus in the 3D genome organization and the transcriptional regulation of genes transcribed by RNA Polymerase II in Arabidopsis thaliana. In addition, only a fraction of rRNA gene copies participates in the process of ribosome biogenesis. In a second time, I studied the role of the inactive rRNA gene copies. We show that in their absence, there is no major changes in the nucleolus function. However, these copies contribute to genome stability. Indeed, in their absence, up to several hundred of kilobases long duplication events accumulate, resulting in the duplication and the differential expression of hundreds of genes. Finally, the impact of these structural changes on the plant biology are discussed.
|
313 |
Genome-wide analysis of ATP-dependent chromatin remodeling functions in embryonic stem cells / Analyse de la fonction des facteurs de remodelage de chromatine ATP-dépendants dans le contrôle de l’expression du génome des cellules souches embryonnairesBou Dargham, Daria 13 October 2015 (has links)
Les cellules souches embryonnaires (cellules ES) constituent un excellent système modèle pour étudier les mécanismes épigénétiques contrôlant la transcription du génome mammifère. Un nombre important de membres de la famille des facteurs de remodelage de chromatine ATP-dépendants ont une fonction essentielle pour l’auto-renouvellement des cellules ES, ou au cours de la différentiation. On pense que ces facteurs exercent ces rôles essentiels en régulant l’accessibilité de la chromatine au niveau des éléments régulateurs de la transcription, en modulant la stabilité et le positionnement des nucléosome.Dans ce projet, nous avons conduit une étude génomique à grande échelle du rôle d’une dizaine des remodeleurs (Chd1, Chd2, Chd4, Chd6, Chd8, Chd9, Ep400, Brg1, Smarca3, Smarcad1, Smarca5, ATRX et Chd1l) dans les cellules ES. Une double stratégie expérimentale a été utilisée : Des expériences d’immunoprécipitation de la chromatine suivi par un séquençage à haute-débit (ChIP-seq) sur des cellules ES étiquetées pour les différents remodeleurs, pour étudier leur distribution sur le génome, et un approche transcriptomique sur des cellules déplétées de chaque remodeleur par traitement avec des vecteurs shRNA (knockdown). Nous avons établi les profils de liaison des remodeleurs sur des éléments régulateurs (promoteurs, enhancers et sites CTCF) sur le génome, et montré que ces facteurs occupent toutes les catégories d’éléments régulateurs du génome. La corrélation entre les données ChIP-seq et les données transcriptomiques nous a permis d’analyser le rôle des remodeleurs dans les réseaux de transcription essentiels des cellules ES. Nous avons notamment démontré l’importance particulière de certains remodeleurs comme Brg1, Chd4, Ep400 et Smarcad1 dans la régulation de la transcription chez les cellules ES. / The characteristics of embryonic stem cells (ES cells) make them one of the best models to study the epigenetic regulation exerted by different actors in order to control the transcription of the mammalian genome. Members of the Snf2 family of ATP-dependent chromatin remodeling factors were shown to be of specific importance for ES cell self-renewal and during differentiation. These factors are believed to play essential roles in modifying the chromatin landscape through their capacity to position nucleosomes and determine their occupancy throughout the genome, making the chromatin more or less accessible to DNA binding factors.In this project, a genome-wide analysis of the function of a number of ATP-dependent chromatin remodelers (Chd1, Chd2, Chd4, Chd6, Chd8, Chd9, Brg1, Ep400, ATRX, Smarca3, Smarca5, Smarcad1 and Alc1) in mouse embryonic stem (ES) cells was conducted. This was done using a double experimental strategy. First, a ChIP-seq (Chromatin Immunoprecipitation followed by deep sequencing) strategy was done on ES cells tagged for each factor in the goal of revealing the genomic binding profiles of the remodeling factors. Second, loss-of-function studies followed by transcriptome analysis in ES cells were performed in order to understand the functional role of remodelers. Data from both studies were correlated to acquire a better understanding of the role of remodelers in the transcriptional network of ES cells. Specific binding profiles of remodelers on promoters, enhancers and CTCF binding sites were revealed by our study. Transcriptomic data analysis of the deregulated genes upon remodeler factor knockdown, revealed the essential role of Chd4, Ep400, Smarcad1 and Brg1 in the control of transcription of ES cell genes. Altogether, our data highlight how the distinct chromatin remodeling factors cooperate to control the ES cell state.
|
314 |
Étude intégrative du rôle de deux sous unités essentielles du Médiateur de la transcription dans la mise en place des complexes de pré-initiation / Integrative study of the role of two Mediator essential subunits in transcription initiationEychenne, Thomas 22 September 2016 (has links)
La transcription est la première étape de l’expression des gènes. Chez les eucaryotes, la transcription par l’ARN polymérase II (Pol II) est un processus hautement régulé. Elle commence par la fixation d’activateurs spécifiques sur des régions régulatrices. Cela permet le recrutement de co-activateurs suivi des facteurs généraux de la transcription (GTFs) et de l’ARN polymérase II pour former le complexe de préinitiation (PIC). Le Médiateur est un complexe co-activateur essentiel à ce processus. Chez la levure Saccharomyces cerevisiae, il est composé de 25 sous-unités dont 10 sont essentielles à la viabilité. Son rôle principal est d’intégrer les signaux de régulation pour les transmettre aux composants du PIC. On connait aujourd’hui un certain nombre de fonctions du Médiateur. Néanmoins, sa complexité et la présence de sous-unités essentielles compliquent la compréhension détaillée de son mécanisme de fonctionnement in vivo. Au cours de ma thèse, je me suis intéressé aux sous-unités essentielles Med10 et Med7, toutes deux appartenant au module du milieu du Médiateur, peu étudié jusqu’à présent. Nous avons construit une collection de mutants thermosensibles de ces deux sous-unités chez la levure S. cerevisiae. Nous avons caractérisés ces mutants par différentes approches de biologie moléculaire, biochimie et génomique fonctionnelle. L’étude de la sous-unité Med10 nous a permis de mettre en évidence in vivo un lien fonctionnel entre le Médiateur et TFIIB, un GTF essentiel au recrutement de la Pol II. Nous avons ainsi identifié les sous-unités Med14 et Med10 qui sont en contact avec TFIIB. Nos analyses de ChIP-seq montrent que le module du milieu et Med10, en particulier, est requis pour la formation correcte du PIC sur l’ensemble du génome. Ces données nous ont également permis de montrer que le Médiateur influence la formation du PIC en relation avec l’architecture des promoteurs en termes de présence de boîtes TATA, d’occupation des nucléosomes et leur dynamique. Ce travail nous a permis une meilleure compréhension du rôle du Médiateur dans l’activation de la transcription et donné des informations mécanistiques sur la façon dont l’interaction entre le Médiateur et TFIIB (et les autres GTFs) ainsi que l’architecture des promoteurs mènent à une régulation gène-spécifique. / Transcription is the first step of gene expression. In eukaryotes, messenger RNA (mRNA) transcription is a highly regulated process. Transcription begins with the binding of a specific transcription factor on a DNA regulatory sequence. This enable the recruitment of co-activators, followed by general transcription factors (GTFs) and RNA polymerase II (Pol II) to form preinitiation complex (PIC). Mediator is a co-activator complex which is essential in this process. In yeast Saccharomyces cerevisiae, Mediator is composed of 25 subunits, among which 10 are essential for cell viability, organized into four distinct modules. The main role of this complex is to transmit regulatory signal to PIC components. Although Mediator has been the subject of a large numbers of studies, its complexity prevents the detailed understanding of how it acts in vivo. During my PhD, I focused my work on the study of the two essential subunits Med7 and Med10. Both of these subunits belong to the middle module, poorly studied so far. We obtained a collection of temperature-sensitive mutants of Med7 and Med10 in yeast S. cerevisiae. We used different molecular biology and functional genomics to characterize these mutants. The work on Med10 subunit enabled us to highlight in vivo a functional link between Mediator and TFIIB, one of the GTFs. Notably, we have shown a new contact between Med14 subunit and TFIIB. Our ChIP-seq analysis shows that Mediator middle module, and in particular Med10 subunits, is crucial for PIC assembly genome-wide. These data also permit us to show that Mediator influence PIC formation in relation to promoter architecture. Taken together, these results indicates that Mediator in crucial to orchestrate the incorporation of the different proteins into the PIC. This work permit us to improve our understanding of how functional interplay between Mediator, TFIIB, other GTFs, and the promoter architecture leads to gene-specific transcription.
|
315 |
Etude de la domestication et de l’adaptation de l’igname (Dioscorea spp) en Afrique par des approches génomiques / Study of the domestication and adaptation of yams (Dioscorea spp) in Africa using genomic approachesAkakpo, Roland 16 May 2018 (has links)
L’igname (Dioscorea spp) est un aliment de base de plus de 100 millions de personnes en Afrique. L’objectif de cette thèse était d'étudier la diversité génomique de l'igname, comprendre les bases génétiques de sa domestication, et d'étudier son adaptation à différentes zones climatiques. L’étude du processus de domestication de l’igname a été menée par une approche de génomique comparée entre l’espèce cultivée D. rotundata et deux espèces sauvages apparentées D. praehensilis et D. abyssinica, en utilisant des données de séquençage NGS génomique. Nous avons mis en évidence des sélections fortes de gènes de la voie de biosynthèse de l’amidon. Des gènes impliqués dans la morphologie des tubercules ou l’aptitude au phototropisme, ainsi que des gènes du complexe NADH deshydrogenase ont également été identifiés comme sélectionnés durant la domestication. Ce même complexe NADH-DH a également été identifié lors de la recherche de gènes associés à la distribution d’une collection d’ignames selon la variabilité climatique. Nous avons aussi créé la première banque de novo d’éléments transposables (ET) de l’igname. L’étude que nous avons menée sur les éléments répétés (ER) du génome de l’igname nous a permis d’identifier une forte corrélation entre la variabilité des abondances relatives d’un grand nombre d’ERs et la variabilité climatique. Enfin, nous avons pu proposer une hypothèse quant à l’origine de l’igname cultivée D. rotundata. La domestication de l'igname dériverait de l'espèce inféodée au milieu forestier, D. praehensilis. Ces résultats remettent en cause l’hypothèse d’une origine stricte en zone de savane pour les espèces cultivées et l’agriculture en Afrique de l'Ouest. / Yam (Dioscorea spp) is a major staple for more than 100 million people in Africa. The main objectives of the present PhD project were to study yam genomic diversity, its domestication, and to characterize the genomic determinism of its adaptation to different climatic zones. We investigated the genetic basis of yam domestication in a comparative genomic approach between the cultivated species D. rotundata and two wild close relatives D. praehensilis and D. abyssinica, by exploiting NGS sequencing data. We demonstrated that genes from the starch biosynthesis were selected during yam domestication. Genes related to tuber morphology or phototropism ability, as well as genes of the NADH dehydrogenase complex were also under selection. The same NADH-DH complex was also identified when assessing adaptation to climate variability. We also created the first de novo database of yam transposable elements (TEs). The study we performed on these repeat elements (REs) highlighted a strong correlation between the variability in relative abundances of numerous REs and climatic variability. Finally, we were able to propose an hypothesis on the origin of the cultivated yam D. rotundata. Our hypothesis identifies the origin of yam in the forest areas, with the species D. praehensilis as the putative progenitor. Our results question the generally admitted hypothesis of savannah origins for crops and agriculture in Africa.
|
316 |
Contributions to genomic selection and association mapping in structured and admixed populations : application to maize / Contributions à la sélection génomique et à la génétique d'association en populations structurées et admixées : application au maïsRio, Simon 26 April 2019 (has links)
L'essor des marqueurs moléculaires (SNPs) a révolutionné les méthodes de génétique quantitative en permettant l'identification de régions impliquées dans le déterminisme génétique des caractères (QTLs) via la génétique d'association (GWAS), ou encore la prédiction des performances d'individus sur la base de leur information génomique (GS). La stratification des populations en groupes génétiques est courante en sélection animale et végétale. Cette structure peut impacter les méthodes de GWAS et de GS via des différences de fréquence et d'effets des allèles des QTL, ainsi que par des différences de déséquilibre de liaison (LD) entre SNP et QTL selon les groupes.Pendant cette thèse, deux panels de diversité de maïs ont été utilisés, présentant des niveaux différents de structuration: le panel “Amaizing Dent” représentant les lignées dentées utilisées en Europe et le panel “Flint-Dent” incluant des lignées dentées, cornées européennes, ainsi que des lignées admixées entre ces deux groupes.En GS, l'impact de la structure génétique sur la qualité des prédictions a été évalué au sein du premier panel pour des caractères de productivité et de phénologie. Cette étude a mis en évidence l'intérêt d'une population d'entraînement (TS) dont la constitution en matière de groupes génétiques est similaire à celle de la population à prédire. Assembler les différents groupes au sein d'un TS multi-groupe apparaît comme une solution efficace pour prédire un large spectre de diversité génétique. Des indicateurs a priori de la précision des prédictions génomiques, basés sur le coefficient de détermination, ont également été évalués, mettant en évidence une efficacité variable selon le groupe et le caractère étudié.Une nouvelle méthodologie GWAS a ensuite été développée pour étudier l'hétérogénéité des effets capturés par les SNPs selon les groupes. L'intégration des individus admixés à l'analyse permet de séparer les effets des facteurs responsables de l'hétérogénéité des effets alléliques: différence génomique locale (liée au LD ou à une mutation spécifique d'un groupe) ou interactions épistatiques entre le QTL et le fonds génétique. Cette méthodologie a été appliquée au panel “Flint-Dent” pour la précocité de floraison. Des QTL ont été détéctés comme présentant des effets groupe-spécifiques interagissant ou non avec le fonds génétique. De nombreux QTL présentant un profil original ont pu être mis en évidence, incluant des locus connus tels que Vgt1, Vgt2 ou Vgt3. Une importante épistasie directionnelle a aussi été mise en évidence grâce aux individus admixés, confortant l'existence d'interactions épistatiques avec le fonds génétique pour ce caractère.Sachant l'existence de cette hétérogénéité d’effets alléliques, nous avons développé deux modèles de prédictions génomiques nommées Multi-group Admixed GBLUP (MAGBLUP). Ceux-ci modélisent des effets groupe-spécifiques aux QTLs et sont adaptés à la prédiction d'individus admixés. Le premier permet d'identifier la variance génétique additionnelle créée par l'admixture (variance de ségrégation), alors que le second permet d'évaluer le degré de conservation des effets alléliques entre groupes. Ces deux modèles ont montré un intérêt certain par rapport à des modèles standards pour prédire des caractères simulés, mais plus limité sur des caractères réels.Enfin, l'intérêt des individus admixés dans la constitution de TS multi-groupes a été évalué à l'aide du second panel. Si leur intérêt a clairement été mis en évidence pour des caractères simulés, des résultats plus variables ont été observés avec les caractères réels, pouvant s'expliquer par la présence d'interactions avec le fonds génétique.Les nouvelles méthodes et l'utilisation d'individus admixés ouvrent des pistes de recherches intéressantes pour les études de génétique quantitative en population structurée. / The advent of molecular markers (SNPs) has revolutionized quantitative genetics methods by enabling the identification of regions involved in the genetic determinism of traits (QTLs) thanks to association studies (GWAS), or the prediction of the performance of individuals using genomic information (GS). The stratification of populations into genetic groups is common in animal and plant breeding. This structure can impact GWAS and GS methods through group differences in QTL allele frequencies and effects, as well as in linkage disequilibrium (LD) between SNP and QTL.During this thesis, two maize diversity panels were used, presenting different levels of structuration: the "Amaizing Dent" panel representing the diversity of dent lines used in Europe and the "Flint-Dent" panel including dent, flint and admixed lines between these two groups.In GS, the impact of genetic structure on genomic prediction accuracy was evaluated in the first panel for productivity and phenology traits. This study highlighted the interest of a training population (TS) whose constitution in terms of genetic groups is similar to that of the population to be predicted. Assembling the different groups within a multi-group TS appears as an effective solution to predict a broad spectrum of genetic diversity. A priori indicators of genomic prediction accuracy, based on the coefficient of determination, were also evaluated and highlighted a variable efficiency depending on the group and the trait.A new GWAS methodology was then developed to study the heterogeneity of the allele effects captured by SNPs depending on the group. The integration of admixed individuals to such analyses allows to disentangle the factors causing the heterogeneity of allele effects across groups: local genomic difference (related to LD or group-specific mutation) or epistatic interactions between the QTL and the genetic background. This methodology was applied to the "Flint-Dent" panel for flowering time. QTLs have been detected as presenting group-specific effects interacting or not with the genetic background. QTLs with an original profile have been highlighted, including known loci such as Vgt1, Vgt2 or Vgt3. Significant directional epistasis has also been demonstrated using admixed individuals and supported the existence of epistatic interactions with the genetic background for this trait.Based on the existence of such heterogeneity of allele effects, we have developed two genomic prediction models named Multi-group Admixed GBLUP (MAGBLUP). Both model group-specific QTL effects and are suited to the prediction of admixed individuals. The first allows the identification the additional genetic variance created by the admixture (segregation variance), while the second allows the evaluations of the degree of conservation of SNP allele effects across groups. These two models showed a certain interest compared to standard models to predict simulated traits, but it was more limited on real traits.Finally, the interest of admixed individuals in multi-group TS was evaluated using the second panel. Although their interest has been clearly demonstrated for simulated traits, more variable results have been observed with the real traits, which can be explained by the presence of interactions with the genetic background.The new methods and the use of admixed individuals open interesting lines of research for quantitative genetics studies in structured population.
|
317 |
Identification of causal factors for recessive lethals in dairy cattle with special focus on large chromosomal deletions / Etude de délétions chromosomiques et de variants génétiques responsables de mortalité embryonnaire chez les bovins laitiersUddin, Md Mesbah 17 September 2019 (has links)
L'objectif général de cette thèse est d'identifier les variants causaux ou, à défaut, un ensemble de marqueurs prédictifs - qui présentent un déséquilibre de liaison élevé avec les variants causaux - pour la fertilité des vaches laitières. Nous avons abordé cet objectif général dans cinq articles: (i) décrit une approche systématique de cartographie des variants létaux récessifs chez les bovins Normands français basée sur la recherche de déficit en haplotypes homozygotes (HHD). Cette étude montre l’influence de la taille de l’échantillon, de la qualité des génotypes, de la qualité du phasage des génotypes en haplotypes et de l’imputation, de l’âge de l’haplotype et enfin, de la définition des seuils de signification prenant en compte les tests multiples, sur la découverte et la reproductibilité des résultats de HHD. Elle illustre également l’importance de la cartographie fine avec les données de généalogie et de séquence de génome entier (WGS), l’annotation intégrative (entre espèces) pour hiérarchiser les mutations candidates et, enfin, le génotypage à grande échelle de la mutation candidate, pour valider ou invalider les mutations initiales. (ii) décrit une cartographie à haute résolution de grandes délétions chromosomiques de séquences du génome dans une population de 175 animaux appartenant à trois races laitières nordiques. Cette étude utilise trois approches différentes pour valider les résultats de la cartographie. Le chapitre décrit les propriétés génétiques des populations et l’importance fonctionnelle des délétions identifiées. (iii) traite de trois questions liées à l’imputation de variants structuraux, ici de délétions chromosomiques importantes: la disponibilité des génotypes de délétion, la taille du panel de référence d'haplotypes et, enfin, l’imputation elle-même. Pour aborder les deux premières questions, cette étude décrit une approche basée sur un modèle de mélange gaussien dans laquelle les données de profondeur de lecture provenant de fichiers au format VCF (variant call format) sont utilisées pour génotyper un locus de délétion connu, en l’absence d’information sur la séquence brute. Enfin, il présente un pipeline pour l'imputation conjointe de variants WGS et de grandes délétions chromosomiques. (iv) décrit des études d'association pangénomiques de la fertilité femelle dans trois races de bovins laitiers nordiques à l'aide de variants WGS imputés et de grandes délétions chromosomiques. Cette étude concerne huit caractères de fertilité et utilise des analyses d'association mono-marqueur, conditionnelles et conjointes. Cette étude montre qu’une surestimation, ou « inflation », des statistiques de test peut être observée même après correction pour la stratification de la population à l'aide de composantes principales génomiques et pour les structures familiales à l'aide de matrices de relations génomiques. Ce biais était connu pour les caractères très polygéniques. Enfin, cette étude présente plusieurs locus de traits quantitatifs (QTL) nouveaux et confirme plusieurs autres déjà connus. Elle souligne également l’importance d’inclure les grandes délétions (imputées) pour la cartographie par association des caractères de fertilité. (v) décrit la prédiction des valeurs génomiques de fertilité (ou indice de fertilité) à l'aide de génotypes à puces SNP, de QTL sélectionnés et de délétions chromosomiques importantes. En utilisant la méthode de meilleure prédiction linéaire sans biais génomique (GBLUP) avec une ou plusieurs matrices de relations génomiques dérivées d'un ensemble de marqueurs sélectionnés, cette étude rapporte une précision de prédiction améliorée. Cette étude met également en évidence l’influence de la sélection des marqueurs les plus prédictifs, en particulier pour une race ayant une population d’apprentissage réduite, sur la précision des prédictions génomiques. Enfin, les résultats démontrent que les grandes délétions ont en général un pouvoir prédictif élevé. / The overall aim of this PhD thesis is to identify causal variants for recessive lethal mutations and select a set of predictive markers that are in high linkage-disequilibrium with the causal variants for female fertility in dairy cattle. We addressed this broad aim under five articles: (i) describes a systematic approach of mapping recessive lethals in French Normande cattle using homozygous haplotype deficiency (HHD). This study shows the influence of sample size, quality of genotypes, quality of (genotype) phasing and imputation, age of haplotype (of interest), and last but not the least, multiple testing corrections, on discovery and replicability of HHD results. It also illustrates the importance of fine-mapping with pedigree and whole-genome sequence (WGS) data, (cross-species) integrative annotation to prioritize candidate mutation, and finally, large-scale genotyping of the candidate mutation, to validate or invalidate initial results. (ii) describes a high-resolution population-scale mapping of large chromosomal deletions from whole-genome sequences of 175 animals from three Nordic dairy breeds. This study employs three different approaches to validate identified deletions. Next, it describes population genetic properties and functional importance of these deletions. (iii) deals with three main issues related to imputation of structural variants, in this case, large chromosomal deletions, e.g. availability of deletion genotypes, size of haplotype reference panel, and finally, imputation itself. To address the first two issues, this study describes a Gaussian mixture model-based approach where read-depth data from the variant call format (VCF) file is used to genotype a known deletion locus, without the need for raw sequence (BAM) file. Finally, it presents a pipeline for joint imputation of WGS variants along with large chromosomal deletions. (iv) describes genome-wide association studies for female fertility in three Nordic dairy cattle breeds using imputed WGS variants including large chromosomal deletions. This study is based on the analyses of eight fertility related traits using single-marker association, conditional and joint analyses. This study illustrates that inflation in association test-statistics could be seen even after correcting for population stratification using (genomic) principal components, and relatedness among the samples using genomic relationship matrices; however, this was known for traits with strong polygenic effects, among other factors. Finally, mapping of several new quantitative trait loci (QTL), along with the previously known ones, are reported in this study. This study also highlights the importance of including (imputed) large deletions for association mapping of fertility traits. (v) describes prediction of genomic breeding values for fertility using SNP array-chip genotypes, selected QTL and large chromosomal deletion. Using genomic best linear unbiased prediction (GBLUP) method with one or several genomic-relationship matrices derived from a set of selected markers, this study reports higher prediction accuracy compared with previous report. This study also highlights the influence of selecting markers with best predictability, especially for a breed with small training population, in accuracy of genomic prediction. The results demonstrate that large deletions in general have a high predictive performance.
|
318 |
Network and machine learning approaches to dengue omics data / Approches d'analyses de réseaux et d'apprentissage automatique pour les données omiques de dengueNikolayeva, Iryna 02 October 2017 (has links)
Les 20 dernières années ont vu l'émergence de technologies de mesure puissantes, permettant l'analyse omique de diverses maladies. Ils fournissent souvent des moyens non invasifs pour étudier l'étiologie des maladies complexes nouvellement émergentes, telles que l'infection de la dengue, transmise par les moustiques. Ma thèse se concentre sur l'adaptation et l'application d'approches utilisant des réseaux d'interaction de gènes et l'apprentissage automatique pour l'analyse de données génomiques et transcriptomiques. La première partie va au-delà d'une analyse pangénomique précédemment publiée de 4 026 personnes en appliquant une analyse de réseaux d'interaction pour trouver des groupes de gènes qui interagissent dans un réseau d'interactions fonctionnelles et qui, pris ensemble, sont associés à la dengue sévère. Dans cette partie, j'ai d'abord recalculé les valeurs-p d'association des polymorphismes séquencés, puis j'ai travaillé sur le mapping des polymorphismes à des gènes fonctionnellement apparentés, et j'ai enfin exploré différentes bases de données de voies métaboliques et d'interactions génétiques pour trouver des groupes de gènes qui, pris ensemble, sont associés à la dengue sévère. La deuxième partie de ma thèse dévoile une approche théorique pour étudier un biais dans les algorithmes de recherche de réseau actifs. Mon analyse théorique suggère que le meilleur score de sous-réseaux d'une taille donnée devrait être normalisé en fonction de la taille, selon l'hypothèse selon laquelle il s'agit d'un échantillon d'une distribution de valeur extrême, et non un échantillon de la distribution normale, comme c'est généralement le cas dans la littérature. Je propose alors une solution théorique à ce biais. La troisième partie présente un nouvel outil de recherche de sous-réseaux que j'ai co-conçu. Son modèle sous-jacent et l'algorithme évite le biais de taille trouvé dans les méthodes existantes et génère des résultats facilement compréhensibles. Je présente une application aux données transcriptomiques de la dengue. Dans la quatrième et dernière partie, je décris l'identification d'un biomarqueur qui détecte la sévérité de la dengue à l'arrivée à l'hôpital en utilisant une nouvelle approche d'apprentissage automatique. Cette approche combine la régression monotone bidimensionnelle avec la sélection des variables. Le modèle sous-jacent va au-delà des approches linéaires couramment utilisées, tout en permettant de contrôler le nombre de transcrits dans le biomarqueur. Le petit nombre de transcrits accompagné de leur représentation visuelle maximisent la compréhension et l'interprétation du biomarqueur par les professionnels de la biomédecine. Je présente un biomarqueur à 18 gènes qui permet de distinguer, à leur arrivée à l'hôpital, les patients qui vont développer des symptômes de dengue sévères de ceux qui auront une dengue non sévère. Ce biomarqueur a une performance prédictive élevée et robuste. La performance prédictive du biomarqueur a été confirmée sur deux ensembles de données qui ont tous deux utilisé différentes technologies transcriptomiques et différents sous-types de cellules sanguines. / The last 20 years have seen the emergence of powerful measurement technologies, enabling omics analysis of diverse diseases. They often provide non-invasive means to study the etiology of newly emerging complex diseases, such as the mosquito-borne infectious dengue disease. My dissertation concentrates on adapting and applying network and machine learning approaches to genomic and transcriptomic data. The first part goes beyond a previously published genome-wide analysis of 4,026 individuals by applying network analysis to find groups of interacting genes in a gene functional interaction network that, taken together, are associated to severe dengue. In this part, I first recalculated association p-values of sequences polymorphisms, then worked on mapping polymorphisms to functionally related genes, and finally explored different pathway and gene interaction databases to find groups of genes together associated to severe dengue. The second part of my dissertation unveils a theoretical approach to study a size bias of active network search algorithms. My theoretical analysis suggests that the best score of subnetworks of a given size should be size-normalized, based on the hypothesis that it is a sample of an extreme value distribution, and not a sample of the normal distribution, as usually assumed in the literature. I then suggest a theoretical solution to this bias. The third part introduces a new subnetwork search tool that I co-designed. Its underlying model and the corresponding efficient algorithm avoid size bias found in existing methods, and generates easily comprehensible results. I present an application to transcriptomic dengue data. In the fourth and last part, I describe the identification of a biomarker that detects dengue severity outcome upon arrival at the hospital using a novel machine learning approach. This approach combines two-dimensional monotonic regression with feature selection. The underlying model goes beyond the commonly used linear approaches, while allowing controlling the number of transcripts in the biomarker. The small number of transcripts along with its visual representation maximize the understanding and the interpretability of the biomarker by biomedical professionals. I present an 18-gene biomarker that allows distinguishing severe dengue patients from non-severe ones upon arrival at the hospital with a unique biomarker of high and robust predictive performance. The predictive performance of the biomarker has been confirmed on two datasets that both used different transcriptomic technologies and different blood cell subtypes.
|
319 |
Evaluation globale de la prise en charge des patientes présentant un cancer du sein opérable d’emblée : analyse médico-économique des parcours de soins, audit de qualité des soins, évaluation de la satisfaction des patientes et impact des nouvelles technologies dans les décisions thérapeutiques / Global Evaluation of Early Breast Cancer Patients' Management : Medico-Economic Analysis of Clinical Pathway, Quality of Care, Evaluation of Patients Satisfaction and Impact of New Technologies on Treatment DecisionsHequet, Delphine 26 January 2018 (has links)
Le cancer du sein est une pathologie fréquente mais hétérogène. Il existe ainsi de multiples parcours de santé, dont l’optimisation est un des objectifs du 3ème Plan Cancer. Les parcours de santé ont été analysés sous 3 aspects : qualité, coût et impact psychosocial, à travers 2 études prospectives multicentriques. Des leviers d’efficience ont été identifiés : favoriser le dépistage du cancer du sein, s’inspirer de l’organisation des centres de lutte contre le cancer, mieux cibler les patientes tirant bénéfice d’une chimiothérapie adjuvante par l’accès à des outils innovants tels que les tests génomiques. Dans une 3ème étude prospective, la décision de chimiothérapie adjuvante était modifiée dans 18% des cas. La génomique entre en routine en sénologie. Les cliniciens doivent comprendre cette discipline. La dernière partie de cette thèse rapporte les travaux menés en génomique dans le cancer du sein, au stade de la recherche sur un gène codant pour une protéine à activité méthyltransférase, PRDM15, prometteuse dans les cancers du sein triple négatif exprimant les récepteurs aux androgènes. / Breast cancer is a frequent but heterogeneous disease. Therefore, there are multiple clinical pathways, of which the optimization is one of the objectives of the 3rd Plan Cancer. Three dimensions of the clinical pathways were analyzed through 2 multicenter prospective studies: quality, cost and psychosocial impact. Efficiency levers have been identified: to promote screening for breast cancer, to mimic the organization of comprehensive cancer centers, to better target patients benefiting from adjuvant chemotherapy by accessing tools innovations such as genomic tests. In a 3rd prospective study, the adjuvant chemotherapy decision was modified in 18% of the cases. Genomics enters routine in oncology. Clinicians must understand this discipline. The last part of this thesis reports the work carried out in genomics in breast cancer, at the stage of research on a gene coding for a protein with methyltransferase activity, PRDM15, promising in triple-negative breast cancers expressing androgen receptors.
|
320 |
Identification and characterization of Polycomb repressed gene-enhancer loops / Identification et caractérisation des boucles entre les promoteurs des gènes réprimés par Polycomb et les enhancers dans les cellules souches embryonnaires des sourisSouaid, Charbel 25 January 2019 (has links)
Dans les cellules souches embryonnaires de souris (mESCs), le groupe de protéines Polycomb (PcG) répriment les gènes de développement en participant ainsi à la maintenance de l’état de pluripotence. Ce complexe dépose la H3K27me3au niveau des éléments régulateurs induisant une compaction de la chromatine. Cette marque forme en plus des marquesactives H3K4me3 présentes des domaines bivalents. Etrangement, des boucles d’ADN dites entre le promoteur et enhancer, généralement associé à l’activation du gènes, sont observées au niveau des gènes bivalents avant leur activation.On suppose que la fonction du PcG pourrait être de neutraliser l'enhancer conférant une future activation rapide des gènes.Au cours de ma thèse, j’ai identifié les boucles d’ADN formé par les réprimés par PcG dans les mESCs. Pour cela,j’ai effectué un profilage épigénomique de 4 marques d'histones et identifié près de 2500 promoteurs bivalents et 13000enhancers. En utilisant des données publiées de Hi-C à haute résolution, j’ai identifié toutes les boucles formées par les domaines bivalents. Etonnement, j’ai pu identifier que de nombreux gènes réprimés par PcG interagissent avec des enhancers actifs. Cette observation a été suivie d'une validation par le 4C-seq. De plus, j’ai effectué une caractérisation fonctionnelle des boucles en utilisant deux approches. Tout d'abord, j'ai mis en place, en collaboration avec D. Bourc'his(Institut Curie), un système de culture de mESCs (2i + VitC) où le taux de H3K27me3 est réduit. J'ai effectué un profilage épigénomique similaire révélant que les promoteurs réprimés par PcG ont perdu la marque H3K27me3. En RNA-seq, j’ai démontré que l’expression des gènes ne change pas après le PcG soit détacher des promoteurs.. Ensuite, par la réalisation de plusieurs validations en 4C-seq j’ai démontré que les interactions avec les enhancers ne sont pas affecté alors que la moitié des enhancers interagissant perdent leurs marques activatrices. Dans le système 2i+VitC, ces gènes semblent être réprimés par un autre mécanisme suite à la perte du PcG. De plus, j’utilise une approche ciblée pour enlever localement laH3K27me3 de deux gènes bivalents en utilisant le système Cette technique est en cours d’optimisation.Notre étude est la plus systématique au niveau génomique des boucles d'ADN dans le cadre de la régulation des gènes PcG. Notre étude révèle une nouvelle fonction du PcG qui est la répression de boucle d’ADN déjà établies entre promoteurs et enhancers. / In the mouse embryonic stem cells (mESCs), Polycomb Group Proteins (PcG) repress developmental genes and thereby participating in the maintenance of the pluripotency. PcG repress genes by depositing the H3K27me3 histone marks on their regulatory elements, followed by chromatin compaction. In addition to the H3K27me3 marks, those genes carry H3K4me3 active marks and were characterized as bivalent. Intriguingly, at many PcG repressed genes, DNA loops can be observed with enhancer elements, which are normally thought to have an activating function. The aim of my project is to both describe and mechanistically dissect the function of Polycomb repressed promoter – enhancer loops.During my PhD, I aimed firstly to identify all promoter–enhancer loops involved by PcG repressed genes in mESCs. I have performed ChIP-seq profiling of 4 histone marks and identified around 2500 PcG repressed promoters and 13000 enhancers. Using a recently published high-resolution Hi-C data in mESCs, I have identified all DNA loops that are formed by PcG repressed promoters. Surprisingly, a high percentage of bivalent promoters were found to contact active enhancers. The presence of those loops were validated by ultra-high 4C-seq on selected genes and imply a small significant increase of the gene expression without leading to a complete activation of the gene. I have established a more physiological ESC model (2i+VitC) where H3K27me3 is reduced at all promoters. I have performed ChIP-seq, where bivalent promoters were all classified as H3K27me3 negative. RNA-seq experiments have showed that those genes do not become activated. 4C-seq experiments have revealed that those loops do not disappear after PcG removal, whereas the half of interacted enhancer loose their H3K27ac active marks. Those genes seem to remain repressed by an unknown mechanism. These results argue for a possible role of PcG in preparing the gene for their activation by blocking the productivity of such DNA loops. Secondly, I aimed to functionally characterize those DNA loops by using a CRISPR/dCas9 approach to completely remove H3K27me3 from two PcG repressed genes that contact active enhancers Pax6 and Nkx1-1 genes. This system is still under optimization steps.My project revealed the most systematic characterization of DNA loops under the regulation of PcG, providing important insight how PcG function to inactivate such loops. I have highlighted an additional function of PcG which the involvement in the repression of already establish loops between active enhancers and promoters and thereby blocking the productivity of such activating loops. This function is an addition to the already described repressive function of PcG on both promoters and poised enhancers.
|
Page generated in 0.049 seconds