• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 49
  • 13
  • 11
  • 5
  • Tagged with
  • 80
  • 80
  • 25
  • 24
  • 18
  • 17
  • 16
  • 15
  • 13
  • 13
  • 12
  • 11
  • 10
  • 10
  • 9
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

Insertion de la sélection génomique dans un processus de sélection variétale : application à un oléoprotéagineux, le soja / Insertion of genomic selection in a varietal selection process : application to an oleoproteaginous crop, soybean

Duhnen, Alexandra 06 November 2017 (has links)
La sélection variétale a pour objectif la génération de variétés toujours plus performantes pour des caractères agronomiques d'intérêt. Pour les caractères quantitatifs, qui sont sous contrôle génétique polygénique, la sélection variétale consiste à réunir progressivement dans les nouvelles variétés des allèles favorables pour un maximum de gènes. Les processus de sélection évoluent, notamment par l'intégration des progrès concernant les connaissances génétiques et outils biotechnologiques. La sélection génomique est une méthode qui peut prédire la valeur génétique d'individus à partir de données génomiques et d'un modèle d'effets génétiques appris sur une population de référence. Nos études ont porté sur la possibilité d'insérer la sélection génomique dans le processus de sélection pour en augmenter l'efficacité. Notre sujet a été appliqué à un programme privé qui vise l'obtention de variétés de soja performantes pour le rendement et le contenu des graines en protéines, pour répondre à un besoin de protéines d'origine végétale. Des études génétiques sur une population de lignées générées lors de cycles de sélection successifs ont mis en évidence une structuration génétique en deux sous-populations qui ne sont pas "hermétiques". Nous avons étudié par échantillonnages de populations de test la précision de prédiction obtenue dans nos deux groupes avec différents modèles de GS : des modèles GBLUP additifs avec différentes populations d'apprentissage, puis des modèles d'architectures génétiques plus complexes. Les précisions de prédiction de nos modèles étaient proches les unes des autres. Cependant, nos résultats suggèrent que le modèle GBLUP le plus adapté pour obtenir des prédictions précises au sein de nos deux groupes est un modèle appris sur une population représentative du groupe à prédire et comprenant une composante additive et une composante épistatique additive x additive. Nous avons mis en place une application de la GS dans un cycle de sélection en cours de réalisation. Nous avons estimé le potentiel des croisements de départ par simulation de descendants virtuels et prédiction génomique de leurs performances, ce qui nous a permis de choisir trois populations biparentales prometteuses à l'intérieur desquelles nous avons effectué une sélection sur la base de prédictions génomiques. Nous avons développé un outil permettant de simuler des schémas de sélection sur plusieurs cycles consécutifs. Il s'agit d'un outil flexible et générique du point de vue de la définition des schémas de sélection. Cet outil permet notamment de comparer le gain génétique obtenu avec deux schémas différents à partir d'une même population de départ et d'un même modèle des effets génétiques et environnementaux agissant sur l'expression phénotypique d'un caractère. Avec cet outil, nous avons étudié la précision d'évaluation et les composantes de la variance de deux modèles GBLUP (avec ou sans modélisation de l'épistasie) après simulation de différentes architectures génétiques. Nous avons également comparé le schéma de sélection classique et différents schémas incluant une utilisation de la GS. Avec une comparaison sur un cycle, nous n'avons pas observé de gain à utiliser des schémas intégrant la GS pour augmenter l'efficacité de sélection de nouvelles variétés, à coût constant. Par contre, nous avons observé un gain à utiliser la GS pour choisir les croisements en début de cycle : la valeur génétique moyenne des lignées produites augmente de cycle en cycle. Concernant les alternatives au schéma de sélection classique du soja, des études plus approfondies seront nécessaires. Elles permettront notamment d'inclure la simulation des étapes de sélection sur le contenu des graines en protéines et d'étudier la question du gain génétique à long terme. / Varietal selection aims at the generation of increasingly more performing varieties for agronomic traits of interest. In the case of quantitative traits, which are under polygenic genetic control, varietal selection consists in gradually joining together in the new varieties favorable alleles for a maximum number of genes. Selection processes are evolving, in particular by integrating advances in genetic knowledge and biotechnological tools. Genomic selection is a method that can predict the genetic value of individuals from genomic data and a model of genetic effects learned on a reference population. Our studies have focused on the possibility of including genomic selection in the selection process to increase its efficiency. Our subject has been applied to a private program aimed at obtaining soybean varieties performing for yield and seed protein content to meet a need for proteins of plant origin. Genetic studies on a population of lines generated during successive breeding cycles have shown genetic structuration in two subpopulations that are not "hermetic". We studied by samplings of test populations the prediction accuracies obtained within our two groups with different GS models: additive GBLUP models with different learning populations, and then models of more complex genetic architectures. The prediction accuracies of our models were close to one another. However, our results suggest that the most suitable GBLUP model for obtaining accurate predictions within our two groups is a model learned on a population representative of the group to be predicted and including an additive component and an additive x additive epistatic component. We have implemented an application of GS in a selection cycle in progress. We evaluated the potential of initial crosses by simulation of virtual descendants and genomic prediction of their performances, which allowed us to select three promising biparental populations within which we made a selection based on genomic predictions. We have developed a tool to simulate selection schemes over several consecutive cycles. It is a flexible and generic tool from the point of view of selection schemes definition. This tool makes it possible, in particular, to compare the genetic gain obtained with two different schemes starting from a same starting population and from a same model of genetic and environmental effects acting on the phenotypic expression of a trait. With this tool, we studied evaluation accuracy and variance components of two GBLUP models (with or without epistasy modeling) after simulation of different genetic architectures. We also compared the classic selection scheme and different schemes including a use of GS. With a comparison on one cycle, we did not observe any gain in using schemes integrating GS to increase efficiency of selection of new varieties, at constant cost. On the other hand, we observed a gain in using GS to choose crosses at the beginning of cycle: mean genetic value of produced lines increases from one cycle to another. Regarding alternatives to the traditional soybean selection scheme, further studies will be required. In particular, they will include simulation of selection stages on seed protein content and study of long-term genetic gain.
12

Application of artificial neural networks to genome-enabled prediction in Nellore cattle /

Ribeiro, André Mauric Frossard January 2019 (has links)
Orientador: Henrique Nunes de [UNESP] Oliveira / Resumo: Nos últimos anos, o rápido desenvolvimento de tecnologias de sequenciamento de alto rendimento permitiu a genotipagem em larga escala de milhares de marcadores genéticos. Diversos modelos estatísticos foram desenvolvidos para predizer os valores genéticos para traços complexos usando as informações de marcadores moleculares em alta densidade, pedigrees ou ambos. Esses modelos incluem, entre outros, as redes neurais artificiais (RNA) que têm sido amplamente utilizadas em problemas de previsão em outros campos de aplicação e, mais recentemente, para predição genômica. O objetivo deste trabalho foi avaliar o desempenho de redes neurais artificiais na predição genômica de bovinos Nelore. Para isso foram testadas diferentes arquiteturas de rede (1 a 4 neurônios em camada oculta), 5 estratégias para seleção de animais com base na acurácia do EBV a serem declaradas para a rede de treinamento como entrada e avaliação de matrizes de relacionamento (NN_G (G como entrada); NN_GD (combinados G com D); e N_Guar (Guar como entrada)) a serem utilizados como entrada para predição genômica em características de peso corporal de bovinos Nelore em relação a modelos de regressão lineares bayesianos hierárquicos (BayesB). . Para isso, utilizou-se o dEBV de 8652 animais genotipados para peso corporal aos 120 dias, 240 dias, 365 dias e 455 dias. Esses animais foram divididos pela acurácia do EBV em população de treinamento e na validação. Todas as estratégias foram repetidas 5 vezes e a correlação ... (Resumo completo, clicar acesso eletrônico abaixo) / Abstract: In recent years, the fast development of high-throughput sequencing technologies has enabled large-scale genotyping of thousands of genetic markers. Several statistical models have been developed for predicting breeding genetic values for complex traits using the information on dense molecular markers, pedigrees, or both. These models include, among others, the artificial neural networks (ANN) that have been widely used in prediction problems in other fields of application and, more recently, for genome-enabled prediction. The objective of this work was to evaluate the performance of artificial neural networks in the genomic prediction of complex trait in Nellore cattle. For this, we has been tested different network architectures (1 to 4 neurons on hidden layer), 5 strategies to select animals based on their EBV accuracy to be declared for the training network as input and evaluation of relationship matrices [ NN_G (G as input); NN_GD(combined G with D), and N_Guar (Guar as input)] to be used as input for genomic prediction in body weight traits in Nellore cattle relative to hierarchical linear Bayesian regression models (BayesB) . The dEBV of 8652 animals genotyped for body weight at 120 days, 240 days, 365 days, and 455 days was used. Animals were divided into training population and validation by the predicted EBV accuracy. All strategies were repeated five times, and the correlation between dEBV and predicted dEBV was used as the accuracy measure of the models tested. Th... (Complete abstract click electronic access below) / Doutor
13

Genomic and conventional evaluations for fertility traits in pigs

Fangmann, Anna Maria 06 November 2018 (has links)
No description available.
14

Estudo genômico do nível de infecção por Babesia bovis em bovinos da raça angus / Genomic study of the level of infection by Babesia bovis in angus cattle

Santana, Clarissa Helena [UNESP] 26 February 2016 (has links)
Submitted by CLARISSA HELENA SANTANA null (santana.chs@gmail.com) on 2016-03-21T18:17:24Z No. of bitstreams: 1 Dissertação_Clarissa_Helena_Santana.pdf: 1159982 bytes, checksum: 1160868d6c0bff2c67119202847275c7 (MD5) / Approved for entry into archive by Ana Paula Grisoto (grisotoana@reitoria.unesp.br) on 2016-03-22T17:26:26Z (GMT) No. of bitstreams: 1 santana_ch_me_jabo.pdf: 1159982 bytes, checksum: 1160868d6c0bff2c67119202847275c7 (MD5) / Made available in DSpace on 2016-03-22T17:26:26Z (GMT). No. of bitstreams: 1 santana_ch_me_jabo.pdf: 1159982 bytes, checksum: 1160868d6c0bff2c67119202847275c7 (MD5) Previous issue date: 2016-02-26 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / A bovinocultura é um setor com importante destaque no agronegócio brasileiro. O carrapato Ripicephalus (Boophilus) microplus é responsável por perdas econômicas significativas aos pecuaristas e é vetor de hemoparasitoses como Anaplasma spp e Babesia spp. Sabe-se que os bovinos Bos taurus taurus são mais susceptíveis à infestação por carrapatos do que Bos taurus indicus. Acredita-se que o mesmo ocorra para a infecção por Babesia bovis. Neste trabalho, foram avaliados, em duas colheitas, 355 bovinos da raça Angus, pertencentes a uma fazenda de Uruguaiana-RS, nos quais foram realizadas contagens de carrapatos e colheitas de amostras de sangue para quantificação de B. bovis, pela técnica de qPCR, e genotipagem com chip de 150.000 marcadores SNP. Para qPCR utilizaram-se sequências iniciadoras que flanqueiam um fragmento do gene do citocromo B (mt-cytB), como oligonucleotídeos iniciadores. Após genotipagem dos bovinos com o chip Gene Seek Genomic Profiler™ (GGP-HD) da Illumina Infinium®, foi realizado imputação de genótipos, para recuperação de genótipos faltantes, e controle de qualidade. Foi realizada análise de associação genômica ampla (GWAS), para cada uma das características, infecção por B. bovis e resistência a carrapatos, através do método denominado “Single Step Genomic BLUP” (ssGBLUP). Todos os animais apresentaram infestação por carrapatos e infecção por B. bovis, determinada pela qPCR, e altos valores médios para ambas as características. Algumas regiões cromossômicas foram identificadas como significativas para as características estudadas, sendo que, sete dos cromossomos identificados no presente estudo já haviam sido descritos em outros trabalhos. Neste sentido, o presente estudo corrobora com outros resultados indicando que a técnica de qPCR é um método sensível de detecção de B. bovis em animais Angus e que as regiões genômicas identificadas como significativas podem ser importantes para a variação das características estudadas. / The cattle industry is a sector with importance in the Brazilian agribusiness. The Ripicephalus (Boophilus) microplus is responsible for economic losses and is a vector for hemoparasitoses, such as Anaplasma spp and Babesia spp. It is known that the Bos tauros animals are more susceptible to infestation by ticks when compared with infestation in Bos indicus animals. It is believed that the same behavior keeps for infection by Babesia bovis. They were evaluated, in two collections, 355 Angus cattle, from a farm in Uruguaiana city, estate of Rio Grande do Sul, where were performed tick counts, quantification of B. bovis by qPCR and genotyping with a 150K chip. Were used as primers, in the qPCR, sequences that flanking the fragment of the cytochrome b gene. The technique was standardized and optimized using specimens of isolates of B. bovis. After genotyping, imputation was carried out, for recovery of missing genotypes, and quality control. Genome association analysis was performed (GWAS), to each of the characteristics, through the method called "Single Step Genomic BLUP" (ssGBLUP). All animals showed tick infestation and infection by B. bovis and high average values for both characteristics. Some regions on chromosomes were identified as significant to the characteristics tick infestation and infection by B. bovis, and seven chromosomes, identified in the present study, were already described in other studies. The present study agrees with other results indicating that the qPCR technique is a sensitive method to detecting B. bovis in Angus and genomic regions identified may be significant for the variation of these characteristics.
15

Genomic selection and association mapping for wheat processing and end-use quality

Battenfield, Sarah January 1900 (has links)
Doctor of Philosophy / Genetics Interdepartmental Program / Allan K. Fritz / Globally, wheat (Triticum aestivum L.) is the second most widely grown cereal grain and is primarily used as a food crop. To meet the demands for human consumption, cultivars must possess suitable end-use quality for release and acceptability. However, breeding for quality traits is often considered a secondary goal, largely due to amount of seed needed and overall expense of such testing. Without testing and selection, many undesirable materials tend to be advanced. Here we demonstrate two methods, mega-genome-wide association mapping and genomic selection, to enhance selection accuracy for quality traits in the CIMMYT bread wheat breeding program. The methods were developed using high-density SNPs detected from genotyping-by-sequencing and processing and end-use quality evaluations from unbalanced yield trial entries (n = 4,095) during 2009 to 2014, at Ciudad Obregon, Sonora, Mexico. Genome-wide association mapping, with covariates for population structure and kinship, was applied for each trait to each site-year individually and results were combined across years in a mega-analysis using an inverse variance, fixed effect model in JMP-Genomics. This method presents a new way to detect genes of interest within a breeding program and develop markers for selection of these traits, which can then be used in earlier generations. Genomic selection prediction models were developed using ridge regression, Gaussian kernel, partial least squares, elastic net, and random forest models in R. With these predictions genomic selection (GS) can be applied at earlier stages and undesirable materials culled before implementing expensive yield and quality screenings. In general, prediction accuracy increased over time as more data was available to train the model. Based on these prediction accuracies, we conclude that genomic selection can be a useful tool to facilitate earlier generation selection for end-use quality in CIMMYT bread wheat breeding. Genomic selection was conducted for processing and end-use quality traits in the Kansas hard red winter wheat breeding unit. Genomic predictions demonstrate increases in accuracy with added data over time. These data demonstrate that current genomic selection models will need more data to continue improvement in prediction accuracy.
16

Intérêt de la sélection génomique dans les programmes de sélection porcins : cas d'une lignée mâle de grande taille / Interest of genomic selection in a pig sire line breeding scheme

Tribout, Thierry 01 October 2013 (has links)
L'objectif de ce travail de thèse était d'évaluer l'intérêt de mettre en place des évaluations génomiques dans les programmes de sélection porcins. Des simulations stochastiques ont été réalisées dans le cas d'un programme de sélection d'une lignée mâle de grande taille contenant 1 050 femelles reproductrices et 50 verrats, sélectionnée pendant 10 ans pour améliorer un objectif de sélection combinant 2 caractères, respectivement mesurés sur 13 770 candidats par an (Car1) et sur 270 collatéraux par an (Car2) issus de 10% des portées. Dans la situation de référence, les valeurs génétiques étaient estimées selon la méthodologie du BLUP-Modèle Animal (BLUPMA). Dans une première étude, nous avons comparé le scénario BLUPMA à un scénario génomique dans lequel tous les candidats étaient génotypés. Les évaluations génomiques s'appuyaient sur deux populations de référence (PR) initialement constituées de 13 770 candidats pour Car1 et de 1 000 collatéraux pour Car2, et dont les tailles respectives augmentaient annuellement, en considérant les mêmes capacités de phénotypage que dans le scénario BLUPMA. Les résultats montrent que des évaluations génomiques améliorent nettement la précision d'estimation des valeurs génétiques des candidats pour les deux caractères et le progrès génétique réalisé annuellement sur l'objectif global de sélection (+27% à +33% selon les héritabilités considérées), tout en réduisant significativement l'augmentation de la consanguinité dans la population. Un second scénario génomique a été simulé, dans lequel les candidats n'étaient plus phénotypés et les évaluations génomiques s'appuyaient sur une PR uniquement constituée de collatéraux phénotypés pour Car1 et Car2. Dans ce cas, la précision des valeurs génomiques estimées et la réponse à la sélection pour Car1 sont nettement plus faibles que dans le scénario BLUPMA, montrant que la sélection génomique ne permet pas de mettre fin au phénotypage des animaux. La mise en place d'évaluations génomiques nécessitant de génotyper un grand nombre d'individus, elle entraîne un surcoût important par rapport au scénario BLUPMA. Dans une seconde étude, nous avons montré que ce surcoût peut être largement réduit en présélectionnant les candidats à génotyper sur la base de leur valeur génomique estimée sur ascendance. Il est ainsi possible de réduire de manière significative le nombre de candidats à génotyper tout en préservant une grande partie de l'avantage de la sélection génomique par rapport à la sélection conventionnelle BLUPMA. Ainsi, une diminution de 40% du nombre de candidats génotypés ne réduit que de 3 à 4% le progrès génétique annuel sur l'objectif global. Nous avons également montré qu'au-delà d'un certain seuil d'investissement, une dépense supplémentaire pour améliorer l'efficacité du programme de sélection est plus efficacement investie dans la mise en place d'évaluations génomiques que dans l'augmentation de la capacité de phénotypage des collatéraux dans le dispositif conventionnel. Ce seuil d'intérêt de mise en place d'un programme génomique est d'autant plus bas que le coût du génotypage est faible et que le coût de phénotypage des collatéraux est élevé. L'ensemble de nos résultats suggère qu'il serait intéressant de mettre en place des évaluations génomiques dans un programme de sélection d'une lignée porcine mâle de grande taille, notamment dans la population Piétrain collective française, dont la structure est proche de celle de la population simulée dans nos études. / The aim of this work was to evaluate the interest of implementing genomic evaluations in pig breeding schemes. Stochastic simulation was used. The simulated population was a pig sire line containing 1,050 breeding females and 50 boars. The line was selected for 10 years for a breeding goal including two uncorrelated traits, recorded on, respectively, 13,770 candidates per year (trait1) and 270 relatives per year born in 10% of the litters (trait2). In the reference breeding scheme (BLUPAM), the selection was based on pedigree-based BLUP estimated breeding values (EBVs). In a first study, we compared the BLUPAM scenario to an alternative genomic breeding scheme with the same phenotyping capacities, where all candidates for selection were genotyped. The genomic breeding values for trait1 and trait2 were estimated using two training populations (TP). The first one (TP1) was made up of selection candidates (phenotyped for trait1) and the second one (TP2) of relatives phenotyped for trait2. The size of TP1 and TP2 increased, respectively, from 13,770 to 55,080 and from 1,000 to 3,430 over time. Our results show that genomic evaluations significantly improve the accuracy of the EBVs of the candidates for both traits and therefore the annual genetic trends for the global breeding goal (+27% to +33% depending on trait heritability), while significantly reducing the inbreeding rate. A second genomic scenario was simulated, in which the candidates were no longer phenotyped for trait1, and the genomic breeding values were estimated with one single TP made up of relatives phenotyped for both traits. In that case, the accuracy of EBVs and the annual genetic trends for trait1 are significantly lower than in the reference (BLUPAM) scenario. This shows that a large TP is required to outperform the current schemes for traits recorded on the candidates. The implementation of genomic evaluations requires the genotyping of a large number of animals, and therefore generates additional costs compared to BLUPAM breeding schemes. In a second study, we showed that genotyping a subset of candidates that have been pre-selected according to their parental EBV allows to significantly reduce the extra costs of a genomic breeding scheme while preserving most of its superiority in terms of genetic trends and inbreeding over the BLUPAM breeding scheme. For instance, reducing the number of genotyped candidates by 40% only reduced by 3 to 4% the global annual genetic trend. We also showed that even a very marked increase in the number of relatives phenotyped for trait2 in a BLUPAM scenario does not allow to be as efficient as a genomic scenario when the number of genotyped candidates is large. Finally, we showed that the economic interest of genetic selection can be characterized by an additional cost threshold; below this threshold, it is preferable to maintain pedigree-based BLUP evaluations and increase the number of relatives, while implementing genomic evaluation is more efficient above this threshold. The value of this threshold depends on the cost of phenotyping additional relatives and on genotyping costs.Our results suggest that implementing genomic evaluations in a large size pig sire line can be a valuable strategy. This strategy could for instance easily be applied to the French Piétrain population, which resembles the nucleus population simulated in this study.
17

Association Analysis and Genome-wide Selection for Early Maturity in Wheat

Mheni, Nafeti Titus January 2014 (has links)
No description available.
18

Genomic Selection and Genome-Wide Association Study in  Populus trichocarpa and Pinus taeda

Kaplan, Abdullah 20 September 2016 (has links)
Forest tree breeding methods rank among the most efficient ways to increase productivity and quality of forests. With the advent of high-throughput genotyping technology, genome-enabled breeding has started to gain importance and may overcome some weaknesses of traditional tree breeding. Genomic Selection (GS), which involves using genome-wide markers to predict breeding values of individuals in a population, has been proposed for animal and plant breeding programs. GS enables very accurate selection decisions through estimation of genomic estimated breeding values (GEBVs). While the goal of GS is to predict phenotype from genotype, it does not identify the underlying genes that have important roles in a trait. Genome-Wide Association Studies (GWAS) approaches are therefore complementary to GS, enabling identification of these genes, which may be useful for marker-assisted selection in some traits. In this study, we first estimated heritability for several adaptive traits (cold hardiness, dbh, bud flush, height, and bud set) in a population of Populus trichocarpa and for height, diameter, and stem straightness in Pinus taeda. GEBVs accuracies were estimated using a ridge regression–best linear unbiased prediction (rrBLUP) model, and these accuracies were compared with estimated heritabilities. GWAS was also performed for the both imputed and non–imputed data of P. taeda population using TASSEL (Trait Analysis by aSSociation Evolution and Linkage) software, as well as rrBLUP and FFBSKAT (Fast Family-Based Sequence Kernel Association Test) packages in R. Heritabilities ranged from 0.34 to 0.56 for P. trichocarpa and 0.14 to 0.37 for P.taeda. GWAS identified 3244 associations for dbh, 4077 associations for stem straightness, and 5280 SNPs for height (p≤0.05) in TASSEL using the reduced model (marker data only), whereas 2729, 3272 and 3531 associations were found with the full model where we also included population structure as a covariate. FFBSKAT showed a similar number of SNP associations (2989, 3046 and 3058). There was an inflation of SNP associations (~20k) found in rrBLUP, which suggests population structure was not effectively controlled. The GEBVs accuracies ranged from 0.09 and 0.22 for P.trichocarpa and 0.09 to 0.23 for P.taeda using rrBLUP method. Testing the effect of repetation on the accuracy of GEBV for poplar showed that there was no significant difference between the number of cycles. Also, there was no significant difference the accuracy of GEBVs in pine between two different imputation methods, the marker mean value and Beagle software. / Master of Science
19

Genomic selection in farm animals: accuracy of prediction and applications with imputed whole-genome sequencing data in chicken

Ni, Guiyan 10 February 2016 (has links)
Methoden zur genomischen Vorhersage basierend auf Genotypinformationen von Single Nucleotide Polymorphism (SNP)-Arrays mit unterschiedlicher Markeranzahl sind mittlerweile in vielen Zuchtprogrammen für Nutztiere fest implementiert. Mit der zunehmenden Verfügbarkeit von vollständigen Genomsequenzdaten, die auch kausale Mutationen enthalten, werden mehr und mehr Studien veröffentlicht, bei denen genomische Vorhersagen beruhend auf Sequenzdaten durchgeführt werden. Das Hauptziel dieser Arbeit war zu untersuchen, inwieweit SNP-Array-Daten mit statistischen Verfahren bis zum Sequenzlevel ergänzt werden können (sogenanntes „Imputing“) (Kapitel 2) und ob die genomische Vorhersage mit imputeten Sequenzdaten und zusätzlicher Information über die genetische Architektur eines Merkmals verbessert werden kann (Kapitel 3). Um die Genauigkeit der genomischen Vorhersage besser verstehen und eine neue Methode zur Approximation dieser Genauigkeit ableiten zu können, wurde außerdem eine Simulationsstudie durchgeführt, die den Grad der Überschätzung der Genauigkeit der genomischen Vorhersage verschiedener bereits bekannter Ansätze überprüfte (Kapitel 4). Der technische Fortschritt im letzten Jahrzehnt hat es ermöglicht, in relativ kurzer Zeit Millionen von DNA-Abschnitten zu sequenzieren. Mehrere auf unterschiedlichen Algorithmen basierende Software-Programme zur Auffindung von Sequenzvarianten (sogenanntes „Variant Calling“) haben sich etabliert und es möglich gemacht, SNPs in den vollständigen Genomsequenzdaten zu detektieren detektieren. Oft werden nur wenige Individuen einer Population vollständig sequenziert und die Genotypen der anderen Individuen, die mit einem SNP-Array an einer Teilmenge dieser SNPs typisiert wurden, imputet. In Kapitel 2 wurden deshalb anhand von 50 vollständig sequenzierten Weiß- und Braunleger-Individuen die mit drei unterschiedlichen Variant-Calling-Programmen (GATK, freebayes and SAMtools) detektierten Genomvarianten verglichen und die Qualität der Genotypen überprüft. Auf den untersuchten Chromosomen 3,6 und 26 wurden 1.741.573 SNPs von allen drei Variant Callers detektiert was 71,6% (81,6%, 88,0%) der Anzahl der von GATK (SAMtools, freebayes) detektierten Varianten entspricht. Die Kenngröße der Konkordanz der Genotypen („genotype concordance“), die durch den Anteil der Individuen definiert ist, deren Array-basierte Genotypen mit den Sequenz-basierten Genotypen an allen auch auf dem Array vorhandenen SNPs übereinstimmt, betrug 0,98 mit GATK, 0,98 mit SAMtools und 0,97 mit freebayes (Werte gemittelt über SNPs auf den untersuchten Chromosomen). Des Weiteren wiesen bei Nutzung von GATK (SAMtools, freebayes) 90% (88 %, 75%) der Varianten hohe Werte (>0.9) anderer Qualitätsmaße (non-reference sensitivity, non-reference genotype concordance und precision) auf. Die Leistung aller untersuchten Variant-Calling-Programme war im Allgemeinen sehr gut, besonders die von GATK und SAMtools. In dieser Studie wurde außerdem in einem Datensatz von ungefähr 1000 Individuen aus 6 Generationen die Güte des Imputings von einem hochdichten SNP-Array zum Sequenzlevel untersucht. Die Güte des Imputings wurde mit Hilfe der Korrelationen zwischen imputeten und wahren Genotypen pro SNP oder pro Individuum und der Anzahl an Mendelschen Konflikten bei Vater-Nachkommen-Paaren beschrieben. Drei unterschiedliche Imputing-Programme (Minimac, FImpute und IMPUTE2) wurden in unterschiedlichen Szenarien validiert. Bei allen Imputing-Programmen betrug die Korrelation zwischen wahren und imputeten Genotypen bei 1000 Array-SNPs, die zufällig ausgewählt und deren Genotypen im Imputing-Prozess als unbekannt angenommen wurden, durchschnittlich mehr als 0.95 sowie mehr als 0.85 bei einer Leave-One-Out-Kreuzvalidierung, die mit den sequenzierten Individuen durchgeführt wurde. Hinsichtlich der Genotypenkorrelation zeigten Minimac und IMPUTE2 etwas bessere Ergebnisse als FImpute. Dies galt besonders für SNPs mit niedriger Frequenz des selteneren Allels. FImpute wies jedoch die kleinste Anzahl von Mendelschen Konflikten in verfügbaren Vater-Nachkommen-Paaren auf. Die Korrelation zwischen wahren und imputeten Genotypen blieb auf hohem Niveau, auch wenn die Individuen, deren Genotypen imputet wurden, einige Generationen jünger waren als die sequenzierten Individuen. Zusammenfassend zeigte in dieser Studie GATK die beste Leistung unter den getesteten Variant-Calling-Programmen, während Minimac sich unter den untersuchten Imputing-Programmen als das beste erwies. Aufbauend auf den Ergebnissen aus Kapitel 2 wurden in Kapitel 3 Studien zur genomischen Vorhersage mit imputeten Sequenzdaten durchgeführt. Daten von 892 Individuen aus 6 Generationen einer kommerziellen Braunlegerlinie standen hierfür zur Verfügung. Diese Tiere waren alle mit einem hochdichten SNP-Array genotypisiert. Unter der Nutzung der Daten von 25 vollständig sequenzierten Individuen wurden jene Tiere ausgehend von den Array-Genotypen bis zum Sequenzlevel hin imputet. Das Imputing wurde mit Minimac3 durchgeführt, das bereits haplotypisierte Daten (in dieser Studie mit Beagle4 erzeugt) als Input benötigt. Die Genauigkeit der genomischen Vorhersage wurde durch die Korrelation zwischen de-regressierten konventionellen Zuchtwerten und direkt genomischen Zuchtwerten für die Merkmale Bruchfestigkeit, Futteraufnahme und Legerate gemessen. Neben dem Vergleich der Genauigkeit der auf SNP-Array-Daten und Sequenzdaten basierenden genomischen Vorhersage wurde in dieser Studie auch untersucht, wie sich die Verwendung verschiedener genomischer Verwandtschaftsmatrizen, die die genetische Architektur berücksichtigen, auf die Vorhersagegenauigkeit auswirkt. Hierbei wurden neben dem Basisszenario mit gleichgewichteten SNPs auch Szenarien mit Gewichtungsfaktoren, nämlich den -(〖log〗_10 P)-Werten eines t-Tests basierend auf einer genomweiten Assoziationsstudie und den quadrierten geschätzten SNP-Effekten aus einem Random Regression-BLUP-Modell, sowie die Methode BLUP|GA („best linear unbiased prediction given genetic architecture“) überprüft. Das Szenario GBLUP mit gleichgewichteten SNPs wurde sowohl mit einer Verwandtschaftsmatrix aus allen verfügbaren SNPs oder nur derer in Genregionen, jeweils ausgehend von der Grundmenge aller imputeten SNPs in der Sequenz oder der Array-SNPs, getestet. Gemittelt über alle untersuchten Merkmale war die Vorhersagegenauigkeit mit SNPs aus Genregionen, die aus den imputeten Sequenzdaten extrahiert wurden, mit 0,366 ± 0,075 am höchsten. Den zweithöchsten Wert erreichte die genomische Vorhersage mit SNPs aus Genregionen, die im SNP-Array erhalten sind (0,361 ± 0,072). Weder die Verwendung gewichteter genomischer Verwandtschaftsmatrizen noch die Anwendung von BLUP|GA führten im Vergleich zum normalen GBLUP-Ansatz zu höheren Vorhersagegenauigkeiten. Diese Beobachtung war unabhängig davon, ob SNP-Array- oder imputete Sequenzdaten verwendet wurden. Die Ergebnisse dieser Studie zeigten, dass kaum oder kein Zusatznutzen durch die Verwendung von imputeten Sequenzdaten generiert werden kann. Eine Erhöhung der Vorhersagegenauigkeit konnte jedoch erreicht werden, wenn die Verwandschaftsmatrix nur aus den SNPs in Genregionen gebildet wurde, die aus den Sequenzdaten extrahiert wurden. Die Auswahl der Selektionskandidaten erfolgt in genomischen Selektionsprogrammen mit Hilfe der geschätzten genomischen Zuchtwerte (GBVs). Die Genauigkeit des GBV ist hierbei ein relevanter Parameter, weil sie die Stabilität der geschätzten Zuchtwerte beschreibt und zeigen kann, wie sich der GBV verändern kann, wenn mehr Informationen verfügbar werden. Des Weiteren ist sie einer der entscheidenden Faktoren beim erwarteten Zuchtfortschritt (auch als so genannte „Züchtergleichung“ beschrieben). Diese Genauigkeit der genomischen Vorhersage ist jedoch in realen Daten schwer zu quantifizieren, da die wahren Zuchtwerte (TBV) nicht verfügbar sind. In früheren Studien wurden mehrere Methoden vorgeschlagen, die es ermöglichen, die Genauigkeit von GBV durch Populations- und Merkmalsparameter (z.B. effektive Populationsgröße, Sicherheit der verwendeten Quasi-Phänotypen, Anzahl der unabhängigen Chromosomen-Segmente) zu approximieren. Weiterhin kann die Genauigkeit bei Verwendung von gemischten Modellen mit Hilfe der Varianz des Vorhersagefehlers abgeleitet werden. In der Praxis wiesen die meisten dieser Ansätze eine Überschätzung der Genauigkeit der Vorhersage auf. Deshalb wurden in Kapitel 4 mehrere methodische Ansätze aus früheren Arbeiten in simulierten Daten mit unterschiedlichen Parametern, mit Hilfe derer verschiedene Tierzuchtprogramme (neben einem Basisszenario ein Rinder- und ein Schweinezuchtschema) abgebildet wurden, überprüft und die Höhe der Überschätzung gemessen. Außerdem wurde in diesem Kapitel eine neue und leicht rechenbare Methode zur Approximation der Genauigkeit vorgestellt Die Ergebnisse des Vergleichs der methodischen Ansätze in Kapitel 4 zeigten, dass die Genauigkeit der GBV durch den neuen Ansatz besser vorhergesagt werden kann. Der vorgestellte Ansatz besitzt immer noch einen unbekannten Parameter, für den jedoch eine Approximation möglich ist, wenn in einem geeigneten Datensatz Ergebnisse von Zuchtwertschätzungen zu zwei verschiedenen Zeitpunkten vorliegen. Zusammenfassend kann gesagt werden, dass diese neue Methode die Approximation der Genauigkeit des GBV in vielen Fällen verbessert.
20

Optimisation des stratégies de génétique d'association et de sélection génomique pour des populations de diversité variable : Application au maïs / Optimization of association genetics and genomic selection strategies for populations of different diversity levels : Application in maize (Zea mays L.)

Rincent, Renaud 11 April 2014 (has links)
D'importants progrès ont été réalisés dans les domaines du génotypage et du séquençage, ce qui permet de mieux comprendre la relation génotype/phénotype. Il est possible d'analyser l'architecture génétique des caractères (génétique d'association, GA), ou de prédire la valeur génétique des candidats à la sélection (sélection génomique, SG). L'objectif de cette thèse était de développer des outils pour mener ces stratégies de manière optimale. Nous avons d'abord dérivé analytiquement la puissance du modèle mixte de GA, et montré que la puissance était plus faible pour les marqueurs présentant une faible diversité, une forte différentiation entre sous groupes et une forte corrélation avec les marqueurs utilisés pour estimer l'apparentement (K). Nous avons donc considéré deux estimateurs alternatifs de K. Des simulations ont montré qu'ils sont aussi efficaces que la méthode classique pour contrôler les faux positifs et augmentent la puissance. Ces résultats ont été confirmés sur les panels corné et denté du programme Cornfed, avec une augmentation de 40% du nombre de SNP détectés. Ces panels, génotypés avec une puce 50k SNP et phénotypés pour leur précocité et leur biomasse ont permis de décrire la diversité de ces groupes et de détecter des QTL. En SG, des études ont montré l'importance de la composition du jeu de calibration sur la fiabilité des prédictions. Nous avons proposé un algorithme d'échantillonnage dérivé de la théorie du G-BLUP permettant de maximiser la fiabilité des prédictions. Par rapport à un échantillon aléatoire, il permettrait de diminuer de moitié l'effort de phénotypage pour atteindre une même fiabilité de prédiction sur les panels Cornfed. / Major progresses have been achieved in genotyping technologies, which makes it easier to decipher the relationship between genotype and phenotype. This contributed to the understanding of the genetic architecture of traits (Genome Wide Association Studies, GWAS), and to better predictions of genetic value to improve breeding efficiency (Genomic Selection, GS). The objective of this thesis was to define efficient ways of leading these approaches. We first derived analytically the power from classical GWAS mixed model and showed that it was lower for markers with a small minimum allele frequency, a strong differentiation among population subgroups and that are strongly correlated with markers used for estimating the kinship matrix K. We considered therefore two alternative estimators of K. Simulations showed that these were as efficient as classical estimators to control false positive and provided more power. We confirmed these results on true datasets collected on two maize panels, and could increase by up to 40% the number of detected associations. These panels, genotyped with a 50k SNP-array and phenotyped for flowering and biomass traits, were used to characterize the diversity of Dent and Flint groups and detect QTLs. In GS, studies highlighted the importance of relationship between the calibration set (CS) and the predicted set on the accuracy of predictions. Considering low present genotyping cost, we proposed a sampling algorithm of the CS based on the G-BLUP model, which resulted in higher accuracies than other sampling strategies for all the traits considered. It could reach the same accuracy than a randomly sampled CS with half of the phenotyping effort.

Page generated in 0.1253 seconds