1 |
Understanding genomic prediction in chickensIlska, Joanna Jadwiga January 2015 (has links)
Genomic prediction (GP) is a novel tool used for prediction of EBVs by using molecular markers. Within the last decade, GP has been widely introduced into routine evaluations of cattle, pig and sheep populations, however, its application in poultry has been somewhat delayed, and studies published to date have been limited in terms of population size and marker densities. This study shows a thorough evaluation of the benefits that GP could bring into routine evaluations of broiler chickens, with particular attention given to the accuracy and bias of Genomic BLUP (GBLUP) predictions. The data used for these evaluations exceeds the numbers of both individuals and marker genotypes of previously published reports, with the studied population consisting of up to 23,500 individuals, genotyped for up to 600K SNPs. The evaluation of GBLUP is preceded by evaluation of the variance components using traditional restricted maximum likelihood (REML) approach sourcing information from phenotypic records and pedigree, which provide an up to date reference for the estimates of variance components. Chapter 2 tested several models exploring potential sources of genetic variation and revealed the presence of significant maternal genetic and environmental effects affecting several commercial traits. In Chapter 3, a vast dataset containing 1.3M birds spread over 24 generations was used to evaluate changes in genetic variance of juvenile body weight and hen housed production over time. The results showed a slow but steady decline of the variance. Chapter 4 provided initial estimates of the accuracy and bias of genomic predictions for several sex-limited and fitness traits, obtained for a moderately sized population of over 5K birds, genotyped with 600K Affymetrix Axiom panel from which several chips of varying marker densities were extracted. The accuracy of those predictions showed a great potential for most traits, with GBLUP performance exceeding that of traditional BLUP. Chapter 5 investigated the effect of marker choice, with two chips used: one created from GWAS hits and second from evenly spaced markers, both with constant density of 27K SNPs. The two chips were used to calculate genomic relationship matrices using Linkage Analysis and Linkage Disequilibrium approaches. Markers selected through GWAS performed better in Linkage Analysis than in Linkage Disequilibrium approach. The optimum results however were found for relationship matrices which regressed the genomic relationships back to expected pedigree-based relationships, with the best regression coefficient dependent on the chip used. Chapter 6 formed a comprehensive evaluation of the utility of GBLUP in a large broiler population, exceeding 23,500 birds genotyped using 600K Affymetrix Axiom panel. By splitting the data into variable scenarios of training and testing populations, with several lower density chips extracted from the full range of genotypes available, the effect of population size and marker density was evaluated. While the latter proved to have little effect once 20K SNPs threshold was exceeded, the effect of the population size was found to be the major limiting factor for the accuracy of EBV predictions. The discrepancy between empirical results found and theoretical expectations of accuracy based on the similar genomic and population parameters showed an underestimation of the previously proposed requirements.
|
2 |
Agronomic, genetic and genomic approaches for predicting heterosis in sorghum [Sorghum bicolor (L.) Moench]Maulana, Frank January 1900 (has links)
Doctor of Philosophy / Department of Agronomy / Tesfaye Tesso / The approach used to identify inbred lines that can produce superior hybrids is costly and time-consuming. It requires creation of all possible crosses and evaluation of the crosses to estimate combining abilities for the desired traits. Predicting heterosis or hybrid performance in any way possible may help to reduce the number of crosses to be made and evaluated. In this study, four sets of experiments were conducted to determine whether heterosis can be predicted based on inbred line performance, genetic distance between parents and genomic prediction model.
The first experiment was aimed at assessing the levels of genetic diversity, population structure and linkage disequilibrium (LD) in 279 public sorghum inbred lines, based on 66,265 SNPs generated using the genotyping-by-sequencing (GBS) platform. The inbred lines were developed at different times over the last two decades and harbor robust diversity in pedigree and agronomic characteristics. Some of the inbreds are resistant to Acetolactate synthase (ALS) and Acetyl co-enzyme-A carboxylase (ACC) inhibitor herbicides. The mean polymorphic information content (PIC) and gene diversity across the entire inbreds were 0.35 and 0.46, respectively with non-herbicide resistant inbreds harboring more diversity than the herbicide resistant ones. The population structure analysis clustered the inbred lines into three major subgroups according to pedigree and fertility-reaction with the maintainer lines (B-lines) distinctly forming a separate cluster. Analysis of molecular variance (AMOVA) revealed more variation within subgroups than among subgroups. Substantial linkage disequilibrium (LD) was detected between the markers in the population with marked variation between chromosomes. This information may facilitate the use of the inbreds in sorghum breeding programs and provide perspectives for optimizing marker density for gene mapping and marker-assisted breeding.
The second experiment, based on 102 F1 hybrids developed by intercrossing closely and distantly related inbreds, was conducted to investigate the relationship of genetic distance between parents with hybrid vigor or heterosis. The F1 hybrids alongside their parents were evaluated at two environments in a randomized complete block design with three replications. The results show that correlations of genetic distance between parents with hybrid performance and heterosis were variable and dependent on the trait. Though most were statistically non-significant and not strong to be used as predictor for heterosis, the results tend to show that certain level of genetic distance between parents is needed to capture maximum heterosis and hybrid performance.
The objective of the third research study was to determine whether traits measured on parents can be used to predict hybrid performance in sorghum and to assess the combining ability of selected inbreds. Forty-six parental inbred lines and 75 F1 hybrids generated from intercrossing the inbreds were evaluated in four environments in a randomized complete block design with three replications. The average performance of the parents (mid-parent) was significantly correlated with hybrid performance for thousand kernel weight, days to flowering and plant height. Significant general (GCA) and specific (SCA) combining abilities were observed for most traits, with highly significant GCA effects observed for most traits as compared to SCA indicating that additive genetic effects are more important in affecting the inheritance of the traits measured. Results show that studying parental inbred line performance could generate important information for predicting hybrid performance in sorghum.
The fourth experiment was aimed at assessing the efficacy of genomic prediction of hybrid performance in sorghum. Genomic prediction was performed with five-fold cross-validation procedure on 204 F1 hybrids developed using 102 inbred lines. A total of 66,265 SNP markers generated using genotyping-by-sequencing were used in this study. Results showed that increasing training population size increased prediction accuracies for all traits with the effect being different for different traits. Also, considering additive effects alone versus additive and dominance effects in the model showed similar trend of prediction accuracy but the full model (considering both additive and dominance effects of the markers) provided better prediction at least for some of the traits. The results suggest that genomic prediction could become an effective tool for predicting the performance of untested sorghum hybrids thus adding efficiency to hybrid selection.
|
3 |
The Genetic Architecture of Grain Quality and its Temporal Relationship with Growth and Development in Winter Malting Barley (Hordeum vulgare)Loeb, Amelia 26 June 2023 (has links)
This thesis explores the genetic architecture of malting quality within the Virginia Tech barley breeding program, and discusses implications for imposing selection on complex traits that are difficult to phenotype. Malting quality measures are destructive, and can not be performed before selection must be made for advancement of breeding lines in winter barley. A growing body of evidence suggests that malt quality is influenced by malting regime, growing environment, line genotype, and the interactions between them. We aim to better understand the genetic effect on malt quality in two manners: first, as it relates to the genetic architecture regulating malt quality parameters, and second the relationship between genetic growth patterns to end-use malting traits. This study included two years of breeding trial data of two and six-row winter malt barley across two locations. Results of a genome-wide association scan and genomic prediction of malt quality traits indicated that they are largely quantitative traits with complex inheritance. Previous studies have identified quantitative trait loci and genes regulating malt quality traits in markedly different germplasm. Heritability of traits ranged from 0.27 to 0.72, while mean predictive abilities ranged from 0.45 to 0.74. Thus, selection on genomic estimated breeding values (gEBVs) should perform similarly to selection on single phenotypic observations of quality, but can be done within the same season. This indicates that genomic selection may be a viable method to accelerate genetic improvement of malting quality traits. The use of gEBVs requires that lines be genotyped with genome-wide markers, somewhat limiting the number of candidate individuals. Selection on growth and development traits genetically correlated with quality measures could allow for selection among a much greater number of candidates if high-throughput phenotypes can be collected on many ungenotyped indivduals. Growth and development was quantified by the near-infrared vegetation index (NDVI) extracted from aerial images captured from multiple time points throughout the growing season. Estimates of genetic correlation identified time points throughout the season when quality traits are related to growth and development. We demonstrated that aerial imagery can discern growth patterns in barley and suggest ways it can be incorporated into the breeding pipeline. / Master of Science / Malt barley (Hordeum vulgare) is the preferred source of fermentable sugar used to brew beer. Currently, the majority of malt barley used in the United States is grown in the upper mid-west or imported from Europe. The east coast could become a producing region if high quality, disease resistant varieties were available to growers. The Virginia Tech small grains breeding program began breeding locally adapted malt barley in 2010. This project aims to improve the breeding process by incorporating information from genomic sequencing, malt quality and aerial imagery. Malt barley differs from that used for animal feed or human food because specific quantities of starches, proteins, and enzymes are necessary in the brewing process. The quantity of these molecules are determined through lab analysis and determine the grain's suitability for particular brewing styles. This analysis is timeconsuming and costly because it involves a three-step process of malting the grain, brewing with the malt, and analyzing the wort. The wort is the liquid sugar solution which is produced by heating the malt with water to a high temperature in a process called 'mashing'.
Lab quality analysis for the thousands of lines evaluated in a breeding program in any given year is unfeasible. However, by understanding the genetic regulation of malt quality traits, breeders can employ techniques like genomic selection to improve these traits in a shorter amount of time. Additionally, this work identifies relationships between growth and quality.
The grain is the result of the plant's growth throughout the entirety of the season. Measuring growth repeatedly through time was previously difficult until the advent of aerial imagery.
Images captured from drones have been used to quantify growth in a variety of plants, but is not extensively done in malt barley. Relating growth to quality will help breeders understand genetic patterns of growth and development which may be advantageous in the production of high quality malt barley.
|
4 |
Genomic selection in farm animals: accuracy of prediction and applications with imputed whole-genome sequencing data in chickenNi, Guiyan 10 February 2016 (has links)
Methoden zur genomischen Vorhersage basierend auf Genotypinformationen von Single Nucleotide Polymorphism (SNP)-Arrays mit unterschiedlicher Markeranzahl sind mittlerweile in vielen Zuchtprogrammen für Nutztiere fest implementiert. Mit der zunehmenden Verfügbarkeit von vollständigen Genomsequenzdaten, die auch kausale Mutationen enthalten, werden mehr und mehr Studien veröffentlicht, bei denen genomische Vorhersagen beruhend auf Sequenzdaten durchgeführt werden.
Das Hauptziel dieser Arbeit war zu untersuchen, inwieweit SNP-Array-Daten mit statistischen Verfahren bis zum Sequenzlevel ergänzt werden können (sogenanntes „Imputing“) (Kapitel 2) und ob die genomische Vorhersage mit imputeten Sequenzdaten und zusätzlicher Information über die genetische Architektur eines Merkmals verbessert werden kann (Kapitel 3). Um die Genauigkeit der genomischen Vorhersage besser verstehen und eine neue Methode zur Approximation dieser Genauigkeit ableiten zu können, wurde außerdem eine Simulationsstudie durchgeführt, die den Grad der Überschätzung der Genauigkeit der genomischen Vorhersage verschiedener bereits bekannter Ansätze überprüfte (Kapitel 4).
Der technische Fortschritt im letzten Jahrzehnt hat es ermöglicht, in relativ kurzer Zeit Millionen von DNA-Abschnitten zu sequenzieren. Mehrere auf unterschiedlichen Algorithmen basierende Software-Programme zur Auffindung von Sequenzvarianten (sogenanntes „Variant Calling“) haben sich etabliert und es möglich gemacht, SNPs in den vollständigen Genomsequenzdaten zu detektieren detektieren. Oft werden nur wenige Individuen einer Population vollständig sequenziert und die Genotypen der anderen Individuen, die mit einem SNP-Array an einer Teilmenge dieser SNPs typisiert wurden, imputet.
In Kapitel 2 wurden deshalb anhand von 50 vollständig sequenzierten Weiß- und Braunleger-Individuen die mit drei unterschiedlichen Variant-Calling-Programmen (GATK, freebayes and SAMtools) detektierten Genomvarianten verglichen und die Qualität der Genotypen überprüft. Auf den untersuchten Chromosomen 3,6 und 26 wurden 1.741.573 SNPs von allen drei Variant Callers detektiert was 71,6% (81,6%, 88,0%) der Anzahl der von GATK (SAMtools, freebayes) detektierten Varianten entspricht. Die Kenngröße der Konkordanz der Genotypen („genotype concordance“), die durch den Anteil der Individuen definiert ist, deren Array-basierte Genotypen mit den Sequenz-basierten Genotypen an allen auch auf dem Array vorhandenen SNPs übereinstimmt, betrug 0,98 mit GATK, 0,98 mit SAMtools und 0,97 mit freebayes (Werte gemittelt über SNPs auf den untersuchten Chromosomen). Des Weiteren wiesen bei Nutzung von GATK (SAMtools, freebayes) 90% (88 %, 75%) der Varianten hohe Werte (>0.9) anderer Qualitätsmaße (non-reference sensitivity, non-reference genotype concordance und precision) auf.
Die Leistung aller untersuchten Variant-Calling-Programme war im Allgemeinen sehr gut, besonders die von GATK und SAMtools. In dieser Studie wurde außerdem in einem Datensatz von ungefähr 1000 Individuen aus 6 Generationen die Güte des Imputings von einem hochdichten SNP-Array zum Sequenzlevel untersucht. Die Güte des Imputings wurde mit Hilfe der Korrelationen zwischen imputeten und wahren Genotypen pro SNP oder pro Individuum und der Anzahl an Mendelschen Konflikten bei Vater-Nachkommen-Paaren beschrieben. Drei unterschiedliche Imputing-Programme (Minimac, FImpute und IMPUTE2) wurden in unterschiedlichen Szenarien validiert.
Bei allen Imputing-Programmen betrug die Korrelation zwischen wahren und imputeten Genotypen bei 1000 Array-SNPs, die zufällig ausgewählt und deren Genotypen im Imputing-Prozess als unbekannt angenommen wurden, durchschnittlich mehr als 0.95 sowie mehr als 0.85 bei einer Leave-One-Out-Kreuzvalidierung, die mit den sequenzierten Individuen durchgeführt wurde. Hinsichtlich der Genotypenkorrelation zeigten Minimac und IMPUTE2 etwas bessere Ergebnisse als FImpute. Dies galt besonders für SNPs mit niedriger Frequenz des selteneren Allels. FImpute wies jedoch die kleinste Anzahl von Mendelschen Konflikten in verfügbaren Vater-Nachkommen-Paaren auf. Die Korrelation zwischen wahren und imputeten Genotypen blieb auf hohem Niveau, auch wenn die Individuen, deren Genotypen imputet wurden, einige Generationen jünger waren als die sequenzierten Individuen. Zusammenfassend zeigte in dieser Studie GATK die beste Leistung unter den getesteten Variant-Calling-Programmen, während Minimac sich unter den untersuchten Imputing-Programmen als das beste erwies.
Aufbauend auf den Ergebnissen aus Kapitel 2 wurden in Kapitel 3 Studien zur genomischen Vorhersage mit imputeten Sequenzdaten durchgeführt. Daten von 892 Individuen aus 6 Generationen einer kommerziellen Braunlegerlinie standen hierfür zur Verfügung. Diese Tiere waren alle mit einem hochdichten SNP-Array genotypisiert. Unter der Nutzung der Daten von 25 vollständig sequenzierten Individuen wurden jene Tiere ausgehend von den Array-Genotypen bis zum Sequenzlevel hin imputet. Das Imputing wurde mit Minimac3 durchgeführt, das bereits haplotypisierte Daten (in dieser Studie mit Beagle4 erzeugt) als Input benötigt.
Die Genauigkeit der genomischen Vorhersage wurde durch die Korrelation zwischen de-regressierten konventionellen Zuchtwerten und direkt genomischen Zuchtwerten für die Merkmale Bruchfestigkeit, Futteraufnahme und Legerate gemessen. Neben dem Vergleich der Genauigkeit der auf SNP-Array-Daten und Sequenzdaten basierenden genomischen Vorhersage wurde in dieser Studie auch untersucht, wie sich die Verwendung verschiedener genomischer Verwandtschaftsmatrizen, die die genetische Architektur berücksichtigen, auf die Vorhersagegenauigkeit auswirkt. Hierbei wurden neben dem Basisszenario mit gleichgewichteten SNPs auch Szenarien mit Gewichtungsfaktoren, nämlich den -(〖log〗_10 P)-Werten eines t-Tests basierend auf einer genomweiten Assoziationsstudie und den quadrierten geschätzten SNP-Effekten aus einem Random Regression-BLUP-Modell, sowie die Methode BLUP|GA („best linear unbiased prediction given genetic architecture“) überprüft. Das Szenario GBLUP mit gleichgewichteten SNPs wurde sowohl mit einer Verwandtschaftsmatrix aus allen verfügbaren SNPs oder nur derer in Genregionen, jeweils ausgehend von der Grundmenge aller imputeten SNPs in der Sequenz oder der Array-SNPs, getestet.
Gemittelt über alle untersuchten Merkmale war die Vorhersagegenauigkeit mit SNPs aus Genregionen, die aus den imputeten Sequenzdaten extrahiert wurden, mit 0,366 ± 0,075 am höchsten. Den zweithöchsten Wert erreichte die genomische Vorhersage mit SNPs aus Genregionen, die im SNP-Array erhalten sind (0,361 ± 0,072). Weder die Verwendung gewichteter genomischer Verwandtschaftsmatrizen noch die Anwendung von BLUP|GA führten im Vergleich zum normalen GBLUP-Ansatz zu höheren Vorhersagegenauigkeiten. Diese Beobachtung war unabhängig davon, ob SNP-Array- oder imputete Sequenzdaten verwendet wurden. Die Ergebnisse dieser Studie zeigten, dass kaum oder kein Zusatznutzen durch die Verwendung von imputeten Sequenzdaten generiert werden kann. Eine Erhöhung der Vorhersagegenauigkeit konnte jedoch erreicht werden, wenn die Verwandschaftsmatrix nur aus den SNPs in Genregionen gebildet wurde, die aus den Sequenzdaten extrahiert wurden.
Die Auswahl der Selektionskandidaten erfolgt in genomischen Selektionsprogrammen mit Hilfe der geschätzten genomischen Zuchtwerte (GBVs). Die Genauigkeit des GBV ist hierbei ein relevanter Parameter, weil sie die Stabilität der geschätzten Zuchtwerte beschreibt und zeigen kann, wie sich der GBV verändern kann, wenn mehr Informationen verfügbar werden. Des Weiteren ist sie einer der entscheidenden Faktoren beim erwarteten Zuchtfortschritt (auch als so genannte „Züchtergleichung“ beschrieben). Diese Genauigkeit der genomischen Vorhersage ist jedoch in realen Daten schwer zu quantifizieren, da die wahren Zuchtwerte (TBV) nicht verfügbar sind. In früheren Studien wurden mehrere Methoden vorgeschlagen, die es ermöglichen, die Genauigkeit von GBV durch Populations- und Merkmalsparameter (z.B. effektive Populationsgröße, Sicherheit der verwendeten Quasi-Phänotypen, Anzahl der unabhängigen Chromosomen-Segmente) zu approximieren. Weiterhin kann die Genauigkeit bei Verwendung von gemischten Modellen mit Hilfe der Varianz des Vorhersagefehlers abgeleitet werden.
In der Praxis wiesen die meisten dieser Ansätze eine Überschätzung der Genauigkeit der Vorhersage auf. Deshalb wurden in Kapitel 4 mehrere methodische Ansätze aus früheren Arbeiten in simulierten Daten mit unterschiedlichen Parametern, mit Hilfe derer verschiedene Tierzuchtprogramme (neben einem Basisszenario ein Rinder- und ein Schweinezuchtschema) abgebildet wurden, überprüft und die Höhe der Überschätzung gemessen. Außerdem wurde in diesem Kapitel eine neue und leicht rechenbare Methode zur Approximation der Genauigkeit vorgestellt Die Ergebnisse des Vergleichs der methodischen Ansätze in Kapitel 4 zeigten, dass die Genauigkeit der GBV durch den neuen Ansatz besser vorhergesagt werden kann. Der vorgestellte Ansatz besitzt immer noch einen unbekannten Parameter, für den jedoch eine Approximation möglich ist, wenn in einem geeigneten Datensatz Ergebnisse von Zuchtwertschätzungen zu zwei verschiedenen Zeitpunkten vorliegen. Zusammenfassend kann gesagt werden, dass diese neue Methode die Approximation der Genauigkeit des GBV in vielen Fällen verbessert.
|
5 |
Genetic and genomic studies on wheat pre-harvest sprouting resistanceLin, Meng January 1900 (has links)
Doctor of Philosophy / Department of Agronomy / Guihua Bai / Allan K. Fritz / Wheat pre-harvest sprouting (PHS), germination of physiologically matured grains in a wheat spike before harvesting, can cause significant reduction in grain yield and end-use quality. Many quantitative trait loci (QTL) for PHS resistance have been reported in different sources. To determine the genetic architecture of PHS resistance and its relationship with grain color (GC) in US hard winter wheat, a genome-wide association study (GWAS) on both PHS resistance and GC was conducted using in a panel of 185 U.S. elite breeding lines and cultivars and 90K wheat SNP arrrays. PHS resistance was assessed by evaluating sprouting rates in wheat spikes harvested from both greenhouse and field experiments. Thirteen QTLs for PHS resistance were identified on 11 chromosomes in at least two experiments, and the effects of these QTLs varied among different environments. The common QTLs for PHS resistance and GC were identified on the long arms of the chromosome 3A and 3D, indicating pleiotropic effect of the two QTLs. Significant QTLs were also detected on chromosome arms 3AS and 4AL, which were not related to GC, suggesting that it is possible to improve PHS resistance in white wheat.
To identify markers closely linked to the 4AL QTL, genotyping-by-sequencing (GBS) technology was used to analyze a population of recombinant inbred lines (RILs) developed from a cross between two parents, “Tutoumai A” and “Siyang 936”, contrasting in 4AL QTL. Several closely linked GBS SNP markers to the 4AL QTL were identified and some of them were coverted to KASP for marker-assisted breeding.
To investigate effects of the two non-GC related QTLs on 3AS and 4AL, both QTLs were transferered from “Tutoumai A” and “AUS1408” into a susceptible US hard winter wheat breeding line, NW97S186, through marker-assisted backcrossing using the gene marker TaPHS1 for 3AS QTL and a tightly linked KASP marker we developed for 4AL QTL. The 3AS QTL (TaPHS1) significantly interacted with environments and genetic backgrounds, whereas 4AL QTL (TaMKK3-A) interacted with environments only. The two QTLs showed additive effects on PHS resistance, indicating pyramiding these two QTLs can increase PHS resistance.
To improve breeding selection efficiency, genomic prediction using genome-wide markers and marker-based prediction (MBP) using selected trait-linked markers were conducted in the association panel. Among the four genomic prediction methods evaluated, the ridge regression best linear unbiased prediction (rrBLUP) provides the best prediction among the tested methods (rrBLUP, BayesB, BayesC and BayesC0). However, MBP using 11 significant SNPs identified in the association study provides a better prediction than genomic prediction. Therefore, for traits that are controlled by a few major QTLs, MBP may be more effective than genomic selection.
|
6 |
Novel Bayesian networks for genomic prediction of developmental traits in biomass sorghum / Novas redes Bayesianas para predição genômica de caracteres de desenvolvimento em sorgo biomassaSantos, Jhonathan Pedroso Rigal dos 02 August 2019 (has links)
Sorghum (Sorghum bicolor L. Moench spp.) is a bioenergy crop with several appealing biological features to be explored in plant breeding for increasing efficiency in bioenergy production. The possibility to connect the influence of quantitative trait loci over time and between traits highlight the Bayesian networks as a powerful probabilistic framework to design novel genomic prediction models. In this study, we phenotyped a diverse panel of 869 sorghum lines in four different environments (2 locations in 2 years) with biweekly measurements from 30 days after planting (DAP) to 120 DAP for plant height and dry biomass at the end of the season. Genotyping-by-sequencing was performed, resulting in the scoring of 100,435 biallelic SNP markers. We developed and evaluated several genomic pre- diction models: Bayesian Network (BN), Pleiotropic Bayesian Network (PBN), and Dynamic Bayesian Network (DBN). Assumptions for BN, PBN, and DBN were independence, dependence between traits, and dependence between time points, respectively. For benchmarking, we used multivariate GBLUP models that considered only time points for plant height (MTi- GBLUP), and both time points for plant height and dry biomass (MTr-GBLUP) modeling unstructured variance-covariance matrix for genetic effects and residuals. Coincidence indices (CI) were computed for understanding the success in selecting for dry biomass using plant height measurements, as well as a coincidence index based on lines (CIL) using the posterior draws from the Bayesian networks to understand genetic plasticity over time. In the 5-fold cross-validation scheme, prediction accuracies ranged from 0.48 (PBN) to 0.51 (MTr- GBLUP) for dry biomass and from 0.47 (DBN-DAP120) to 0.74 (MTi-GBLUP-DAP60) for plant height. The forward-chaining cross-validation showed a substantial increment in prediction accuracies when using the DBN model, with r = 0.6 (train on slice 30:45 to predict 120 DAP) to 0.94 (train on slice 30:90 to predict 105 DAP) compared to the BN and PBN, and similar to multivariate GBLUP models. Both the CI and CIL indices showed that the ranking of promising inbred lines changed minimally after 45 DAP for plant height. These results suggest that 45 DAP is an optimal developmental stage for imposing the two-level indirect selection framework, where indirect selection for plant height at the end of the season (first-level target trait) can be done based on its ranking with 45 DAP (secondary trait) as well as for dry biomass (second-level target trait). With the advance of robotic technologies for field-based phenotyping, the development of novel approaches such as the two-level indirect selection framework will be imperative to boost genetic gain per unit of time. / O sorgo (Sorghum bicolor L. Moench spp.) é uma cultura bioenergética com várias características atrativas para serem exploradas no melhoramento de plantas para aumentar a eficiência de produção de bioenergia. A possibilidade de conectar informações genômicas em caracteres quantitativos ao longo do tempo, e entre caracteres, destacam as Redes Bayesianas como uma ferramenta probabilística poderosa para delinear novos modelos de predição genômica. Neste estudo, um painel diverso de 869 linhagens de sorgo foi fenotipado em quatro ambientes diferentes (2 locais em 2 anos) com medidas a cada duas semanas de 30 a 120 dias após o plantio (DAP), para altura de plantas e biomassa seca no fim da safra. Um procedimento de Genotipagem por sequenciamento foi executado, resultando na chamada de 100.435 marcadores baseados em Polimorfismos de Nucleotídeos Únicos (SNPs) bialélicos. Neste estudo foram desenvolvidos e avaliados os modelos de predição genômica: Rede Bayesiana (BN), Rede Bayesiana Pleiotrópica (PBN), e Rede Bayesiana Dinâmica (DBN). Os pressupostos para BN, PBN, e DBN foram independência, dependência entre caracteres, e dependência entre pontos no tempo, respectivamente. Para fins comparativos, formulações de modelos multivariados GBLUP foram utilizados considerando dependência entre pontos de tempo para altura de plantas (MTi-GBLUP), e ambos os pontos de tempo para a altura de plantas e biomassa seca (MTr-GBLUP), modelando matriz de variância-covariância não estruturada para efeitos genéticos e residuais. Índices de coincidência (IC) foram calculados para entender o sucesso na seleção indireta de biomassa seca usando medidas de altura de plantas, bem como um índice de coincidência baseado em linhagens (CIL), usando as amostras das posteriores das redes Bayesianas para entender a plasticidade genética ao longo do tempo. No esquema de validação cruzada 5-fold, as acurácias das predições variaram de 0,48 (PBN) a 0,51 (MTr-GBLUP) para biomassa seca e de 0,47 (DBN-DAP120) a 0,74 (MTi-GBLUP-DAP60) para altura de plantas. A validação cruzada forward-chaining mostrou um incremento substancial nas acurácias das predições ao usar o modelo DBN, com r = 0,6 (treinando no intervalo 30:45 para prever 120 DAP) até 0,94 (treinando no intervalo 30:90 para prever 105 DAP) em comparação com o BN e PBN, e semelhante aos modelos multivariados GBLUP. Os índices CI e CIL mostraram que o ranking de linhagens promissoras mudou minimamente após 45 DAP para altura de plantas. Estes resultados sugerem que 45 DAP é um estágio de desenvolvimento ideal para impor a estrutura de seleção indireta em dois níveis, onde a seleção indireta para a altura da planta no final da estação (caractere alvo de primeiro nível) pode ser feita com base na sua classificação com 45 DAP (caractere secundário), bem como para a biomassa seca (caractere alvo de segundo nível). Com o avanço das tecnologias robóticas para a fenotipagem baseada em campo, o desenvolvimento de novas abordagens, como a estrutura de seleção indireta em dois níveis, serão imperativas para aumentar o ganho genético por unidade de tempo.
|
7 |
Accuracy of Genomic Prediction in Dairy CattleErbe, Malena 16 May 2013 (has links)
Die genomische Zuchtwertschätzung ist vor allem im Bereich der Milchrinderzucht in den letzten Jahren zu einer beliebten Methode geworden, um sichere Zuchtwerte von Tieren ohne phänotypische Information zu erhalten. Das Ziel dieser Arbeit war es, verschiedene Einflussfaktoren auf die Genauigkeit der genomischen Zuchtwertschätzung in realen Rinderdatensätzen genauer zu untersuchen.
In Kapitel 2 findet sich eine grundlegende Arbeit zur Kreuzvalidierung, in der die Eigenschaften verschiedener Kreuzvalidierungsstrategien in realen Datensätzen untersucht wurden. Kreuzvalidierung bedeutet, dass die verfügbaren Daten in eine Trainings- und eine Validierungsstichprobe aufgeteilt werden, wobei für die Individuen in der Validierungsstichprobe alle Beobachtungswerte als nicht vorhanden angenommen werden. Die Werte der Individuen in der Validierungsstichprobe werden dann mit einem Modell, das mit Hilfe der Beobachtungswerte der Individuen in der Trainingsstichprobe angepasst wird, vorhergesagt. Im Kontext der genomischen Zuchtwertschätzung werden Kreuzvalidierungsstrategien benutzt, um die Genauigkeit der genomischen Zuchtwertschätzung mit einer bestimmten Trainingspopulation abzubilden. Die Korrelation zwischen maskierten und vorhergesagten Werten der Tiere in der Validierungsstichprobe spiegelt die Genauigkeit der genomischen Zuchtwertschätzung wider. Die Art und Weise, wie der Datensatz in Trainings- und Validierungsstichprobe unterteilt wird, kann die Ergebnisse einer Kreuzvalidierung beeinflussen. Das Ziel dieser Studie war es deshalb, optimale Strategien für unterschiedliche Zwecke – Beschreibung der Genauigkeit der genomischen Vorhersage für mögliche Selektionskandidaten mit dem vorhandenen Datensatz oder Vergleich von zwei Methoden zur Vorhersage – zu finden. Ein Datensatz von etwa 2‘300 Holstein Friesian-Bullen, die mit dem Illumina BovineSNP50 BeadChip (im Folgenden 50K Chip genannt) typisiert waren, wurde unterschiedlich aufgeteilt, so dass sich zwischen 800 bis 2‘200 Tiere in der Trainingsstichprobe und die jeweils restlichen Tiere in der Validierungsstichprobe befanden. Zwei BLUP-Modelle, eines mit einem zufälligen genomischen Effekt und eines mit einem zufälligen polygenen und einem zufälligen genomischen Effekt, wurden zur Vorhersage verwendet. Die höchste Genauigkeit der Vorhersage konnte mit der größten Trainingsstichprobe erreicht werden. Eine große Trainingsstichprobe bei gegebenem limitierten Datenmaterial impliziert aber auch, dass gleichzeitig die Validierungsstichproben klein und damit die Standardfehler der beobachteten Genauigkeiten sehr hoch sind. Falls es das Ziel einer Studie ist, signifikante Unterschiede zwischen Modellen nachzuweisen, ist es besser größere Validierungsstichproben zu verwenden. Eine fünffache Kreuzvalidierung scheint in vielen Fällen ein guter Kompromiss zu sein.
Die Verwandtschaftsstruktur zwischen den Tieren in der Trainings- und der Validierungsstichprobe hat einen großen Effekt auf die Genauigkeit der genomischen Zuchtwertschätzung. Momentan sind noch genügend nachkommengeprüfte Bullen in den Trainingsstichproben vorhanden, mit denen die Tiere in der Validierungsstichprobe hoch verwandt sind. Wenn die genomische Selektion konsequent angewendet wird, ist es möglich, dass solche Individuen für die Trainingsstichprobe knapper werden. Deshalb enthält Kapitel 3 eine Studie, die untersucht, wie sich die Verwandtschafts- und Altersstruktur auf die Genauigkeit der genomischen Zuchtwerte von jungen Bullen auswirkt. Ein Datensatz mit 5‘698 Bullen der Rasse Holstein Friesian, die alle mit dem 50K Chip typisiert wurden und zwischen 1981 und 2005 geboren wurden, war die Basis dieser Arbeit. In allen Szenarien wurden die 500 jüngsten Bullen dieses Datensatzes als Validierungsstichprobe verwendet. Verschiedene Trainingsstichproben mit je 1‘500 Individuen wurden ausgewählt, um die genomischen Zuchtwerte der jungen Tiere (Selektionskandidaten) vorherzusagen: eine zufällige Auswahl an Bullen, die ältesten und jüngsten verfügbaren Tiere, Tiere mit Verwandtschaftskoeffizienten kleiner 0.25 oder 0.5 zu allen Selektionskandidaten, oder Tiere, die am stärksten mit den Selektionskandidaten verwandt waren. Verglichen mit dem Szenario mit der zufälligen Auswahl führte eine Verringerung der Verwandtschaft zu einer sichtbaren Abnahme der Genauigkeit der genomischen Vorhersage. Die Genauigkeit für die Szenarien mit den hoch verwandten Tieren bzw. den jüngsten Tieren in der Trainingsstichprobe war hingegen höher. Für die praktische Anwendung bedeutet dies, dass in stark verwandten Gruppen wie Elitebullen der Rasse Holstein Friesian keine weiteren Probleme für die Vorhersage junger Tiere zu erwarten sind, solange Väter, Voll- und Halbgeschwister in der Trainingsstichprobe vorhanden sind. Neue nachkommengeprüfte Bullen sollten deshalb kontinuierlich zur Trainingsstichprobe hinzugefügt werden – sonst wird eine klare Abnahme der Genauigkeit schon nach ein oder zwei Generationen zu sehen sein.
Kapitel 4 beschäftigt sich mit zwei weiteren Faktoren, die die Genauigkeit der genomischen Vorhersage beeinflussen können: Markerdichte und Methodenwahl. Bis jetzt wurden normalerweise 50K SNPs für die genomische Zuchtwertschätzung verwendet, aber seit Kurzem ist auch ein neues hochdichtes SNP-Array mit 777K SNPs verfügbar. Dies lässt die Frage aufkommen, ob die höhere Markerdichte zu einem Anstieg in der Genauigkeit führen kann. Je mehr Marker verfügbar sind, umso größer wird auch die Notwendigkeit, Methoden zu entwickeln, die einen Teil der Marker als nicht informativ (d.h. ohne Effekt auf das untersuchte Merkmal) zulassen. Deshalb wurde eine neue und effiziente Bayes’sche Methode (BayesR) entwickelt, die annimmt, dass die SNP Effekte aus einer Reihe von Normalverteilungen stammen, die unterschiedliche Varianzen haben. Die Anzahl der SNPs pro Verteilung wird nicht festgesetzt, sondern mit Hilfe einer Dirichlet-Verteilung modelliert. In Kapitel 4 wird außerdem auf die Frage eingegangen, wie sich die Genauigkeit der Vorhersage im Fall von Trainingsstichproben mit mehreren Rassen bei unterschiedlicher Markerdichte verhält. Bei Milchrinderrassen sind große Trainingsstichproben erforderlich, um robuste Schätzer der SNP-Effekte zu erhalten, aber gerade bei kleinen Rassen kann es schwierig sein, solch große Trainingsstichproben aufzubauen. Trainingsstichproben, die Tiere mehrerer Rassen enthalten, können deshalb eine Möglichkeit sein, dieses Problem zu umgehen. Mit 50K SNPs war der Erfolg solcher Mehrrassen-Trainingsstichproben gering, was darauf zurückgeführt wurde, dass die Haplotypenstruktur über die Rassen hinweg bei dieser Markerdichte nicht konsistent war. Der hochdichte SNP-Chip könnte hier allerdings Verbesserungen für die Vorhersage über Rassen hinweg bringen. Die Veränderungen in der Genauigkeit der genomischen Zuchtwertschätzung innerhalb einer Rasse und über Rassen hinweg wurden mit Daten von australischen Bullen der Rassen Holstein Friesian und Jersey, die mit dem 50K Chip typisiert und auf 777K SNPs imputet waren, und zwei verschiedenen Methoden (GBLUP, BayesR) untersucht. Die Verwendung von imputeten hochdichten Markern führte zu keinem signifikanten Anstieg der Genauigkeit innerhalb einer Rasse und nur zu einer geringen Verbesserung der Genauigkeit in der kleineren Rasse im Mehrrassen-Szenario. BayesR lieferte gleichwertige oder in vielen Fällen höhere Genauigkeiten als GBLUP. Eine Eigenschaft von BayesR ist außerdem, dass es möglich ist, aus den Ergebnissen Erkenntnisse zur genetischen Architektur des Merkmals zu erhalten, z.B. indem man die durchschnittliche Anzahl an SNPs in den verschiedenen Verteilungen betrachtet.
Die Genauigkeit der genomischen Zuchtwertschätzung kann mit verschiedenen Validierungsprozeduren berechnet werden, sobald reale Daten vorhanden sind. In manchen Situationen kann es jedoch von Vorteil sein, wenn man die erwartete Genauigkeit der Vorhersage im Vorfeld einer Studie abschätzen kann, z.B. um zu wissen, welche Größe die Trainingsstichprobe haben sollte oder wie hoch die Markerdichte sein sollten, um eine bestimmte Genauigkeit zu erreichen. Verschiedene deterministische Formeln zur Abschätzung der erreichbaren Genauigkeit sind in der Literatur verfügbar, die alle auf den mehr oder weniger gleichen Parametern beruhen. Einer dieser Parameter ist die Anzahl unabhängig segregierender Chromosomensegmente (Me), die normalerweise mit Hilfe von theoretischen Werten wie der effektiven Populationsgröße (Ne) deterministisch bestimmt wird. In Kapitel 5 wird ein Maximum-Likelihood Ansatz beschrieben, der es ermöglicht, Me basierend auf systematisch angelegten Kreuzvalidierungsexperimenten empirisch zu bestimmen. Darauf aufbauend wurden verschiedene deterministische Funktionen zur Vorhersage der Genauigkeit verglichen und so modifiziert, dass sie am besten zu den vorhandenen Datensätzen passten. Mit 5‘698 Holstein Friesian-Bullen, die mit dem 50K Chip typisiert waren, und 1‘333 Braunvieh-Bullen, die mit dem 50K Chip typisiert und auf 777K SNPs imputet waren, wurden mit GBLUP verschiedene k-fache Kreuzvalidierungen (k=2, 3, …, 10, 15, 20) durchgeführt. So konnte eine genomische Zuchtwertschätzung bei unterschiedlichen Größen der Trainingsstichprobe nachgebildet werden. Weiterhin wurden alle Szenarien mit verschiedenen Subsets der vorhandenen SNPs (10‘000, 20‘000, 30‘000, 42‘551 SNPs für Holstein Friesian, und jeder, jeder zweite, jeder 4., … jeder 256. SNP für Braunvieh) durchgeführt, um den Einfluss der Markerdichte erfassen zu können. Der Maximum-Likelihood Ansatz wurde angewendet, um Me für die beiden vorhandenen Datensätze bestmöglich zu schätzen. Die höchste Likelihood wurde erreicht, wenn eine modifizierte Form der deterministischen Formel von Daetwyler et al. (2010, Genetics 185:1021-1031) für die Modellierung der erwarteten Genauigkeit die Grundlage bildete. Die wahrscheinlichsten Werte für Me, wenn alle vorhandenen Marker genutzt wurden, waren 1‘241 (412) und 1‘046 (197) für die Merkmale Zellzahl und Milchmenge für Holstein Friesian (Braunvieh). Die Werte für Me für Braunvieh und Holstein Friesian unterschieden sich deutlich, während Ne für beide Populationen (berechnet auf Basis des Pedigrees oder über die Struktur des Kopplungsungleichgewichts) sehr ähnlich war. Die Schätzungen für Me variierten zwischen verschiedenen Merkmalen innerhalb von Populationen und über Populationen mit ähnlichen Populationsstrukturen hinweg. Dies zeigt, dass Me wahrscheinlich kein Parameter ist, der sich nur aus Ne und der Länge des Genoms berechnen lässt. Die Modifizierung der Formel von Daetwyler et al. (2010) bestand darin, einen Gewichtungsfaktor hinzuzufügen, der berücksichtigt, dass die maximale Genauigkeit bei gegebener Markerdichte auch mit unendlich großer Trainingsstichprobe nicht 1 sein muss. Dies basiert auf der Annahme, dass die vorhandenen SNPs nicht die ganze genetische Varianz wiedergeben können. Auch dieser Gewichtungsfaktor wurde empirisch bestimmt. Die quadrierten Werte, d.h. der Prozentsatz der genetischen Varianz, die erklärt wird, lagen zwischen 76% und 82% für 10‘000 bis 42‘551 SNPs bei Holstein Friesian und zwischen 63% und 75% für 2‘451 bis 627‘306 SNPs bei Braunvieh. Zwischen dem natürlichen Logarithmus der Markerdichte und dem Gewichtungsfaktor bestand ein linearer Zusammenhang bis zu einer populationsspezifischen Grenze hinsichtlich der Markerdichte (~ 20‘000 SNPs bei Braunvieh). Oberhalb dieser Grenze fand sich ein Plateau, was bedeutet, dass das Hinzufügen von weiteren Markern den Anteil der genetischen Varianz, der erklärt wird, nicht mehr verändert.
|
8 |
Genomic basis of growth traits and host resistance against sea lice (L. Salmonis) in Atlantic salmon (S. Salar)Tsai, Hsin Yuan January 2017 (has links)
Background Atlantic salmon (Salmo Salar) is a key aquaculture species in several countries. Since its critical role in economic sector and scientific research, this species has been relatively extensively investigated, in comparison with other farmed and wild aquatic species. However, the genetic components associated with growth and fillet-related traits are lack consistency, and the issue of sea louse disease in both wild and famed salmon is still unsolved. Objectives Overall aim of this project was to understand the genetic basis of growth-related traits and host resistance to sea lice using three large commercial farmed salmon populations. Specifically, the method of quantitative trait loci (QTL) mapping, genome-wide association study (GWAS), and genomic prediction (GS) were utilized to dissect the genetic architectures associated with traits of interest in our experimental populations. Prior to this, linkage mapping was performed to construct a high-density linkage map for Atlantic salmon. Results Linkage map A linkage map was firstly constructed underlying a SNP array containing 132 K validated SNPs. 96,396 SNPs were successfully assigned to 29 chromosomes that correspond to the linkage group number of European Atlantic salmon. 6.5 % of unassigned contigs, which was equal to 1 % of recent whole genome reference assembly (GCA_000233375.4) anchored to exist chromosomes by referring to linkage mapping result. Genetic components associated with growth traits Heritabilities of growth-related traits were about 0.5 to 0.6 in adult and juvenile farmed salmon. The QTL mapping and GWAS suggested the growth-related traits are likely a polygenic genetic architecture with no major QTL segregating. The prediction accuracy estimated by genomic prediction showed that approximately 5,000 SNP markers could achieve the highest accuracy in body weight and length in juvenile salmon within population. Genetic components associated with lice resistance The heritability of lice resistance was 0.22 to 0.33 using pedigree and genetic relationship matrices respectively. GWAS indicated that the host resistance to sea lice was likely polygenic with no individual SNP surpassed the genome-wide significance threshold. Genomic prediction showed that about 5 to 10 K SNPs was able to achieve the asymptote of accuracy in closely related animals, while the greatest advantage of genomic prediction was observed in non-sibling test within population. Conclusions As the growth-related traits and lice resistance are both likely polygenic and population-specific, the genomic prediction is an efficient approach to capture the genetic variances of the traits in selection candidates in experimental population, especially for traits with low heritability such as flesh colour and lice resistance. Family-based selection method is the better choice than mass selection to accumulate the genetic effects in corresponding SNP platform. Given the high cost of genotyping and field data collection, the genotyping-by-sequencing and genotype imputation are likely the way to make significant improvements in relevant research.
|
9 |
Genomic approaches for mapping and predicting disease resistance in wheat (Triticum aestivum L.)Lemes Da Silva, Cristiano January 1900 (has links)
Doctor of Philosophy / Genetics Interdepartmental Program / Allan K. Fritz / Wheat diseases cause significant economic losses every year. To ensure global food security, newly released cultivars must possess increased levels of broadly-effective resistance against wheat pathogens, acceptable end-use quality, and high yield potential. Genetic host resistance stands out from other management strategies as the most viable option for controlling diseases. New genotyping platforms allow whole genome marker discovery at a relatively low cost, favoring the identification of novel loci underlying traits of interest. The work presented here describes genomic approaches for mapping and predicting the resistance to Fusarium head blight (FHB) and wheat rusts.
The first study used biparental mapping to identify quantitative trait loci (QTL) associated with Fusarium head blight (FHB) resistance. A doubled haploid population (DH) was originated from a cross of Everest and WB-Cedar, which are widely grown wheat cultivars in Kansas with moderately resistant and moderately susceptible reactions to FHB, respectively. We confirmed that neither of the parents carry known large-effect QTLs, suggesting that FHB resistance is native. Eight small-effect QTLs were identified as associated with multiple mechanisms of FHB resistance. All QTLs had additive effects, providing significant improvements in levels of resistance when they were found in combinations within DH lines.
In the second study, a genome-wide association mapping (GWAS) and genomic selection (GS) models were applied for FHB resistance in a panel of 962 elite lines from the K-State Wheat Breeding Program. Significant single nucleotide polymorphisms (SNPs) associated with the percentage of symptomatic spikelets were identified but not reproducible across breeding panels tested in each year. Accuracy of predictions ranged from 0.25 to 0.51 depending on GS model, indicating that it can be a useful tool to increase levels of FHB resistance.
GWAS and GS approaches were also applied to a historical dataset to identify loci underlying resistance to leaf and stem rust at seedling stage in a panel of elite winter wheat lines. Infection types of multiple races of wheat rusts from the last sixteen years of the Southern Regional Performance Nursery (SRPN) were used in this study. A total of 533 elite lines originating from several breeding programs were tested in the SRPN during this period of time. GWAS identified significant SNP-trait associations for wheat rusts, confirming the effectiveness of already known genes and revealing potentially novel loci associated with resistance.
|
10 |
Studies on genomic prediction for carcass traits in Japanese Black cattle / 黒毛和種の枝肉形質を対象としたゲノミック予測に関する研究Ogawa, Shinichiro 23 March 2017 (has links)
京都大学 / 0048 / 新制・課程博士 / 博士(農学) / 甲第20427号 / 農博第2212号 / 新制||農||1048(附属図書館) / 学位論文||H29||N5048(農学部図書室) / 京都大学大学院農学研究科応用生物科学専攻 / (主査)准教授 谷口 幸雄, 教授 今井 裕, 教授 廣岡 博之 / 学位規則第4条第1項該当 / Doctor of Agricultural Science / Kyoto University / DFAM
|
Page generated in 0.116 seconds