Spelling suggestions: "subject:"genomische zuchtwertschätzung"" "subject:"genomische zuchtwertschätzungen""
1 |
Accuracy of Genomic Prediction in Dairy CattleErbe, Malena 16 May 2013 (has links)
Die genomische Zuchtwertschätzung ist vor allem im Bereich der Milchrinderzucht in den letzten Jahren zu einer beliebten Methode geworden, um sichere Zuchtwerte von Tieren ohne phänotypische Information zu erhalten. Das Ziel dieser Arbeit war es, verschiedene Einflussfaktoren auf die Genauigkeit der genomischen Zuchtwertschätzung in realen Rinderdatensätzen genauer zu untersuchen.
In Kapitel 2 findet sich eine grundlegende Arbeit zur Kreuzvalidierung, in der die Eigenschaften verschiedener Kreuzvalidierungsstrategien in realen Datensätzen untersucht wurden. Kreuzvalidierung bedeutet, dass die verfügbaren Daten in eine Trainings- und eine Validierungsstichprobe aufgeteilt werden, wobei für die Individuen in der Validierungsstichprobe alle Beobachtungswerte als nicht vorhanden angenommen werden. Die Werte der Individuen in der Validierungsstichprobe werden dann mit einem Modell, das mit Hilfe der Beobachtungswerte der Individuen in der Trainingsstichprobe angepasst wird, vorhergesagt. Im Kontext der genomischen Zuchtwertschätzung werden Kreuzvalidierungsstrategien benutzt, um die Genauigkeit der genomischen Zuchtwertschätzung mit einer bestimmten Trainingspopulation abzubilden. Die Korrelation zwischen maskierten und vorhergesagten Werten der Tiere in der Validierungsstichprobe spiegelt die Genauigkeit der genomischen Zuchtwertschätzung wider. Die Art und Weise, wie der Datensatz in Trainings- und Validierungsstichprobe unterteilt wird, kann die Ergebnisse einer Kreuzvalidierung beeinflussen. Das Ziel dieser Studie war es deshalb, optimale Strategien für unterschiedliche Zwecke – Beschreibung der Genauigkeit der genomischen Vorhersage für mögliche Selektionskandidaten mit dem vorhandenen Datensatz oder Vergleich von zwei Methoden zur Vorhersage – zu finden. Ein Datensatz von etwa 2‘300 Holstein Friesian-Bullen, die mit dem Illumina BovineSNP50 BeadChip (im Folgenden 50K Chip genannt) typisiert waren, wurde unterschiedlich aufgeteilt, so dass sich zwischen 800 bis 2‘200 Tiere in der Trainingsstichprobe und die jeweils restlichen Tiere in der Validierungsstichprobe befanden. Zwei BLUP-Modelle, eines mit einem zufälligen genomischen Effekt und eines mit einem zufälligen polygenen und einem zufälligen genomischen Effekt, wurden zur Vorhersage verwendet. Die höchste Genauigkeit der Vorhersage konnte mit der größten Trainingsstichprobe erreicht werden. Eine große Trainingsstichprobe bei gegebenem limitierten Datenmaterial impliziert aber auch, dass gleichzeitig die Validierungsstichproben klein und damit die Standardfehler der beobachteten Genauigkeiten sehr hoch sind. Falls es das Ziel einer Studie ist, signifikante Unterschiede zwischen Modellen nachzuweisen, ist es besser größere Validierungsstichproben zu verwenden. Eine fünffache Kreuzvalidierung scheint in vielen Fällen ein guter Kompromiss zu sein.
Die Verwandtschaftsstruktur zwischen den Tieren in der Trainings- und der Validierungsstichprobe hat einen großen Effekt auf die Genauigkeit der genomischen Zuchtwertschätzung. Momentan sind noch genügend nachkommengeprüfte Bullen in den Trainingsstichproben vorhanden, mit denen die Tiere in der Validierungsstichprobe hoch verwandt sind. Wenn die genomische Selektion konsequent angewendet wird, ist es möglich, dass solche Individuen für die Trainingsstichprobe knapper werden. Deshalb enthält Kapitel 3 eine Studie, die untersucht, wie sich die Verwandtschafts- und Altersstruktur auf die Genauigkeit der genomischen Zuchtwerte von jungen Bullen auswirkt. Ein Datensatz mit 5‘698 Bullen der Rasse Holstein Friesian, die alle mit dem 50K Chip typisiert wurden und zwischen 1981 und 2005 geboren wurden, war die Basis dieser Arbeit. In allen Szenarien wurden die 500 jüngsten Bullen dieses Datensatzes als Validierungsstichprobe verwendet. Verschiedene Trainingsstichproben mit je 1‘500 Individuen wurden ausgewählt, um die genomischen Zuchtwerte der jungen Tiere (Selektionskandidaten) vorherzusagen: eine zufällige Auswahl an Bullen, die ältesten und jüngsten verfügbaren Tiere, Tiere mit Verwandtschaftskoeffizienten kleiner 0.25 oder 0.5 zu allen Selektionskandidaten, oder Tiere, die am stärksten mit den Selektionskandidaten verwandt waren. Verglichen mit dem Szenario mit der zufälligen Auswahl führte eine Verringerung der Verwandtschaft zu einer sichtbaren Abnahme der Genauigkeit der genomischen Vorhersage. Die Genauigkeit für die Szenarien mit den hoch verwandten Tieren bzw. den jüngsten Tieren in der Trainingsstichprobe war hingegen höher. Für die praktische Anwendung bedeutet dies, dass in stark verwandten Gruppen wie Elitebullen der Rasse Holstein Friesian keine weiteren Probleme für die Vorhersage junger Tiere zu erwarten sind, solange Väter, Voll- und Halbgeschwister in der Trainingsstichprobe vorhanden sind. Neue nachkommengeprüfte Bullen sollten deshalb kontinuierlich zur Trainingsstichprobe hinzugefügt werden – sonst wird eine klare Abnahme der Genauigkeit schon nach ein oder zwei Generationen zu sehen sein.
Kapitel 4 beschäftigt sich mit zwei weiteren Faktoren, die die Genauigkeit der genomischen Vorhersage beeinflussen können: Markerdichte und Methodenwahl. Bis jetzt wurden normalerweise 50K SNPs für die genomische Zuchtwertschätzung verwendet, aber seit Kurzem ist auch ein neues hochdichtes SNP-Array mit 777K SNPs verfügbar. Dies lässt die Frage aufkommen, ob die höhere Markerdichte zu einem Anstieg in der Genauigkeit führen kann. Je mehr Marker verfügbar sind, umso größer wird auch die Notwendigkeit, Methoden zu entwickeln, die einen Teil der Marker als nicht informativ (d.h. ohne Effekt auf das untersuchte Merkmal) zulassen. Deshalb wurde eine neue und effiziente Bayes’sche Methode (BayesR) entwickelt, die annimmt, dass die SNP Effekte aus einer Reihe von Normalverteilungen stammen, die unterschiedliche Varianzen haben. Die Anzahl der SNPs pro Verteilung wird nicht festgesetzt, sondern mit Hilfe einer Dirichlet-Verteilung modelliert. In Kapitel 4 wird außerdem auf die Frage eingegangen, wie sich die Genauigkeit der Vorhersage im Fall von Trainingsstichproben mit mehreren Rassen bei unterschiedlicher Markerdichte verhält. Bei Milchrinderrassen sind große Trainingsstichproben erforderlich, um robuste Schätzer der SNP-Effekte zu erhalten, aber gerade bei kleinen Rassen kann es schwierig sein, solch große Trainingsstichproben aufzubauen. Trainingsstichproben, die Tiere mehrerer Rassen enthalten, können deshalb eine Möglichkeit sein, dieses Problem zu umgehen. Mit 50K SNPs war der Erfolg solcher Mehrrassen-Trainingsstichproben gering, was darauf zurückgeführt wurde, dass die Haplotypenstruktur über die Rassen hinweg bei dieser Markerdichte nicht konsistent war. Der hochdichte SNP-Chip könnte hier allerdings Verbesserungen für die Vorhersage über Rassen hinweg bringen. Die Veränderungen in der Genauigkeit der genomischen Zuchtwertschätzung innerhalb einer Rasse und über Rassen hinweg wurden mit Daten von australischen Bullen der Rassen Holstein Friesian und Jersey, die mit dem 50K Chip typisiert und auf 777K SNPs imputet waren, und zwei verschiedenen Methoden (GBLUP, BayesR) untersucht. Die Verwendung von imputeten hochdichten Markern führte zu keinem signifikanten Anstieg der Genauigkeit innerhalb einer Rasse und nur zu einer geringen Verbesserung der Genauigkeit in der kleineren Rasse im Mehrrassen-Szenario. BayesR lieferte gleichwertige oder in vielen Fällen höhere Genauigkeiten als GBLUP. Eine Eigenschaft von BayesR ist außerdem, dass es möglich ist, aus den Ergebnissen Erkenntnisse zur genetischen Architektur des Merkmals zu erhalten, z.B. indem man die durchschnittliche Anzahl an SNPs in den verschiedenen Verteilungen betrachtet.
Die Genauigkeit der genomischen Zuchtwertschätzung kann mit verschiedenen Validierungsprozeduren berechnet werden, sobald reale Daten vorhanden sind. In manchen Situationen kann es jedoch von Vorteil sein, wenn man die erwartete Genauigkeit der Vorhersage im Vorfeld einer Studie abschätzen kann, z.B. um zu wissen, welche Größe die Trainingsstichprobe haben sollte oder wie hoch die Markerdichte sein sollten, um eine bestimmte Genauigkeit zu erreichen. Verschiedene deterministische Formeln zur Abschätzung der erreichbaren Genauigkeit sind in der Literatur verfügbar, die alle auf den mehr oder weniger gleichen Parametern beruhen. Einer dieser Parameter ist die Anzahl unabhängig segregierender Chromosomensegmente (Me), die normalerweise mit Hilfe von theoretischen Werten wie der effektiven Populationsgröße (Ne) deterministisch bestimmt wird. In Kapitel 5 wird ein Maximum-Likelihood Ansatz beschrieben, der es ermöglicht, Me basierend auf systematisch angelegten Kreuzvalidierungsexperimenten empirisch zu bestimmen. Darauf aufbauend wurden verschiedene deterministische Funktionen zur Vorhersage der Genauigkeit verglichen und so modifiziert, dass sie am besten zu den vorhandenen Datensätzen passten. Mit 5‘698 Holstein Friesian-Bullen, die mit dem 50K Chip typisiert waren, und 1‘333 Braunvieh-Bullen, die mit dem 50K Chip typisiert und auf 777K SNPs imputet waren, wurden mit GBLUP verschiedene k-fache Kreuzvalidierungen (k=2, 3, …, 10, 15, 20) durchgeführt. So konnte eine genomische Zuchtwertschätzung bei unterschiedlichen Größen der Trainingsstichprobe nachgebildet werden. Weiterhin wurden alle Szenarien mit verschiedenen Subsets der vorhandenen SNPs (10‘000, 20‘000, 30‘000, 42‘551 SNPs für Holstein Friesian, und jeder, jeder zweite, jeder 4., … jeder 256. SNP für Braunvieh) durchgeführt, um den Einfluss der Markerdichte erfassen zu können. Der Maximum-Likelihood Ansatz wurde angewendet, um Me für die beiden vorhandenen Datensätze bestmöglich zu schätzen. Die höchste Likelihood wurde erreicht, wenn eine modifizierte Form der deterministischen Formel von Daetwyler et al. (2010, Genetics 185:1021-1031) für die Modellierung der erwarteten Genauigkeit die Grundlage bildete. Die wahrscheinlichsten Werte für Me, wenn alle vorhandenen Marker genutzt wurden, waren 1‘241 (412) und 1‘046 (197) für die Merkmale Zellzahl und Milchmenge für Holstein Friesian (Braunvieh). Die Werte für Me für Braunvieh und Holstein Friesian unterschieden sich deutlich, während Ne für beide Populationen (berechnet auf Basis des Pedigrees oder über die Struktur des Kopplungsungleichgewichts) sehr ähnlich war. Die Schätzungen für Me variierten zwischen verschiedenen Merkmalen innerhalb von Populationen und über Populationen mit ähnlichen Populationsstrukturen hinweg. Dies zeigt, dass Me wahrscheinlich kein Parameter ist, der sich nur aus Ne und der Länge des Genoms berechnen lässt. Die Modifizierung der Formel von Daetwyler et al. (2010) bestand darin, einen Gewichtungsfaktor hinzuzufügen, der berücksichtigt, dass die maximale Genauigkeit bei gegebener Markerdichte auch mit unendlich großer Trainingsstichprobe nicht 1 sein muss. Dies basiert auf der Annahme, dass die vorhandenen SNPs nicht die ganze genetische Varianz wiedergeben können. Auch dieser Gewichtungsfaktor wurde empirisch bestimmt. Die quadrierten Werte, d.h. der Prozentsatz der genetischen Varianz, die erklärt wird, lagen zwischen 76% und 82% für 10‘000 bis 42‘551 SNPs bei Holstein Friesian und zwischen 63% und 75% für 2‘451 bis 627‘306 SNPs bei Braunvieh. Zwischen dem natürlichen Logarithmus der Markerdichte und dem Gewichtungsfaktor bestand ein linearer Zusammenhang bis zu einer populationsspezifischen Grenze hinsichtlich der Markerdichte (~ 20‘000 SNPs bei Braunvieh). Oberhalb dieser Grenze fand sich ein Plateau, was bedeutet, dass das Hinzufügen von weiteren Markern den Anteil der genetischen Varianz, der erklärt wird, nicht mehr verändert.
|
2 |
Untersuchungen zur Genauigkeit einer genomgestützten Zuchtwertschätzung / Analysis of the reliability of a genomic breeding estimationAgena, Dörthe 20 January 2009 (has links)
No description available.
|
Page generated in 0.3882 seconds