Return to search

Über Korrelationsstrukturen bei SNP-Assoziationsanalysen

Diese kumulative Dissertation umfaßt drei Publikationen, die im Folgenden kurz vorgestellt werden. Die erste Publikation befasst sich mit der Fragestellung aus der Populationsgenetik, ob Isolatpopulationen für die Erforschung genetischer Ursachen von Krankheiten oder quantitativen Phänotypen besser geeignet sind als nicht isolierte Populationen. Man erwartet aufgrund homogenerer Umwelteinflüsse, geringerer Anzahl kausaler genetischer Varianten und insbesondere durch homogenere Bereiche im Genom Vorteile bei der Identifikation genetischer Ursachen in Isolatpopulationen. Am Beispiel der Sorben, die einen gewissen Isolatcharakter aufweisen, sollte deshalb untersucht werden, inwieweit sich diese von einer deutschen populationsbasierten Studie wie KORA genetisch unterscheiden und welche Bedeutung die Unterschiede für genetische Assoziationsanalysen haben. In der ersten Publikation wird gezeigt, daß die Sorben Merkmale genetischer Isolation aufweisen, die nicht auf eine stärkere Verwandtschaftsstruktur der Studienpopulation gegenüber KORA zurückzuführen sind. Die Merkmale genetischer Isolation sind moderat, trotzdem ist der slawische Ursprung erkennbar. Daraus läßt sich schließen, daß die Sorben ursprünglich genetisch isoliert waren, jedoch die genetische Isolation verloren geht. Trotz Unterschiede in der SNP-Korrelationsstruktur durch ein im Mittel höheres Kopplungsungleichgewicht zwischen benachbarten SNPs ist kein klarer Vorteil bei der Power von SNP-Assoziationsanalysen zu erwarten. Die Verwandtschaftsstruktur der Sorben kann aber bei unkorrigierten SNP-Assoziationsanalysen zu einer Varianzinflation des Effektschätzers führen und die Power des Tests in komplexer Weise beeinflussen. Es sollte daher in einer weiteren Publikation geklärt werden, wie die Verwandtschaftsstruktur der Studienpopulation und die Heritabilität eines Phänotyps die Varianz des Effektschätzers und die Power des Tests tatsächlich beeinflussen.

In der zweiten Publikation wird der Einfluß der Verwandtschaftsstruktur auf SNP-Assoziationsanalysen im Detail untersucht. Verwandtschaften in einer Studienpopulation führen zu korrelierten Phänotypen, was die Annahme unabhängiger Beobachtungen des einfachen linearen Modells verletzt. Aus empirischen Studien war zudem bekannt, daß eine stärkere Verwandtschaftsstruktur der Studienpopulation und eine größere Heritabilität des Phänotyps den Fehler erster Art eines unkorrigierten Tests vergrößern. Der Einfluß der Verwandtschaftsstruktur auf die Power wurde in empirischen Studien unterschiedlich beurteilt. Zudem wird genomic control häufig dazu verwendet, eine Inflation der Teststatistik durch Verwandtschaft zu korrigieren, jedoch führt genomic control zu einer Power-Reduktion. Auch diese empirischen Beobachtungen sollten erklärt werden. In der zweiten Publikation wird analytisch gezeigt, wie die Verwandtschaftsstruktur und die Heritabilität des Phänotyps mit der Varianzinflation des Effektschätzers und der Teststatistik zusammenhängen. Während der Fehler erster Art mit größerer Varianzinflation steigt, wird die Power in komplexer Weise beeinflußt. Ob die Power bei Varianzinflation größer oder kleiner wird, hängt von der Stärke des genetischen Effekts und vom Signifikanzniveau des Tests ab. Zudem konnten weitere empirische Beobachtungen aus der Literatur analytisch erklärt werden, zum Beispiel daß der Erwartungswert des Effektschätzers nicht durch Verwandtschaft beeinflußt wird, die empirische Varianz des Effektschätzers bei Verwandtschaft deflationiert ist und daß die Allelfrequenz des SNP nur einen geringen Einfluß auf die Varianzinflation hat. Weiterhin kann genomic control im Allgemeinen nicht für die Korrektur von Varianzinflation durch Verwandtschaft empfohlen werden. Obwohl der Fehler erster Art durch genomic control eingehalten wird, führt die Methode zu einem starken Power-Verlust in Abhängigkeit der Varianzinflation. Zur Bestimmung der Varianzinflation wurde eine Näherungsformel analytisch hergeleitet, die nur die Verwandtschaftsstruktur und die Heritabilität des Phänotyps benötigt. Aus der Publikation folgt, daß eine Varianzinflation kleiner als 1,05 keinen relevanten Einfluß auf den statistischen Test hat und die Verwendung des einfachen linearen Modells in diesem Fall angemessen ist. Ist die Varianzinflation größer, müssen Methoden wie beispielsweise gemischte Modelle im Rahmen einer SNP-Assoziationsanalyse verwendet werden, welche explizit die Verwandtschaftsstruktur berücksichtigen.

In der dritten Publikation wird ein weiteres Paradigma der Statistik betrachtet. Eine SNP-Assoziationsanalyse kann neben klassischen Methoden auch mit bayesianischen Methoden erfolgen. Bayesianische Methoden bieten dabei die Möglichkeit, SNP- und Phänotyp-Korrelationen zu berücksichtigen und so die Modellanpassung gegenüber der klassischen Analyse zu verbessern. Am Beispiel einer Kinderstudie sollte nach dem Einfluß bestimmter SNPs ausgewählter Kandidaten-Gene (SORT1, HMGCR, MLXIPL, FADS2, APOE, MAFB) auf Lipidkonzentrationen von HDL-C (high density lipoprotein cholesterol), LDL-C (low density lipoprotein cholesterol), TC (total cholesterol) und TG (triglyceride) gesucht werden, um auf genetische Ursachen für Parameter des Stoffwechsels in der frühen Entwicklung schließen zu können. In der dritten Publikation wurde zunächst eine klassische SNP-Assoziationsanalyse durchgeführt und ein Zusammenhang von SORT1 und APOE mit LDL-C und TC identifiziert. Darauf wurde in einer bayesianischen Analyse der mehrdimensionale Phänotyp aus HDL-C, LDL-C und TG modelliert, wodurch explizit die Phänotyp-Korrelationsstruktur berücksichtigt wurde. Für die einzelnen Lipidkonzentrationen wurde eine plausible Auswahl von Einflussfaktoren bestehend aus genetischen Varianten, Alter, Geschlecht und BMI unter Berücksichtigung verschiedener genetischer Modelle bestimmt. Dadurch wurden sowohl die Ergebnisse aus der klassischen Analyse bestätigt, als auch weitere Kandidaten, beispielsweise ein Zusammenhang zwischen MLXIPL und TG, gefunden. Ein wichtiges Ergebnis dieser Arbeit war zudem die Präsentation der bayesianischen Modellergebnisse in einfacher Form.

Für die bayesianische Analyse wurden gegenüber der klassischen Analyse einige Vorteile festgestellt, die zukünftig weiter untersucht werden sollen. Dazu zählt die Berücksichtigung von Korrelationsstrukturen im bayesianischen Modell, die zu einer verbesserten Identifikation von Phänotyp-Genotyp-Beziehungen führen kann. Weiterhin lassen sich die bei der bayesianischen Modellauswahl identifizierten genetischen Effekte über alle Modelle mitteln, in denen die entsprechenden Variablen eingeschlossen wurden. Dadurch fallen die empirischen Varianzen der Effekte meist kleiner aus als die zugehörigen Varianzen der Beta-Schätzer aus der klassischen Analyse. Zuletzt werden bei der klassischen Analyse meist aufgrund einzelner Fehlwerte in Phänotypen, SNPs oder Kovariablen ganze Fälle verworfen, was zu einer erheblichen Fallzahlreduktion führen kann. Diese Fehlwerte können bei der bayesianischen Analyse als zusätzliche Parameter modelliert werden, wodurch die ursprüngliche Fallzahl erhalten bleibt. Diese Aspekte sollen zukünftig in Simulationsstudien untersucht werden, in denen der Einfluß von Korrelationsstrukturen, Effektstärken und Fehlwerten auf die Identifikation genetischer Effekte im Vergleich zur klassischen Analyse betrachtet wird.

Identiferoai:union.ndltd.org:DRESDEN/oai:qucosa:de:qucosa:33204
Date18 February 2019
CreatorsGroß, Arnd
ContributorsMüller-Myhsok, Bertram, Stadler, Peter F., Universität Leipzig
Source SetsHochschulschriftenserver (HSSS) der SLUB Dresden
LanguageGerman
Detected LanguageGerman
Typeinfo:eu-repo/semantics/publishedVersion, doc-type:doctoralThesis, info:eu-repo/semantics/doctoralThesis, doc-type:Text
Rightsinfo:eu-repo/semantics/openAccess
Relation10.1186/1471-2156-12-67, 10.1186/s12863-017-0571-x, 10.1371/journal.pone.0138064

Page generated in 0.003 seconds