Return to search

Application of Machine Learning on a Genome-Wide Association Studies Dataset / Applicering av maskininlärning på ett genome-wide association study dataset

The number of individuals affected by type 2 diabetes is rapidly increasing. The goal of this thesis is to investigate if type 2 diabetes can be predicted more accurately from genome-wide association data using machine learning methods opposed to traditional statistical methods. A variable selection process using random forest has been performed and the variables in the genome, called Single Nucleotide Polymorphisms (SNPs), showing the highest importance for the prediction of type 2 diabetes have been identified. It has then been considered if including these SNPs in the models over only using clinical variables or previously univariately identified SNPs will improve the performance. Furthermore, the possible improvement by using random forest over logistic regression has been considered. The analysis has resulted in identifying genes through the SNPs that are related to biological functions related to type 2 diabetes. This includes genes which have not been directly associated with the disease. These are interesting for future study. However, the results show little to no improvement in prediction performance over models using only clinical variables suggesting that the signal for type 2 diabetes in the genome-wide association dataset is weak. Similarly, there is no improvement from using random forest over logistic regression for the final models suggesting that the linear signal in the genome data is much stronger than any non-linear signal. / Antalet individer som lider av typ 2 diabetes ökar hastigt. Målet med denna uppsats är att undersöka huruvida förekomsten av typ 2 diabetes kan förutspås mer noggrant ur genome-wide association data med hjälp av maskininlärning jämfört med traditionella statistiska metoder. En variabel urvalsprocess med random forest har utförts, där variablerna i genomet, enbaspolymorfierna (SNPs), med störst betydelse för förutsägelsen av typ 2 diabetes identifierades. Det har undersökts om inkludering av dessa SNPs i modellerna jämfört med att enbart använda kliniska variabler eller tidigare identifierade SNPs förbättrar förutsägelsen. Vidare har den potentiella förbättringen av förutsägelsen genom användning av random forest jämfört med logistisk regression undersökts. Analysen av SNPs har resulterat i identifiering av gener som är relaterade till biologiska funktioner kopplade till typ 2 diabetes. Detta inkluderar gener som inte direkt har förknippats med sjukdomen tidigare, varför de är intressanta för fortsatta studier. Resultaten visar dock liten till ingen förbättring i förmåga att förutspåtyp 2 diabetes med hjälp av den använda metoden, jämfört med att enbart använda kliniska variabler vilket kan innebära att signalen för typ 2 diabetes i genome-wide association dataset är svag. På samma sätt kan ingen förbättring observeras vid användning av random forest jämfört med logistisk regression i de färdiga modellerna vilket kan innebära att signalen i datat är mycket starkare än någon ickelinjär signal.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-171990
Date January 2015
CreatorsNielsen, Agnes Martine
PublisherKTH, Numerisk analys, NA
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-MAT-E ; 2015:52

Page generated in 0.0013 seconds