Return to search

Building a genomic variant based prediction model for lung cancer toxicity / Konstruktion av en genvartiants-baserad prediktionsmodell för lungcancertoxicitet

Since the completion of the the Human genome project in 2003, the evident complexity of our genome and its regulation has only grown. The idea that having sequenced the human genome would solve this mystery was quickly discarded. With the decreasing costs of DNA sequencing, a plethora of new methods have evolved to further understand the role of non-coding regions of our genome, which makes up 98% its length. Genetic variations in these regions are therefore abundant in the human population, but their e ects are hard to characterize. Many non-coding variants have been linked to complex diseases such as cancer predisposition. This thesis aims to investigate the potential e ects of non-coding variants on drug toxicity, that is, how severe the adverse e ects of a drug are to the treated patients. More specifically it will study the effects of two cancer drugs, Gemcitabine and Carboplatin, on a set of 96 patients with lung cancer. To do this we use spatial data acquired by the promoter-targeting method HiCap as well as expression data obtained from blood cell lines. Using the variants obtained through whole genome sequencing of the patients, a supervised learning approach was attempted to predict the final toxicity experienced by the patients. The large number of variants present among the comparably few patients resulted in poor accuracy. The conclusion was drawn that the resolution of HiCap is too low compared to the density of variants in the non-coding regions. Additional data, such as transcription factor Chip-Seq data, and transcription factor motifs are needed to locate potentially contributing variants within the interactions. / Sedan den första sekvenseringen av det mänskliga genomet 2003 har vår bild av vårt genom och hur det regleras bara blivit mer komplex. Iden om att ha tillgång till ett helt genom skulle losa detta mysterium förkastades snabbt. Med de sjunkande kostnaderna for sekvensering har ett brett utbud av nya metoder utvecklats for att bättre förstå de icke-kodande regionernas roll i v art genom. Då dessa regioner utgör98% av vårt DNA ar innehåller de stor variation bland det mänskliga släktet, men att förutsaga deras effekt är mycket svårt. Många icke-kodande variationer har kopplats till komplexa sjukdomar så som ökad risk för cancer.Denna uppsats syftar till att undersoka de potentiella effekterna av icke-kodande varianter på hur allvarliga biverkningar en patient får av en cancerbehandling. Närmare undersöks två mediciners, Gemcitabins och Carboplatins effekt på 96 lungcancerpatienter. För detta används spatial data samt genuttrycksdata från blodcellinjer.Med utgångspunkt från genetiska varianter bland patienternas sekvenserade genom testades övervakad inlärning för att förutsäga graden av biverkningar hos patienterna. Den stora mängden varianter som bärs av de förhållandevis få patienterna resulterade i låg träffsäkerhet hos prediktorn. Slutsatsen drogs att upplösningen av HiCap är för låg i jämförelse med den höga densiteten av varianter i icke-kodanderegioner. Mer data, så som Chip-Seq data från transkriptionsfaktorer samt deras specifika bindningsekvenser behövs för att lokalisera varianter inom en interaktion, som potentiellt skulle kunna påverka biverkningarna.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-297411
Date January 2021
CreatorsJanvid, Vincent
PublisherKTH, Tillämpad fysik
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageEnglish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-SCI-GRU ; 2021:047

Page generated in 0.0014 seconds