Nanopore sequencing, a recently developed methodfor DNA sequencing, involves applying a constant electricfield over a membrane and translocating single-stranded DNAmolecules through membrane pores. This results in an electricalsignal, which is dependent on the structure of the DNA. The aimof this project is to train and evaluate a non-causal temporalconvolution neural network in order to accurately translate suchelectrical raw signal into the corresponding nucleotide sequence.The training dataset is sampled from the E. coli bacterial genomeand the phage Lambda virus. We implemented and evaluatedseveral different temporal convolutional architectures. Using anetwork with five residual blocks with five convolutional layersin each block yields maximum performance, with a predictionaccuracy of 76.1% on unseen test data. This result indicates thata temporal convolution network could be an effective way tosequence DNA data. / Nanopore sequencing är en nyligen utvecklad metod för DNA-sekvensering som innebär att man applicerar ett konstant elektriskt fält över ett membran och translokerar enkelsträngade DNA-molekyler genom membranporer. Detta resulterar i en elektrisk signal som beror på DNA-strukturen. Målet med detta projekt är att träna och evaluera icke-kausula ”temporal convolutional networks” som ska kunna översätta denna ofiltrerade elektriska signalen till den motsvarande nukleotidsekvensen. Träningsdatan är ett urval av genomen från bakterien E. coli och viruset phage Lambda. Vi implementerade och utvärderade ett antal olika nätverksstrukturer. Ett nätverk med fem residuala block med fem faltande lager i varje block gav maximal prestation, med en precision på 76.1% på testdata. Detta resultat indikerar att ett ”temporal convolution network” skulle kunna vara ett effektivt sätt att sekvensera DNA. / Kandidatexjobb i elektroteknik 2020, KTH, Stockholm
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-295624 |
Date | January 2020 |
Creators | Stymne, Jakob, Welin Odeback, Oliver |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2020:162 |
Page generated in 0.0015 seconds