Nanopore sequencing is the next generation ofsequencing methods which promises to deliver cheaper andmore portable genome sequencing capabilities. A single DNAor RNA strand is passed through a nanopore nested in anartificial membrane with an electric potential applied across it.The nucleotide bases of the helix then interact with the ioniccurrent in the nanopore, resulting in a unique signal that canbe translated into the correct corresponding nucleotide sequence.This project investigated whether features of the raw signal datacould be used as predictive indicators of the duration time ofeach nucleotide base in the nanopore. This is done in orderto segment the signal before translation. The training data setused came from the sequenced DNA molecules of an E. Colibacterium. Distribution candidates were fitted to a histogram ofthe duration data of the training set. Features of the currentsignal and distribution parameters were correlated in orderinvestigate if a linear predictive model could be created. Theresults indicate that the feature zero-crossings is not an optimaloption for construction of a linear model, while the large jumpsand moving variance features often generate linear patterns. The parameter of the Log-logistic distribution had the best fit withthe lowest relative root mean square deviation (rRMSD) of 2.7%. / Nanopore sequencing är nästa generationensmetod för DNA sekvensering som kommer att bidra medbilligare och mer portabla sekvenseringsmöjligheter. Metodeninnebär att en enkelsträngad DNA eller RNA molekyl passerargenom porer i nanostorlek, placerade i ett artificiellt membransamtidigt som en elektrisk potential appliceras över membranet.Nukleotiderna i genmolekylen interagerar med jonströmmen iporen, vilket resulterar i en unik signal som kan översättas tillden korresponderande sekvensen av nukleotider som passerat.Detta projekt gick ut på att undersöka om egenskaper frånsignalen kan användas som predikativa indikatorer för varaktighetensom varje nukleotid befinner sig i membranporen. Dettaför att sedan kunna segmentera signalen före översättningen tillDNA sekvensen. Träningsdata som användes är sekvenserad DNAfrån en E. Coli bakterie. Kandiderande sannolikhetsfördelningaranpassades till ett histogram som beskriver varaktigheten.Egenskaperna och parametrar från fördelningarna korreleradesför att skapa en linjär modell. Resultatet visade att antaletskärningar i x-axeln som signalegenskap inte är det optimalavalet för konstruktion av en linjär modell. Skillnaden mellan två signalvärden som är mindre än en varierbar konstant ochglidande variansen som signalegenskaper genererar ofta linjäramönster. Resultatet visade även att sannolikhetsfördelningen Loglogistichade lägst relativ medelkvadratavvikelse (rRMSD) på 2.7%. / Kandidatexjobb i elektroteknik 2021, KTH, Stockholm
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-308459 |
Date | January 2021 |
Creators | Dzubur, Sabina, Sharif, Rim |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2021:187 |
Page generated in 0.0024 seconds