Return to search

Pre-analysis of Nanopore Data for DNA Base Calling

Nanopore sequencing is a relatively new DNA sequencing method which measures the current over a nanopore in a membrane as each nucleotide of the DNA passes through the nanopore. From the resulting current signal it is possible to determine the sequence of nucleotides in the DNA by using a base caller. The goal of this project was to create a machine learning model which could estimate the accuracy rate (identity score) of the sequenced DNA using the electric current signal and other data available through nanopore sequencing. The dataset that the machine learning models were trained on were samples from E. coli bacteria that had been sequenced through nanopore sequencing. In this project a linear regression model was created as well as several neural networks. The best performing model was a neural network which had a mean square error (MSE) of 6.12 ∙ 10-4, compared to a variance in the dataset of 2.11 ∙ 10-3. The low MSE indicates that the model can effectively predict identity scores. / Nanopore sequencing är en relativt ny DNA-sekvenseringsmetod som mäter strömmen över en nanoskopisk por i ett membran samtidigt som varje DNA-nukleotid passerar genom poren. Från den resulterande elektriska signalen så är det möjligt att bestämma sekvensen av nukleotider i DNA:t genom att använda en base caller. Målet med det här projektet var att skapa en maskininlärningsmodell som kunde bestämma graden av noggrannhet av det sekvenserade DNA:t genom att använda den elektriska strömsignalen och andra typer av data tillgängliga av Nanopore sequencing. Datamängden som maskininlärningsmodellerna använde för träning bestod av samples från en E. coli bakterie som sekvenserats med nanopore sequencing. I det här projektet har en linjär regressions-modell skapats samt flera olika neurala nätverk. Den bäst presterande modellen var ett neuralt nätverk, som hade ett minstakvadratfel (MSE) på 6.12 ∙ 10-4, jämfört med datamängdens varians på 2.11 ∙ 10-3. Det låga MSE-värdet visar på att modellen effektivt kan skatta noggrannhetsgraden av den avlästa DNA-sekvensen. / Kandidatexjobb i elektroteknik 2022, KTH, Stockholm

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-323735
Date January 2022
CreatorsJavadi, Milad, Luk Liu, Yun
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2022:178

Page generated in 0.0025 seconds