Return to search

Metagenomic Classification using Machine Learning : Applied to SARS-CoV-2 and Viruses

The use of machine learning within the field of metagenomic classification is becoming more relevant since the increasing sequencing speed demands faster and more accurate classification algorithms. This thesis explores the possible application of machine learning methods, used individually and in an ensemble solution, for binary classification of short DNA sequences. The models Convolutional Neural Network, Recurrent Neural Network, Support Vector Machine, Random Forest, Gradient Boosting and K-Nearest Neighbour are trained to distinguish viruses and SARS-CoV-2 from other organisms. The models are evaluated on generated data, as well as real samples. The outcome of this thesis show that machine learning methods have satisfying results when classifying short DNA sequences, in terms of both accuracy and speed. The best overall accuracies are obtained using ensemble solutions consisting of several machine learning models. / Användningen av maskininlärning inom metagenomisk klassificering är ett område som blir mer och mer relevant på grund av att den ökade sekvenseringshastigheten ställer större krav på snabbare och precisare klassificeringsalgoritmer. Detta examensarbete utforskar möjligheten av att använda maskininlärningmodeller, både individuellt och kombinerat, för binär klassificering av av korta DNA sekvenser. Modellerna Convolutional Neural Network, Recurrent Neural Network, Support Vector Machine, Random Forest, Gradient Boosting and K-Nearest Neighbour är tränade till att kunna skilja på virus och SARS-CoV-2 från andra organismer. Modellerna är utvärderade på genererad, samt verklig data. Slutsatsen av detta examensarbete visar att maskininlärningsmetoder har ett tillfredsställande resultat vid klassificeringen av korta DNA sekvenser, både i träffsäkerhet och tidsomfång. De bästa träffsäkerheterna kommer från kombinerade lösningar bestående av flera maskininlärningsmodeller.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:umu-172008
Date January 2020
CreatorsGranholm, Nicolai, Tjärnström, Eric
PublisherUmeå universitet, Institutionen för matematik och matematisk statistik, Umeå universitet, Institutionen för matematik och matematisk statistik
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0016 seconds