The use of machine learning within the field of metagenomic classification is becoming more relevant since the increasing sequencing speed demands faster and more accurate classification algorithms. This thesis explores the possible application of machine learning methods, used individually and in an ensemble solution, for binary classification of short DNA sequences. The models Convolutional Neural Network, Recurrent Neural Network, Support Vector Machine, Random Forest, Gradient Boosting and K-Nearest Neighbour are trained to distinguish viruses and SARS-CoV-2 from other organisms. The models are evaluated on generated data, as well as real samples. The outcome of this thesis show that machine learning methods have satisfying results when classifying short DNA sequences, in terms of both accuracy and speed. The best overall accuracies are obtained using ensemble solutions consisting of several machine learning models. / Användningen av maskininlärning inom metagenomisk klassificering är ett område som blir mer och mer relevant på grund av att den ökade sekvenseringshastigheten ställer större krav på snabbare och precisare klassificeringsalgoritmer. Detta examensarbete utforskar möjligheten av att använda maskininlärningmodeller, både individuellt och kombinerat, för binär klassificering av av korta DNA sekvenser. Modellerna Convolutional Neural Network, Recurrent Neural Network, Support Vector Machine, Random Forest, Gradient Boosting and K-Nearest Neighbour är tränade till att kunna skilja på virus och SARS-CoV-2 från andra organismer. Modellerna är utvärderade på genererad, samt verklig data. Slutsatsen av detta examensarbete visar att maskininlärningsmetoder har ett tillfredsställande resultat vid klassificeringen av korta DNA sekvenser, både i träffsäkerhet och tidsomfång. De bästa träffsäkerheterna kommer från kombinerade lösningar bestående av flera maskininlärningsmodeller.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:umu-172008 |
Date | January 2020 |
Creators | Granholm, Nicolai, Tjärnström, Eric |
Publisher | Umeå universitet, Institutionen för matematik och matematisk statistik, Umeå universitet, Institutionen för matematik och matematisk statistik |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0016 seconds