Return to search

Analysing Non-Desired Output Data from High Throughput Sequencers for the Identification of the Source of Contamination / Analys av oönskade utdata från högkapacitetssekvenserare för identifikation av kontamineringskällor

High-throughput Sequencing (HTS)-tekniker fortsätter att utvecklas snabbt, vilket ökar genomströmningen och minskar sannolikheten för fel. MGI Tech Co., Ltd. (MGI) är ett ledande HTS-varumärke som använder DNBSEQ-teknologi och finns i Center for Translational Microbiome (CTMR). MGI:s sequencers har en hög känslighet och det är viktigt att följa protokollen när proverna hanteras för att undvika introduktion av kontaminering. Detta projekt kommer att utforska tidigare genererade data vid CTMR för att fastställa hur och var i sekvenseringsprocessen kontaminering har introducerats. Data delas in i två huvudkategorier: primärdata, eller verkliga data (RD), och sekundära data, vidare uppdelad i Never Used Barcodes (NUB) och Non-Sequenced (NS). RD:n är sann mot provet, medan NUB och NS anses vara hämtade från bakgrundsbrus. RD, NUB och NS var föremål för taxonomiska analyser, på släkt- och artnivå, och streckkodsanalyser med hjälp av RStudio-gränssnittet för att identifiera och kontrastera de vanligaste i varje kategori. Dessutom var RD också föremål för dekontamineringsanalys på två databaser, VaMyGyn och KOLBIBAKT. Dekontaminering används för att identifiera förorenande arter i ett samhälle. Efter analysen fanns det inga starka bevis som tydde på laboratoriekontamination eller kontaminerade reagenser. Några av dessa NUB delade subsekvenser med RD barcodes, där antal reads för varje par var korrelerade mellan prover. Det kan vara en indikation på att RD barcoded med sekvenseringsfel blir inkorrekt tolkade som NUB. En djupare analys skulle krävas för att bekräfta det.CTMR är numera medveten om att kontaminering från laboratoriet, reagenser eller manipulation inte är orsaken till hämtning av bakgrundsljud. / High-throughput sequencing (HTS) technologies keep developing rapidly, increasing throughput and lowering probabilities of errors. MGI Tech Co., Ltd. (MGI) is a leading HTS brand that uses DNBSEQ technology and is present in the Centre for Translational Microbiome (CTMR). MGI’s sequencers have a high sensitivity and it is critical to follow the protocols when the samples are being handled to avoid introduction of contamination. This project will explore the previously generated data at CTMR to determine how and where in the sequencing process contamination has been introduced. Data is divided into two main categories: the primary data, or real data (RD), and secondary data, further divided into Never Used Barcodes (NUB) and Non-Sequenced (NS). The RD is true to the sample, while NUB and NS are considered background noise retrieved. The RD, NUB, and NS were subject to taxonomic analyses, at genus and species level, and barcode analyses using the RStudio interface to identify and contrast the most frequent in each category. Moreover, RD was also subject to decontam analysis on two databases, VaMyGyn and KOLBIBAKT. Decontam is used for the identification of contaminant species in a community. After the analysis, there was no strong evidence suggesting lab contamination or contaminated reagents. Some of the barcodes from NUB shared substrings with RD barcodes for which the amount of reads were correlated across samples. This may indicate that RD barcodes with sequencing errors are falsely identified as NUB, however, more analyses are needed to verify this. CTMR is now aware that contamination from the lab, reagents, or manipulation are not the causes for the background noise retrieval.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-321578
Date January 2022
CreatorsMartinez Maldonado, Mayra Guadalupe
PublisherKTH, Proteinvetenskap
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageEnglish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-CBH-GRU ; 2022:310

Page generated in 0.0018 seconds