Return to search

Detection of Sparse and Weak Effects in High-Dimensional Supervised Learning Problems, Applied to Human Microbiome Data / Detektering av glesa och svaga effekter i högdimensionella övervakade inlärningsproblem, tillämpat på mikrobiomdata från människor

This project studies the signal detection and identification problem in high-dimensional noisy data and the possibility of using it on microbiome data. An extensive simulation study was performed on generated data using as well as a microbiome dataset collected on patients with Parkinson's disease, using Donoho and Jin's Higher criticism, Jager and Wellner's phi-divergence-based goodness-of-fit-test and Stepanova and Pavlenko's CsCsHM statistic . We present some novel approaches based on established theory that perform better than existing methods and show that it is possible to use the signal identification framework to detect differentially abundant features in microbiome data. Although the novel approaches produce good results, they lack substantial mathematical foundations and should be avoided if theoretical rigour is needed. We also conclude that while we have found that it is possible to use signal identification methods to find abundant features in microbiome data, further refinement is necessary before it can be properly used in research. / Detta projekt studerar signaldetekterings- och identifieringsproblemet i högdimensionell brusig data och möjligheten att använda det på mikrobiomdata från människor. En omfattande simuleringsstudie utfördes på genererad data samt ett mikrobiomdataset som samlats in på patienter med Parkinsons sjukdom, med hjälp av ett antal goodness-of-fit-metoder: Donoho och Jins Higher criticis , Jager och Wellners phi-divergenser och Stepanova och Pavelenkos CsCsHM. Vi presenterar några nya tillvägagångssätt baserade på vedertagen teori som visar sig fungera bättre än befintliga metoder och visar att det är möjligt att använda signalidentifiering för att upptäcka olika funktioner i mikrobiomdata. Även om de nya metoderna ger goda resultat saknar de betydande matematiska grunder och bör undvikas om teoretisk formalism är nödvändigt. Vi drar också slutsatsen att medan vi har funnit att det är möjligt att använda signalidentifieringsmetoder för att hitta information i mikrobiomdata, är ytterligare experiment nödvändiga innan de kan användas på ett korrekt sätt i forskning.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-288503
Date January 2020
CreatorsLindahl, Fred
PublisherKTH, Matematisk statistik
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-SCI-GRU ; 2020:383

Page generated in 0.0031 seconds