Return to search

Hybrid Variational Autoencoder for Clustering of Single-Cell RNA-seq Data : Introducing HybridVI, a Variational Autoencoder with two Latent Spaces / Hybrid Variational autoencoder för analys av enkelcells RNA-sekvensering data

Single-cell analysis means to analyze cells on an individual level. This individual analysis enhances the investigation of the heterogeneity among and the classification of individual cells. Single-cell analysis is a broad term and can include various measurements. This thesis utilizes single-cell RNA sequence data that measures RNA sequences representing genes for individual cells. This data is often high-dimensional, with tens of thousands of RNA sequences measured for each cell. Dimension reduction is therefore necessary when analyzing the data. One proposed dimension reduction method is the unsupervised machine learning method variational autoencoders. The scVI framework has previously implemented a variational autoencoder for analyzing single-cell RNA sequence data. The variational autoencoder of the scVI has one latent space with a Gaussian distribution. Several extensions have been made to the scVI framework since its creation. This thesis proposes an additional extension consisting of a variational autoencoder with two latent spaces, called hybridVI. One of these latent spaces has a Gaussian distribution and the other a von Mises-Fisher distribution. The data is separated between these two latent spaces, meaning that some of the genes go through one latent space and the rest go through the other. In this thesis the cell cycle genes go through the von Mises-Fisher latent space and the rest of the genes go through the Gaussian latent space. The motivation behind the von Mises-Fisher latent space is that cell cycle genes are believed to follow a circular distribution. Putting these genes through a von Mises-Fisher latent space instead of a Gaussian latent space could provide additional insights into the data. The main focus of this thesis was to analyze the impact this separation. The analysis consisted of comparing the performance of the hybridVI model, to the original scVI variational autoencoder. The comparison utilized three annotated datasets, one peripheral blood mononuclear cell dataset, one cortex cell dataset, and one B cell dataset collected by the Henriksson lab at Umeå University. The evaluation metrics used were the adjusted rand index, normalized mutual information and a Wilcoxon signed ranks test was used to determine if the results had statistical significance. The results indicate that the size of the dataset was essential for achieving robust and statistically significant results. For the two datasets that yielded statistically significant results, the scVI model performed better than the hybridVI model. However, more research analyzing biological aspects is necessary to declare the hybridVI model’s effect on the biological interpretation of the results. / Individuell cellanalys är en relativt ny metod som möjliggör undersökning av celler på indivudiell nivå. Det här examensarbetet analyserar RNA sekvens data, där RNA sekvenser är specifierade för individuella celler. Den här sortens data är ofta högdimensionell med flera tusen gener noterade för varje cell. För att möjliggöra en analys av den här datan krävs någon form av dimensionreducering. En föreslagen metod är den ovövervakade maskininlärningsmetoden variational autoencoders. Ett ramverk, scVI, har framtagit en variational autoencoder designad för att hantera den här sortens data. Den här modellen har endast en latentrymd med en normalfördelning. Det här examensarbetet föreslår en utökning av det här ramverket med en variational autoencoder med två latentrymder,där den ena är normalfördelad och den andra följer en von Mises-Fisher fördelning. Motiveringen till en sådan fördelning är att cellcykelgener är antagna att tillhöra en cirkulär fördelning. Cellcykelgenerna i datan kan därmed hanteras av den cirkulära latentrymden. Huvudfokuset i den här studien är att undersöka om den här separationen av gener kan förbättra modellens förmåga att hitta korrekta kluster. Experimentet utfördes på tre annoterade dataset, ett som bestod av perifera mononukleära blodceller, ett som bestod av hjärnbarksceller och ett som bestod av B celler insamlat av Henrikssongruppen vid Umeå universitet. Modellen från scVI ramverket jämfördes med den nya metoden med två latentrymder, hybridVI. Måtten som användes för att bedöma de modellerna var adjusted rand index och normaliserad mutual information och ett Wilcoxon Signed-Ranks test användes för att bedöma resultatens statistiska signifikans. Resultaten påvisar att de båda modellerna preseterar bättre och mer konsekvent för större dataset. Två dataset gav statistiskt signifikanta resultat och visade att scVI modellen presterade bättre än hybridmodellen. Det behövs dock en biologisk analys av resultaten för att undersöka vilken modells resultat som har mest biologisk relevans.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-321594
Date January 2022
CreatorsNarrowe Danielsson, Sarah
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS), Stockholm : KTH Royal Institute of Technology
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageEnglish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2022:740

Page generated in 0.0041 seconds