A common task in data science at internet companies is to develop metrics that capture aspects of the user experience. In this thesis, we are interested in systems of measurement variables without direct causal relations such that covariance is explained by unobserved latent common causes. A framework for modeling the data generating process is given by Neuro-Causal Factor Analysis (NCFA). The graphical model consists of a directed graph with edges pointing from the latent common causes to the measurement variables; its functional relations are approximated with a constrained Variational Auto-Encoder (VAE). We refine the estimation of the graphical model by developing an MCMC algorithm over Bayesian networks from which we read marginal independence relations between the measurement variables. Unlike standard independence testing, the method is guaranteed to yield an identifiable graphical model. Our algorithm is competitive with the benchmark, and it admits additional flexibility via hyperparameters that are natural to the approach. Tuning these parameters yields superior performance over the benchmark. We train the improved NCFA model on Spotify user behavior data. It is competitive with the standard VAE on data reconstruction with the benefit of causal interpretability and model identifiability. We use the learned latent space representation to characterize clusters of Spotify users. Additionally, we train an NCFA model on data from a randomized control trial and observe treatment effects in the latent space. / En vanlig uppgift för en data scientist på ett internetbolag är att utveckla metriker som reflekterar olika aspekter av användarupplevelsen. I denna uppsats är vi intresserade av system av mätvariabler utan direkta kausala relationer, så till vida att kovarians förklaras av latenta gemensamma orsaker. Ett ramverk för att modellera den datagenererande processen ges av Neuro-Causal Factor Analysis (NCFA). Den grafiska modellen består av en riktad graf med kanter som pekar från de latenta orsaksvariablerna till mätvariablerna; funktionssambanden uppskattas med en begränsad Variational Auto-Encoder (VAE). Vi förbättrar uppskattningen av den grafiska modellen genom att utveckla en MCMC algoritm över Bayesianska nätverk från vilka vi läser de obetingade beroendesambanden mellan mätvariablerna. Till skillnad från traditionella oberoendetest så garanterar denna metod en identifierbar grafisk modell. Vår algoritm är konkurrenskraftig jämfört med referensmetoderna, och den tillåter ytterligare flexibilitet via hyperparametrar som är naturliga för metoden. Optimal justering av dessa hyperparametrar resulterar i att vår metod överträffar referensmetoderna. Vi tränar den förbättrade NCFA modellen på data om användarbeteende på Spotify. Modellen är konkurrenskraftig jämfört med en standard VAE vad gäller rekonstruktion av data, och den tillåter dessutom kausal tolkning och identifierbarhet. Vi analyserar representationen av Spotify-användarna i termer av de latenta orsaksvariablerna. Specifikt så karakteriserar vi grupper av liknande användare samt observerar utfall av en randomiserad kontrollerad studie.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-345266 |
Date | January 2023 |
Creators | Harting, Alice |
Publisher | KTH, Matematik (Avd.) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-SCI-GRU ; 2023:465 |
Page generated in 0.0041 seconds