Return to search

Churn Analysis in a Music Streaming Service : Predicting and understanding retention

Churn analysis can be understood as a problem of predicting and understanding abandonment of use of a product or service. Different industries ranging from entertainment to financial investment, and cloud providers make use of digital platforms where their users access their product offerings. Usage often leads to behavioural trails being left behind. These trails can then be mined to understand them better, improve the product or service, and to predict churn. In this thesis, we perform churn analysis on a reallife data set from a music streaming service, Spotify AB, with different signals, ranging from activity, to financial, temporal, and performance indicators. We compare logistic regression, random forest, along with neural networks for the task of churn prediction, and in addition to that, a fourth approach combining random forests with neural networks is proposed and evaluated. Then, a meta-heuristic technique is applied over the data set to extract Association Rules that describe quantified relationships between predictors and churn. We relate these findings to observed patterns in aggregate level data, finding probable explanations to how specific product features and user behaviours lead to churn or activation. For churn prediction, we found that all three non-linear methods performed better than logistic regression, suggesting the limitation of linear models for our use case. Our proposed enhanced random forest model performed mildly better than conventional random forest. / Churn analys kan förstås som ett tillvägagångssätt för att prediktera och förstå avslutad användning av en produkt eller tjänst. Olika industrier, som kan sträcka sig från underhållning till finansiell investering och molntjänsteleverantörer, använder digitala plattformar där deras användare har tillgång till deras produkter. Användning leder ofta till efterlämnande av beteendemönster. Dessa beteendemönster kan därefter utvinnas för att bättre förstå användarna, förbättra produkterna eller tjänsterna och för att prediktera churn. I detta arbete utför vi churn analys på ett dataset från en musikstreamingtjänst, Spotify AB, med olika signaler, som sträcker sig från aktivitet, till finansiella och temporala samt indikationer på prestanda. Vi jämför logistisk regression, random forest och neurala nätverk med uppgiften att utföra churn prediktering. Ytterligare ett tillvägagångssätt som kombinerar random forests med med neurala nätverk föreslås och utvärderas. Sedan, för att ta fram regler som är begripliga för beslutstagare, används en metaheuristisk teknik för datasetet, som beskriver kvantifierade relationer mellan prediktorer och churn. Vi sätter resultaten i relation till observerade mönster hos aggregerad data, vilket gör att vi hittar troliga förklaringar till hur specifika karaktärer hos produkten och användarmönster leder till churn. För prediktering av churn gav samtliga icke-linjära metoder bättre prestanda än logistisk regression, vilket tyder på begränsningarna hos linjära modeller för vårt användningsfall, och vår föreslagna förbättrade random forest modell hade svagt bättre prestanda än den konventionella random forest.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-215709
Date January 2017
CreatorsChaliane Junior, Guilherme Dinis
PublisherKTH, Skolan för informations- och kommunikationsteknik (ICT)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-ICT-EX ; 2017:158

Page generated in 0.0019 seconds