Return to search

Predicting and Explaining Customer Churn for an Audio/e-book Subscription Service using Statistical Analysis and Machine Learning / Prediktion och förklaring av kundbortfall för en prenumerationstjänst för ljud- och e-böcker med användning av statistik analys och maskininlärning

The current technology shift has contributed to increased consumption of media and entertainment through various mobile devices, and especially through subscription based services. Storytel is a company offering a subscription based streaming service for audio and e-books, and has grown rapidly in the last couple of years. However, when operating in a competitive market, it is of great importance to understand the behavior and demands of the customer base. It has been shown that it is more profitable to retain existing customers than to acquire new ones, which is why a large focus should be directed towards preventing customers from leaving the service, that is preventing customer churn. One way to cope with this problem is by applying statistical analysis and machine learning in order to identify patterns and customer behavior in data. In this thesis, the models logistic regression and random forest are used with an aim to both predict and explain churn in early stages of a customer's subscription. The models are tested together with the feature selection methods Elastic Net, RFE and PCA, as well as with the oversampling method SMOTE. One main finding is that the best predictive model is obtained by using random forest together with RFE, producing a prediction score of 0.2427 and a recall score of 0.7699. The other main finding is that the explanatory model is given by logistic regression together with Elastic Net, where significant regression coefficient estimates can be used to explain patterns associated with churn and give useful findings from a business perspective. / Det pågående teknologiskiftet har bidragit till en ökad konsumtion av digital media och underhållning via olika typer av mobila enheter, t.ex. smarttelefoner. Storytel är ett företag som erbjuder en prenumerationstjänst för ljud- och e-böcker och har haft en kraftig tillväxt de senaste åren. När företag befinner sig i en konkurrensutsatt marknad är det av stor vikt att förstå sig på kunders beteende samt vilka krav och önskemål kunder har på tjänsten. Det har nämligen visat sig vara mer lönsamt att behålla existerande kunder i tjänsten än hela tiden värva nya, och det är därför viktigt att se till att en befintlig kund inte avslutar sin prenumeration. Ett sätt att hantera detta är genom att använda statistisk analys och maskininlärningsmetoder för att identifiera mönster och beteenden i data. I denna uppsats används både logistisk regression och random forest med syfte att både prediktera och förklara uppsägning av tjänsten i ett tidigt stadie av en kunds prenumeration. Modellerna testas tillsammans med variabelselektionsmetoderna Elastic Net, RFE och PCA, samt tillsammans med översamplingsmetoden SMOTE. Resultatet blev att random forest tillsammans med RFE bäst predikterade uppsägning av tjänsten med 0.2427 i måttet precision och 0.7699 i måttet recall. Ett annat viktigt resultat är att den förklarande modellen ges av logistisk regression tillsammans med Elastic Net, där signifikanta estimat av regressionskoefficienterna ökar förklaringsgraden för beteenden och mönster relaterade till kunders uppsägning av tjänsten. Därmed ges användbara insikter ur ett företagsperspektiv.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-252723
Date January 2019
CreatorsBarr, Kajsa, Pettersson, Hampus
PublisherKTH, Matematisk statistik
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-SCI-GRU ; 2019:085

Page generated in 0.0021 seconds