Return to search

Predicting Customer Churn Rate in the iGaming Industry using Supervised Machine Learning / Prognostisering av kundbortfall inom  iGaming-industrin med användning av övervakad maskininlärning

Mr Green is one of the leading online game providers in the European market. Their mission is to o˙er entertainment and a superior user experience to their customers. To be able to better understand each individual customer and the entire customer life cycle the concept of churn rate is essential, which is also an important input value when calculating the return on marketing e˙orts. This thesis analyzes the feasibility to use 24 hours of initial data on player characteristics and behaviour to predict the probability of each customer churning or not. This is done by examining various supervised machine learning models to determine which model best captures the customer behaviour. The evaluated models are logistic regression, random forest and linear discriminant analysis, as well as two ensemble methods using stacking and voting classifiers. The main finding is that the best accuracy is obtained using a voting ensemble method with the three base models logistic regression, random forest and linear discriminant analysis weighted as w = (0.005, 0.80, 0.015). With this model the attained accuracy is 75.94 %. / Mr Green är en av de ledande onlinespelsleverantörerna på den europeiska mark-naden. Deras mission är att erbjuda underhållning och en överlägsen användarup-plevelse till sina kunder. För att bättre kunna förstå sina kunder och deras livs-cykel är kundbortfall ett ytterst viktigt koncept. Det är också ett viktigt mått för att kunna utvärdera resultaten av marknadsföring. Denna rapport analyserar möjligheten att, med 24 timmars data över kundbeteende, kunna avgöra vilka kun-der som kommer att lämna siten. Detta görs genom att undersöka olika modeller inom övervakad maskininlärning för att avgöra vilken som bäst fångar kundernas be-teende. Modellerna som undersöks är logistisk regression, random forest och en linjär diskriminantanalys, samt två olika sammansättningsmodeller som använder sig av stacking och voting. Resultatet av denna studie är att en sammansättningsmodell som väger modellerna logistisk regression, random forest och en linjär diskriminan-tanalys ger den högsta förklaringsgraden på 75.94 %.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-228609
Date January 2018
CreatorsGrönros, Lovisa, Janér, Ida
PublisherKTH, Matematisk statistik
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-SCI-GRU

Page generated in 0.0019 seconds