Return to search

Customer Churn Analysis and Prediction using Machine Learning for a B2B SaaS company / Kundundersökning och förutsägelse med maskininlärning för ett B2B SaaS-företag

This past decade, the majority of services have been digitalized and data more and more available, easy to store and to process in order to understand customers behaviors. In order to be leaders in their proper industries, subscription-based businesses must focus on their Customer Relationship Management and in particular churn management, that is understanding customers cancelling their subscription. In this thesis, churn analysis is performed on real life data from a Software as a Service (SaaS) company selling an advanced cloud-based business phone system, Aircall. This use case has the particularity that the available dataset gathers customers data on a monthly basis and has a very imbalanced distribution of the target: a large majority of customers do not churn. Therefore, several methods are tried in order to diminish the impact of the imbalance while remaining as close as possible to the real world and the temporal framework. These methods include oversampling and undersampling (SMOTE and Tomek's link) and time series cross-validation. Then logistic regression and random forest models are used with an aim to both predict and explain churn.The non-linear method performed better than logistic regression, suggesting the limitation of linear models for our use case. Moreover, mixing oversampling with undersampling gives better performances in terms of precision/recall trade-off. Time series cross-validation also happens to be an efficient method to improve performance of the model. Overall, the resulting model is more useful to explain churn than to predict it. It highlighted some features majorly influencing churn, mostly related to product usage. / Under det senaste decenniet har många tjänster digitaliserats och data blivit mer och mer tillgängliga, enkla att lagra och bearbeta med syftet att förstå kundbeteende. För att kunna vara ledande inom sina branscher måste prenumerationsbaserade företag fokusera på kundrelationshantering och i synnerhet churn management, det vill säga förståelse för hur kunder avbryter sin prenumeration. I denna uppsats utförs kärnanalys på verkliga data från ett SaaS-företag (software as a service) som säljer ett avancerat molnbaserat företagstelefonsystem, Aircall. Denna fallstudie är speciell på så sätt att den tillgängliga datamängden består av månatlig kunddata med en mycket ojämn fördelning: en stor majoritet av kunderna avbryter inte sina prenumerationer. Därför undersöks flera metoder för att minska effekten av denna obalans, samtidigt som de förblir så nära den verkliga världen och den tidsmässiga ramen. Dessa metoder inkluderar översampling och undersampling (SMOTE och Tomeks länk) och korsvalidering av tidsserier. Sedan används logistisk regression och random forests i syfte att både förutsäga och förklara prenumerationsbortfall. Den icke-linjära metoden presterade bättre än logistisk regression, vilket tyder på en begränsning hos linjära modeller i vårt användningsfall. Dessutom ger blandning av översampling med undersampling bättre prestanda när det gäller precision och återkoppling. Korsvalidering av tidsserier är också en effektiv metod för att förbättra modellens prestanda. Sammantaget är den resulterande modellen mer användbar för att förklara bortfall än att förutsäga dessa. Med hjälp av modellen kunde vissa faktorer, främst relaterade till produktanvändning, som påverkar bortfallet identifieras.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-269540
Date January 2020
CreatorsSergue, Marie
PublisherKTH, Matematisk statistik
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-SCI-GRU ; 2020:032

Page generated in 0.0118 seconds