Return to search

Predicting Customer Churn in E-commerce Using Statistical Modeling and Feature Importance Analysis : A Comparison of Random Forest and Logistic Regression Approaches

While operating in online markets offers opportunities for expanded assortment and convenience, it also poses challenges such as increased competition and the need to build personal relationships with customers. Customer retention be- comes crucial in maintaining a successful business, emphasizing the importance of understanding customer behavior. Traditionally, customer behavior analysis has focused on transactional behavior, such as purchase frequency and spending amounts. However, there has been a shift towards non-transactional behavior, driven by the popularity of loyalty programs that reward customers beyond trans- actions and aim to make customers feel appreciated and included, regardless of their spending power. This study is conducted at a global retailer with the aim of enhancing the under- standing of how non-transactional customer behavior influences customer churn. The approach in this study is to understand such behavior by developing a statis- tical model and to analyze statistical approaches of feature importance. Two types of approaches for statistical modeling, each with four variations, are assessed: (1) Random forest; and (2) Logistic regression. Furthermore, three different feature importance methods are considered; (1) Gini importance; (2) Permutation impor- tance and (3) Coefficient importance. The results showed that this approach can be used to analyze customer behavior and gain a better understanding of the driving factors for churn. Furthermore, the results showed that random forest approaches outperform logistic regression. With the definition of churn constructed in this study, the most important factors that affect the probability of churn are the customer’s number of sessions and inter session interval. / Att bedriva e-handel erbjuder inte enbart möjligheter för utökat sortiment och bekvämlighet, utan leder även till ökad konkurrens och ett ökat behov av att bygga relationer med kunder. Kundlojalitet är därmed avgörande för att upprätthålla en framgångsrik verksamhet, och betonar vikten av att förstå kundernas beteende. Traditionellt har analyser av kundbeteende främst bedrivits med fokus på transak- tionellt beteende, såsom frekvens eller totalbelopp för köp. På senare tid har allt mer fokus lagts på icke-transaktionellt beteende, på grund av införandet av lo- jalitetsprogram som belönar kunder bortom transaktioner, med målet att kunder ska känna sig uppskattade och inkluderade, oavsett köpkraft. Denna studie genomförs hos ett globalt detaljhandelsföretag med målet att utöka förståelsen för hur icke-transaktionellt kundbeteende påverkar kundbortfall. För att uppnå detta konstrueras en statistisk modell som utnyttjas för att med hjälp av statistiska metoder analysera signifikans hos variabler. Två kategorier av statis- tiska modeller undersöks; (1) Random forest och (2) Logistisk regression. Utöver detta används tre olika metoder för att analysera signifikans hos variabler; (1) Gini-betydelse; (2) Permutationsbetydelse; och (3) Koefficientbetydelse. Resultatet visar att studiens tillvägagångssätt kan användas för att analysera kund- beteende och nå ökad förståelse för vad som driver kundbortfall. Vidare visar re- sultatet att random forest-modeller överträffar modeller baserade på logistisk re- gression. Baserat på den definition av kundbortfall som definierats i denna studie är de viktigaste faktorerna som påverkar sannolikheten för kundbortfall, kundens antal sessioner och intervallet mellan kundens sessioner.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:umu-211455
Date January 2023
CreatorsRudälv, Amanda
PublisherUmeå universitet, Institutionen för matematik och matematisk statistik
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0583 seconds