Global ETD Search

21	Customer Churn Prediction for PC Games : Probability of churn predicted for big-spenders usingsupervised machine learning / Kundchurn prediktering för PC-spel : Sannolikheten av churn förutsagd för spelaresom spenderar mycket pengar med övervakad maskininlärning Tryggvadottir, Valgerdur January 2019 (has links) Paradox Interactive is a Swedish video game developer and publisher which has players all around the world. Paradox’s largest platform in terms of amount of players and revenue is the PC. The goal of this thesis was to make a churn predic-tion model to predict the probability of players churning in order to know which players to focus on in retention campaigns. Since the purpose of churn prediction is to minimize loss due to customers churning the focus was on big-spenders (whales) in Paradox PC games. In order to define which players are big-spenders the spending for players over a 12 month rolling period (from 2016-01-01 until 2018-12-31) was investigated. The players spending more than the 95th-percentile of the total spending for each pe-riod were defined as whales. Defining when a whale has churned, i.e. stopped being a big-spender in Paradox PC games, was done by looking at how many days had passed since the players bought something. A whale has churned if he has not bought anything for the past 28 days. When data had been collected about the whales the data set was prepared for a number of di˙erent supervised machine learning methods. Logistic Regression, L1 Regularized Logistic Regression, Decision Tree and Random Forest were the meth-ods tested. Random Forest performed best in terms of AUC, with AUC = 0.7162. The conclusion is that it seems to be possible to predict the probability of churning for Paradox whales. It might be possible to improve the model further by investi-gating more data and fine tuning the definition of churn. / Paradox Interactive är en svensk videospelutvecklare och utgivare som har spelare över hela världen. Paradox största plattform när det gäller antal spelare och intäk-ter är PC:n. Målet med detta exjobb var att göra en churn-predikterings modell för att förutsäga sannolikheten för att spelare har "churnat" för att veta vilka spelare fokusen ska vara på i retentionskampanjer. Eftersom syftet med churn-prediktering är att minimera förlust på grund av kunderna som "churnar", var fokusen på spelare som spenderar mest pengar (valar) i Paradox PC-spel.För att definiera vilka spelare som är valar undersöktes hur mycket spelarna spenderar under en 12 månaders rullande period (från 2016-01-01 till 2018-12-31). Spelarna som spenderade mer än 95:e percentilen av den totala spenderingen för varje period definierades som valar. För att definiera när en val har "churnat", det vill säga slutat vara en kund som spenderar mycket pengar i Paradox PC-spel, tittade man på hur många dagar som gått sedan spelarna köpte någonting. En val har "churnat" om han inte har köpt något under de senaste 28 dagarna.När data hade varit samlad om valarna var datan förberedd för ett antal olika maskininlärningsmetoder. Logistic Regression, L1 Regularized Logistic Regression, Decision Tree och Random Forest var de metoder som testades. Random Forest var den metoden som gav bäst resultat med avseende på AUC, med AUC = 0, 7162. Slutsatsen är att det verkar vara möjligt att förutsäga sannolikheten att Paradox valar "churnar". Det kan vara möjligt att förbättra modellen ytterligare genom att undersöka mer data och finjustera definitionen av churn. Customer churn prediction whales data analysis machine learning binary classification. Kund churn prediktering valar dataanalys maskinlärning binär klas-sificering. Mathematics Matematik
22	Employee Churn Prediction in Healthcare Industry using Supervised Machine Learning / Förutsägelse av Personalavgång inom Sjukvården med hjälp av Övervakad Maskininlärning Gentek, Anna January 2022 (has links) Given that employees are one of the most valuable assets of any organization, losing an employee has a detrimental impact on several aspects of business activities. Loss of competence, deteriorated productivity and increased hiring costs are just a small fraction of the consequences associated with high employee churn. To deal with this issue, organizations within many industries rely on machine learning and predictive analytics to model, predict and understand the cause of employee churn so that appropriate proactive retention strategies can be applied. However, up to this date, the problem of excessive churn prevalent in the healthcare industry has not been addressed. To fill this research gap, this study investigates the applicability of a machine learning-based employee churn prediction model for a Swedish healthcare organization. We start by extracting relevant features from real employee data followed by a comprehensive feature analysis using Recursive Feature Elimination (RFE) method. A wide range of prediction models including traditional classifiers, such as Random Forest, Support Vector Machine and Logistic Regression are then implemented. In addition, we explore the performance of ensemble machine learning model, XGBoost and neural networks, specifically Artificial Neural Network (ANN). The results of this study show superiority of an SVM model with a recall of 94.8% and a ROC-AUC accuracy of 91.1%. Additionally, to understand and identify the main churn contributors, model-agnostic interpretability methods are examined and applied on top of the predictions. The analysis has shown that wellness contribution, employment rate and number of vacations days as well as number of sick day are strong indicators of churn among healthcare employees. / Det sägs ofta att anställda är en verksamhets mest värdefulla tillgång. Att förlora en anställd har därmed ofta skadlig inverkan på flera aspekter av affärsverksamheter. Därtill hör bland annat kompetensförlust, försämrad produktivitet samt ökade anställningskostnader. Dessa täcker endast en bråkdel av konsekvenserna förknippade med en för hög personalomsättningshastighet. För att hantera och förstå hög personalomsättning har många verksamheter och organisationer börjat använda sig av maskininlärning och statistisk analys där de bland annat analyserar beteendedata i syfte att förutsäga personalomsättning samt för att proaktivt skapa en bättre arbetsmiljö där anställda väljer att stanna kvar. Trots att sjukvården är en bransch som präglas av hög personalomsättning finns det i dagsläget inga studier som adresserar detta uppenbara problem med utgångspunkt i maskininlärning. Denna studien undersöker tillämpbarheten av maskininlärningsmodeller för att modellera och förutsäga personalomsättning i en svensk sjukvårdsorganisation. Med utgångspunkt i relevanta variabler från faktisk data på anställda tillämpar vi Recursive Feature Elimination (RFE) som den primära analysmetoden. I nästa steg tillämpar vi flertalet prediktionsmodeller inklusive traditionella klassificerare såsom Random Forest, Support Vector Machine och Logistic Regression. Denna studien utvärderar också hur pass relevanta Neural Networks eller mer specifikt Artificial Neural Networks (ANN) är i syfte att förutse personalomsättning. Slutligen utvärderar vi precisionen av en sammansatt maskininlärningsmodell, Extreme Gradient Boost. Studiens resultat påvisar att SVM är en överlägsen model med 94.8% noggranhet. Resultaten från studien möjliggör även identifiering av variabler som mest bidrar till personalomsättning. Vår analys påvisar att variablerna relaterade till avhopp är friskvårdbidrag, sysselsättningsgrad, antal semesterdagar samt sjuktid är starkt korrelerade med personalomsättning i sjukvården. Employee churn Churn Prediction Predictive modeling Machine learning Deep-Learning Data mining Binary Classification Personalomsättning Avhoppsanalys Prediktiv Modellering Maskininlärning Datautvinning Binär Klassificering Computer Sciences Datavetenskap (datalogi) Computer Engineering Datorteknik
23	A Predictive Analysis of Customer Churn / : En Prediktiv Analys av Kundbortfall Eskils, Olivia, Backman, Anna January 2023 (has links) Churn refers to the discontinuation of a contract; consequently, customer churn occurs when existing customers stop being customers. Predicting customer churn is a challenging task in customer retention, but with the advancements made in the field of artificial intelligence and machine learning, the feasibility to predict customer churn has increased. Prior studies have demonstrated that machine learning can be utilized to forecast customer churn. The aim of this thesis was to develop and implement a machine learning model to predict customer churn and identify the customer features that have a significant impact on churn. This Study has been conducted in cooperation with the Swedish insurance company Bliwa, who expressed interest in gaining an increased understanding of why customers choose to leave. Three models, Logistic Regression, Random Forest, and Gradient Boosting, were used and evaluated. Bayesian optimization was used to optimize the models. After obtaining an indication of their predictive performance during evaluation using Cross-Validation, it was concluded that LightGBM provided the best result in terms of PR-AUC, making it the most effective approach for the problem at hand. Subsequently, a SHAP-analysis was carried out to gain insights into which customer features that have an impact on whether or not a customer churn. The outcome of the SHAP-analysis revealed specific customer features that had a significant influence on churn. This knowledge can be utilized to proactively implement measures aimed at reducing the probability of churn. / Att förutsäga kundbortfall är en utmanande uppgift inom kundbehållning, men med de framsteg som gjorts inom artificiell intelligens och maskininlärning har möjligheten att förutsäga kundbortfall ökat. Tidigare studier har visat att maskinlärning kan användas för att prognostisera kundbortfall. Syftet med denna studie var att utveckla och implementera en maskininlärningsmodell för att förutsäga kundbortfall och identifiera kundegenskaper som har en betydande inverkan på varför en kund väljer att lämna eller inte. Denna studie har genomförts i samarbete med det svenska försäkringsbolaget Bliwa, som uttryckte sitt intresse över att få en ökad förståelse för varför kunder väljer att lämna. Tre modeller, Logistisk Regression, Random Forest och Gradient Boosting användes och utvärderades. Bayesiansk optimering användes för att optimera dessa modeller. Efter att ha utvärderat prediktiv noggrannhet i samband med krossvalidering drogs slutsatsen att LightGBM gav det bästa resultatet i termer av PR-AUC och ansågs därför vara den mest effektiva metoden för det aktuella problemet. Därefter genomfördes en SHAP-analys för att ge insikter om vilka kundegenskaper som påverkar varför en kund riskerar, eller inte riskerar att lämna. Resultatet av SHAP-analysen visade att vissa kundegenskaper stack ut och verkade ha en betydande påverkan på kundbortfall. Denna kunskap kan användas för att vidta proaktiva åtgärder för att minska sannolikheten för kundbortfall. Churn prediction CRM optimization applied mathematics machine learning gradient boosting random forest logistic regression insurance industry Kundbortfall CRM optimering tillämpad matematik maskininlärning gradient boosting random forest logistisk regression försäkringsbranschen Probability Theory and Statistics Sannolikhetsteori och statistik
24	Predicting Customer Churn in a Subscription-Based E-Commerce Platform Using Machine Learning Techniques Aljifri, Ahmed January 2024 (has links) This study investigates the performance of Logistic Regression, k-Nearest Neighbors (KNN), and Random Forest algorithms in predicting customer churn within an e-commerce platform. The choice of the mentioned algorithms was due to the unique characteristics of the dataset and the unique perception and value provided by each algorithm. Iterative models ‘examinations, encompassing preprocessing techniques, feature engineering, and rigorous evaluations, were conducted. Logistic Regression showcased moderate predictive capabilities but lagged in accurately identifying potential churners due to its assumptions of linearity between log odds and predictors. KNN emerged as the most accurate classifier, achieving superior sensitivity and specificity (98.22% and 96.35%, respectively), outperforming other models. Random Forest, with sensitivity and specificity (91.75% and 95.83% respectively) excelled in specificity but slightly lagged in sensitivity. Feature importance analysis highlighted "Tenure" as the most impactful variable for churn prediction. Preprocessing techniques differed in performance across models, emphasizing the importance of tailored preprocessing. The study's findings underscore the significance of continuous model refinement and optimization in addressing complex business challenges like customer churn. The insights serve as a foundation for businesses to implement targeted retention strategies, mitigating customer attrition, and promote growth in e-commerce platforms. Customer churn prediction E-commerce Machine learning algorithms Logistic Regression k-Nearest Neighbors (KNN) Random Forest Feature engineering Preprocessing techniques Model evaluation performance measures supervised machine learning classification confusion matrix. Computer Sciences Datavetenskap (datalogi)
25	Customer churn prediction in a slow fashion e-commerce context : An analysis of the effect of static data in customer churn prediction Colasanti, Luca January 2023 (has links) Survival analysis is a subfield of statistics where the goal is to analyse and model the data where the outcome is the time until the occurrence of an event of interest. Because of the intrinsic temporal nature of the analysis, the employment of more recently developed sequential models (Recurrent Neural Network (RNN) and Long Short Term Memory (LSTM)) has been paired with the use of dynamic temporal features, in contrast with the past reliance on static ones. Such an abrupt shift of policy has left open the challenge of understanding how those two kinds of features influence the predictive capabilities of models. This thesis aims at assessing the effect of combining static and dynamic features on the most commonly used models in survival analysis. In doing so, we compare the error measurements of such models with dataset composed of purely dynamic features or a combination of static and dynamic ones. Empirical measurements have shown that models respond differently to the addition of static features to the analysis, with more complex, sequential models like the LSTM struggling to deal with the added data complexity (with a 12% increase in error), while non sequential models see reductions of up to 14.7% in error. The thesis also includes a clusterization task aimed at aiding the interpretation of survival analysis outcomes. / Överlevnadsanalys är ett delområde inom statistiken där målet är att analysera och modellera data där utfallet är tiden fram till dess att en händelse av intresse inträffar. På grund av analysens inneboende tidsmässiga karaktär har användningen av mer nyligen utvecklade sekventiella modeller (RNN och LSTM) kombinerats med användningen av dynamiska tidsmässiga egenskaper, i motsats till den tidigare förlitningen på statiska sådana. En sådan drastisk förändring av ansatsen har lämnat öppet för utmaningen att förstå hur dessa två typer av egenskaper påverkar modellernas förutsägande förmåga. Syftet med denna uppsats är att bedöma effekten av att kombinera statiska och dynamiska egenskaper på de vanligaste modellerna för överlevnadsanalys. I detta syfte jämför vi felmätningar av sådana modeller med dataset som består av rent dynamiska egenskaper eller en kombination av statiska och dynamiska egenskaper. Empiriska mätningar har visat att modellerna reagerar olika på tillägget av statiska egenskaper till analysen, där mer komplexa, sekventiella modeller som LSTM kämpar för att hantera den ökade datakomplexiteten (med en ökning av felet med 12 %), medan icke-sekventiella modeller ser en minskning av felet med upp till 14,7 %. Uppsatsen innehåller också en klusteruppgift som syftar till att underlätta tolkningen av resultaten av överlevnadsanalyser. / L’analisi della sopravvivenza è una branca della statistica il cui obiettivo è l’analisi e la modellazione di dati il cui risultato è il tempo che intercorre fino al verificarsi di un evento di interesse. A causa dell’intrinseca natura temporale dell’analisi, l’impiego di modelli sequenziali di più recente sviluppo (RNN e LSTM) è stato abbinato all’uso di attributi temporali dinamici, a differenza dell’uso più diffuso in passato di attributi statici. Questo brusco cambiamento ha lasciato aperta la sfida di capire come questi due tipi di attributi influenzino le capacità predittive dei modelli. Questa tesi si propone di valutare l’effetto della combinazione di attributi statici e dinamici sui modelli più comunemente utilizzati nell’analisi della sopravvivenza. A tal fine, confrontiamo le misure di errore di tali modelli con set di dati composti da attributi puramente dinamici o da una combinazione di statici e dinamici. I risultati empirici hanno mostrato che i modelli rispondono in modo diverso all’aggiunta di attrbiuti statici, con i modelli sequenziali più complessi, come l’LSTM, che faticano a gestire la complessità dei dati aggiunti (con un aumento dell’errore del 12%), mentre i modelli non sequenziali registrano riduzioni dell’errore fino al 14,7%. La tesi comprende anche una clusterizzazione volta a facilitare l’interpretazione dei risultati dell’analisi di sopravvivenza. Survival Analysis Time To Event prediction Churn retention Machine Learning Deep Learning Customer Clustering E-commerce Analisi di sopravvivenza Previsione del tempo a evento Ritenzione dall’abbandono dei clienti Apprendimento automatico Apprendimento profondo Segmentazione della clientela Commercio elettronico Överlevnadsanalys Tid till händelseförutsägelse Churn Prediction Maskininlärning Djuplärning Kundkluster E-handel Computer and Information Sciences Data- och informationsvetenskap

Page generated in 0.1041 seconds