• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 3
  • 1
  • Tagged with
  • 4
  • 4
  • 3
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Churn Prediction : Predicting User Churn for a Subscription-based Service using Statistical Analysis and Machine Learning Models

Flöjs, Amanda, Hägg, Alexandra January 2020 (has links)
Subscription-based services are becoming more popular in today’s society. Therefore, any company that engages in the subscription-based business needs to understand the user behavior and minimize the number of users canceling their subscription, i.e. minimize churn. According to marketing metrics, the probability of selling to an existing user is markedly higher than selling to a brand new user. Nonetheless, it is of great importance that more focus is directed towards preventing users from leaving the service, in other words preventing user churn. To be able to prevent user churn the company needs to identify the users in the risk zone of churning. Therefore, this thesis project will treat this as a classification problem. The objective of the thesis project was to develop a statistical model to predict churn for a subscription-based service. Various statistical methods were used in order to identify patterns in user behavior using activity and engagement data including variables describing recency, frequency, and volume. The best performing statistical model for predicting churn was achieved by the Random Forest algorithm. The selected model is able to separate the two classes of churning users and the non-churning users with 73% probability and has a fairly low missclassification rate of 35%. The results show that it is possible to predict user churn using statistical models. Although, there are indications that it is difficult for the model to generalize a specific behavioral pattern for user churn. This is understandable since human behavior is hard to predict. The results show that variables describing how frequent the user is interacting with the service are explaining the most whether a user is likely to churn or not. / Prenumerationstjänster blir alltmer populära i dagens samhälle. Därför är det viktigt för ett företag med en prenumerationsbaserad verksamhet att ha en god förståelse för sina användares beteendemönster på tjänsten, samt att de minskar antalet användare som avslutar sin prenumeration. Enligt marknads-föringsstatistik är sannolikheten att sälja till en redan existerande användare betydligt högre än att sälja till en helt ny. Av den anledningen, är det viktigt att ett stort fokus riktas mot att förebygga att användare lämnar tjänsten. För att förebygga att användare lämnar tjänsten måste företaget identifiera vilka användare som är i riskzonen att lämna. Därför har detta examensarbete behandlats som ett klassifikations problem. Syftet med arbetet var att utveckla en statistisk modell för att förutspå vilka användare som sannolikt kommer att lämna prenumerationstjänsten inom nästa månad. Olika statistiska metoder har prövats för att identifiera användares beteendemönster i aktivitet- och engagemangsdata, data som inkluderar variabler som beskriver senaste interaktion, frekvens och volym. Bäst prestanda för att förutspå om en användare kommer att lämna tjänsten gavs av Random Forest algoritmen. Den valda modellen kan separera de två klasserna av användare som lämnar tjänsten och de användare som stannar med 73% sannolikhet och har en relativt låg missfrekvens på 35%. Resultatet av arbetet visar att det går att förutspå vilka användare som befinner sig i riskzonen för att lämna tjänsten med hjälp av statistiska modeller, även om det är svårt för modellen att generalisera ett specifikt beteendemönster för de olika grupperna. Detta är dock förståeligt då det är mänskligt beteende som modellen försöker att förutspå. Resultatet av arbetet pekar mot att variabler som beskriver frekvensen av användandet av tjänsten beskriver mer om en användare är påväg att lämna tjänsten än variabler som beskriver användarens aktivitet i volym.
2

Användarbortfall av småföretagare på faktureringstjänst på internet : En fallstudie på Fakturan.nu / User Churn of Small Businesses on BillingService on the Internet : A case study on Fakturan.nu

Wetell, Felix January 2020 (has links)
Den här studien syftar till att undersöka användarbortfall på webbaserad faktureringstjänst för småföretagare. Målsättningen var att, genom kartläggning av enkäter och intervjuer med användare, ta fram åtgärdsförslag för att förhindra framtida användarbortfall från tjänsten. Företaget bakom faktureringstjänsten har inte någon precis kunskap om varför nya användare väljer att lämna tjänsten. Detta eftersom man i dagsläget inte har några tydliga rutiner för att samla in denna information. Studien finner att tidigare användare av faktureringstjänsten har övergett denna för att de ansåg att designen på systemet var lite för inkonsekvent (bildbeskrivningen av webbsidorna motsvarar inte hur webbsidorna faktiskt ser ut) samt att priset inte stämde överens med förväntningarna de hade.
3

Binary Classification for Predicting Customer Churn

Axén, Maja, Karlberg, Jennifer January 2020 (has links)
Predicting when a customer is about to turn to a competitor can be difficult, yet extremely valuable from a business perspective. The moment a customer stops being considered a customer is known as churn, a widely researched topic in several industries when dealing with subscription-services. However, in industries with non-subscription services and products, defining churn can be a daunting task and the existing literature does not fully cover this field. Therefore, this thesis can be seen as a contribution to current research, specially when not having a set definition for churn. A definition for churn, adjusted to DIAKRIT’s business, is created. DIAKRIT is a company working in the real estate industry, which faces many challenges, such as a huge seasonality. The prediction was approached as a supervised problem, where three different Machine Learning methods were used: Logistic Regression, Random Forest and Support Vector Machine. The variables used in the predictions are predominantly activity data. With a relatively high accuracy and AUC-score, Random Forest was concluded to be the most reliable model. It is however clear that the model cannot separate between the classes perfectly. It was also visible that the Random Forest model produces a relatively high precision. Thereby, it can be settled that even though the model is not flawless the customers predicted to churn are very likely to churn. / Att prediktera när en kund är påväg att vända sig till en konkurrent kan vara svårt, dock kan det visa sig extremt värdefullt ur ett affärsperspektiv. När en kund slutar vara kund benäms det ofta som kundbortfall eller ”churn”. Detta är ett ämne som är brett forskat på i flertalet olika industrier, men då ofta i situationer med prenumenationstjänster. När man inte har en prenumerationstjänst försvåras uppgiften att definera churn och existerande studier brister i att analysera detta. Denna uppsats kan därför ses som ett bidrag till nuvarande litteratur, i synnerhet i fall där ingen tydlig definition för churn existerar. En definition för churn, anpassad efter DIAKRIT och deras affärsstruktur har skapats i det här projektet. DIAKRIT är verksamma i fastighetsbranschen, en industri som har flera utmaningar, bland annat en extrem säsongsvariaton. För att genomföra prediktionerna användes tre olika maskininlärningamodeller: Logistisk Regression, Random Forest och Support Vector Machine. De variabler som användes är mestadels aktivitetsdata. Med relativt hög noggranhet och AUC-värde anses Random Forest vara mest pålitlig. Modellen kan dock inte separera mellan de två klasserna perfekt. Random Forest modellen visade sig också genera en hög precision. Därför kan slutsatsen dras att även om modellen inte är felfri verkar det som att kunderna predikterade som churn mest sannolikt kommer churna.
4

Predicting user churn using temporal information : Early detection of churning users with machine learning using log-level data from a MedTech application / Förutsägning av användaravhopp med tidsinformation : Tidig identifiering av avhoppande användare med maskininlärning utifrån systemloggar från en medicinteknisk produkt

Marcus, Love January 2023 (has links)
User retention is a critical aspect of any business or service. Churn is the continuous loss of active users. A low churn rate enables companies to focus more resources on providing better services in contrast to recruiting new users. Current published research on predicting user churn disregards time of day and time variability of events and actions by feature selection or data preprocessing. This thesis empirically investigates the practical benefits of including accurate temporal information for binary prediction of user churn by training a set of Machine Learning (ML) classifiers on differently prepared data. One data preparation approach was based on temporally sorted logs (log-level data set), and the other on stacked aggregations (aggregated data set) with additional engineered temporal features. The additional temporal features included information about relative time, time of day, and temporal variability. The inclusion of the temporal information was evaluated by training and evaluating the classifiers with the different features on a real-world dataset from a MedTech application. Artificial Neural Networks (ANNs), Random Forrests (RFs), Decision Trees (DTs) and naïve approaches were applied and benchmarked. The classifiers were compared with among others the Area Under the Receiver Operating Characteristics Curve (AUC), Positive Predictive Value (PPV) and True Positive Rate (TPR) (a.k.a. precision and recall). The PPV scores the classifiers by their accuracy among the positively labeled class, the TPR measures the recognized proportion of the positive class, and the AUC is a metric of general performance. The results demonstrate a statistically significant value of including time variation features overall and particularly that the classifiers performed better on the log-level data set. An ANN trained on temporally sorted logs performs best followed by a RF on the same data set. / Bevarande av användare är en kritisk aspekt för alla företag eller tjänsteleverantörer. Ett lågt användarbortfall gör det möjligt för företag att fokusera mer resurser på att tillhandahålla bättre tjänster istället för att rekrytera nya användare. Tidigare publicerad forskning om att förutsäga användarbortfall bortser från tid på dygnet och tidsvariationer för loggad användaraktivitet genom val av förbehandlingsmetoder eller variabelselektion. Den här avhandlingen undersöker empiriskt de praktiska fördelarna med att inkludera information om tidsvariabler innefattande tid på dygnet och tidsvariation för binär förutsägelse av användarbortfall genom att träna klassificerare på data förbehandlat på olika sätt. Två förbehandlingsmetoder används, en baserad på tidssorterade loggar (loggnivå) och den andra på packade aggregeringar (aggregerat) utökad med framtagna tidsvariabler. Inklusionen av tidsvariablerna utvärderades genom att träna och utvärdera en uppsättning MLklassificerare med de olika tidsvariablerna på en verklig datamängd från en digital medicinskteknisk produkt. ANNs, RFs, DTs och naiva tillvägagångssätt tillämpades och jämfördes på den aggregerade datamängden med och utan tidsvariationsvariablerna och på datamängden på loggnivå. Klassificerarna jämfördes med bland annat AUC, PPV och TPR. PPV betygsätter algoritmerna efter träffsäkerhet bland den positivt märkta klassen och TPR utvärderar hur stor del av den positiva klassen som identifierats medan AUC är ett mått av klassificerarnas allmänna prestanda. Resultaten visar ett betydande värde av att inkludera tidsvariationsvariablerna överlag och i synnerhet att klassificerarna presterade bättre på datauppsättningen på loggnivå. Ett ANN tränad på tidssorterade loggar presterar bäst följt av en RF på samma datamängd.

Page generated in 0.0647 seconds