Global ETD Search

1	Predicting Consumer Purchase behavior using Automatic Machine Learning : A case study in online purchase flows / Prediktering av Konsumentbeteenden med Automatisk Maskininlärning : En fallstudie i onlinebaserade köpflöden Sandström, Olle January 2022 (has links) Online payment purchase flows are designed to be as effective and smooth as possible in regards to the user experience. The user is in the center of this process, who, to a certain degree decides whether the purchase eventually will be placed. What is left up to the payment provider is the process of enabling an effective purchase flow where information needs to be collected for various purposes. To design these purchase flows as efficiently as possible, this research investigates if and how consumer purchase behavior can be predicted. Which algorithms perform the best at modeling the outcome and what kind of underlying features can be used to model the outcome? The features are graded in regard to their feature importance to see how and how much they affect the best-performing model. To investigate consumer behavior, the task was set up as a supervised binary classification problem to model the outcome of user purchase sessions. Either the sessions result in a purchase or they do not. Several automatic machine learning (also referred to as automated machine learning) frameworks were considered before the choice of using H2O AutoML because of its historical performance on other supervised binary classification problems. The dataset contained information from user sessions relating to the consumer, the transaction, and the time when the purchase was initiated. These variables were either in a numerical or categorical format and were then evaluated using the SHAP importance metric as well as an aggregated SHAP summary plot, which describes how features are affecting the model. The results show that the Distributed Random Forest Algorithm performed the best, generating a 26 percentage points improvement in accuracy, predicting whether a session will be converted into a purchase from an undersampled baseline of 50%. Furthermore two of the most important features according to the model were categorical features related to the intersection of consumer and transaction information. Another time-based categorical variable also proved to be important in the model prediction. The research also shows that automatic machine learning has come a long way in the pre-processing of variables, enabling the developer of the models to more efficiently deploy these kinds of machine learning problems. The results echo some earlier findings confirming the possibility of predicting consumer purchase behavior and in particular, the outcome of a purchase flow consumer session. This implies that payment providers hypothetically could use these kinds of insights and predictions in the development of their flows, to individually cater to specific groups of consumers, enabling a more efficient and personalized payment flow. / Köpflöden för onlinebetalningar är utformade för att vara så effektiva och smidiga som möjligt med avseende på användarupplevelsen. I processen står användaren i centrum, som delvis avgör om köpet i slutändan konverteras eller ej. Det som är upp till betalningsleverantören är möjliggörandet av ett effektivt köpflöde där information behöver samlas in för olika ändamål. För att utforma dessa köpflöden så effektivt som möjligt undersöker detta arbete om och hur konsumenters köpbeteende kan förutsägas. Vilka algoritmer fungerar bäst på att modellera resultatet och vilken typ av underliggande attribut kan användas för att modellera resultatet? Dessa attribut graderas med avseende på deras relevans (feature importance) för att se hur och hur mycket de faktiskt påverkar den bäst presterande modellen. För att undersöka konsumentbeteendet sattes uppgiften upp som ett övervakat binärt klassificeringsproblem för att modellera resultatet av användarnas sessioner. Antingen resulterar sessionerna i ett köp eller så gör de det inte. Flera ramverk för automatisk maskininlärning övervägdes innan valet att använda H2O AutoML på grund av dess historiska prestanda på andra övervakade binära klassificeringsproblem. Dataunderlaget innehöll information från användarsessioner som rör konsumenten, transaktionen och tidpunkten då köpet påbörjades. Dessa variabler var antingen i ett numeriskt eller kategoriskt format och utvärderades sedan med hjälp av SHAP-viktighetsmåttet (SHAP Feature Importance) såväl som ett aggregerat SHAP-diagram, som beskriver hur de olika attributen påverkar modellen. Resultaten visar att Distributed Random Forest algoritmen presterade bäst, genererade en förbättring på 26 procentenheter i noggrannhet (accuracy), i prediktionen av ifall en session omvandlas till ett köp eller ej, baserat på ett undersamplat dataset med en baslinje på 50%. Dessutom var två av de viktigaste attributen enligt modellen kategoriska attribut relaterade till skärningspunkten mellan konsument- och transaktionsinformation. En annan tidsbaserad kategorisk variabel visade sig också vara viktig i prediktionen. Arbetet visar också att automatisk maskininlärning har kommit långt i förbearbetningen av variabler, vilket gör det möjligt för utvecklaren av modellerna att mer effektivt distribuera den här typen av maskininlärningsproblem. Resultaten återspeglar tidigare insikter som bekräftar möjligheten att förutsäga konsumenternas köpbeteende och i synnerhet resultatet av en konsumentsession i ett köpflöde. Detta innebär att betalningsleverantörer hypotetiskt skulle kunna använda denna typ av insikter och förutsägelser i utvecklingen av sina flöden, för att individuellt tillgodose specifika grupper av konsumenter, vilket möjliggör ett ännu mer effektivt och skräddarsytt betalningsflöde. Automatic Machine Learning Automated Machine Learning Binary Classification Payment Provider Purchase Flow Supervised Machine Learning Automatisk Maskininlärning Betalflöde Betalningsleverantör Binär klassificering Vägledd Maskininlärning Computer and Information Sciences Data- och informationsvetenskap
2	Predicting Purchase of Airline Seating Using Machine Learning / Förutsägelse på köp av sätesreservation med maskininlärning. El-Hage, Sebastian January 2020 (has links) With the continuing surge in digitalization within the travel industry and the increased demand of personalized services, understanding customer behaviour is becoming a requirement to survive for travel agencies. The number of cases that addresses this problem are increasing and machine learning is expected to be the enabling technique. This thesis will attempt to train two different models, a multi-layer perceptron and a support vector machine, to reliably predict whether a customer will add a seat reservation with their flight booking. The models are trained on a large dataset consisting of 69 variables and over 1.1 million historical recordings of bookings dating back to 2017. The results from the trained models are satisfactory and the models are able to classify the data with an accuracy of around 70%. This shows that this type of problem is solvable with the techniques used. The results moreover suggest that further exploration of models and additional data could be of interest since this could help increase the level of performance. / Med den fortsatta ökningen av digitalisering inom reseindustrin och det faktum att kunder idag visar ett stort behov av skräddarsydda tjänster så stiger även kraven på företag att förstå sina kunders beteende för att överleva. En uppsjö av studier har gjorts där man försökt tackla problemet med att kunna förutse kundbeteende och maskininlärning har pekats ut som en möjliggörande teknik. Inom maskininlärning har det skett en stor utveckling och specifikt inom området djupinlärning. Detta har gjort att användningen av dessa teknologier för att lösa komplexa problem spritt sig till allt fler branscher. Den här studien implementerar en Multi-Layer Perceptron och en Support Vector Machine och tränar dessa på befintliga data för att tillförlitligt kunna avgöra om en kund kommer att köpa en sätesreservation eller inte till sin bokning. Datat som användes bestod av 69 variabler och över 1.1 miljoner historiska bokningar inom tidsspannet 2017 till 2020. Resultaten från studien är tillfredställande då modellerna i snitt lyckas klassificera med en noggrannhet på 70%, men inte optimala. Multi-Layer Perceptronen presterar bäst på båda mätvärdena som användes för att estimera prestandan på modellerna, accuracy och F1 score. Resultaten pekar även på att en påbyggnad av denna studie med mer data och fler klassificeringsmodeller är av intresse då detta skulle kunna leda till en högre nivå av prestanda. Deep learning Machine learning Binary classification Neural network Support vector machine Djupinlärning Maskininlärning Binär klassificering Neurala nätverk Stödvektormaskin Computer and Information Sciences Data- och informationsvetenskap
3	Time Series Analysis and Binary Classification in a Car-Sharing Service : Application of data-driven methods for analysing trends, seasonality, residuals and prediction of user demand / Tidsseriaanalys och binär klassificering i en bildelningstjänst : Applicering av datadrivna metoder för att analysera trender, säsongsvaritoner, residuals samt predicering av användares efterfrågan Uhr, Aksel January 2023 (has links) Researchers have estimated a 20-percentage point increase in the world’s population residing in urban areas between 2011 and 2050. The increase in denser cities results in opportunities and challenges. Two of the challenges concern sustainability and mobility. With the advancement in technology, smart mobility and car-sharing have emerged as a part of the solution. It has been estimated by research that car-sharing reduces toxic emissions and reduces car ownership, thus decreasing the need for private cars to some extent. Despite being a possible solution to the future’s mobility challenges in urban areas, car-sharing providers suffer from profitability issues. To keep assisting society in the transformation to sustainable mobility alternatives in the future, profitability needs to be reached. Two central challenges to address to reach profitability are user segmentation and demand forecasting. This study focuses on the latter problem and the aim is to understand the demand of different car types and car-sharing users’ individual demands. Quantitative research was conducted, namely, time series analysis and binary classification were selected to answer the research questions. It was concluded that there are a trend, seasonality and residual patterns in the time series capturing bookings per car type per week. However, the patterns were not extensive. Subsequently, a random forest was trained on a data set utilizing moving average feature engineering and consisting of weekly bookings of users having at least 33 journeys during an observation period over 66 weeks (N = 1335705). The final model predicted who is likely to use the service in the upcoming week in an attempt to predict individual demand. In terms of metrics, the random forest achieved a score of .89 in accuracy (both classes), .91 in precision (positive class), .73 in recall (positive class) and .82 in F1-score (positive class). We, therefore, concluded that a machine learning model can predict weekly individual demand fairly well. Future research involves further feature engineering and mapping the predictions to business actions. / Forskare har estimerat att världens befolkning som kommer bo i stadsområden kommer öka med 20 procentenheter. Ökningen av mer tätbeboliga städer medför såväl möjligheter som utmaningar. Två av utmaningarna berör hållbarhet och mobilitet. Med teknologiska framsteg har så kallad smart mobilitet och bildelning blivit en del av lösningen. Annan forskning har visat att bildelning minskar utsläpp av skadliga ämnen och minskar ägandet av bilar, vilket därmed till viss del minskar behovet av privata bilar. Trots att det är en möjlig lösning på framtidens mobilitetsutmaningar och behov i stadsområden, lider bildelningstjänster av lönsamhetsproblem. För att fortsätta bidra till samhället i omställningen till hållbara mobilitetsalternativ i framtiden, så måste lönsamhet nås. Två centrala utmaningar för att uppnå lönsamhet är användarsegmentering och efterfrågeprognoser. Denna studie fokuserar på det sistnämnda problemet. Syftet med studien är att förstå efterfrågan på olika typer av bilar samt individuell efterfrågan hos bildelninganvändare. Kvantitativ forskning genomfördes, nämligen tidsserieanalys och binär klassificering för att besvara studiens forskningsfrågor. Efter att ha genomfört statistiska tidsserietester konstaterades det att det finns trender, säsongsvariationer och residualmönster i tidsserier som beskriver bokningar per biltyp per vecka. Dessa mönster var dock inte omfattande. Därefter tränades ett så kallat random forest på en datamängd med hjälp av rörliga medelvärden (eng. moving average). Denna datamängd bestod av veckovisa bokningar från användare som hade minst 33 resor under en observationsperiod på 66 veckor (N = 1335705). Den slutliga modellen förutsade vilka som sannolikt skulle använda tjänsten kommande vecka i ett försök att prognostisera individuell efterfrågan. Med avseende på metriker uppnådde modellen ett resultat på 0,89 i noggrannhet (för båda klasserna), 0,91 i precision (positiva klassen), 0,73 i recall (positiva klassen) och 0,82 i F1-poäng (positiv klass). Vi drog därför slutsatsen att en maskininlärningsmodell kan förutsäga veckovis individuell efterfrågan relativt bra med avseende på dess slutgiltiga användning. Framtida forskning innefattar ytterligare dataselektion, samt kartläggning av prognosen till affärsåtgärder Smart mobility Car-sharing Time series analysis Demand prediction Machine learning Supervised learning Binary classification Random forest Smart mobilitet Bildelning Tidsseriaanalys Efterfrågansprediktering Maskininlärning Väglett lärande Binär klassificering Slumpmässiga skogar Computer and Information Sciences Data- och informationsvetenskap
4	Employee Churn Prediction in Healthcare Industry using Supervised Machine Learning / Förutsägelse av Personalavgång inom Sjukvården med hjälp av Övervakad Maskininlärning Gentek, Anna January 2022 (has links) Given that employees are one of the most valuable assets of any organization, losing an employee has a detrimental impact on several aspects of business activities. Loss of competence, deteriorated productivity and increased hiring costs are just a small fraction of the consequences associated with high employee churn. To deal with this issue, organizations within many industries rely on machine learning and predictive analytics to model, predict and understand the cause of employee churn so that appropriate proactive retention strategies can be applied. However, up to this date, the problem of excessive churn prevalent in the healthcare industry has not been addressed. To fill this research gap, this study investigates the applicability of a machine learning-based employee churn prediction model for a Swedish healthcare organization. We start by extracting relevant features from real employee data followed by a comprehensive feature analysis using Recursive Feature Elimination (RFE) method. A wide range of prediction models including traditional classifiers, such as Random Forest, Support Vector Machine and Logistic Regression are then implemented. In addition, we explore the performance of ensemble machine learning model, XGBoost and neural networks, specifically Artificial Neural Network (ANN). The results of this study show superiority of an SVM model with a recall of 94.8% and a ROC-AUC accuracy of 91.1%. Additionally, to understand and identify the main churn contributors, model-agnostic interpretability methods are examined and applied on top of the predictions. The analysis has shown that wellness contribution, employment rate and number of vacations days as well as number of sick day are strong indicators of churn among healthcare employees. / Det sägs ofta att anställda är en verksamhets mest värdefulla tillgång. Att förlora en anställd har därmed ofta skadlig inverkan på flera aspekter av affärsverksamheter. Därtill hör bland annat kompetensförlust, försämrad produktivitet samt ökade anställningskostnader. Dessa täcker endast en bråkdel av konsekvenserna förknippade med en för hög personalomsättningshastighet. För att hantera och förstå hög personalomsättning har många verksamheter och organisationer börjat använda sig av maskininlärning och statistisk analys där de bland annat analyserar beteendedata i syfte att förutsäga personalomsättning samt för att proaktivt skapa en bättre arbetsmiljö där anställda väljer att stanna kvar. Trots att sjukvården är en bransch som präglas av hög personalomsättning finns det i dagsläget inga studier som adresserar detta uppenbara problem med utgångspunkt i maskininlärning. Denna studien undersöker tillämpbarheten av maskininlärningsmodeller för att modellera och förutsäga personalomsättning i en svensk sjukvårdsorganisation. Med utgångspunkt i relevanta variabler från faktisk data på anställda tillämpar vi Recursive Feature Elimination (RFE) som den primära analysmetoden. I nästa steg tillämpar vi flertalet prediktionsmodeller inklusive traditionella klassificerare såsom Random Forest, Support Vector Machine och Logistic Regression. Denna studien utvärderar också hur pass relevanta Neural Networks eller mer specifikt Artificial Neural Networks (ANN) är i syfte att förutse personalomsättning. Slutligen utvärderar vi precisionen av en sammansatt maskininlärningsmodell, Extreme Gradient Boost. Studiens resultat påvisar att SVM är en överlägsen model med 94.8% noggranhet. Resultaten från studien möjliggör även identifiering av variabler som mest bidrar till personalomsättning. Vår analys påvisar att variablerna relaterade till avhopp är friskvårdbidrag, sysselsättningsgrad, antal semesterdagar samt sjuktid är starkt korrelerade med personalomsättning i sjukvården. Employee churn Churn Prediction Predictive modeling Machine learning Deep-Learning Data mining Binary Classification Personalomsättning Avhoppsanalys Prediktiv Modellering Maskininlärning Datautvinning Binär Klassificering Computer Sciences Datavetenskap (datalogi) Computer Engineering Datorteknik

1

Page generated in 0.0718 seconds