101 |
Customer Churn Analysis and Prediction using Machine Learning for a B2B SaaS company / Kundundersökning och förutsägelse med maskininlärning för ett B2B SaaS-företagSergue, Marie January 2020 (has links)
This past decade, the majority of services have been digitalized and data more and more available, easy to store and to process in order to understand customers behaviors. In order to be leaders in their proper industries, subscription-based businesses must focus on their Customer Relationship Management and in particular churn management, that is understanding customers cancelling their subscription. In this thesis, churn analysis is performed on real life data from a Software as a Service (SaaS) company selling an advanced cloud-based business phone system, Aircall. This use case has the particularity that the available dataset gathers customers data on a monthly basis and has a very imbalanced distribution of the target: a large majority of customers do not churn. Therefore, several methods are tried in order to diminish the impact of the imbalance while remaining as close as possible to the real world and the temporal framework. These methods include oversampling and undersampling (SMOTE and Tomek's link) and time series cross-validation. Then logistic regression and random forest models are used with an aim to both predict and explain churn.The non-linear method performed better than logistic regression, suggesting the limitation of linear models for our use case. Moreover, mixing oversampling with undersampling gives better performances in terms of precision/recall trade-off. Time series cross-validation also happens to be an efficient method to improve performance of the model. Overall, the resulting model is more useful to explain churn than to predict it. It highlighted some features majorly influencing churn, mostly related to product usage. / Under det senaste decenniet har många tjänster digitaliserats och data blivit mer och mer tillgängliga, enkla att lagra och bearbeta med syftet att förstå kundbeteende. För att kunna vara ledande inom sina branscher måste prenumerationsbaserade företag fokusera på kundrelationshantering och i synnerhet churn management, det vill säga förståelse för hur kunder avbryter sin prenumeration. I denna uppsats utförs kärnanalys på verkliga data från ett SaaS-företag (software as a service) som säljer ett avancerat molnbaserat företagstelefonsystem, Aircall. Denna fallstudie är speciell på så sätt att den tillgängliga datamängden består av månatlig kunddata med en mycket ojämn fördelning: en stor majoritet av kunderna avbryter inte sina prenumerationer. Därför undersöks flera metoder för att minska effekten av denna obalans, samtidigt som de förblir så nära den verkliga världen och den tidsmässiga ramen. Dessa metoder inkluderar översampling och undersampling (SMOTE och Tomeks länk) och korsvalidering av tidsserier. Sedan används logistisk regression och random forests i syfte att både förutsäga och förklara prenumerationsbortfall. Den icke-linjära metoden presterade bättre än logistisk regression, vilket tyder på en begränsning hos linjära modeller i vårt användningsfall. Dessutom ger blandning av översampling med undersampling bättre prestanda när det gäller precision och återkoppling. Korsvalidering av tidsserier är också en effektiv metod för att förbättra modellens prestanda. Sammantaget är den resulterande modellen mer användbar för att förklara bortfall än att förutsäga dessa. Med hjälp av modellen kunde vissa faktorer, främst relaterade till produktanvändning, som påverkar bortfallet identifieras.
|
102 |
Prediction of Optimal Packaging Solution using Supervised Learning Methods / Förutsägelse av optimal förpackningslösning med övervakade inlärningsmodellerChari, Anirudh Venkat January 2020 (has links)
This thesis investigates the feasibility of supervised learning models in the decision-making problem to package products and predict an optimal packaging solution. The decision-making problem was broken down into a multi-class classification and a regression problem using relevant literature. Supervised learning models from the field of logistics were shortlisted namely; Generalized Linear Models, Support Vector Machines, Random Forest and Gradient Boosted Trees using CatBoost. The performance of the models were evaluated based on relevant metrics, interpretability and ease of implementation. The results from this thesis show that the Random Forest model had the best performance on all the aforementioned criteria in both the classification and regression problems. / Denna avhandling undersöker möjligheten att genomföra övervakade inlärningsmodeller i syfte att förbättra beslutsprocessen kring produktpaketering samt att förutsäga en optimal förpackningslösning. Beslutsfattandeprocessen bröts ner i klassificeringsdelar samt ett regressionsproblem med hjälp av relevant litteratur. De övervakade inlärningsmodeller från logistikområdet som har använts är ”Generalized Linear Models”, ”Support Vector Machines”, ”Random Forest” och ”Gradient Boosted Trees using CatBoost”. Modellerna har utvärderades utifrån relevanta mätvärden, tolkbarhet och enkelhet avseende implementering. Resultaten i denna avhandling visar att ”Random Forest”-modellen har bäst prestanda på alla ovannämnda kriterier, både vad gäller klassificerings- och regressionsproblemen.
|
103 |
Syna: Emotion Recognition based on Spatio-Temporal Machine LearningShahrokhian, Daniyal January 2017 (has links)
The analysis of emotions in humans is a field that has been studied for centuries. Through the last decade, multiple approaches towards automatic emotion recognition have been developed to tackle the task of making this analysis autonomous. More specifically, facial expressions in the form of Action Units have been considered until now the most efficient way to recognize emotions. In recent years, applying machine learning for this task has shown outstanding improvements in the accuracy of the solutions. Through this technique, the features can now be automatically learned from the training data, instead of relying on expert domain knowledge and hand-crafted rules. In this thesis, I present Syna and DeepSyna, two models capable of classifying emotional expressions by using both spatial and temporal features. The experimental results demonstrate the effectiveness of Syna in constrained environments, while there is still room for improvement in both constrained and in-the-wild settings. DeepSyna, while addressing this problem, on the other hand suffers from data scarcity and irrelevant transfer learning, which can be solved by future work. / Mänsklig känsloigenkänning har studerats i århundraden. Det senaste årtiondet har mängder av tillvägagångssätt för automatiska processer studerats, för att möjliggöra autonomi; mer specifikt så har ansiktsuttryck i form av Action Units ansetts vara mest effektiva. Maskininlärning har dock nyligen visat att enorma framsteg är möjliga vad gäller bra lösningar på problemen. Så kallade features kan nu automatiskt läras in från träningsdata, även utan expertkunskap och heuristik. Jag presenterar här Syna och DeepSyna, två modeller för ändamålet som använder både spatiala och temporala features. Experiment demonstrerar Synas effektivitet i vissa begränsade omgivningar, medan mycket lämnas att önska vad gäller generella sådana. DeepSyna löser detta men lider samtidigt av databristproblem och onödig så kallad transfer learning, vilket här lämnas till framtida arbete.
|
104 |
Differential privacy and machine learning: Calculating sensitivity with generated data sets / Differential privacy och maskininlärning: Beräkning av sensitivitet med genererade datasetLundmark, Magnus, Dahlman, Carl-Johan January 2017 (has links)
Privacy has never been more important to maintain in today’s information society. Companies and organizations collect large amounts of data about their users. This information is considered to be valuable due to its statistical usage that provide insight into certain areas such as medicine, economics, or behavioural patterns among individuals. A technique called differential privacy has been developed to ensure that the privacy of individuals are maintained. This enables the ability to create useful statistics while the privacy of the individual is maintained. However the disadvantage of differential privacy is the magnitude of the randomized noise applied to the data in order to hide the individual. This research examined whether it is possible to improve the usability of the privatized result by using machine learning to generate a data set that the noise can be based on. The purpose of the generated data set is to provide a local representation of the underlying data set that is safe to use when calculating the magnitude of the randomized noise. The results of this research has determined that this approach is currently not a feasible solution, but demonstrates possible ways to base further research in order to improve the usability of differential privacy. The research indicates limiting the noise to a lower bound calculated from the underlying data set might be enough to reach all privacy requirements. Furthermore, the accuracy of the machining learning algorithm and its impact on the usability of the noise, was not fully investigated and could be of interest in future studies. / Aldrig tidigare har integritet varit viktigare att upprätthålla än i dagens informationssamhälle, där företag och organisationer samlar stora mängder data om sina användare. Merparten av denna information är sedd som värdefull och kan användas för att skapa statistik som i sin tur kan ge insikt inom områden som medicin, ekonomi eller beteendemönster bland individer. För att säkerställa att en enskild individs integritet upprätthålls har en teknik som heter differential privacy utvecklats. Denna möjliggör framtagandet av användbar statistik samtidigt som individens integritet upprätthålls. Differential privacy har dock en nackdel, och det är storleken på det randomiserade bruset som används för att dölja individen i en fråga om data. Denna undersökning undersökte huruvida detta brus kunde förbättras genom att använda maskininlärning för att generera ett data set som bruset kunde baseras på. Tanken var att den genererade datasetet skulle kunna ge en lokal representation av det underliggande datasetet som skulle vara säker att använda vid beräkning av det randomiserade brusets storlek. Forskningen visar att detta tillvägagångssätt för närvarande inte stöds av resultaten. Storleken på det beräknade bruset var inte tillräckligt stort och resulterade därmed i en oacceptabel mängd läckt information. Forskningen visar emellertid att genom att begränsa bruset till en lägsta nivå som är beräknad från det lokala datasetet möjligtvis kan räcka för att uppfylla alla sekretesskrav. Ytterligare forskning behövs för att säkerställa att detta ger den nödvändiga nivån av integritet. Vidare undersöktes inte noggrannheten hos maskininlärningsalgoritmen och dess inverkan på brusets användbarhet vilket kan vara en inriktning för vidare studier.
|
105 |
Identifiering av tendenser i data för prediktiv analys hos Flygresor.se / Identifying trends in data for predictive analytics at Flygresor.seHildebrandt, Filip, Halling, Leonard January 2017 (has links)
I och med digitaliseringen förändras samhället snabbare än någonsin och det är viktigt för företag att hålla sig uppdaterade för att kunna anpassa sin verksamhet till en marknad som hela tiden utvecklas. Det existerar en uppsjö av business intelligence modeller för just detta ändamål, och prediktiv analys är en central del bland dessa. Fokus i denna rapport ligger i att undersöka i vilken utsträckning tre olika prediktiva analysmetoder lämpar sig för ett specifikt uppdrag gällande månadsprognoser baserat på klickdata från Flygresor.se. Målet med rapporten är att kunna redogöra för vilken av metoderna som fastställer den mest precisa prognoser för given data och vilka karakteristiska drag i datan som bidrar till detta resultat. Vi kommer att tillämpa de prediktiva analysmodellerna Holt-Winters och ARIMA, samt en utbyggd linjär approximation, på historisk klickdata och återge arbetsprocessen samt utifrån resultatet beskriva vilka konsekvenser datan från Flygresor.se förde med sig. / With digitization, society changes faster than ever and it’s important for companies to stay up to date in order to adapt their business to a constantly changing market. There exists a lot of models in business intelligence, and predictive analytics is an important one. This study investigates to what extent three different methods of predictive analytics are suitable for a specific assignment regarding monthly forecasts based on click data from Flygresor.se. The purpose of the report is to be able to present which of the methods who determines the most precise forecasts for the given data and what trends in the data that contributes to this result. We will use the predictive analytics models Holt-Winters and ARIMA, as well as an expanded linear approximation, on historical click data and render the work process as well as what consequences the data from Flygresor.se brought with them.
|
106 |
Schemaläggning med hjälp av maskininlärning / Scheduling with the assistance of Machine learningOgeborg, Marcus, Widerberg, Vincent January 2017 (has links)
Detta arbete har utvärderat om maskininlärning kan tillföra nytta vid schemaplanering.Utvärderingen baserades på tester där prototyper använde arbetskalendrar föratt träna och mäta sin prediktiva förmåga. Kalendrarna tillhandahölls från två service-och installationsbolag i Stockholmsområdet. Genom att testa vilka utförandetiderprototyperna krävde utvärderades om tillämpningen skulle vara praktiskt användbarpå arbetsverktyg som exempelvis smartphones.Totalt utvecklades tre prototyper som gjordes prediktiva med hjälp av algoritmernaDensity-based Spatial Clustering of Applications with Noise (DBSCAN), LogisticRegression och Weighted K-Nearest Neighbors (wKNN). Resultatet visade attDBSCAN var den algoritm som sammantaget presterade bäst. Dock kunde inte enslutsats dras om maskininlärning skulle vara användbart. Andelen lyckade prediktioneröverskred inte andelen tillgängliga tider på de berörda dagarna som testernautfördes, vilket antogs vara ett otillfredsställande resultat. Datahanteringen krävdeen betydande mängd resurser, vilket skulle kunna vara ett problem vid praktisk tilllämpning. / This study has been analyzing if machine learning could be useful to work-relatedscheduling. The analysis was based on predictions generated by prototypes usingbusiness calendars. The business calendars were collected from two service and installationcompanies in the Stockholm region. An analysis was conducted regardingif the application could be practically applied to devices such as a smartphone. Theanalysis was based on tests regarding the prototypes required time to perform theirtasks.Three prototypes were developed with algorithms that made them predictive. Density-based Spatial Clustering of Applications with Noise (DBSCAN), Logistic Regressionand Weighted K-Nearest Neighbors (wKNN) were the implemented algorithms.DBSCAN was the best-performing algorithm according to the tests. However, a conclusioncould not be found concerning whether machine learning could be useful.The number of successful predictions did not exceed the number of available timeson concerned days, which was assumed as unsatisfying results. In addition, the prototypesneeded a significant amount of resources which could be a problem in practicaluse.
|
107 |
Machine Learning to predict student performance based on well-being data : a technical and ethical discussion / Maskininlärning för att förutsäga elevers prestationer baserat på data om mående : en teknisk och etisk diskussionMcCarren, Lucy January 2023 (has links)
The data provided by educational platforms and digital tools offers new ways of analysing students’ learning strategies. One such digital tool is the wellbeing platform created by EdAider, which consists of an interface where students can answer questions about their well-being, and a dashboard where teachers and schools can see insights into the well-being of individual students and groups of students. Both students and teachers can see the development of student well-being on a weekly basis. This thesis project investigates how Machine Learning (ML) can be used along side Learning Analytics (LA) to understand and improve students’ well-being. Real-world data generated by students at Swedish schools using EdAider’s well-being platform is analysed to generate data insights. In addition ML methods are implemented in order to build a model to predict whether students are at risk of failing based from their well-being data, with the goal to inform data-driven improvements of students’ education. This thesis has three primary goals which are to: 1. Generate data insights to further understand patterns in the student wellbeing data. 2. Design a classification model using ML methods to predict student performance based on well-being data, and validate the model against actual performance data provided by the schools. 3. Carry out an ethical evaluation of the data analysis and grade prediction model. The results showed that males report higher well-being on average than females across most well-being factors, with the exception of relationships where females report higher well-being than males. Students identifying as non-binary gender report a considerably lower level of well-being compared with males and females across all 8 well-being factors. However, the amount of data for non-binary students was limited. Primary schools report higher well-being than the older secondary school students. Students reported anxiety/depression as the most closely correlated dimensions, followed by engagement/accomplishment and positive emotion/depression. Logistic regression and random forest models were used to build a performance prediction model, which aims to predict whether a student is at risk of performing poorly based on their reported well-being data. The model achieved accuracy of 80-85 percent. Various methods of feature importance including regularization, recursive feature selection, and impurity decrease for random forest were investigated to examine which well-being factors have the most effect on performance. All methods of examining feature importance consistently identified three features as important: ”accomplishment,” ”depression,” and ”number of surveys answered.” The benefits, risks and ethical value conflicts of the data analysis and prediction model were carefully considered and discussed using a Value Sensitive Design approach. Ethical practices for mitigating risks are discussed. / Den data som tillhandahålls av utbildningsplattformar och digitala verktyg erbjuder nya sätt att analysera studenters inlärningsstrategier. Ett sådant digitalt verktyg är mående plattformen skapad av EdAider, som består av ett gränssnitt där elever kan svara på frågor om deras mående, och en dashboard där lärare och skolor kan se insikter om individuella elevers och grupper av elevers mående. Både elever och lärare kan se utvecklingen av elevers mående på veckobasis. Detta examensarbete undersöker hur Maskininlärning (ML) kan användas tillsammans med Inlärningsanalys (LA) för att förstå och förbättra elevers mående. Verkliga data genererade av elever vid svenska skolor med hjälp av EdAiders måendeplattform analyseras för att skapa insikter om data. Dessutom implementeras ML-metoder för att bygga en modell för att förutsäga om elever riskerar att misslyckas baserat på deras mående-data, med målet att informera data-drivna förbättringar av elevers utbildning. Detta examensarbete har tre primära mål: 1. Skapa datainsikter för att ytterligare förstå mönster i data om elevers mående. 2. Utforma en modell med hjälp av ML-metoder för att förutsäga elevprestationer baserat på mående-data, och validera modellen mot faktiska prestationsdata som tillhandahålls av skolorna. 3. Utföra en etisk utvärdering av dataanalysen och modellen för betygsprediktion. Resultaten visade att pojkar i genomsnitt rapporterar högre mående än flickor inom de flesta måendefaktorer, med undantag för relationer där flickor rapporterar högre mående än pojkar. Elever som identifierar sig som icke-binära rapporterar en betydligt lägre nivå av mående jämfört med pojkar och flickor över alla 8 måendefaktorer. Men mängden data för icke-binära elever var begränsad. Grundskolor rapporterar högre mående än äldre gymnasieelever. Elever rapporterade ångest/depression som de mest nära korrelerade dimensionerna, följt av engagemang/prestation och positivt känsloläge/depression. Logistisk regression och random forest-modeller användes för att bygga en prestationsprediktionmodell, med en noggrannhet på 80-85 procent uppnådd. Olika metoder för feature selection undersöktes, inklusive regularisering, recursive feature selection och impurity decrease för random forest. Alla metoder för undersökning av feature selection identifierade konsekvent tre funktioner som viktiga: ”prestation,” ”depression,” och ”antal svarade enkäter.” Fördelarna, riskerna och etiska värdekonflikterna i dataanalysen och prediktionsmodellen beaktades noggrant och diskuterades med hjälp av en Value Sensitive Design-ansats.
|
108 |
En utvärdering av Markerless Motion Capture för amatörer / An Evaluation of Markerless Motion Capture Tools for AmateursOttosson, Johan, Schüllerqvist, Yasmine January 2022 (has links)
Motion capture(“MoCap”) has been used for a long time in the movie and videogame industries to animate digital characters. This technology commonly requires a studio and expensive stationary equipment. However, in recent years markerless MoCap has emerged. This is a technology that uses machine learning to estimate and reproduce the movements of humans. This technology can be used with a single video camera thus making it more accessible. This study relates to research on motion capture, machine learning and computer animation. The study examines a selection of markerless MoCap tools available on the market with amateurs and small businesses as target audiences. This to explore to which extent markerless MoCap for amateurs is suitable for use. The research questions asked in this study are: How well do these tools recreate motions from an animation? How are these results affected by aggravating circumstances? How do the results of the tools differ from each other? To explore these questions, a selection of five markerless MoCap services was made. These five services were then tested to study their performances in different aggravating circumstances. An original animation was created and used in these tests. The results from these tests were analyzed using a qualitative visual analysis and a numerical analysis of extreme values. The study found the tools could not accurately reproduce the animation they were given to process. The most prominent problem being that of depth perception, which resulted in the processed animations often deviating in depth. The services also had obvious problems with recreating arms. The study also found that some of the different aggravating circumstances affected the results more than others. The results of this study shows that markerless MoCap for amateurs still has development ahead of it before the technology can be considered an effective tool. / Motion Capture (“MoCap”) har länge använts inom film- och spelindustrin för att animera digitala karaktärer. MoCap i storskalig produktion kräver dock vanligtvis en studio och dyr utrustning. Men på senare år har Markerless MoCap vuxit fram. Det är en teknik som använder sig av maskininlärning för att estimera och avbilda en persons rörelser. Denna kan användas med enbart en videokamera vilket gör tekniken lättillgänglig. Denna studie relaterar till forskning som berör Motion Capture, 3D-datoranimation, AI och maskininlärning. Studien undersöker ett urval av Markerless MoCap-verktyg som finns tillgängliga allmänheten, med amatörer och småföretag som målgrupp. Detta i syfte att undersöka i vilken utsträckning markerless MoCap för amatörer är lämplig för bruk. Problemformuleringen i denna studie är: Hur väl återskapar programmen rörelserna från en animation? Hur påverkas detta resultat av försvårande omständigheter? Hur skiljer sig dessa programs resultat från varandra? För att undersöka dessa frågor gjordes ett urval av fem Markerless MoCap-verktyg. Dessa fem verktyg testades för att studera verktygens prestationer under olika försvårande omständigheter. En egenproducerad animation användes i dessa tester. Resultaten från dessa tester analyserades med en kvalitativ visuell analys och en numerisk analys av extremvärden. Studien fann att verktygen inte med precision kunde återge den animation de fått att avbilda. Tydligast var problemet med djupseendet, vilket resulterade i att de bearbetade animationerna ofta avvek i djupled. Verktygen hade också påtagliga problem med att avbilda armar. Studien fann även att vissa försvårande omständigheter hade större effekt än andra. Den här studiens resultat visar att Markerless MoCap för amatörer fortfarande har utveckling kvar innan tekniken kan betraktas som ett effektivt verktyg.
|
109 |
Passenger flow prediction : Finding and developing a sustainable machine learning model for airport passenger flow predictionHaglund, Tomas, Jonsson, Oskar January 2023 (has links)
There are many outdated routines and processes in today's aviation industry that major airlines lack the motivation to update. While this may not hold any direct security concerns, it creates bottlenecks at checks and high salary costs for otiose airport personnel. This study aims to together with the company Objective Solutions examine the possibility to increase the costeffectiveness in the security checks at Arlanda, tested on terminal 5, using a machine learning model which would serve as the basis for the scheduling of personnel. When performing this study, appropriate model alternatives were identified based on model characteristics and the task given. Three models were extensively explored and developed, Seasonal Autoregressive Integrated Moving Average Exogenous (SARIMAX), Holt Winters Exponential Smoothing (HWES) and Long Short Term Memory (LSTM). These were tested using real data collected from the airport database obtained through SQL. The model was built using Python in the Google Colab platform, the data was first handled and restructured and was then run through the different models with equal prerequisites. The models were evaluated using three different measuring tools; Mean Squared Error (MSE), Mean Absolute Error (MAE) and graphically. One of the models, Long Short Term Memory (LSTM), showed better accuracy than the others and was deemed successful in fulfilling the defined objectives of accurately identifying and predicting trends over the desired time period of two months. While this model was successful in reaching the defined requirements such as identifying trends and irregularities, the stochastic design of it entailed some instability which sometimes generated shifting results between runs, and it is up to Objective Solutions to decide if it is deemed appropriate to finalize the model into an end product ready for practical implementation.
|
110 |
Multi-Class Classification for Predicting Customer Satisfaction : Application of machine learning methods to predict customer satisfaction at IKEABackerholm, Stina, Börjesjö, Malin January 2023 (has links)
Gaining a comprehensive understanding of the features that contribute to customer satisfaction after contact with IKEA’s Remote Customer Meeting Points (RCMPs) is essential for implementing effective remedial measures in the future. The aim of this project is to investigate if it is possible to find key features that influence customer satisfaction and to use these to predict customer satisfaction. The task has been approached as a multi-class classification problem, with the objective of classifying the observations into five distinct levels of customer satisfaction. The study utilized three models, Multinomial Logistic Regression, Random Forest, and Extreme Gradient Boosting, to investigate these possibilities. Based on the methods used and the available data, the results indicate that it is currently not feasible to accurately identify key features or predict customer satisfaction. / Att förstå vilka faktorer som bidrar till kundnöjdhet efter en kontakt med IKEAs RCMPs är avgörande för att kunna genomföra effektiva åtgärder i framtiden. Syftet med detta projekt är att undersöka om det är möjligt att hitta nyckelfaktorer som påverkar kundnöjdhet och använda dessa för att prediktera kundnöjdhet. Uppgiften har angripits som ett multi-klass klassificeringsproblem, med syftet att klas- sificera observationerna i fem olika nivåer av kundnöjdhet. Studien har utvärderat tre olika modeller, Multinomial Logistic Regression, Random Forest och Extreme Gradient Boosting, för att undersöka dessa möjligheter. Baserat på de använda metoderna med tillgängliga data, indikerar resultaten att det för tillfället inte är möjligt att identifiera nyckelfaktorer eller prediktera kundnöjdhet med hög noggrannhet.
|
Page generated in 0.0631 seconds