Spelling suggestions: "subject:"random forest."" "subject:"fandom forest.""
211 |
Ärendehantering genom maskininlärningBennheden, Daniel January 2023 (has links)
Det här examensarbetet undersöker hur artificiell intelligens kan användas för att automatisktkategorisera felanmälan som behandlas i ett ärendehanteringssystem genom att användamaskininlärning och tekniker som text mining. Studien utgår från Design Science ResearchMethodology och Peffers sex steg för designmetodologi som utöver design även berör kravställningoch utvärdering av funktion. Maskininlärningsmodellerna som tagits fram tränades på historiskadata från ärendehanteringssystem Infracontrol Online med fyra typer av olika algoritmer, NaiveBayes, Support Vector Machine, Neural Network och Random Forest. En webapplikation togs framför att demonstrera hur en av de maskininlärningsmodeller som tränats fungerar och kan användasför att kategorisera text. Olika användare av systemet har därefter haft möjlighet att testafunktionen och utvärdera hur den fungerar genom att markera när kategoriseringen avtextprompter träffar rätt respektive fel.Resultatet visar på att det är möjligt att lösa uppgiften med hjälp av maskininlärning. En avgörandedel av utvecklingsarbetet för att göra modellen användbar var urvalet av data som användes för attträna modellen. Olika kunder som använder systemet, använder det på olika sätt, vilket gjorde detfördelaktigt att separera dem och träna modeller för olika kunder individuellt. En källa tillinkonsistenta resultat är hur organisationer förändrar sina processer och ärendehantering över tidoch problemet hanterades genom att begränsa hur långt tillbaka i tiden modellen hämtar data förträning. Dessa två strategier för att hantera problem har nackdelen att den mängd historiska datasom finns tillgänglig att träna modellen på minskar, men resultaten visar inte någon tydlig nackdelför de maskininlärningsmodeller som tränats på mindre datamängder utan även de har en godtagbarträffsäkerhet. / This thesis investigates how artificial intelligence can be used to automatically categorize faultreports that are processed in a case management system by using machine learning and techniquessuch as text mining. The study is based on Design Science Research Methodology and Peffer's sixsteps of design methodology, which in addition to design of an artifact concerns requirements andevaluation. The machine learning models that were developed were trained on historical data fromthe case management system Infracontrol Online, using four types of algorithms, Naive Bayes,Support Vector Machine, Neural Network, and Random Forest. A web application was developed todemonstrate how one of the machine learning models trained works and can be used to categorizetext. Regular users of the system have then had the opportunity to test the performance of themodel and evaluate how it works by marking where it categorizes text prompts correctly.The results show that it is possible to solve the task using machine learning. A crucial part of thedevelopment was the selection of data used to train the model. Different customers using thesystem use it in different ways, which made it advantageous to separate them and train models fordifferent customers independently. Another source of inconsistent results is how organizationschange their processes and thus case management over time. This issue was addressed by limitinghow far back in time the model retrieves data for training. The two strategies for solving the issuesmentioned have the disadvantage that the amount of historical data available for training decreases,but the results do not show any clear disadvantage for the machine learning models trained onsmaller data sets. They perform well and tests show an acceptable level of accuracy for theirpredictions
|
212 |
A Study of an Iterative User-Specific Human Activity Classification ApproachFürderer, Niklas January 2019 (has links)
Applications for sensor-based human activity recognition use the latest algorithms for the detection and classification of human everyday activities, both for online and offline use cases. The insights generated by those algorithms can in a next step be used within a wide broad of applications such as safety, fitness tracking, localization, personalized health advice and improved child and elderly care.In order for an algorithm to be performant, a significant amount of annotated data from a specific target audience is required. However, a satisfying data collection process is cost and labor intensive. This also may be unfeasible for specific target groups as aging effects motion patterns and behaviors. One main challenge in this application area lies in the ability to identify relevant changes over time while being able to reuse previously annotated user data. The accurate detection of those user-specific patterns and movement behaviors therefore requires individual and adaptive classification models for human activities.The goal of this degree work is to compare several supervised classifier performances when trained and tested on a newly iterative user-specific human activity classification approach as described in this report. A qualitative and quantitative data collection process was applied. The tree-based classification algorithms Decision Tree, Random Forest as well as XGBoost were tested on custom based datasets divided into three groups. The datasets contained labeled motion data of 21 volunteers from wrist worn sensors.Computed across all datasets, the average performance measured in recall increased by 5.2% (using a simulated leave-one-subject-out cross evaluation) for algorithms trained via the described approach compared to a random non-iterative approach. / Sensorbaserad aktivitetsigenkänning använder sig av det senaste algoritmerna för detektion och klassificering av mänskliga vardagliga aktiviteter, både i uppoch frånkopplat läge. De insikter som genereras av algoritmerna kan i ett nästa steg användas inom en mängd nya applikationer inom områden så som säkerhet, träningmonitorering, platsangivelser, personifierade hälsoråd samt inom barnoch äldreomsorgen.För att en algoritm skall uppnå hög prestanda krävs en inte obetydlig mängd annoterad data, som med fördel härrör från den avsedda målgruppen. Dock är datainsamlingsprocessen kostnadsoch arbetsintensiv. Den kan dessutom även vara orimlig att genomföra för vissa specifika målgrupper, då åldrandet påverkar rörelsemönster och beteenden. En av de största utmaningarna inom detta område är att hitta de relevanta förändringar som sker över tid, samtidigt som man vill återanvända tidigare annoterad data. För att kunna skapa en korrekt bild av det individuella rörelsemönstret behövs därför individuella och adaptiva klassificeringsmodeller.Målet med detta examensarbete är att jämföra flera olika övervakade klassificerares (eng. supervised classifiers) prestanda när dem tränats med hjälp av ett iterativt användarspecifikt aktivitetsklassificeringsmetod, som beskrivs i denna rapport. En kvalitativ och kvantitativ datainsamlingsprocess tillämpades. Trädbaserade klassificeringsalgoritmerna Decision Tree, Random Forest samt XGBoost testades utifrån specifikt skapade dataset baserade på 21 volontärer, som delades in i tre grupper. Data är baserad på rörelsedata från armbandssensorer.Beräknat över samtlig data, ökade den genomsnittliga sensitiviteten med 5.2% (simulerad korsvalidering genom utelämna-en-individ) för algoritmer tränade via beskrivna metoden jämfört med slumpvis icke-iterativ träning.
|
213 |
A Machine Learning Estimation of the Occupancy of Padel Facilities in Sweden : An application of Random Forest algorithm on a padel booking dataset / Uppskattning av svenska padelanläggningars beläggningsgrad genom maskininlärningJohansson, Michael, Gonzálvez Läth, Nadia January 2022 (has links)
Padel is one of the fastest growing sports in Sweden. Its popularity rose significantly during the Covid-19 pandemic in 2020, as many other types of sport facilities closed, and people had more flexible work schedules due to remote work. This paper is an analysis on the monthly occupancy of indoor padel facilities in Sweden between January 2018 and April 2022. It aims to answer to what degree a machine learning algorithm can predict the occupancy for a given padel facility and which key features have the largest impact on the occupancy. With these findings, it is possible to estimate the revenue for a given padel facility and therefore be used to identify which type of padel facilities have the biggest opportunity to succeed from an economical perspective. This article reviews the literature regarding different methods of machine learning, in this case, applied to booking systems and occupancy estimations. The reviewed literature also presents the most common evaluation metrics used for comparing different machine learning models. This study analyses the relationship between the occupancy level of a given padel facility and 12 input features, related to the padel facility in question, with a random forest regression model. This work results in a model that achieved a R2 score of 49% and a mean absolute error of 11%. The input features ranked according to the largest impact on the model’s estimation are (with the mean of all absolute SHAP values written in parentheses): Year (7.71), Month (5.23), Average Income in municipality (4.13), Driving Time from municipality Centre (2.35), Population of municipality (1.97), Padel Slots in municipality (1.27), Padel Slots in facility (1.27), Average Court Price (1.12), Tennis Slots in municipality (0.73), Badminton Slots in municipality (0.55), Squash Slots in municipality (0.44) and Golf Slots in municipality (0.26). Padel facilities had the highest average occupancy in 2020. The Covid-19 pandemic is likely a significant contributor to this, due to the shutdown of offices and many types of training venues. Therefore, Year has the largest impact on the model’s estimation. Occupancy of indoor facilities follows a seasonal trend, where it tends to be highest in December and January and lowest in June and July. This trend can partly be explained by a larger demand for indoor sport activities during winter and increased competition from outside padel facilities and other activities during summer. Because of this, Month had the second largest impact on the model’s estimation. / Padel är en av de snabbast växande sporterna i Sverige. Dess popularitet ökade avsevärt under Covid-19-pandemin i 2020, främst på grund av att många andra typer av sportanläggningar stängdes ner och människor hade mer flexibla arbetsscheman på grund av distansarbete. Den här uppsatsen är en analys av den månatliga beläggningen av inomhuspadelanläggningar i Sverige mellan januari 2018 och april 2022. Studien syftar till att svara på i vilken grad en maskininlärningsalgoritm kan förutsäga beläggningen för en given padelanläggning och vilka nyckelfunktioner som har störst inverkan på beläggningen. Med dessa insikter är det möjligt att uppskatta intäkterna för en given padelanläggning och kan därför användas vilka typer av padelanläggningar som har störst möjlighet att vara framgångsrika ur ett ekonomiskt perspektiv. Den granskade litteraturen studerar olika maskininlärningsmetoder tillämpad i områden som bokningssystemsanalys och beläggningsgradsstudier, samt presenterar de vanligaste utvärderingsmåtten som används för att jämföra metoderna. Denna studie analyserar sambandet mellan beläggningsgraden för en given padelanläggning och 12 inputparametrar, relaterade till padelanläggningen i fråga med hjälp av en random forest regressionsalgoritm. Detta arbete resulterar i en modell som uppnådde ett R2 värde på 49% och en genomsnittlig absolut avvikelse på 11 %. Inputparametrarna rangordnade enligt den största påverkan på modellens uppskattning är (med medelvärdet av alla absoluta SHAP-värden skrivna inom parentes): År (7.71), Månad (5.23), Genomsnittlig Inkomst i kommunen (4.13), Körtid mellan anläggning och kommunens centrum (2.35), Kommunens befolkningsmängd (1.97), Antal padeltider i kommunen (1.27), Padeltider i anläggningen(1.27), Genomsnittlig pris för bana(1.12), Tennistider i kommunen (0.73), Badmintontider i kommunen (0.55), Squashtider i kommunen (0.44) och Golftider i kommunen (0.26). Padelanläggningar hade högsta genomsnittliga beläggningsgraden under 2020. Covid-19-pandemin är sannolikt en betydande bidragande orsak till detta på grund av nedläggningen av kontor och andra sportanläggningar. Därför har inputparametern År den största inverkan på modellens uppskattning. Beläggningen av inomhusanläggningar följer en säsongsmässig trend, där den tenderar att vara högst i januari och lägst i juli. Denna trend kan delvis förklaras av en större efterfrågan på inomhussportaktiviteter under vintern och ökad konkurrens från utomstående padelanläggningar och andra aktiviteter under sommaren. På grund av detta hade Månad den näst största påverkan på modellens uppskattning.
|
214 |
Machine Learning Algorithms to Predict Cost Account Codes in an ERP System : An Exploratory Case StudyWirdemo, Alexander January 2023 (has links)
This study aimed to investigate how Machine Learning (ML) algorithms can be used to predict the cost account code to be used when handling invoices in an Enterprise Resource Planning (ERP) system commonly found in the Swedish public sector. This implied testing which one of the tested algorithms that performs the best and what criteria that need to be met in order to perform the best. Previous studies on ML and its use in invoice classification have focused on either the accounts payable side or the accounts receivable side of the balance sheet. The studies have used a variety of methods, some not only involving common ML algorithms such as Random forest, Naïve Bayes, Decision tree, Support Vector Machine, Logistic regression, Neural network or k-nearest Neighbor but also other classifiers such as rule classifiers and naïve classifiers. The general conclusion from previous studies is that several algorithms can classify invoices with a satisfactory accuracy score and that Random forest, Naïve Bayes and Neural network have shown the most promising results. The study was performed as an exploratory case study. The case company was a small municipal community where the finance clerks handles received invoices through an ERP system. The accounting step of invoice handling involves selecting the proper cost account code before submitting the invoice for review and approval. The data used was invoice summaries holding the organization number, bankgiro, postgiro and account code used. The algorithms selected for the task were the supervised learning algorithms Random forest and Naïve Bayes and the instance-based algorithm k-Nearest Neighbor (k-NN). The findings indicated that ML could be used to predict which cost account code to be used by providing a pre-filled suggestion when the clerk opens the invoice. Among the algorithms tested, Random forest performed the best with 78% accuracy (Naïve Bayes and k-NN performed at 69% and 70% accuracy, respectively). One reason for this is Random forest’s ability to handle several input variables, generate an unbiased estimate of the generalization error, and its ability to give information about the relationship between the variables and classification. However, a high level of support is needed in order to get the algorithm to perform at its best, where 335 occurrences is a guiding number in this case. / Syftet med denna studie var att undersöka hur Machine Learning (ML) algoritmer kan användas för att förutsäga vilken kontokod som ska användas vid hantering av fakturor i ett affärssystem som är vanligt förekommande i svensk offentlig sektor. Detta innebar att undersöka vilken av de testade algoritmerna som presterar bäst och vilka kriterier som måste uppfyllas för att prestera bäst. Tidigare studier om ML och dess användning vid fakturaklassificering har fokuserat på antingen balansräkningens leverantörsreskontra (leverantörsskulder) eller kundreskontrasidan (kundfordringar) i balansräkningen. Studierna har använt olika metoder, några involverar inte bara vanliga ML-algoritmer som Random forest, Naive Bayes, beslutsträd, Support Vector Machine, Logistisk regression, Neuralt nätverk eller k-nearest Neighbour, utan även andra klassificerare som regelklassificerare och naiva klassificerare. Den generella slutsatsen från tidigare studier är att det finns flera algoritmer som kan klassificera fakturor med en tillfredsställande noggrannhet, och att Random forest, Naive Bayes och neurala nätverk har visat de mest lovande resultaten. Studien utfördes som en explorativ fallstudie. Fallföretaget var en mindre kommun där ekonomiassistenter hanterar inkommande fakturor genom ett affärssystem. Bokföringssteget för fakturahantering innebär att användaren väljer rätt kostnadskontokod innan fakturan skickas för granskning och godkännande. Uppgifterna som användes var fakturasammandrag med organisationsnummer, bankgiro, postgiro och kontokod. Algoritmerna som valdes för uppgiften var de övervakade inlärningsalgoritmerna Random forest och Naive Bayes och den instansbaserade algoritmen k-Nearest Neighbour. Resultaten tyder på att ML skulle kunna användas för att förutsäga vilken kostnadskod som ska användas genom att ge ett förifyllt förslag när expediten öppnar fakturan. Bland de testade algoritmerna presterade Random forest bäst med 78 % noggrannhet (Naïve Bayes och k-Nearest Neighbour presterade med 69 % respektive 70 % noggrannhet). En förklaring till detta är Random forests förmåga att hantera flera indatavariabler, generera en opartisk skattning av generaliseringsfelet och dess förmåga att ge information om sambandet mellan variablerna och klassificeringen. Det krävs dock en högt antal dataobservationer för att få algoritmen att prestera som bäst, där 335 förekomster är ett minimum i detta fall.
|
215 |
Modelling Customer Lifetime Value in the Retail Banking Industry / Modellering av Customer Lifetime Value inom retail banking-branschenVölcker, Max, Stenfelt, Carl January 2021 (has links)
This thesis was conducted in cooperation with the Swedish bank SEB, who expressed interest in getting an increased understanding of how the marketing measure Customer Lifetime Value could be implemented and used in the retail banking industry. Accordingly, the purpose of this thesis was to provide insight into how Customer Lifetime Value could be modelled in an appropriate way in the retail banking industry and provide an increased understanding of necessary considerations for the modelling process. First, performance requirements for models of Customer Lifetime Value in the retail banking industry were identified through literary analysis and interviews with SEB. These requirements were then used to evaluate six general modelling approaches: RFM, Probability, Econometric, Persistance, Diffusion/Growth and Computer science. Based on the evaluation, the computer science approach and the econometric approach were identified as suitable for further investigation. This was achieved by implementing and analysing the performance of two models chosen as examples of respective approach. Specifically, a computer science model based on the \textit{random forest} algorithm and an econometric model based on \textit{Markov chains} were chosen. The results indicate that both approaches could be appropriate for the retail banking industry, but that an econometric approach could have the advantage of higher interpretability while a computer science approach can have the advantage of higher predictive accuracy. In conclusion, the results indicate that the specific considerations and performance requirements for models of Customer Lifetime Value in the retail banking context should be based on a specific use case and area of business application. However, the discussions, considerations and examples of implementations provided in this thesis could serve as a foundation for future research and model development in this context. / Detta arbete genomfördes i samarbete med SEB, som uttryckt ett intresse för att öka sin kunskap kring hur marknadsföringsmåttet Customer Lifetime Value skulle kunna implementeras och användas i retail banking-branschen. Syftet med denna uppsats var följaktligen att ge en ökad förståelse för vad som är en lämplig modell av Customer Lifetime Value i branschen, samt ge en ökad förståelse för nödvändiga hänsynstaganden i modelleringsprocessen. Detta gjordes genom att först identifiera existerande modellkrav genom litteraturanalyys och intervjuer med SEB. Kraven användes sedan för att utvärdera sex generella modelltyper: RFM, Probability, Econometric, Persistance, Diffusion/Growth and Computer science. Baserat på utvärderingen identifierades Econometric och Computer science som lämpliga modelltyper för vidare undersökning, vilken gjordes genom att implementera en modell från respektive modelltyp. Specifikt valdes en Computer science-metod baserad på algoritmen random forest och en Econometric-metod baserad på Markovkedjor. Resultaten indikerade att båda modelltyper är lämpliga för implementering i retail banking-branschen, men att en Econometric-metod skulle kunna ha större tolkbarhet och att en Computer science-metod skulle kunna ha bättre precision. Sammanfattningsvis konstateras att hänsynstaganden och modellkrav på modeller av Customer Lifetime Value i retail banking-branschen bör utformas utifrån det specifika tilltänkta användningsområdet. De diskussioner, hänsynstaganden och implementationsexempel som presenteras i detta arbete kan dock fungera som grund för vidare forskning och modellutveckling i kontexten.
|
216 |
Predicting House Prices on the Countryside using Boosted Decision Trees / Förutseende av huspriser på landsbygden genom boostade beslutsträdRevend, War January 2020 (has links)
This thesis intends to evaluate the feasibility of supervised learning models for predicting house prices on the countryside of South Sweden. It is essential for mortgage lenders to have accurate housing valuation algorithms and the current model offered by Booli is not accurate enough when evaluating residence prices on the countryside. Different types of boosted decision trees were implemented to address this issue and their performances were compared to traditional machine learning methods. These different types of supervised learning models were implemented in order to find the best model with regards to relevant evaluation metrics such as root-mean-squared error (RMSE) and mean absolute percentage error (MAPE). The implemented models were ridge regression, lasso regression, random forest, AdaBoost, gradient boosting, CatBoost, XGBoost, and LightGBM. All these models were benchmarked against Booli's current housing valuation algorithms which are based on a k-NN model. The results from this thesis indicated that the LightGBM model is the optimal one as it had the best overall performance with respect to the chosen evaluation metrics. When comparing the LightGBM model to the benchmark, the performance was overall better, the LightGBM model had an RMSE score of 0.330 compared to 0.358 for the Booli model, indicating that there is a potential of using boosted decision trees to improve the predictive accuracy of residence prices on the countryside. / Denna uppsats ämnar utvärdera genomförbarheten hos olika övervakade inlärningsmodeller för att förutse huspriser på landsbygden i Södra Sverige. Det är viktigt för bostadslånsgivare att ha noggranna algoritmer när de värderar bostäder, den nuvarande modellen som Booli erbjuder har dålig precision när det gäller värderingar av bostäder på landsbygden. Olika typer av boostade beslutsträd implementerades för att ta itu med denna fråga och deras prestanda jämfördes med traditionella maskininlärningsmetoder. Dessa olika typer av övervakad inlärningsmodeller implementerades för att hitta den bästa modellen med avseende på relevanta prestationsmått som t.ex. root-mean-squared error (RMSE) och mean absolute percentage error (MAPE). De övervakade inlärningsmodellerna var ridge regression, lasso regression, random forest, AdaBoost, gradient boosting, CatBoost, XGBoost, and LightGBM. Samtliga algoritmers prestanda jämförs med Boolis nuvarande bostadsvärderingsalgoritm, som är baserade på en k-NN modell. Resultatet från denna uppsats visar att LightGBM modellen är den optimala modellen för att värdera husen på landsbygden eftersom den hade den bästa totala prestandan med avseende på de utvalda utvärderingsmetoderna. LightGBM modellen jämfördes med Booli modellen där prestandan av LightGBM modellen var i överlag bättre, där LightGBM modellen hade ett RMSE värde på 0.330 jämfört med Booli modellen som hade ett RMSE värde på 0.358. Vilket indikerar att det finns en potential att använda boostade beslutsträd för att förbättra noggrannheten i förutsägelserna av huspriser på landsbygden.
|
217 |
Loss Given Default Estimation with Machine Learning Ensemble Methods / Estimering av förlust vid fallissemang med ensembelmetoder inom maskininlärningVelka, Elina January 2020 (has links)
This thesis evaluates the performance of three machine learning methods in prediction of the Loss Given Default (LGD). LGD can be seen as the opposite of the recovery rate, i.e. the ratio of an outstanding loan that the loan issuer would not be able to recover in case the customer would default. The methods investigated are decision trees, random forest and boosted methods. All of the methods investigated performed well in predicting the cases were the loan is not recovered, LGD = 1 (100%), or the loan is totally recovered, LGD = 0 (0% ). When the performance of the models was evaluated on a dataset where the observations with LGD = 1 were removed, a significant decrease in performance was observed. The random forest model built on an unbalanced training dataset showed better performance on the test dataset that included values LGD = 1 and the random forest model built on a balanced training dataset performed better on the test set where the observations of LGD = 1 were removed. Boosted models evaluated in this study showed less accurate predictions than other methods used. Overall, the performance of random forest models showed slightly better results than the performance of decision tree models, although the computational time (the cost) was considerably longer when running the random forest models. Therefore decision tree models would be suggested for prediction of the Loss Given Default. / Denna uppsats undersöker och jämför tre maskininlärningsmetoder som estimerar förlust vid fallissemang (Loss Given Default, LGD). LGD kan ses som motsatsen till återhämtningsgrad, dvs. andelen av det utstående lånet som långivaren inte skulle återfå ifall kunden skulle fallera. Maskininlärningsmetoder som undersöks i detta arbete är decision trees, random forest och boosted metoder. Alla metoder fungerade väl vid estimering av lån som antingen inte återbetalas, dvs. LGD = 1 (100%), eller av lån som betalas i sin helhet, LGD = 0 (0%). En tydlig minskning i modellernas träffsäkerhet påvisades när modellerna kördes med ett dataset där observationer med LGD = 1 var borttagna. Random forest modeller byggda på ett obalanserat träningsdataset presterade bättre än de övriga modellerna på testset som inkluderade observationer där LGD = 1. Då observationer med LGD = 1 var borttagna visade det sig att random forest modeller byggda på ett balanserat träningsdataset presterade bättre än de övriga modellerna. Boosted modeller visade den svagaste träffsäkerheten av de tre metoderna som blev undersökta i denna studie. Totalt sett visade studien att random forest modeller byggda på ett obalanserat träningsdataset presterade en aning bättre än decision tree modeller, men beräkningstiden (kostnaden) var betydligt längre när random forest modeller kördes. Därför skulle decision tree modeller föredras vid estimering av förlust vid fallissemang.
|
218 |
A Predictive Analysis of Customer Churn / : En Prediktiv Analys av KundbortfallEskils, Olivia, Backman, Anna January 2023 (has links)
Churn refers to the discontinuation of a contract; consequently, customer churn occurs when existing customers stop being customers. Predicting customer churn is a challenging task in customer retention, but with the advancements made in the field of artificial intelligence and machine learning, the feasibility to predict customer churn has increased. Prior studies have demonstrated that machine learning can be utilized to forecast customer churn. The aim of this thesis was to develop and implement a machine learning model to predict customer churn and identify the customer features that have a significant impact on churn. This Study has been conducted in cooperation with the Swedish insurance company Bliwa, who expressed interest in gaining an increased understanding of why customers choose to leave. Three models, Logistic Regression, Random Forest, and Gradient Boosting, were used and evaluated. Bayesian optimization was used to optimize the models. After obtaining an indication of their predictive performance during evaluation using Cross-Validation, it was concluded that LightGBM provided the best result in terms of PR-AUC, making it the most effective approach for the problem at hand. Subsequently, a SHAP-analysis was carried out to gain insights into which customer features that have an impact on whether or not a customer churn. The outcome of the SHAP-analysis revealed specific customer features that had a significant influence on churn. This knowledge can be utilized to proactively implement measures aimed at reducing the probability of churn. / Att förutsäga kundbortfall är en utmanande uppgift inom kundbehållning, men med de framsteg som gjorts inom artificiell intelligens och maskininlärning har möjligheten att förutsäga kundbortfall ökat. Tidigare studier har visat att maskinlärning kan användas för att prognostisera kundbortfall. Syftet med denna studie var att utveckla och implementera en maskininlärningsmodell för att förutsäga kundbortfall och identifiera kundegenskaper som har en betydande inverkan på varför en kund väljer att lämna eller inte. Denna studie har genomförts i samarbete med det svenska försäkringsbolaget Bliwa, som uttryckte sitt intresse över att få en ökad förståelse för varför kunder väljer att lämna. Tre modeller, Logistisk Regression, Random Forest och Gradient Boosting användes och utvärderades. Bayesiansk optimering användes för att optimera dessa modeller. Efter att ha utvärderat prediktiv noggrannhet i samband med krossvalidering drogs slutsatsen att LightGBM gav det bästa resultatet i termer av PR-AUC och ansågs därför vara den mest effektiva metoden för det aktuella problemet. Därefter genomfördes en SHAP-analys för att ge insikter om vilka kundegenskaper som påverkar varför en kund riskerar, eller inte riskerar att lämna. Resultatet av SHAP-analysen visade att vissa kundegenskaper stack ut och verkade ha en betydande påverkan på kundbortfall. Denna kunskap kan användas för att vidta proaktiva åtgärder för att minska sannolikheten för kundbortfall.
|
219 |
Early Warning System of Students Failing a Course : A Binary Classification Modelling Approach at Upper Secondary School Level / lFörebyggande Varningssystem av elever med icke godkänt betyg : Genom applicering av binär klassificeringsmodell inom gymnasieskolanKarlsson, Niklas, Lundell, Albin January 2022 (has links)
Only 70% of the Swedish students graduate from upper secondary school within the given time frame. Earlier research has shown that unfinished degrees disadvantage the individual student, policy makers and society. A first step for preventing dropouts is to indicate students about to fail courses. Thus the purpose is to identify tendencies whether a student will pass or not pass a course. In addition, the thesis accounts for the development of an Early Warning System to be applied to signal which students need additional support from a professional teacher. The used algorithm Random Forest functioned as a binary classification model of a failed grade against a passing grade. Data in the study are in samples of approximately 700 students from an upper secondary school within the Stockholm municipality. The chosen method originates from a Design Science Research Methodology that allows the stakeholders to be involved in the process. The results showed that the most dominant indicators for classifying correct were Absence, Previous grades and Mathematics diagnosis. Furthermore, were variables from the Learning Management System predominant indicators when the system also was utilised by teachers. The prediction accuracy of the algorithm indicates a positive tendency for classifying correctly. On the other hand, the small number of data points imply doubt if an Early Warning System can be applied in its current state. Thus, one conclusion is in further studies, it is necessary to increase the number of data points. Suggestions to address the problem are mentioned in the Discussion. Moreover, the results are analysed together with a review of the potential Early Warning Systemfrom a didactic perspective. Furthermore, the ethical aspects of the thesis are discussed thoroughly. / Endast 70% av svenska gymnasieelever tar examen inom den givna tidsramen. Tidigare forskning har visat att en oavslutad gymnasieutbildning missgynnar både eleven och samhället i stort. Ett första steg mot att förebygga att elever avviker från gymnasiet är att indikera vilka studenter som är på väg mot ett underkänt betyg i kurser. Därmed är syftet med rapporten att identifiera vilka trender som bäst indikerar att en elev kommer klara en kurs eller inte. Dessutom redogör rapporten för utvecklandet av ett förebyggande varningssystem som kan appliceras för att signalera vilka studenter som behöver ytterligare stöd från läraren och skolan. Algoritmen som användes var Random Forest och fungerar som en binär klassificeringsmodell av ett underkänt betyg mot ett godkänt. Den data som använts i studien är datapunkter för ungefär 700 elever från en gymnasieskola i Stockholmsområdet. Den valda metoden utgår från en Design Science Researchmetodik vilket möjliggör för intressenter att vara involverade i processen. Resultaten visade att de viktigaste variablerna var frånvaro, tidigare betyg och resultat från Stockholmsprovet (kommunal matematikdiagnos). Vidare var variabler från lärplattformen en viktig indikator ifall lärplattformen användes av läraren. Algoritmens noggrannhet indikerade en positiv trend för att klassificeringen gjordes korrekt. Å andra sidan är det tveksamt ifall det förebyggande systemet kan användas i sitt nuvarande tillstånd då mängden data som användes för att träna algoritmen var liten. Därav är en slutsats att det är nödvändigt för vidare studier att öka mängden datapunkter som används. I Diskussionen nämns förslag på hur problemet ska åtgärdas. Dessutom analyseras resultaten tillsammans med en utvärdering av systemet från ett didaktiskt perspektiv. Vidare diskuteras rapportens etiska aspekter genomgående.
|
220 |
Exploring relationships between in-hospital mortality and hospital case volume using random forest: results of a cohort study based on a nationwide sample of German hospitals, 2016–2018Roessler, Martin, Walther, Felix, Eberlein-Gonska, Maria, Scriba, Peter C., Kuhlen, Ralf, Schmitt, Jochen, Schoffer, Olaf 21 May 2024 (has links)
Background
Relationships between in-hospital mortality and case volume were investigated for various patient groups in many empirical studies with mixed results. Typically, those studies relied on (semi-)parametric statistical models like logistic regression. Those models impose strong assumptions on the functional form of the relationship between outcome and case volume. The aim of this study was to determine associations between in-hospital mortality and hospital case volume using random forest as a flexible, nonparametric machine learning method.
Methods
We analyzed a sample of 753,895 hospital cases with stroke, myocardial infarction, ventilation > 24 h, COPD, pneumonia, and colorectal cancer undergoing colorectal resection treated in 233 German hospitals over the period 2016–2018. We derived partial dependence functions from random forest estimates capturing the relationship between the patient-specific probability of in-hospital death and hospital case volume for each of the six considered patient groups.
Results
Across all patient groups, the smallest hospital volumes were consistently related to the highest predicted probabilities of in-hospital death. We found strong relationships between in-hospital mortality and hospital case volume for hospitals treating a (very) small number of cases. Slightly higher case volumes were associated with substantially lower mortality. The estimated relationships between in-hospital mortality and case volume were nonlinear and nonmonotonic.
Conclusion
Our analysis revealed strong relationships between in-hospital mortality and hospital case volume in hospitals treating a small number of cases. The nonlinearity and nonmonotonicity of the estimated relationships indicate that studies applying conventional statistical approaches like logistic regression should consider these relationships adequately.
|
Page generated in 0.086 seconds