Spelling suggestions: "subject:"random forest."" "subject:"fandom forest.""
51 |
Machine Learning in credit risk : Evaluation of supervised machine learning models predicting credit risk in the financial sectorLundström, Love, Öhman, Oscar January 2019 (has links)
When banks lend money to another party they face a risk that the borrower will not fulfill its obligation towards the bank. This risk is called credit risk and it’s the largest risk banks faces. According to the Basel accord banks need to have a certain amount of capital requirements to protect themselves towards future financial crisis. This amount is calculated for each loan with an attached risk-weighted asset, RWA. The main parameters in RWA is probability of default and loss given default. Banks are today allowed to use their own internal models to calculate these parameters. Thus hold capital with no gained interest is a great cost, banks seek to find tools to better predict probability of default to lower the capital requirement. Machine learning and supervised algorithms such as Logistic regression, Neural network, Decision tree and Random Forest can be used to decide credit risk. By training algorithms on historical data with known results the parameter probability of default (PD) can be determined with a higher certainty degree compared to traditional models, leading to a lower capital requirement. On the given data set in this article Logistic regression seems to be the algorithm with highest accuracy of classifying customer into right category. However, it classifies a lot of people as false positive meaning the model thinks a customer will honour its obligation but in fact the customer defaults. Doing this comes with a great cost for the banks. Through implementing a cost function to minimize this error, we found that the Neural network has the lowest false positive rate and will therefore be the model that is best suited for this specific classification task. / När banker lånar ut pengar till en annan part uppstår en risk i att låntagaren inte uppfyller sitt antagande mot banken. Denna risk kallas för kredit risk och är den största risken en bank står inför. Enligt Basel föreskrifterna måste en bank avsätta en viss summa kapital för varje lån de ger ut för att på så sätt skydda sig emot framtida finansiella kriser. Denna summa beräknas fram utifrån varje enskilt lån med tillhörande risk-vikt, RWA. De huvudsakliga parametrarna i RWA är sannolikheten att en kund ej kan betala tillbaka lånet samt summan som banken då förlorar. Idag kan banker använda sig av interna modeller för att estimera dessa parametrar. Då bundet kapital medför stora kostnader för banker, försöker de sträva efter att hitta bättre verktyg för att uppskatta sannolikheten att en kund fallerar för att på så sätt minska deras kapitalkrav. Därför har nu banker börjat titta på möjligheten att använda sig av maskininlärningsalgoritmer för att estimera dessa parametrar. Maskininlärningsalgoritmer såsom Logistisk regression, Neurala nätverk, Beslutsträd och Random forest, kan användas för att bestämma kreditrisk. Genom att träna algoritmer på historisk data med kända resultat kan parametern, chansen att en kund ej betalar tillbaka lånet (PD), bestämmas med en högre säkerhet än traditionella metoder. På den givna datan som denna uppsats bygger på visar det sig att Logistisk regression är den algoritm med högst träffsäkerhet att klassificera en kund till rätt kategori. Däremot klassifiserar denna algoritm många kunder som falsk positiv vilket betyder att den predikterar att många kunder kommer betala tillbaka sina lån men i själva verket inte betalar tillbaka lånet. Att göra detta medför en stor kostnad för bankerna. Genom att istället utvärdera modellerna med hjälp av att införa en kostnadsfunktion för att minska detta fel finner vi att Neurala nätverk har den lägsta falsk positiv ration och kommer därmed vara den model som är bäst lämpad att utföra just denna specifika klassifierings uppgift.
|
52 |
Etude par imagerie in situ des processus biophysiques en milieu fluvial : éléments méthodologiques et applications / Study of fluvial biophysical processes using ground imagery : methodological elements and applicationsBenacchio, Véronique 10 July 2017 (has links)
La télédétection est une technique de plus en plus utilisée dans le domaine fluvial, et si des images acquises à haute, voire très haute altitude via des vecteurs aéroportés et satellites sont traditionnellement utilisées, l’imagerie in situ (ou « imagerie de terrain ») constitue un outil complémentaire qui présente de nombreux avantages (facilité de mise en place, coûts réduits, point de vue oblique, etc.). Les possibilités de programmer les prises de vue fixes à des fréquences relativement élevées (de quelques dixièmes de secondes dans le cas de vidéos, à quelques heures par exemple) mais aussi de pouvoir observer les évènements au moment où ils surviennent, est sans commune mesure avec les contraintes associées à l’acquisition de l’imagerie « classique » (dont les plus hautes fréquences s’élèvent à quelques jours). Cela permet de produire des jeux de données conséquents, dont l’analyse automatisée est nécessaire et constitue l’un des enjeux de cette thèse. Le traitement et l’analyse de jeux de données produits sur cinq sites test français et québécois ont permis de mieux évaluer les potentialités et les limites liées à l’utilisation de l’imagerie in situ dans le cadre de l’étude des milieux fluviaux. La définition des conditions optimales d’installation des capteurs en vue de l’acquisition des données constitue la première étape d’une démarche globale, présentée sous forme de modules optionnels, à prendre en compte selon les objectifs de l’étude. L’extraction de l’information radiométrique, puis le traitement statistique du signal ont été évalués dans plusieurs situations tests. La classification orientée-objet avec apprentissage supervisé des images a notamment été expérimentée via des random forests. L’exploitation des jeux de données repose principalement sur l’analyse de séries temporelles à haute fréquence. Cette thèse expose les forces et les faiblesses de cette approche et illustre des usages potentiels pour la compréhension des dynamiques fluviales. Ainsi, l’imagerie in situ est un très bon outil pour l’étude et l’analyse des cours d’eau, car elle permet la mesure de différents types de temporalités régissant les processus biophysiques observés. Cependant, il est nécessaire d’optimiser la qualité des images produites et notamment de limiter au maximum l’angle de vue du capteur, ou la variabilité des conditions de luminosité entre clichés, afin de produire des séries temporelles pleinement exploitables. / Remote sensing is more and more used in river sciences, mainly using satellite and airborne imagery. Ground imagery constitutes a complementary tool which presents numerous advantages for the study of rivers. For example, it is easy to set up; costs are limited; it allows an oblique angle; etc. It also presents the possibility to set up the triggering with very high frequency, ranging, for instance, from a few seconds to a few hours. The possibility to monitor events at the instant they occur makes ground imagery extremely advantageous compared to aerial or spatial imagery (whose highest acquisition frequency corresponds to a few days). Such frequencies produce huge datasets, which require automated analyses. This is one of the challenges addressed in this thesis. Processing and analysis of data acquired at five study sites located in France and Québec, Canada, facilitated the evaluation of ground imagery potentials, as well as its limitations with respect to the study of fluvial systems. The identification of optimal conditions to set up the cameras and to acquire images is the first step of a global approach, presented as a chain of optional modules. Each one is to be taken into account according to the objectives of the study. The extraction of radiometric information and the subsequent statistical analysis of the signal were tested in several situations. In particular, random forests were applied, as a supervised object-oriented classification method. The datasets were principally exploited using high frequency time series analyses, which allowed demonstrating strengths and weaknesses of this approach, as well as some potential applications. Ground imagery is a powerful tool to monitor fluvial systems, as it facilitates the definition of various kinds of time characteristics linked with fluvial biophysical processes. However, it is necessary to optimize the quality of the data produced. In particular, it is necessary to minimize the acquisition angle and to limit the variability of luminosity conditions between shots in order to acquire fully exploitable datasets.
|
53 |
High-Dimensional Classification Models with Applications to Email Targeting / Högdimensionella klassificeringsmetoder med tillämpning på målgruppsinriktning för e-mejlPettersson, Anders January 2015 (has links)
Email communication is valuable for any modern company, since it offers an easy mean for spreading important information or advertising new products, features or offers and much more. To be able to identify which customers that would be interested in certain information would make it possible to significantly improve a company's email communication and as such avoiding that customers start ignoring messages and creating unnecessary badwill. This thesis focuses on trying to target customers by applying statistical learning methods to historical data provided by the music streaming company Spotify. An important aspect was the high-dimensionality of the data, creating certain demands on the applied methods. A binary classification model was created, where the target was whether a customer will open the email or not. Two approaches were used for trying to target the costumers, logistic regression, both with and without regularization, and random forest classifier, for their ability to handle the high-dimensionality of the data. Performance accuracy of the suggested models were then evaluated on both a training set and a test set using statistical validation methods, such as cross-validation, ROC curves and lift charts. The models were studied under both large-sample and high-dimensional scenarios. The high-dimensional scenario represents when the number of observations, N, is of the same order as the number of features, p and the large sample scenario represents when N ≫ p. Lasso-based variable selection was performed for both these scenarios, to study the informative value of the features. This study demonstrates that it is possible to greatly improve the opening rate of emails by targeting users, even in the high dimensional scenario. The results show that increasing the amount of training data over a thousand fold will only improve the performance marginally. Rather efficient customer targeting can be achieved by using a few highly informative variables selected by the Lasso regularization. / Företag kan använda e-mejl för att på ett enkelt sätt sprida viktig information, göra reklam för nya produkter eller erbjudanden och mycket mer, men för många e-mejl kan göra att kunder slutar intressera sig för innehållet, genererar badwill och omöjliggöra framtida kommunikation. Att kunna urskilja vilka kunder som är intresserade av det specifika innehållet skulle vara en möjlighet att signifikant förbättra ett företags användning av e-mejl som kommunikationskanal. Denna studie fokuserar på att urskilja kunder med hjälp av statistisk inlärning applicerad på historisk data tillhandahållen av musikstreaming-företaget Spotify. En binärklassificeringsmodell valdes, där responsvariabeln beskrev huruvida kunden öppnade e-mejlet eller inte. Två olika metoder användes för att försöka identifiera de kunder som troligtvis skulle öppna e-mejlen, logistisk regression, både med och utan regularisering, samt random forest klassificerare, tack vare deras förmåga att hantera högdimensionella data. Metoderna blev sedan utvärderade på både ett träningsset och ett testset, med hjälp av flera olika statistiska valideringsmetoder så som korsvalidering och ROC kurvor. Modellerna studerades under både scenarios med stora stickprov och högdimensionella data. Där scenarion med högdimensionella data representeras av att antalet observationer, N, är av liknande storlek som antalet förklarande variabler, p, och scenarion med stora stickprov representeras av att N ≫ p. Lasso-baserad variabelselektion utfördes för båda dessa scenarion för att studera informationsvärdet av förklaringsvariablerna. Denna studie visar att det är möjligt att signifikant förbättra öppningsfrekvensen av e-mejl genom att selektera kunder, även när man endast använder små mängder av data. Resultaten visar att en enorm ökning i antalet träningsobservationer endast kommer förbättra modellernas förmåga att urskilja kunder marginellt.
|
54 |
Machine Learning for Classification of Temperature Controlled Containers Using Heavily Imbalanced Data / Maskininlärning för klassificering av temperatur reglerbara containrar genom användande av extremt obalanserad dataRanjith, Adam January 2022 (has links)
Temperature controllable containers are used frequently in order to transport pharmaceutical cargo all around the world. One of the leading manufacturing companies of these containers has a method for detecting containers with a faulty cooling system before making a shipment. However, the problem with this method is that the model tends to miss-classify containers. Hence, this thesis aims to investigate if machine learning usage would make classification of containers more accurate. Nonetheless, there is a problem, the data set is extremely imbalanced. If machine learning can be used to improve container manufacturing companies fault detection systems, it would imply less damaged and delayed pharmaceutical cargo which could be vital. Various combinations of machine learning classifiers and techniques for handling the imbalance were tested in order to find the most optimal one. The Random Forest classifier when using oversampling was the best performing combination which performed about equally as good as the company’s current method, with a recall score of 92% and a precision score of 34%. Earlier there were no known papers on machine learning for classification of temperature controllable containers. However, now other manufacturing companies could favourably use the concepts and methods presented in this thesis in order to enhance the effectiveness of their fault detection systems and consequently improve the overall shipping efficiency of pharmaceutical cargo. / Temperatur reglerbara containrar används frekvent inom medicinsk transport runt om i hela världen. Ett ledande företag som är tillverkare av dessa containrar använder sig av en metod för att upptäcka containrar med ett felaktigt kylsystem redan innan de hunnit ut på en transport. Denna metod är fungerande men inte perfekt då den tenderar att felaktigt klassificera containrar. Detta examensarbete är en utredande avhandling för att ta reda på om maskininlärning kan användas för att förbättra klassificeringen av containrar. Det finns dock ett problem, data setet är extremt obalanserat. Om maskininlärning kan användas för att förbättra felsökningssystemen hos tillverkare av temperatur reglerbara containrar skulle det innebära mindre förstörda samt mindre försenade medicinska transporter vilket kan vara livsavgörande. Ett urval av kombinationer mellan maskininlärnings modeller och tekniker för att hantera obalanserad data testade för att avgöra vilken som är optimal. Klassificeraren Random Forest ihop med över-sampling resulterade i best prestanda, ungefär lika bra som företagets nuvarande metod. Tidigare har det inte funnits några kända rapporter om användning av maskininlärning för att klassificera temperaturer reglerbara containrar. Nu kan dock andra tillverkare av containrar använda sig av koncept och metoder som presenterades i avhandlingen för att optimera deras felsökningssystem och således förbättra den allmänna effektiviteten inom medicinsk transport.
|
55 |
Applicering av maskininlärning för att predicera utfall av Kickstarter-projekt / Application of machine learning to predict outcome of Kickstarter-projectsLidén, Rickard, In, Gabriel January 2021 (has links)
Crowdfunding är i den moderna digitala världen ett populärt sätt att samla in pengar till sitt projekt. Kickstarter är en av de ledande sidorna för crowdfunding. Predicering av ett Kickstarter-projekts framgång eller misslyckande kan därav vara av stort intresse för entreprenörer.Studiens syfte är att jämföra fyra olika algoritmers prediceringsförmåga på två olika Kickstarter-dataset. Det ena datasetet sträcker sig mellan åren 2020-2021, och det andra mellan åren 2016-2021. Algoritmerna som jämförs är KNN, Naive Bayes, MLP, och Random Forest.Av dessa fyra modeller så skapades i denna studie de bästa produktionsmodellerna av KNN och Random Forest. KNN var bäst för 2020-2021-datasetet, med 77,0% träffsäkerhet. Random Forest var bäst för 2016-2021-datasetet, med 76,8% träffsäkerhet. / Crowdfunding has in the modern, digitalized world become a popular method for gathering money for a project. Kickstarter is one of the most popular websites for crowdfunding. This means that predicting the success or failure of a Kickstarter-project by way of machine learning could be of great interest to entrepreneurs.The purpose of this study is to compare the predictive abilities of four different algorithms on two different Kickstarter-datasets. One dataset contains data in the span of the years 2020-2021, and the other contains data from 2016-2021. The algorithms used in this study are KNN, Naive Bayes, MLP and Random Forest.Out of these four algorithms, the top-performing prediction abilities for the two datasets were found in KNN and Random Forest. KNN was the best-performing algorithm for 2020-2021, with 77,0% accuracy. Random Forest had the top score for 2016-2021, with 76,8% accuracy. The language used in this study is Swedish.
|
56 |
Modelling of Inflow and Infiltration into Wastewater Systems with Regression and Random Forest / Modellering av Inflöde och Infiltration i Avloppssystem med Regression och Random ForestSteen Danielsson, Viggo January 2022 (has links)
The aim of this thesis was to evaluate the validity of statistical modelling, with regards to flow in wastewater systems based on precipitation. A wastewater system, which is a system of pump-stations connected via pipes, is affected by precipitation as rainwater enters the system. The rainwater that enters the system can sometimes, especially if the precipitation is heavy, increase the flow by several hundred percent. The goal with the models created for this report was, to first predict how much rainwater there was in the wastewater system based on precipitation, and second, to examine where in a geographical grid this rainwater entered the system. For the first goal a linear regression model was applied, this model showed that it was indeed possible to predict excess water in the system, but large errors for individual time points where to be expected, especially for light precipitation. For the second goal a random forest model was applied. This model however gave no additional insight beyond what an initial correlation study between precipitation in different parts of the geographical grid and flow had already shown. The areas in the geographical grid pointed out by both the random forest model and the initial correlation study were not the actual uptake areas of the pump-station these models were applied to. This leads to the conclusion that for the data set used, and with the models applied in the manner in which they were in this thesis, it was not possible to predict where rainwater enters the system. / Målet med den här rapporten var att undersöka möjligheten att modellera regnvattens påverkan på vattenflödet i avloppsystem, med statistiska modeller. Ett avloppsystem är i dess enklaste form ett nätverk av pumpstationer sammanbunda med rör. Det här systemen påverkas av nederbörd då oönskat regnvatten kommer in via stuprör, avloppsbrunnar och sprickor i rören. Regnvattnet kan i vissa fall, särskilt under perioder med mycket nederbörd, öka flödet i avloppsystemet med flera hundra procent. Modellerna tillverkade för den här rapporten undersökte två olika aspekter av regnvattnets påverkan: Kan flöde i avloppssystemet modelleras med regnvatten? Och kan modellerna avgöra var regnvatten kommer in i avloppsystemet? Den första frågan undersöktes med linjär regressionsanalys, modellerna tillverkade med regression visade att det gick att modellera flöde i avloppsystemet med regnvatten, det bör dock nämnas att stora fel i enskilda tidssteg var att förvänta, speciellt för modellering då nederbörden är låg. Den andra frågan utvärderades med en ”random forest” modell. Den här modellen gav ingen ytterligare information angående var regnvatten kommer in i systemet, utöver vad som redan hade visats av en korrelationsstudie gjord i början av projektet. Både korrelationsstudien och ”random forest” modellen visade också på att regnvattnet kom från platser som inte var sammankopplade med den pumpstation testerna gjordes på. På grund av detta drogs slutsatsen att det inte gick att ta reda på var regnvattnet kommer in i systemet, med den data som använts, och på det sätt som modellerna har använts i den här rapporten.
|
57 |
Improving Visibility Forecasts in Denmark Using Machine Learning Post-processing / Förbättring av siktprognoser i Danmark med hjälp av maskininlärningThomasson, August January 2023 (has links)
Accurate fog prediction is an important task facing forecast centers since low visibility can affect anthropogenic systems, such as aviation. Therefore, this study investigates the use of Machine Learning classification algorithms for post-processing the output of the Danish Meteorological Institute’s operational Numerical Weather Prediction (NWP) model to improve visibility prediction. Two decision tree ensemble methods, XGBoost and Random Forest, were trained on more than 4 years of archived forecast data and visibility observations from 28 locations in Denmark. Observations were classified into eight classes, while models were optimized with resampling and Bayesian optimization. On an independent 15-month period, the Machine Learning methods show an improvement in balanced accuracy, F1-score, and Extremal Dependency Index compared to the NWP and persistence models. XGBoost performs slightly better. However, both methods suffer from an increase in overprediction of the low visibility classes. The models are also discussed regarding usability, coping with model changes and preservation of spatial features. Finally, the study shows how the interpretation of the post-processing models may be included operationally. Future research recommendations include incorporating more variables, using alternative class imbalance methods and further analyzing the models’ implementation and usage. Overall, the study demonstrates the potential of these models to improve visibility point forecasts in an operational setting. / Begränsad sikt kan på olika sätt påverka samhällen och naturen. Till exempel kan dimma störa både flyg- och biltrafiken. Därför är det viktigt att kunna förutspå sikt. Eftersom traditionella prognosmetoder, som numeriska vädermodeller, inte alltid är tillförlitliga för detta ändamål, är det viktigt att utforska alternativa metoder. I den här studien undersöks användningen av maskininlärning för att förbättra numeriska prognoser av sikt. Två olika maskininlärningsalgoritmer användes för att post-processera Danmarks Meteorologiska Instituts numeriska vädermodell och de tränades på siktobservationer från 28 olika platser. Resultaten visar att maskininlärnings-metoderna förbättrar den numeriska vädermodellen, med 10 - 30% beroende på hur man mäter. Dock har algoritmerna en liten tendens att förutspå låg sikt för ofta, och båda är bättre på kustnära platser. Den bäst presterande av de två algoritmerna lyckas identifiera förväntade meteorologiska förhållande i samband med låg sikt. Dessutom presenteras en metod för att förbättra förståelsen av de post-processerade modellerna. Men det finns fortfarande utmaningar med att implementera metoden operationellt. Därför föreslås det att framtida studier bland annat undersöker om algoritmerna presterar bättre med fler väderparametrar, hur de presterar på nyaplatser samt att djupare analys av hur de hanterar updateringar till den numeriska vädermodellen görs. Sammanfattningsvis visar studien att maskininlärning är ett lovande verktyg för att förbättra numeriska prognoser av sikt.
|
58 |
Predicting Short-term Absences of a Railway Crew using Historical Data / Prognoser av korttidsfrånvaro för tågpersonal baserat på historisk dataBjörnfot, Agnes, Fjelkestam, Sandra January 2023 (has links)
Transportation via train is considered the most environmentally friendly way of traveling and is widely seen as the future of transportation. Canceled and delayed trains worsen customer satisfaction; thus, punctual trains are crucial for railway companies. One reason for canceled and delayed trains is the shortage of employees due to sickness or care of relatives, known as short-term absences. Therefore, it is important for railway companies to have reliable predictions of these. This thesis is in collaboration with SJ, the largest railway company in Sweden which offers trips all over Sweden and some other parts of northern Europe. The thesis predicts short-term absences with data provided by SJ, by using the machine learning methods random forest and extreme gradient boosting (XGBoost). The aim is to investigate if SJ can use machine learning algorithms and statistical analysis in their absence predictions and if it can yield better results than their current absence prediction methodology. Furthermore, the thesis identifies which factors are most important for the predictions. In addition to this, quantile regression is implemented for both methods since overestimating absenteeism could be better for avoiding employee shortage. Two different datasets are used for two different tasks; one regression task to predict the number of absent employees on each date and one classification task to predict the probability of an absent employee on a specific duty, and then adding the probabilities to achieve the total predicted number of absent employees on each date. Both task formulations yielded good absence prediction results. XGBoost resulted overall in lower errors than random forest, meaning it was a slightly better model to implement for this task. When comparing the results, the performance for the developed models was better than the current predictions at SJ, meaning machine learning models could benefit SJ's prediction work. / Tågresor anses vara det mest miljövänliga sättet att resa på och betraktas av många som framtidens transportmedel. SJ är Sveriges största järnvägsföretag och erbjuder resor över hela Sverige och delar av norra Europa. Punktliga tåg är en mycket viktig faktor för järnvägsföretag, för att inte ha inställda och försenade tåg som försämrar kundnöjdheten. En orsak till inställda och försenade tåg är brist på personal på grund av sjukdom eller vård av anhöriga, så kallad korttidsfrånvaro. Därför är det viktigt för SJ att ha tillförlitliga prognoser gällande detta. Detta examensarbete försöker förutspå korttidsfrånvaro med data från SJ, genom att använda maskininlärningsmetoderna random forest och extreme gradient boosting (XGBoost). Syftet är att undersöka om SJ kan använda maskininlärningsalgoritmer och statistisk analys i sina frånvaroprognoser och om det kan ge bättre resultat än deras nuvarande prognoser. Vidare identifierar arbetet vilka faktorer som är viktigast för en pålitlig prognos. Utöver detta implementeras kvantilregression för båda metoderna eftersom överskattningar av frånvaro kan vara bättre för att undvika personalbrist. Två olika datamängder används för två olika uppgifter; en regressionsuppgift för att förutspå antalet frånvarande personal varje dag och en klassificeringsuppgift för att förutspå sannolikheten av en frånvarande personal under ett visst arbetspass. Modellen adderar sedan sannolikheterna för att få en prognos av det totala antalet frånvarande personal under varje dag. Båda uppgiftsformuleringarna resulterade i bra sjukprognoser. XGBoost resulterade totalt sett i lägre fel än random forest, vilket betyder att den var en något bättre modell att implementera för detta arbete. Vid en jämförelse av resultaten var prestationen för de utvecklade modellerna bättre än de nuvarande prognoserna hos SJ, vilket innebär att maskininlärningsalgoritmer kan gynna SJ:s prognosarbete.
|
59 |
Predicting Customer Churn in E-commerce Using Statistical Modeling and Feature Importance Analysis : A Comparison of Random Forest and Logistic Regression ApproachesRudälv, Amanda January 2023 (has links)
While operating in online markets offers opportunities for expanded assortment and convenience, it also poses challenges such as increased competition and the need to build personal relationships with customers. Customer retention be- comes crucial in maintaining a successful business, emphasizing the importance of understanding customer behavior. Traditionally, customer behavior analysis has focused on transactional behavior, such as purchase frequency and spending amounts. However, there has been a shift towards non-transactional behavior, driven by the popularity of loyalty programs that reward customers beyond trans- actions and aim to make customers feel appreciated and included, regardless of their spending power. This study is conducted at a global retailer with the aim of enhancing the under- standing of how non-transactional customer behavior influences customer churn. The approach in this study is to understand such behavior by developing a statis- tical model and to analyze statistical approaches of feature importance. Two types of approaches for statistical modeling, each with four variations, are assessed: (1) Random forest; and (2) Logistic regression. Furthermore, three different feature importance methods are considered; (1) Gini importance; (2) Permutation impor- tance and (3) Coefficient importance. The results showed that this approach can be used to analyze customer behavior and gain a better understanding of the driving factors for churn. Furthermore, the results showed that random forest approaches outperform logistic regression. With the definition of churn constructed in this study, the most important factors that affect the probability of churn are the customer’s number of sessions and inter session interval. / Att bedriva e-handel erbjuder inte enbart möjligheter för utökat sortiment och bekvämlighet, utan leder även till ökad konkurrens och ett ökat behov av att bygga relationer med kunder. Kundlojalitet är därmed avgörande för att upprätthålla en framgångsrik verksamhet, och betonar vikten av att förstå kundernas beteende. Traditionellt har analyser av kundbeteende främst bedrivits med fokus på transak- tionellt beteende, såsom frekvens eller totalbelopp för köp. På senare tid har allt mer fokus lagts på icke-transaktionellt beteende, på grund av införandet av lo- jalitetsprogram som belönar kunder bortom transaktioner, med målet att kunder ska känna sig uppskattade och inkluderade, oavsett köpkraft. Denna studie genomförs hos ett globalt detaljhandelsföretag med målet att utöka förståelsen för hur icke-transaktionellt kundbeteende påverkar kundbortfall. För att uppnå detta konstrueras en statistisk modell som utnyttjas för att med hjälp av statistiska metoder analysera signifikans hos variabler. Två kategorier av statis- tiska modeller undersöks; (1) Random forest och (2) Logistisk regression. Utöver detta används tre olika metoder för att analysera signifikans hos variabler; (1) Gini-betydelse; (2) Permutationsbetydelse; och (3) Koefficientbetydelse. Resultatet visar att studiens tillvägagångssätt kan användas för att analysera kund- beteende och nå ökad förståelse för vad som driver kundbortfall. Vidare visar re- sultatet att random forest-modeller överträffar modeller baserade på logistisk re- gression. Baserat på den definition av kundbortfall som definierats i denna studie är de viktigaste faktorerna som påverkar sannolikheten för kundbortfall, kundens antal sessioner och intervallet mellan kundens sessioner.
|
60 |
Machine Learning Methods for Segmentation of Complex Metal Microstructure FeaturesFredriksson, Daniel January 2022 (has links)
Machine learning is a growing topic with possibilities that seems endless with growing areas of applications. The field of metallography today is highly dependent on the operators’ knowledge and technical equipment to perform segmentation and analysis of the microstructure. Having expert dependents is both costly and very time-consuming. Some automatic segmentation is possible using SEM but not for all materials and only having to depend on one machine will create a bottleneck. In this thesis, a traditional supervised machine learning model has been built with a Random Forest (RF) classifier. The model performs automatic segmentation of complex microstructure features from images taken using light optical- and scanning electron microscopes. Two types of material, High-Strength-Low-Alloy (HSLA) steel with in-grain carbides and grain boundary carbides, and nitrocarburized steel with different amounts of porosity were analyzed in this work. Using a bank of feature extractors together with labeled ground truth data one model for each material was trained and used for the segmentation of new data. The model trained for the HSLA steel was able to effectively segment and analyze the carbides with a small amount of training. The model could separate the two types of carbides which is not possible with traditional thresholding. However, the model trained on nitrocarburized steel showcased difficulties in detecting the porosity. The result was however improved with a different approach to the labeling. The result implies that further development can be made to improve the model. / Maskininlärning är ett växande område där möjligheterna verkar oändliga med växande applikationsområden. Området för metallografi är idag till stor utsträckning beroende av operatörens kunskap och de tekniska instrumenten som finns tillgängliga för att genomföra segmentering och analys av mikrostrukturen. Viss automatisk segmentering är möjlig genom att använda SEM, men det är inte möjligt för alla material samt att behöva vara beroende av endast en maskin kommer skapa en flaskhals. I denna uppsats har en traditionell övervakad maskininlärnings modell skapats med en Random Forest klassificerare. Modellen genomför automatisk segmentering av komplexa mikrostrukturer på bilder från både ljusoptiskt- och svepelektron-mikroskop. Två olika typer av material, Hög-Styrka-Låg-Legerat (HSLA) stål med karbider och korngräns karbider, samt nitrokarburerat stål med varierande mängd porositet analyserades i detta arbete. Genom användningen av en särdragsextraktions bank tillsammans med annoterad grundsannings data tränades en modell för vartdera materialet och användes för segmentering av ny bild data. Modellen som tränades för HSLA stålet kunde effektivt segmentera och analysera karbiderna med en liten mängd träning. Modellen kunde separera de två typerna av karbider vilket inte varit möjligt med traditionellt tröskelvärde. Den modell som tränades för det nitrokarburerade stålet visade emellertid upp svårigheter i att detektera porositeten. Resultatet kunde dock förbättras genom ett annorlunda tillvägagångssätt för annoteringen. Resultatet vittnar om att vidareutveckling kan göras för att förbättra slutresultatet.
|
Page generated in 0.0886 seconds