Global ETD Search

51	Predicting Short-term Absences of a Railway Crew using Historical Data / Prognoser av korttidsfrånvaro för tågpersonal baserat på historisk data Björnfot, Agnes, Fjelkestam, Sandra January 2023 (has links) Transportation via train is considered the most environmentally friendly way of traveling and is widely seen as the future of transportation. Canceled and delayed trains worsen customer satisfaction; thus, punctual trains are crucial for railway companies. One reason for canceled and delayed trains is the shortage of employees due to sickness or care of relatives, known as short-term absences. Therefore, it is important for railway companies to have reliable predictions of these. This thesis is in collaboration with SJ, the largest railway company in Sweden which offers trips all over Sweden and some other parts of northern Europe. The thesis predicts short-term absences with data provided by SJ, by using the machine learning methods random forest and extreme gradient boosting (XGBoost). The aim is to investigate if SJ can use machine learning algorithms and statistical analysis in their absence predictions and if it can yield better results than their current absence prediction methodology. Furthermore, the thesis identifies which factors are most important for the predictions. In addition to this, quantile regression is implemented for both methods since overestimating absenteeism could be better for avoiding employee shortage. Two different datasets are used for two different tasks; one regression task to predict the number of absent employees on each date and one classification task to predict the probability of an absent employee on a specific duty, and then adding the probabilities to achieve the total predicted number of absent employees on each date. Both task formulations yielded good absence prediction results. XGBoost resulted overall in lower errors than random forest, meaning it was a slightly better model to implement for this task. When comparing the results, the performance for the developed models was better than the current predictions at SJ, meaning machine learning models could benefit SJ's prediction work. / Tågresor anses vara det mest miljövänliga sättet att resa på och betraktas av många som framtidens transportmedel. SJ är Sveriges största järnvägsföretag och erbjuder resor över hela Sverige och delar av norra Europa. Punktliga tåg är en mycket viktig faktor för järnvägsföretag, för att inte ha inställda och försenade tåg som försämrar kundnöjdheten. En orsak till inställda och försenade tåg är brist på personal på grund av sjukdom eller vård av anhöriga, så kallad korttidsfrånvaro. Därför är det viktigt för SJ att ha tillförlitliga prognoser gällande detta. Detta examensarbete försöker förutspå korttidsfrånvaro med data från SJ, genom att använda maskininlärningsmetoderna random forest och extreme gradient boosting (XGBoost). Syftet är att undersöka om SJ kan använda maskininlärningsalgoritmer och statistisk analys i sina frånvaroprognoser och om det kan ge bättre resultat än deras nuvarande prognoser. Vidare identifierar arbetet vilka faktorer som är viktigast för en pålitlig prognos. Utöver detta implementeras kvantilregression för båda metoderna eftersom överskattningar av frånvaro kan vara bättre för att undvika personalbrist. Två olika datamängder används för två olika uppgifter; en regressionsuppgift för att förutspå antalet frånvarande personal varje dag och en klassificeringsuppgift för att förutspå sannolikheten av en frånvarande personal under ett visst arbetspass. Modellen adderar sedan sannolikheterna för att få en prognos av det totala antalet frånvarande personal under varje dag. Båda uppgiftsformuleringarna resulterade i bra sjukprognoser. XGBoost resulterade totalt sett i lägre fel än random forest, vilket betyder att den var en något bättre modell att implementera för detta arbete. Vid en jämförelse av resultaten var prestationen för de utvecklade modellerna bättre än de nuvarande prognoserna hos SJ, vilket innebär att maskininlärningsalgoritmer kan gynna SJ:s prognosarbete. statistics machine learning absence prediction random forest XGBoost quantile regression statistik maskininlärning frånvaroprognoser random forest XGBoost kvantilregression Other Mathematics Annan matematik
52	Predicting Customer Churn in E-commerce Using Statistical Modeling and Feature Importance Analysis : A Comparison of Random Forest and Logistic Regression Approaches Rudälv, Amanda January 2023 (has links) While operating in online markets offers opportunities for expanded assortment and convenience, it also poses challenges such as increased competition and the need to build personal relationships with customers. Customer retention be- comes crucial in maintaining a successful business, emphasizing the importance of understanding customer behavior. Traditionally, customer behavior analysis has focused on transactional behavior, such as purchase frequency and spending amounts. However, there has been a shift towards non-transactional behavior, driven by the popularity of loyalty programs that reward customers beyond trans- actions and aim to make customers feel appreciated and included, regardless of their spending power. This study is conducted at a global retailer with the aim of enhancing the under- standing of how non-transactional customer behavior influences customer churn. The approach in this study is to understand such behavior by developing a statis- tical model and to analyze statistical approaches of feature importance. Two types of approaches for statistical modeling, each with four variations, are assessed: (1) Random forest; and (2) Logistic regression. Furthermore, three different feature importance methods are considered; (1) Gini importance; (2) Permutation impor- tance and (3) Coefficient importance. The results showed that this approach can be used to analyze customer behavior and gain a better understanding of the driving factors for churn. Furthermore, the results showed that random forest approaches outperform logistic regression. With the definition of churn constructed in this study, the most important factors that affect the probability of churn are the customer’s number of sessions and inter session interval. / Att bedriva e-handel erbjuder inte enbart möjligheter för utökat sortiment och bekvämlighet, utan leder även till ökad konkurrens och ett ökat behov av att bygga relationer med kunder. Kundlojalitet är därmed avgörande för att upprätthålla en framgångsrik verksamhet, och betonar vikten av att förstå kundernas beteende. Traditionellt har analyser av kundbeteende främst bedrivits med fokus på transak- tionellt beteende, såsom frekvens eller totalbelopp för köp. På senare tid har allt mer fokus lagts på icke-transaktionellt beteende, på grund av införandet av lo- jalitetsprogram som belönar kunder bortom transaktioner, med målet att kunder ska känna sig uppskattade och inkluderade, oavsett köpkraft. Denna studie genomförs hos ett globalt detaljhandelsföretag med målet att utöka förståelsen för hur icke-transaktionellt kundbeteende påverkar kundbortfall. För att uppnå detta konstrueras en statistisk modell som utnyttjas för att med hjälp av statistiska metoder analysera signifikans hos variabler. Två kategorier av statis- tiska modeller undersöks; (1) Random forest och (2) Logistisk regression. Utöver detta används tre olika metoder för att analysera signifikans hos variabler; (1) Gini-betydelse; (2) Permutationsbetydelse; och (3) Koefficientbetydelse. Resultatet visar att studiens tillvägagångssätt kan användas för att analysera kund- beteende och nå ökad förståelse för vad som driver kundbortfall. Vidare visar re- sultatet att random forest-modeller överträffar modeller baserade på logistisk re- gression. Baserat på den definition av kundbortfall som definierats i denna studie är de viktigaste faktorerna som påverkar sannolikheten för kundbortfall, kundens antal sessioner och intervallet mellan kundens sessioner. Customer behavior E-commerce Churn prediction Statistical model Machine learning Random forest Logistic regression Feature importance Kundbeteende E-handel Kundbortfall Statistisk modell Maskininlärning Random forest Logistisk regression Variabelsignifikans Mathematics Matematik
53	Machine Learning Methods for Segmentation of Complex Metal Microstructure Features Fredriksson, Daniel January 2022 (has links) Machine learning is a growing topic with possibilities that seems endless with growing areas of applications. The field of metallography today is highly dependent on the operators’ knowledge and technical equipment to perform segmentation and analysis of the microstructure. Having expert dependents is both costly and very time-consuming. Some automatic segmentation is possible using SEM but not for all materials and only having to depend on one machine will create a bottleneck. In this thesis, a traditional supervised machine learning model has been built with a Random Forest (RF) classifier. The model performs automatic segmentation of complex microstructure features from images taken using light optical- and scanning electron microscopes. Two types of material, High-Strength-Low-Alloy (HSLA) steel with in-grain carbides and grain boundary carbides, and nitrocarburized steel with different amounts of porosity were analyzed in this work. Using a bank of feature extractors together with labeled ground truth data one model for each material was trained and used for the segmentation of new data. The model trained for the HSLA steel was able to effectively segment and analyze the carbides with a small amount of training. The model could separate the two types of carbides which is not possible with traditional thresholding. However, the model trained on nitrocarburized steel showcased difficulties in detecting the porosity. The result was however improved with a different approach to the labeling. The result implies that further development can be made to improve the model. / Maskininlärning är ett växande område där möjligheterna verkar oändliga med växande applikationsområden. Området för metallografi är idag till stor utsträckning beroende av operatörens kunskap och de tekniska instrumenten som finns tillgängliga för att genomföra segmentering och analys av mikrostrukturen. Viss automatisk segmentering är möjlig genom att använda SEM, men det är inte möjligt för alla material samt att behöva vara beroende av endast en maskin kommer skapa en flaskhals. I denna uppsats har en traditionell övervakad maskininlärnings modell skapats med en Random Forest klassificerare. Modellen genomför automatisk segmentering av komplexa mikrostrukturer på bilder från både ljusoptiskt- och svepelektron-mikroskop. Två olika typer av material, Hög-Styrka-Låg-Legerat (HSLA) stål med karbider och korngräns karbider, samt nitrokarburerat stål med varierande mängd porositet analyserades i detta arbete. Genom användningen av en särdragsextraktions bank tillsammans med annoterad grundsannings data tränades en modell för vartdera materialet och användes för segmentering av ny bild data. Modellen som tränades för HSLA stålet kunde effektivt segmentera och analysera karbiderna med en liten mängd träning. Modellen kunde separera de två typerna av karbider vilket inte varit möjligt med traditionellt tröskelvärde. Den modell som tränades för det nitrokarburerade stålet visade emellertid upp svårigheter i att detektera porositeten. Resultatet kunde dock förbättras genom ett annorlunda tillvägagångssätt för annoteringen. Resultatet vittnar om att vidareutveckling kan göras för att förbättra slutresultatet. Machine learning Metallography Automatic segmentation Complex microstructures Random Forest classifier. Maskininlärning Metallografi Automatisk segmentering Komplex mikrostruktur Random Forest klassificerare Other Materials Engineering Annan materialteknik
54	Identifiering av den invasiva lupinen (Lupinus polyphyllus) : Övervakning av blomsterlupiner längst vägkanter med hjälp av högupplösta UAV-data och GIS / Identifying the invasive Lupinus flower (Lupinus polyphyllus) : Monitoring Lupinus flowers growth along roads using high resolution UAV images an GIS Petersen, Pontus January 2022 (has links) Sveriges vägdiken och vägkanter är hem till många blommor och växtarter. Lupin-blomman Lupinus polyphyllus är en invasiv växtart som kom till Sverige under 1800-talet. Lupinblommans egenskaper gör att växten konkurrerar ut andra växtarter och negativt påverkar svensk biologisk mångfald. Naturvårdsverket och Trafikverket övervakar och hanterar lupinspridningen i Sverige. Det finns dock inget uppsatt digitalt system för övervakning utan myndigheterna förlitar sig mycket på inrapportering av lupinblommor. I denna studie utforskades metoder och parametrar för att med hjälp av GIS och klassificering identifiera lupinblommor med hjälp av högupplösta UAV-foton. Huvudmoment var att undersöka hur väl klassificeringsmetoderna random forest (RF) och maximum likelihood (MLC) identifierar lupiner, vilken flyghöjd för UAV och segmentering vid bildhantering som bör väljas. En tidsnotering på hur länge de olika metoderna tog att bearbeta för programmet utfördes även. Endast övervakad klassificering inom programmet ESRI ArcGIS Pro genomfördes. I studien användes rasterdata insamlad via två UAV längstseparata två vägsträckor på 200 m med flyghöjd från 10 till 120 m. Studien utfördes med segmenteringsparametrarna 1, 5, 10, 15 och 20 i spektrala detaljnivå över ett mindre testområde med 20 m flyghöjd. På dessa segmenteringar testades klassificeringsmetoderna MLC och RF. Baserat på resultaten ifrån dessa tester valdes en klassificeringsmetod ut och med denna utfördes tester på flyghöjd för att få fram var optimal flyghöjd låg. De flyghöjder som testades var 20 m, 50 m och 85 m. Vid varje processnoterades även tidsåtgången. Resultaten kontrollerades via Confusion Matrix och överklassificering för att identifiera den mest effektiva och noggranna metoden. Resultaten ifrån segmenteringen visade att metoden MLC generellt gav godast resultat med en överklassificering mellan +1 % och +3 % och noggrannhet på +90 %. RF gav resultat som låg på +1 % till +9 % överklassificering och noggrannhet var även här +90 %.Flyghöjdstesterna visade att 20m hade en noggrannhet på 97% och överklassificering på4,04 %. 50 m visade en noggrannhet 99 % och överklassificering på 8,17 %. 85 m hade noggrannhet på 53 % och överklassificering på 4,19 % Tidkontrollen visade att de objektbaserade metod var runt 33 % snabbare att utföra än pixelbaserad. Inga stora skillnader mellan klassificeringsmetoder hittades. Generellt visade resultaten att en objektbaserad MLC metod på 20 m gav godast resultat och går snabbast att utföra. Det är möjligt att 30 eller 40 m ger lika goda resultat men dessa höjder fanns ej tillgängligt att testa. Skillnaderna mellan klassificeringsnoggrannheter med RF och MLC var marginella. / Roadsides in Sweden are home to several different plant species. The lupine flower Lupinus polyphyllus is an invasive species originally from North America. Naturvårdsverket and Trafikverket are responsible for monitoring and handle lupine spread in Sweden. This study examined the use of GIS and aerial photos in lupine control and more specifically what parameters and classification methods that are suitable in identifying Lupinus polyphyllus. The two main classification methods were random forest (RF) and maximum likelihood classifiers(MLC). Other factors were the altitude of the UAV collecting the photos and what segmentation parameters were optimal for classification. Processing time when performing the different parameters and methods were also collected. The study used raster data from two drones with altitudes from 10 m to 120 m and the program used to perform these tests were ArcGIS Pro. The segmentation spectral detail levels tested were 1, 5, 10, 15 and 20, these were tested on a smaller area with a flight altitude of 20 m and both RF and MLC were tested on all detail levels. Based on these tests a classification method and segmentation parameters were chosen and tested on differing flight altitudes. These altitudes were 20, 50 and 85 m. A confusion matrix and overestimation of classes were used to determine accuracy and overclassification. Results show that supervised object-based MLC on a raster generated from a 20 m flight altitude gave generally the best results. In this case the accuracy was around 90 % and overclassification was around 1-3 %. Object-based classification was around 33 % faster than pixel-based classification but classification method did not alter the time any noticeable amount. However, it should be noted that a flight height of 30 or 40 m might give equally as good results as 20 m but those altitudes were not available for testing. It should also be pointed out that the difference between RF and MLC was not huge but the desired accuracy and over classification might be stringier depending on the needs of the user. Classification Random Forest Maximum likelihood UAV Lupinus polyphyllus Lupine Klassificering Random Forest Maximum likelihood UAV Lupinus polyphyllus Lupiner Earth and Related Environmental Sciences Geovetenskap och miljövetenskap
55	Predicting and Explaining Customer Churn for an Audio/e-book Subscription Service using Statistical Analysis and Machine Learning / Prediktion och förklaring av kundbortfall för en prenumerationstjänst för ljud- och e-böcker med användning av statistik analys och maskininlärning Barr, Kajsa, Pettersson, Hampus January 2019 (has links) The current technology shift has contributed to increased consumption of media and entertainment through various mobile devices, and especially through subscription based services. Storytel is a company offering a subscription based streaming service for audio and e-books, and has grown rapidly in the last couple of years. However, when operating in a competitive market, it is of great importance to understand the behavior and demands of the customer base. It has been shown that it is more profitable to retain existing customers than to acquire new ones, which is why a large focus should be directed towards preventing customers from leaving the service, that is preventing customer churn. One way to cope with this problem is by applying statistical analysis and machine learning in order to identify patterns and customer behavior in data. In this thesis, the models logistic regression and random forest are used with an aim to both predict and explain churn in early stages of a customer's subscription. The models are tested together with the feature selection methods Elastic Net, RFE and PCA, as well as with the oversampling method SMOTE. One main finding is that the best predictive model is obtained by using random forest together with RFE, producing a prediction score of 0.2427 and a recall score of 0.7699. The other main finding is that the explanatory model is given by logistic regression together with Elastic Net, where significant regression coefficient estimates can be used to explain patterns associated with churn and give useful findings from a business perspective. / Det pågående teknologiskiftet har bidragit till en ökad konsumtion av digital media och underhållning via olika typer av mobila enheter, t.ex. smarttelefoner. Storytel är ett företag som erbjuder en prenumerationstjänst för ljud- och e-böcker och har haft en kraftig tillväxt de senaste åren. När företag befinner sig i en konkurrensutsatt marknad är det av stor vikt att förstå sig på kunders beteende samt vilka krav och önskemål kunder har på tjänsten. Det har nämligen visat sig vara mer lönsamt att behålla existerande kunder i tjänsten än hela tiden värva nya, och det är därför viktigt att se till att en befintlig kund inte avslutar sin prenumeration. Ett sätt att hantera detta är genom att använda statistisk analys och maskininlärningsmetoder för att identifiera mönster och beteenden i data. I denna uppsats används både logistisk regression och random forest med syfte att både prediktera och förklara uppsägning av tjänsten i ett tidigt stadie av en kunds prenumeration. Modellerna testas tillsammans med variabelselektionsmetoderna Elastic Net, RFE och PCA, samt tillsammans med översamplingsmetoden SMOTE. Resultatet blev att random forest tillsammans med RFE bäst predikterade uppsägning av tjänsten med 0.2427 i måttet precision och 0.7699 i måttet recall. Ett annat viktigt resultat är att den förklarande modellen ges av logistisk regression tillsammans med Elastic Net, där signifikanta estimat av regressionskoefficienterna ökar förklaringsgraden för beteenden och mönster relaterade till kunders uppsägning av tjänsten. Därmed ges användbara insikter ur ett företagsperspektiv. Statistics Machine learning customer churn random forest logistic regression Statistik Maskininlärning random forest logistisk regression kundbortfall Probability Theory and Statistics Sannolikhetsteori och statistik
56	Modelling default probabilities: The classical vs. machine learning approach / Modellering av fallissemang: Klassisk metod vs. maskininlärning Jovanovic, Filip, Singh, Paul January 2020 (has links) Fintech companies that offer Buy Now, Pay Later products are heavily dependent on accurate default probability models. This is since the fintech companies bear the risk of customers not fulfilling their obligations. In order to minimize the losses incurred to customers defaulting several machine learning algorithms can be applied but in an era in which machine learning is gaining popularity, there is a vast amount of algorithms to select from. This thesis aims to address this issue by applying three fundamentally different machine learning algorithms in order to find the best algorithm according to a selection of chosen metrics such as ROCAUC and precision-recall AUC. The algorithms that were compared are Logistic Regression, Random Forest and CatBoost. All these algorithms were benchmarked against Klarna's current XGBoost model. The results indicated that the CatBoost model is the optimal one according to the main metric of comparison, the ROCAUC-score. The CatBoost model outperformed the Logistic Regression model by seven percentage points, the Random Forest model by three percentage points and the XGBoost model by one percentage point. / Fintechbolag som erbjuder Köp Nu, Betala Senare-tjänster är starkt beroende av välfungerande fallissemangmodeller. Detta då dessa fintechbolag bär risken av att kunder inte betalar tillbaka sina krediter. För att minimera förlusterna som uppkommer när en kund inte betalar tillbaka finns flera olika maskininlärningsalgoritmer att applicera, men i dagens explosiva utveckling på maskininlärningsfronten finns det ett stort antal algoritmer att välja mellan. Denna avhandling ämnar att testa tre olika maskininlärningsalgoritmer för att fastställa vilken av dessa som presterar bäst sett till olika prestationsmått så som ROCAUC och precision-recall AUC. Algoritmerna som jämförs är Logistisk Regression, Random Forest och CatBoost. Samtliga algoritmers prestanda jämförs även med Klarnas nuvarande XGBoost-modell. Resultaten visar på att CatBoost-modellen är den mest optimala sett till det primära prestationsmåttet ROCAUC. CatBoost-modellen var överlägset bättre med sju procentenheter högre ROCAUC än Logistisk Regression, tre procentenheter högre ROCAUC än Random Forest och en procentenhet högre ROCAUC än Klarnas nuvarande XGBoost-modell Machine learning gradient boosting pd-modelling CatBoost Random Forest Logistic Regression Maskininlärning gradient boosting fallissemangmodellering CatBoost Random Forest Logistisk Regression Mathematics Matematik
57	Product Similarity Matching for Food Retail using Machine Learning / Produktliknande matchning för livsmedel med maskininlärning Kerek, Hanna January 2020 (has links) Product similarity matching for food retail is studied in this thesis. The goal is to find products that are similar but not necessarily of the same brand which can be used as a replacement product for a product that is out of stock or does not exist in a specific store. The aim of the thesis is to examine which machine learning model that is best suited to perform the product similarity matching. The product data used for training the models were name, description, nutrients, weight and filters (labels, for example organic). Product similarity matching was performed pairwise and the similarity between the products was measured by jaccard distance for text attributes and relative difference for numeric values. Random Forest, Logistic Regression and Support Vector Machines were tested and compared to a baseline. The baseline computed the jaccard distance for the product names and did the classification based on a threshold value of the jaccard distance. The result was measured by accuracy, F-measure and AUC score. Random Forest performed best in terms of all evaluation metrics and Logistic Regression, Random Forest and Support Vector Machines all performed better than the baseline. / I den här rapporten studeras produktliknande matchning för livsmedel. Målet är att hitta produkter som är liknande men inte nödvändigtvis har samma märke som kan vara en ersättningsprodukt till en produkt som är slutsåld eller inte säljs i en specifik affär. Syftet med den här rapporten är att undersöka vilken maskininlärningsmodel som är bäst lämpad för att göra produktliknande matchning. Produktdatan som användes för att träna modellerna var namn, beskrivning, näringsvärden, vikt och märkning (exempelvis ekologisk). Produktmatchningen gjordes parvis och likhet mellan produkterna beräknades genom jaccard index för textattribut och relativ differens för numeriska värden. Random Forest, logistisk regression och Support Vector Machines testades och jämfördes mot en baslinje. I baslinjen räknades jaccard index ut enbart för produkternas namn och klassificeringen gjordes genom att använda ett tröskelvärde för jaccard indexet. Resultatet mättes genom noggrannhet, F-measure och AUC. Random Forest presterade bäst sett till alla prestationsmått och logistisk regression, Random Forest och Support Vector Machines gav alla bättre resultat än baslinjen. Product matching Machine Learning Random Forest Logistic Regression Support Vector Machines Produktmatchning maskininlärning Random Forest logistisk regression Support Vector Machines Probability Theory and Statistics Sannolikhetsteori och statistik
58	Analys av luftkvaliteten på Hornsgatan med hjälp av maskininlärning utifrån trafikflödesvariabler / Air Quality Analysis on Hornsgatan using Machine Learning with regards to Traffic Flow Teurnberg, Ellinor January 2023 (has links) Denna studie har syftet att undersöka sambandet mellan luftföroreningar och olika fordonsvariabler, såsom årsmodell, bränsletyp och fordonstyp, på Hornsgatan i Stockholm. Studien avser att besvara vilka faktorer som har störst inverkan på luftkvaliteten. Utförandet baseras på maskininlärningsalgoritmerna Random Forest och Support Vector Regression, vilka jämförs utifrån R² och RMSE. Modellerna skapade med Random Forest överträffar Support Vector Regression för de olika luftföroreningarna. Den modell som presterade bäst var modellen för kolmonoxid vilken hade ett R²-värde på 99.7%. Den modell som gav prediktioner med lägst R²-värde, 68.4%, var modellen för kvävedioxid. Överlag var resultaten goda i relation till tidigare studier. Utifrån modellerna diskuteras variablers inverkan och olika åtgärder som kan införas i Stockholm Stad och på Hornsgatan för att förbättra luftkvaliteten. / This study aims to investigate the relationship between multiple air pollution and different vehicle variables, such as vehicle year, fuel type and vehicle type, on Hornsgatan in Stockholm. The study intends to answer which factors have the greatest impact on air quality. The implementation is based on the two machine learning algorithms Random Forest and Support Vector Regression, which are compared based on R² and RMSE. The models created with Random Forest outperform Support Vector Regression for the various air pollutants. The best performing model was the carbon monoxide model which had an R²-value of 99.7%. The model that gave predictions with the lowest R²-value, 68.4%, was the model for nitrogen dioxide. Overall, the results were good in relation to previous studies. With regards to these models, the impact of variables and different measures that can be introduced in the City of Stockholm and on Hornsgatan to improve air quality are discussed. Hornsgatan Air Quality Random Forest Stockholm Stad Support Vector Regression Machine Learning Hornsgatan Luftkvalitet Random Forest Stockholm Stad Support Vector Regression Maskininlärning Computer and Information Sciences Data- och informationsvetenskap
59	Utilizing Hybrid Ensemble Prediction Model In Order to Predict Energy Demand in Sweden : A Machine-Learning Approach / En maskininlärningsmetod som använder hybridensembleprediktionsmodell för att förutsäga energiefterfrågan i Sverige Su, Binxin January 2022 (has links) Conventional machine learning (ML) models and algorithms are constantly advancing at a fast pace. Most of this development are due to the implementation of hybrid- and ensemble techniques that are powerful tools to complement and empower the efficiency of the algorithms. At the same time, the development and demand for renewable energy sources are rapidly increasing driven by political and environmental issues in which failure to act fast enough, could lead to an existential crisis. With the phasing of non-renewable to renewable energy sources, new challenges arise due to its intermittent and variable nature. Accurate forecasting techniques plays a crucial role in addressing these challenges. In this thesis, I present a hybrid ensemble machine learning model based upon stacking, utilizing a Gradient Boosted Tree as a meta-learner to predict the energy demand for the energy area SE3 in Sweden. The Hybrid model is based on three composite models: XGBoost, CatBoost and Random Forest (RF); utilizing only features extracted from the timeseries data. For training and testing the proposed Hybrid model, hourly demand load data was gathered from Svenska Kraftnät, measuring energy consumption for the energy area SE3 from year 2016-2021. The forecasting results of the models are measured using a regression score (R-squared, which measures Explained Variance) and Accuracy (measured in terms of Mean Absolute Percentage Error). The result shows that in an experimental setting, the Hybrid model reaches a R-squared score of 0.9785 and an accuracy of 97.85%. When utilized for day-ahead prediction on unseen data outside of the scope of the training dataset, the Hybrid model reaches a R-squared score of 0.9764 and an Accuracy of 93.43%. This thesis concludes that the proposed methodology can be utilized to accurately predict the variance in the energy demand and can serve as a framework to decision makers in order to accurately predict the energy demand in Sweden. / Konventionella maskininlärningsmodeller (ML) och algoritmer utvecklas ständigt i snabb takt. Det mesta av denna utveckling beror på implementeringen av hybrid- och ensembletekniker som är kraftfulla verktyg för att komplettera och stärka effektiviteten hos algoritmer. Samtidigt ökar utvecklingen och efterfrågan på förnybara energikällor snabbt, drivet av politiska och miljömässiga motiv, där underlåtenhet att agera tillräckligt snabbt kan leda till en existentiell kris. Med utfasningen av icke-förnybara till förnybara energikällor uppstår nya utmaningar på grund av dess intermittenta och varierande karaktär. Noggranna prognostekniker spelar en avgörande roll för att hantera dessa utmaningar. I det här examensarbetet presenterar jag en hybrid ensemble maskininlärningsmodell baserad på stacking, med användning av ett Gradient Boosted Decision Tree (GBDT) som en meta-learner för att förutsäga energibehovet för energiområdet SE3 i Sverige. Hybridmodellen är baserad på tre kompositmodeller: XGBoost, CatBoost och Random Forest (RF) och använder endast features extraherade från tidsseriedata. För att utbilda och testa den föreslagna hybridmodellen samlades timbelastningsdata från Svenska Kraftnät, som mäter energiförbrukningen för energiområdet SE3 från år 2016-2021. Modellernas prognosresultat mäts med hjälp av ett regressionsmått (R-kvadrat, som mäter Explained Variance) och Accuracy (mätt i termer av Mean Absolute Percentage Error). Resultatet visar att i en experimentell miljö når hybridmodellen en R-kvadratvärde på 0,9785 och en Accuracy på 97,85%. När hybridmodellen används för att förutsäga energiförbrukningen dagen framåt på data utanför omfattningen av träningsdata, når hybridmodellen ett R-kvadratpoäng på 0,9764 och en Accuracy på 93,43%. Denna avhandling drar slutsatsen att den föreslagna metoden kan användas för att korrekt förutsäga variansen i energibehovet och kan fungera som ett ramverk för beslutsfattare för att korrekt prognostisera energibehovet i Sverige. Energy Demand Prediction Machine Learning Hybrid Model Ensemble Model Random Forest XGBoost CatBoost Prognos av Energiefterfrågan Maskininlärning Hybridmodell Ensemblemodell Random Forest XGBoost CatBoost Computer and Information Sciences Data- och informationsvetenskap
60	Modeling Success Factors for Start-ups in Western Europe through a Statistical Learning Approach / Modellering av framgångsfaktorer för startups i Västeuropa genom statistisk inlärning Kamal, Adib, Sabani, Kenan January 2021 (has links) The purpose of this thesis was to use a quantitative method to expand on previous research in the field of start-up success prediction. This was accomplished by including more criteria in the study, which was made possible by the Crunchbase database, which is the largest available information source for start-ups. Furthermore, the data used in this thesis was limited to Western European start-ups only in order to study the effects of limiting the data to a certain geographical region on the prediction models, which to our knowledge has not been done before in this type of research. The quantitative method used was machine learning and specifically the three machine learning predictors used in this thesis were Logistic Regression, Random Forest and K-nearest Neighbor (KNN). All three models proposed and evaluated have a better prediction accuracy than guessing the outcome at random. When tested on data previously unknown to the model, Random Forest produced the greatest results, predicting a successful company as a success and a failed company as a failure with 79 percent accuracy. With accuracies of 65 percent and 59 percent, respectively, both logistic regression and K-Nearest Neighbor (KNN) were close behind. / Syftet med denna avhandling var att använda en kvantitativ metod för att utöka tidigare forskning inom modellering av framgångsfaktorer för start-ups genom maskininlärning. Detta kunde åstadkommas genom att inkludera fler kriterier i studien än vad som har gjorts tidigare, vilket möjliggjordes av Crunchbase-databasen, som är den största tillgängliga informationskällan för nystartade företag. Dessutom är den data som användes i denna avhandling begränsad till endast västeuropeiska start-ups för att studera effekterna av att begränsa data till ett visst geografiskt område i prediktionsmodellerna, vilket inte har gjorts tidigare i denna typ av forskning. Den kvantitativa metoden som användes var maskininlärning och specifikt var de tre maskininlärningsmodellerna som användes i denna avhandling Logistic Regression, Random Forest och K-Nearest Neighbor (KNN). Alla tre modeller som inkluderats och utvärderats har en bättre förutsägelsesnoggrannhet än att gissa resultatet slumpmässigt. När modellerna testades med data som tidigare varit okänd för modellerna, gav Random Forest det bästa resultatet och predikterade ett framgångsrikt företag korrekt och ett misslyckat företag korrekt med 79 procents noggrannhet. Nära efter kom både K-Nearest Neighbor (KNN) och Logistic Regression med respektive noggrannheter på 65 och 59 procent. Machine learning KNN Random Forest Logistic Regression Start-up Success Maskininlärning KNN Random Forest Logistic Regression Start-up Framgångsfaktorer Economics and Business Ekonomi och näringsliv Other Engineering and Technologies Annan teknik

Search results