Global ETD Search

61	Identifiering av den invasiva lupinen (Lupinus polyphyllus) : Övervakning av blomsterlupiner längst vägkanter med hjälp av högupplösta UAV-data och GIS / Identifying the invasive Lupinus flower (Lupinus polyphyllus) : Monitoring Lupinus flowers growth along roads using high resolution UAV images an GIS Petersen, Pontus January 2022 (has links) Sveriges vägdiken och vägkanter är hem till många blommor och växtarter. Lupin-blomman Lupinus polyphyllus är en invasiv växtart som kom till Sverige under 1800-talet. Lupinblommans egenskaper gör att växten konkurrerar ut andra växtarter och negativt påverkar svensk biologisk mångfald. Naturvårdsverket och Trafikverket övervakar och hanterar lupinspridningen i Sverige. Det finns dock inget uppsatt digitalt system för övervakning utan myndigheterna förlitar sig mycket på inrapportering av lupinblommor. I denna studie utforskades metoder och parametrar för att med hjälp av GIS och klassificering identifiera lupinblommor med hjälp av högupplösta UAV-foton. Huvudmoment var att undersöka hur väl klassificeringsmetoderna random forest (RF) och maximum likelihood (MLC) identifierar lupiner, vilken flyghöjd för UAV och segmentering vid bildhantering som bör väljas. En tidsnotering på hur länge de olika metoderna tog att bearbeta för programmet utfördes även. Endast övervakad klassificering inom programmet ESRI ArcGIS Pro genomfördes. I studien användes rasterdata insamlad via två UAV längstseparata två vägsträckor på 200 m med flyghöjd från 10 till 120 m. Studien utfördes med segmenteringsparametrarna 1, 5, 10, 15 och 20 i spektrala detaljnivå över ett mindre testområde med 20 m flyghöjd. På dessa segmenteringar testades klassificeringsmetoderna MLC och RF. Baserat på resultaten ifrån dessa tester valdes en klassificeringsmetod ut och med denna utfördes tester på flyghöjd för att få fram var optimal flyghöjd låg. De flyghöjder som testades var 20 m, 50 m och 85 m. Vid varje processnoterades även tidsåtgången. Resultaten kontrollerades via Confusion Matrix och överklassificering för att identifiera den mest effektiva och noggranna metoden. Resultaten ifrån segmenteringen visade att metoden MLC generellt gav godast resultat med en överklassificering mellan +1 % och +3 % och noggrannhet på +90 %. RF gav resultat som låg på +1 % till +9 % överklassificering och noggrannhet var även här +90 %.Flyghöjdstesterna visade att 20m hade en noggrannhet på 97% och överklassificering på4,04 %. 50 m visade en noggrannhet 99 % och överklassificering på 8,17 %. 85 m hade noggrannhet på 53 % och överklassificering på 4,19 % Tidkontrollen visade att de objektbaserade metod var runt 33 % snabbare att utföra än pixelbaserad. Inga stora skillnader mellan klassificeringsmetoder hittades. Generellt visade resultaten att en objektbaserad MLC metod på 20 m gav godast resultat och går snabbast att utföra. Det är möjligt att 30 eller 40 m ger lika goda resultat men dessa höjder fanns ej tillgängligt att testa. Skillnaderna mellan klassificeringsnoggrannheter med RF och MLC var marginella. / Roadsides in Sweden are home to several different plant species. The lupine flower Lupinus polyphyllus is an invasive species originally from North America. Naturvårdsverket and Trafikverket are responsible for monitoring and handle lupine spread in Sweden. This study examined the use of GIS and aerial photos in lupine control and more specifically what parameters and classification methods that are suitable in identifying Lupinus polyphyllus. The two main classification methods were random forest (RF) and maximum likelihood classifiers(MLC). Other factors were the altitude of the UAV collecting the photos and what segmentation parameters were optimal for classification. Processing time when performing the different parameters and methods were also collected. The study used raster data from two drones with altitudes from 10 m to 120 m and the program used to perform these tests were ArcGIS Pro. The segmentation spectral detail levels tested were 1, 5, 10, 15 and 20, these were tested on a smaller area with a flight altitude of 20 m and both RF and MLC were tested on all detail levels. Based on these tests a classification method and segmentation parameters were chosen and tested on differing flight altitudes. These altitudes were 20, 50 and 85 m. A confusion matrix and overestimation of classes were used to determine accuracy and overclassification. Results show that supervised object-based MLC on a raster generated from a 20 m flight altitude gave generally the best results. In this case the accuracy was around 90 % and overclassification was around 1-3 %. Object-based classification was around 33 % faster than pixel-based classification but classification method did not alter the time any noticeable amount. However, it should be noted that a flight height of 30 or 40 m might give equally as good results as 20 m but those altitudes were not available for testing. It should also be pointed out that the difference between RF and MLC was not huge but the desired accuracy and over classification might be stringier depending on the needs of the user. Classification Random Forest Maximum likelihood UAV Lupinus polyphyllus Lupine Klassificering Random Forest Maximum likelihood UAV Lupinus polyphyllus Lupiner Earth and Related Environmental Sciences Geovetenskap och miljövetenskap
62	Predicting and Explaining Customer Churn for an Audio/e-book Subscription Service using Statistical Analysis and Machine Learning / Prediktion och förklaring av kundbortfall för en prenumerationstjänst för ljud- och e-böcker med användning av statistik analys och maskininlärning Barr, Kajsa, Pettersson, Hampus January 2019 (has links) The current technology shift has contributed to increased consumption of media and entertainment through various mobile devices, and especially through subscription based services. Storytel is a company offering a subscription based streaming service for audio and e-books, and has grown rapidly in the last couple of years. However, when operating in a competitive market, it is of great importance to understand the behavior and demands of the customer base. It has been shown that it is more profitable to retain existing customers than to acquire new ones, which is why a large focus should be directed towards preventing customers from leaving the service, that is preventing customer churn. One way to cope with this problem is by applying statistical analysis and machine learning in order to identify patterns and customer behavior in data. In this thesis, the models logistic regression and random forest are used with an aim to both predict and explain churn in early stages of a customer's subscription. The models are tested together with the feature selection methods Elastic Net, RFE and PCA, as well as with the oversampling method SMOTE. One main finding is that the best predictive model is obtained by using random forest together with RFE, producing a prediction score of 0.2427 and a recall score of 0.7699. The other main finding is that the explanatory model is given by logistic regression together with Elastic Net, where significant regression coefficient estimates can be used to explain patterns associated with churn and give useful findings from a business perspective. / Det pågående teknologiskiftet har bidragit till en ökad konsumtion av digital media och underhållning via olika typer av mobila enheter, t.ex. smarttelefoner. Storytel är ett företag som erbjuder en prenumerationstjänst för ljud- och e-böcker och har haft en kraftig tillväxt de senaste åren. När företag befinner sig i en konkurrensutsatt marknad är det av stor vikt att förstå sig på kunders beteende samt vilka krav och önskemål kunder har på tjänsten. Det har nämligen visat sig vara mer lönsamt att behålla existerande kunder i tjänsten än hela tiden värva nya, och det är därför viktigt att se till att en befintlig kund inte avslutar sin prenumeration. Ett sätt att hantera detta är genom att använda statistisk analys och maskininlärningsmetoder för att identifiera mönster och beteenden i data. I denna uppsats används både logistisk regression och random forest med syfte att både prediktera och förklara uppsägning av tjänsten i ett tidigt stadie av en kunds prenumeration. Modellerna testas tillsammans med variabelselektionsmetoderna Elastic Net, RFE och PCA, samt tillsammans med översamplingsmetoden SMOTE. Resultatet blev att random forest tillsammans med RFE bäst predikterade uppsägning av tjänsten med 0.2427 i måttet precision och 0.7699 i måttet recall. Ett annat viktigt resultat är att den förklarande modellen ges av logistisk regression tillsammans med Elastic Net, där signifikanta estimat av regressionskoefficienterna ökar förklaringsgraden för beteenden och mönster relaterade till kunders uppsägning av tjänsten. Därmed ges användbara insikter ur ett företagsperspektiv. Statistics Machine learning customer churn random forest logistic regression Statistik Maskininlärning random forest logistisk regression kundbortfall Probability Theory and Statistics Sannolikhetsteori och statistik
63	Modelling default probabilities: The classical vs. machine learning approach / Modellering av fallissemang: Klassisk metod vs. maskininlärning Jovanovic, Filip, Singh, Paul January 2020 (has links) Fintech companies that offer Buy Now, Pay Later products are heavily dependent on accurate default probability models. This is since the fintech companies bear the risk of customers not fulfilling their obligations. In order to minimize the losses incurred to customers defaulting several machine learning algorithms can be applied but in an era in which machine learning is gaining popularity, there is a vast amount of algorithms to select from. This thesis aims to address this issue by applying three fundamentally different machine learning algorithms in order to find the best algorithm according to a selection of chosen metrics such as ROCAUC and precision-recall AUC. The algorithms that were compared are Logistic Regression, Random Forest and CatBoost. All these algorithms were benchmarked against Klarna's current XGBoost model. The results indicated that the CatBoost model is the optimal one according to the main metric of comparison, the ROCAUC-score. The CatBoost model outperformed the Logistic Regression model by seven percentage points, the Random Forest model by three percentage points and the XGBoost model by one percentage point. / Fintechbolag som erbjuder Köp Nu, Betala Senare-tjänster är starkt beroende av välfungerande fallissemangmodeller. Detta då dessa fintechbolag bär risken av att kunder inte betalar tillbaka sina krediter. För att minimera förlusterna som uppkommer när en kund inte betalar tillbaka finns flera olika maskininlärningsalgoritmer att applicera, men i dagens explosiva utveckling på maskininlärningsfronten finns det ett stort antal algoritmer att välja mellan. Denna avhandling ämnar att testa tre olika maskininlärningsalgoritmer för att fastställa vilken av dessa som presterar bäst sett till olika prestationsmått så som ROCAUC och precision-recall AUC. Algoritmerna som jämförs är Logistisk Regression, Random Forest och CatBoost. Samtliga algoritmers prestanda jämförs även med Klarnas nuvarande XGBoost-modell. Resultaten visar på att CatBoost-modellen är den mest optimala sett till det primära prestationsmåttet ROCAUC. CatBoost-modellen var överlägset bättre med sju procentenheter högre ROCAUC än Logistisk Regression, tre procentenheter högre ROCAUC än Random Forest och en procentenhet högre ROCAUC än Klarnas nuvarande XGBoost-modell Machine learning gradient boosting pd-modelling CatBoost Random Forest Logistic Regression Maskininlärning gradient boosting fallissemangmodellering CatBoost Random Forest Logistisk Regression Mathematics Matematik
64	Product Similarity Matching for Food Retail using Machine Learning / Produktliknande matchning för livsmedel med maskininlärning Kerek, Hanna January 2020 (has links) Product similarity matching for food retail is studied in this thesis. The goal is to find products that are similar but not necessarily of the same brand which can be used as a replacement product for a product that is out of stock or does not exist in a specific store. The aim of the thesis is to examine which machine learning model that is best suited to perform the product similarity matching. The product data used for training the models were name, description, nutrients, weight and filters (labels, for example organic). Product similarity matching was performed pairwise and the similarity between the products was measured by jaccard distance for text attributes and relative difference for numeric values. Random Forest, Logistic Regression and Support Vector Machines were tested and compared to a baseline. The baseline computed the jaccard distance for the product names and did the classification based on a threshold value of the jaccard distance. The result was measured by accuracy, F-measure and AUC score. Random Forest performed best in terms of all evaluation metrics and Logistic Regression, Random Forest and Support Vector Machines all performed better than the baseline. / I den här rapporten studeras produktliknande matchning för livsmedel. Målet är att hitta produkter som är liknande men inte nödvändigtvis har samma märke som kan vara en ersättningsprodukt till en produkt som är slutsåld eller inte säljs i en specifik affär. Syftet med den här rapporten är att undersöka vilken maskininlärningsmodel som är bäst lämpad för att göra produktliknande matchning. Produktdatan som användes för att träna modellerna var namn, beskrivning, näringsvärden, vikt och märkning (exempelvis ekologisk). Produktmatchningen gjordes parvis och likhet mellan produkterna beräknades genom jaccard index för textattribut och relativ differens för numeriska värden. Random Forest, logistisk regression och Support Vector Machines testades och jämfördes mot en baslinje. I baslinjen räknades jaccard index ut enbart för produkternas namn och klassificeringen gjordes genom att använda ett tröskelvärde för jaccard indexet. Resultatet mättes genom noggrannhet, F-measure och AUC. Random Forest presterade bäst sett till alla prestationsmått och logistisk regression, Random Forest och Support Vector Machines gav alla bättre resultat än baslinjen. Product matching Machine Learning Random Forest Logistic Regression Support Vector Machines Produktmatchning maskininlärning Random Forest logistisk regression Support Vector Machines Probability Theory and Statistics Sannolikhetsteori och statistik
65	Analys av luftkvaliteten på Hornsgatan med hjälp av maskininlärning utifrån trafikflödesvariabler / Air Quality Analysis on Hornsgatan using Machine Learning with regards to Traffic Flow Teurnberg, Ellinor January 2023 (has links) Denna studie har syftet att undersöka sambandet mellan luftföroreningar och olika fordonsvariabler, såsom årsmodell, bränsletyp och fordonstyp, på Hornsgatan i Stockholm. Studien avser att besvara vilka faktorer som har störst inverkan på luftkvaliteten. Utförandet baseras på maskininlärningsalgoritmerna Random Forest och Support Vector Regression, vilka jämförs utifrån R² och RMSE. Modellerna skapade med Random Forest överträffar Support Vector Regression för de olika luftföroreningarna. Den modell som presterade bäst var modellen för kolmonoxid vilken hade ett R²-värde på 99.7%. Den modell som gav prediktioner med lägst R²-värde, 68.4%, var modellen för kvävedioxid. Överlag var resultaten goda i relation till tidigare studier. Utifrån modellerna diskuteras variablers inverkan och olika åtgärder som kan införas i Stockholm Stad och på Hornsgatan för att förbättra luftkvaliteten. / This study aims to investigate the relationship between multiple air pollution and different vehicle variables, such as vehicle year, fuel type and vehicle type, on Hornsgatan in Stockholm. The study intends to answer which factors have the greatest impact on air quality. The implementation is based on the two machine learning algorithms Random Forest and Support Vector Regression, which are compared based on R² and RMSE. The models created with Random Forest outperform Support Vector Regression for the various air pollutants. The best performing model was the carbon monoxide model which had an R²-value of 99.7%. The model that gave predictions with the lowest R²-value, 68.4%, was the model for nitrogen dioxide. Overall, the results were good in relation to previous studies. With regards to these models, the impact of variables and different measures that can be introduced in the City of Stockholm and on Hornsgatan to improve air quality are discussed. Hornsgatan Air Quality Random Forest Stockholm Stad Support Vector Regression Machine Learning Hornsgatan Luftkvalitet Random Forest Stockholm Stad Support Vector Regression Maskininlärning Computer and Information Sciences Data- och informationsvetenskap
66	Utilizing Hybrid Ensemble Prediction Model In Order to Predict Energy Demand in Sweden : A Machine-Learning Approach / En maskininlärningsmetod som använder hybridensembleprediktionsmodell för att förutsäga energiefterfrågan i Sverige Su, Binxin January 2022 (has links) Conventional machine learning (ML) models and algorithms are constantly advancing at a fast pace. Most of this development are due to the implementation of hybrid- and ensemble techniques that are powerful tools to complement and empower the efficiency of the algorithms. At the same time, the development and demand for renewable energy sources are rapidly increasing driven by political and environmental issues in which failure to act fast enough, could lead to an existential crisis. With the phasing of non-renewable to renewable energy sources, new challenges arise due to its intermittent and variable nature. Accurate forecasting techniques plays a crucial role in addressing these challenges. In this thesis, I present a hybrid ensemble machine learning model based upon stacking, utilizing a Gradient Boosted Tree as a meta-learner to predict the energy demand for the energy area SE3 in Sweden. The Hybrid model is based on three composite models: XGBoost, CatBoost and Random Forest (RF); utilizing only features extracted from the timeseries data. For training and testing the proposed Hybrid model, hourly demand load data was gathered from Svenska Kraftnät, measuring energy consumption for the energy area SE3 from year 2016-2021. The forecasting results of the models are measured using a regression score (R-squared, which measures Explained Variance) and Accuracy (measured in terms of Mean Absolute Percentage Error). The result shows that in an experimental setting, the Hybrid model reaches a R-squared score of 0.9785 and an accuracy of 97.85%. When utilized for day-ahead prediction on unseen data outside of the scope of the training dataset, the Hybrid model reaches a R-squared score of 0.9764 and an Accuracy of 93.43%. This thesis concludes that the proposed methodology can be utilized to accurately predict the variance in the energy demand and can serve as a framework to decision makers in order to accurately predict the energy demand in Sweden. / Konventionella maskininlärningsmodeller (ML) och algoritmer utvecklas ständigt i snabb takt. Det mesta av denna utveckling beror på implementeringen av hybrid- och ensembletekniker som är kraftfulla verktyg för att komplettera och stärka effektiviteten hos algoritmer. Samtidigt ökar utvecklingen och efterfrågan på förnybara energikällor snabbt, drivet av politiska och miljömässiga motiv, där underlåtenhet att agera tillräckligt snabbt kan leda till en existentiell kris. Med utfasningen av icke-förnybara till förnybara energikällor uppstår nya utmaningar på grund av dess intermittenta och varierande karaktär. Noggranna prognostekniker spelar en avgörande roll för att hantera dessa utmaningar. I det här examensarbetet presenterar jag en hybrid ensemble maskininlärningsmodell baserad på stacking, med användning av ett Gradient Boosted Decision Tree (GBDT) som en meta-learner för att förutsäga energibehovet för energiområdet SE3 i Sverige. Hybridmodellen är baserad på tre kompositmodeller: XGBoost, CatBoost och Random Forest (RF) och använder endast features extraherade från tidsseriedata. För att utbilda och testa den föreslagna hybridmodellen samlades timbelastningsdata från Svenska Kraftnät, som mäter energiförbrukningen för energiområdet SE3 från år 2016-2021. Modellernas prognosresultat mäts med hjälp av ett regressionsmått (R-kvadrat, som mäter Explained Variance) och Accuracy (mätt i termer av Mean Absolute Percentage Error). Resultatet visar att i en experimentell miljö når hybridmodellen en R-kvadratvärde på 0,9785 och en Accuracy på 97,85%. När hybridmodellen används för att förutsäga energiförbrukningen dagen framåt på data utanför omfattningen av träningsdata, når hybridmodellen ett R-kvadratpoäng på 0,9764 och en Accuracy på 93,43%. Denna avhandling drar slutsatsen att den föreslagna metoden kan användas för att korrekt förutsäga variansen i energibehovet och kan fungera som ett ramverk för beslutsfattare för att korrekt prognostisera energibehovet i Sverige. Energy Demand Prediction Machine Learning Hybrid Model Ensemble Model Random Forest XGBoost CatBoost Prognos av Energiefterfrågan Maskininlärning Hybridmodell Ensemblemodell Random Forest XGBoost CatBoost Computer and Information Sciences Data- och informationsvetenskap
67	Modeling Success Factors for Start-ups in Western Europe through a Statistical Learning Approach / Modellering av framgångsfaktorer för startups i Västeuropa genom statistisk inlärning Kamal, Adib, Sabani, Kenan January 2021 (has links) The purpose of this thesis was to use a quantitative method to expand on previous research in the field of start-up success prediction. This was accomplished by including more criteria in the study, which was made possible by the Crunchbase database, which is the largest available information source for start-ups. Furthermore, the data used in this thesis was limited to Western European start-ups only in order to study the effects of limiting the data to a certain geographical region on the prediction models, which to our knowledge has not been done before in this type of research. The quantitative method used was machine learning and specifically the three machine learning predictors used in this thesis were Logistic Regression, Random Forest and K-nearest Neighbor (KNN). All three models proposed and evaluated have a better prediction accuracy than guessing the outcome at random. When tested on data previously unknown to the model, Random Forest produced the greatest results, predicting a successful company as a success and a failed company as a failure with 79 percent accuracy. With accuracies of 65 percent and 59 percent, respectively, both logistic regression and K-Nearest Neighbor (KNN) were close behind. / Syftet med denna avhandling var att använda en kvantitativ metod för att utöka tidigare forskning inom modellering av framgångsfaktorer för start-ups genom maskininlärning. Detta kunde åstadkommas genom att inkludera fler kriterier i studien än vad som har gjorts tidigare, vilket möjliggjordes av Crunchbase-databasen, som är den största tillgängliga informationskällan för nystartade företag. Dessutom är den data som användes i denna avhandling begränsad till endast västeuropeiska start-ups för att studera effekterna av att begränsa data till ett visst geografiskt område i prediktionsmodellerna, vilket inte har gjorts tidigare i denna typ av forskning. Den kvantitativa metoden som användes var maskininlärning och specifikt var de tre maskininlärningsmodellerna som användes i denna avhandling Logistic Regression, Random Forest och K-Nearest Neighbor (KNN). Alla tre modeller som inkluderats och utvärderats har en bättre förutsägelsesnoggrannhet än att gissa resultatet slumpmässigt. När modellerna testades med data som tidigare varit okänd för modellerna, gav Random Forest det bästa resultatet och predikterade ett framgångsrikt företag korrekt och ett misslyckat företag korrekt med 79 procents noggrannhet. Nära efter kom både K-Nearest Neighbor (KNN) och Logistic Regression med respektive noggrannheter på 65 och 59 procent. Machine learning KNN Random Forest Logistic Regression Start-up Success Maskininlärning KNN Random Forest Logistic Regression Start-up Framgångsfaktorer Economics and Business Ekonomi och näringsliv Other Engineering and Technologies Annan teknik
68	A Gradient Boosting Tree Approach for Behavioural Credit Scoring / En gradientförstärkande trädmetod för beteendemässig kreditvärdering Dernsjö, Axel, Blom, Ebba January 2023 (has links) This report evaluates the possibility of using sequential learning in a material development setting to help predict material properties and speed up the development of new materials. To do this a Random forest model was built incorporating carefully calibrated prediction uncertainty estimates. The idea behind the model is to use the few data points available in this field and leverage that data to build a better representation of the input-output space as each experiment is performed. Having both predictions and uncertainties to evaluate, several different strategies were developed to investigate performance. Promising results regarding feasibility and potential cost-cutting were found using these strategies. It was found that within a specific performance region of the output space, the mean difference in alloying component price between the cheapest and most expensive material could be as high as 100 %. Also, the model performed fast extrapolation to previously unknown output regions, meaning new, differently performing materials could be found even with very poor initial data. / I denna rapport utvärderas möjligheten att använda sekventiell maskininlärning inom materialutveckling för att kunna prediktera materials egenskaper och därigenom förkorta materialutvecklingsprocessen. För att göra detta byggdes en Random forest regressionsmodell som även innehöll en uppskattning av prediktionsosäkerheten. Tanken bakom modellen är att använda de relativt få datapunkter som generellt brukar vara tillgängliga inom materialvetenskap, och med hjälp av dessa bygga en bättre representation av input-output-rummet genom varje experiment som genomförs. Med både förutsägelser och osäkerheter att utvärdera utvecklades flera olika strategier för att undersöka prestanda för de olika kandidatmaterialen. Genom att använda dessa strategier kunde lovande resultat vad gäller genomförbarhet och potentiell kostnadsbesparing hittas. Det visade sig att, för specifika prestandakrav, den genomsnittliga skillnaden i pris mellan den billigaste och den dyraste materialkemin kan vara så hög som 100 %. Vad gäller övriga resultat klarade modellen av att snabbt extrapolera initial data till tidigare okända regioner av output-rummet. Detta innebär att nya material med ny typ av prestanda kunde hittas även med mycket missanpassad initial träningsdata. Machine learning Random forest Uncertainty measure Material development Empirical Bayes Maskininlärning Random forest Osäkerhetsmått Materialutveckling Empirical Bayes Other Mathematics Annan matematik
69	A Review of Anomaly Detection Techniques forHeterogeneous Datasets / Undersökning av Anomalidetekteringsmetoder för Heterogena Datamängder Piroti, Shirwan January 2021 (has links) Anomaly detection is a field of study that is closely associated with machine learning and it is the process of finding irregularities in datasets. Developing and maintaining multiple machine learning models for anomaly detection takes time and can be an expensive task. One proposed solution is to combine all datasets and create a single model. This creates a heterogeneous dataset with a wide variation in its distribution, making it difficult to find anomalies in the dataset. The objective of this thesis is then to identify a framework that is suitable for anomaly detection in heterogeneous datasets. A selection of five methods were implemented in this project - 2 supervised learning approaches and 3 unsupervised learning approaches. These models are trained on 3 synthetic datasets that have been designed to be heterogeneous with an imbalance between the classes as anomalies are rare events. The performance of the models are evaluated with the AUC and the F1-score, aswell as observing the Precision-Recall Curve. The results makes it evident that anomaly detection in heterogeneous datasets is a challenging task. The best performing approach was with a random forest model where the class imbalance problem had been solved by generating synthetic samples of the anomaly class by implementing a generative adversarial network. / Anomalidetektering är ett studieområde som är starkt förknippat med maskininlärning och det kan beskrivas som processen att hitta avvikelser i datamängder. Att utveckla och underhålla flera maskininlärningsmodeller tar tid och kan vara kostsamt. Ett förslag för att lösa dessa problem är att kombinera alla dataset och skapa endast en modell. Detta leder till att datamängden blir heterogen i dess fördelning och gör det mer utmanande att skapa en modell som kan detektera anomalier. Syftet i denna tes är att identifiera ett ramverk som är lämpligt för anomalidetektering i heterogena datamängder. Ett urval av fem metoder tillämpades i detta projekt - 2 metoder inom övervakad inlärning och 3 metoder inom oövervakad inlärning. Dessa modeller är tränade på syntetiska datamängder som är framtagna så att de är heterogena i dess fördelning och har en urbalans mellan klasserna då anomalier är sällsynta händelser. Modellernas prestanda evalueras genom att beräkna dess AUC och F1-värde, samt observera Precision-Recall kurvan. Resultaten gör det tydligt att anomalidetektering i heterogena datamängder är ett utmanande uppdrag. Den model som presterade bäst var en random forest model där urbalansen mellan klasserna var omhändertagen genom att generera syntetiska observation av anomaliklassen med hjälp av en generativ advarserial network. Anomaly Detection Heterogeneous GAN BiGAN Autoencoder Random Forest Isolation Forest Anomalidetektering Heterogen GAN BiGAN Autoencoder Random Forest Isolation Forest Computational Mathematics Beräkningsmatematik
70	Supervised Failure Diagnosis of Clustered Logs from Microservice Tests / Övervakad feldiagnos av klustrade loggar från tester på mikrotjänster Strömdahl, Amanda January 2023 (has links) Pinpointing the source of a software failure based on log files can be a time consuming process. Automated log analysis tools are meant to streamline such processes, and can be used for tasks like failure diagnosis. This thesis evaluates three supervised models for failure diagnosis of clustered log data. The goal of the thesis is to compare the performance of the models on industry data, as a way to investigate whether the chosen ML techniques are suitable in the context of automated log analysis. A Random Forest, an SVM and an MLP are generated from a dataset of 194 failed executions of tests on microservices, that each resulted in a large collection of logs. The models are tuned with random search and compared in terms of precision, recall, F1-score, hold-out accuracy and 5-fold cross-validation accuracy. The hold-out accuracy is calculated as a mean from 50 hold-out data splits, and the cross-validation accuracy is computed separately from a single set of folds. The results show that the Random Forest scores highest in terms of mean hold-out accuracy (90%), compared to the SVM (86%) and the Neural Network (85%). The mean cross-validation accuracy is the highest for the SVM (95%), closely followed by the Random Forest (94%), and lastly the Neural Network (85%). The precision, recall and F1-score are stable and consistent with the hold-out results, although the precision results are slightly higher than the other two measures. According to this evaluation, the Random Forest has the overall highest performance on the dataset when considering the hold-out- and cross-validation accuracies, and also the fact that it has the lowest complexity and thus the shortest training time, compared to the other considered solutions. All in all, the results of the thesis demonstrate that supervised learning is a promising approach to automatize log analysis. / Att identifiera orsaken till en misslyckad mjukvaruexekvering utifrån logg-filer kan vara en tidskrävande process. Verktyg för automatiserad logg-analysis är tänkta att effektivisera sådana processer, och kan bland annat användas för feldiagnos. Denna avhandling tillhandahåller tre övervakade modeller för feldiagnos av klustrad logg-data. Målet med avhandlingen är att jämföra modellernas prestanda på data från näringslivet, i syfte att utforska huruvida de valda maskininlärningsteknikerna är lämpliga för automatiserad logg-analys. En Random Forest, en SVM och en MLP genereras utifrån ett dataset bestående av 194 misslyckade exekveringar av tester på mikrotjänster, där varje exekvering resulterade i en stor uppsättning loggar. Modellerna finjusteras med hjälp av slumpmässig sökning och jämförs via precision, träffsäkerhet, F-poäng, noggrannhet och 5-faldig korsvalidering. Noggrannheten beräknas som medelvärdet av 50 datauppdelningar, och korsvalideringen tas fram separat från en enstaka uppsättning vikningar. Resultaten visar att Random Forest har högst medelvärde i noggrannhet (90%), jämfört med SVM (86%) och Neurala Nätverket (85%). Medelvärdet i korsvalidering är högst för SVM (95%), tätt följt av Random Forest (94%), och till sist, Neurala Nätverket (85%). Precisionen, träffsäkerheten och F-poängen är stabila och i enlighet med noggrannheten, även om precisionen är något högre än de andra två måtten. Enligt den här analysen har Random Forest överlag högst prestanda på datasetet, med hänsyn till noggrannheten och korsvalideringen, samt faktumet att denna modell har lägst komplexitet och därmed kortast träningstid, jämfört med de andra undersökta lösningarna. Sammantaget visar resultaten från denna avhandling att övervakad inlärning är ett lovande tillvägagångssätt för att automatisera logg-analys. Supervised Learning Failure Diagnosis Clustered Log Data Random Forest SVM MLP Övervakad inlärning feldiagnos klustrad logg-data Random Forest SVM MLP Computer and Information Sciences Data- och informationsvetenskap

Search results