Return to search

Analytisk Studie av Avancerade Gradientförstärkningsalgoritmer för Maskininlärning : En jämförelse mellan XGBoost, CatBoost, LightGBM, SnapBoost, KTBoost, AdaBoost och GBDT för klassificering- och regressionsproblem

Maskininlärning (ML) är idag ett mycket aktuellt, populärt och aktivt forskat område. Därav finns det idag en stor uppsjö av olika avancerade och moderna ML-algoritmer. Svårigheten är att bland dessa identifiera den mest optimala att applicera på ens tillämpningsområde. Algoritmer som bygger på Gradientförstärkning (eng. Gradient Boosting (GB)) har visat sig ha ett väldigt brett spektrum av appliceringsområden, flexibilitet, hög förutsägelseprestanda samt låga tränings- och förutsägelsetider. Huvudsyftet med denna studie är på klassificerings- och regressiondataset utvärdera och belysa prestandaskillnaderna av 5 moderna samt 2 äldre GB-algoritmer. Målet är att avgöra vilken av dessa moderna algoritmer som presterar i genomsnitt bäst utifrån på flera utvärderingsmått. Initialt utfördes en teoretisk förstudie inom det aktuella forskningsområdet. Algoritmerna XGBoost, LightGBM, CatBoost, AdaBoost, SnapBoost, KTBoost, GBDT implementerades på plattformen Google Colab. Där utvärderades dess respektive, tränings- och förutsägelsestid samt prestandamåtten, uppdelat i ROCAUC och Log Loss för klassificering samt R2 och RMSE för regression. Resultaten visade att det generellt var små skillnader mellan dom olika testade algoritmerna. Med undantag för AdaBoost som i allmänhet, med större marginal, hade den sämsta prestandan. Därmed gick det inte i denna jämförelse utse en klar vinnare. Däremot presterade SnapBoost väldigt bra på flera utvärderingsmått. Modellresultaten är generellt sätt väldigt begränsade och bundna till det applicerade datasetet vilket gör att det överlag är väldigt svårt att generalisera det till andra datauppsättningar. Detta speglar sig från resultaten med svårigheten att identifiera ett ML-ramverk som utmärker sig och presterar bra i alla scenarier. / Machine learning (ML) is today a very relevent, popular and actively researched area. As a result, today there exits a large numer of different advanced and modern ML algorithms. The difficulty is to identify among these the most optimal to apply to one’s area of application. Algorithms based on Gradient Boosting (GB) have been shown to have a very wide range of application areas, flexibility, high prediction performance and low training and prediction times. The main purpose of this study is on classification and regression datasets evaluate and illustrate the performance differences of 5 modern and 2 older GB algorithms. The goal is to determine which of these modern algorithms, on average, performs best on the basis of several evaluation metrics. Initially, a theoretical feasibility study was carried out in the current research area. The algorithms XGBoost, LightGBM, CatBoost, AdaBoost, SnapBoost, KTBoost, GBDT were implemented on the Google Colab platform. There, respective training and prediction time as well as the performance metrics were evaluated, divided into ROC-AUC and Log Loss for classification and R2 and RMSE for regression. The results showed that there were generally small differences between the different algorithms tested. With the exception of AdaBoost which in general, by a larger margin, had the worst performance. Thus, it was not possible in this comparison to nominate a clear winner. However, SnapBoost performed very well in several evaluation metrics. The model results are generally very limited and bound to the applied dataset, which makes it generally very difficult to generalize it to other data sets. This is reflected in the results with the difficulty of identifying an ML framework that excels and performs well in all scenarios.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:miun-44027
Date January 2021
CreatorsWessman, Filip
PublisherMittuniversitetet, Institutionen för informationssystem och –teknologi
Source SetsDiVA Archive at Upsalla University
LanguageSwedish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.003 seconds