Spelling suggestions: "subject:"cqboost"" "subject:"deboost""
41 |
Using Gradient Boosting to Identify Pricing Errors in GLM-Based Tariffs for Non-life Insurance / Identifiering av felprissättningar i GLM-baserade skadeförsäkringstariffer genom Gradient boostingGreberg, Felix, Rylander, Andreas January 2022 (has links)
Most non-life insurers and many creditors use regressions, more specifically Generalized Linear Models (GLM), to price their liabilities. One limitation with GLMs is that interactions between predictors are handled manually, which makes finding interactions a tedious and time-consuming task. This increases the cost of rate making and, more importantly, actuaries can miss important interactions resulting in sub-optimal customer prices. Several papers have shown that Gradient Tree Boosting can outperform GLMs in insurance pricing since it handles interactions automatically. Insurers and creditors are however reluctant to use so-called ”Black-Box” solutions for both regulatory and technical reasons. Tree-based methods have been used to identify pricing errors in regressions, albeit only as ad-hoc solutions. The authors instead propose a systematic approach to automatically identify and evaluate interactions between predictors before adding them to a traditional GLM. The model can be used in three different ways: Firstly, it can create a table of statistically significant candidate interactions to add to a GLM. Secondly, it can automatically and iteratively add new interactions to an old GLM until no more statistically significant interactions can be found. Lastly, it can automatically create a new GLM without an existing pricing model. All approaches are tested on two motor insurance data sets from a Nordic P&C insurer and the results show that all methods outperform the original GLMs. Although the two iterative modes perform better than the first, insurers are recommended to mainly use the first mode since this results in a reasonable trade-off between automating processes and leveraging actuaries’ professional judgment. / De flesta skadeförsäkringsbolag och många långivare använder regressioner, mer specifikt generaliserade linjära modeller (GLM), för att prissätta sina skulder. En begräsning med GLM:er är att interaktioner mellan exogena variabler hanteras manuellt, vilket innebär att hanteringen av dessa är tidskrävande. Detta påverkar försäkringsbolags lönsamhet på flera sätt. För det första ökar kostnaderna för att skapa tariffer och för det andra kan aktuarier missa viktiga interaktioner, vilket resulterar i suboptimala kundpriser. Tidigare forskning visar att Gradient Boosting kan överträffa GLM:er inom försäkringsprissättning eftersom denna metod hanterar interaktioner automatiskt. Försäkringsbolag och kreditgivare är dock motvilliga till att använda så kallade ”Black-box-lösningar” på grund av både regulatoriska och tekniska skäl. Trädbaserade metoder har tidigare använts för att hitta felprissättningar i regressioner, dock endast genom situationsanpassade lösningar. Författarna föreslår i stället en systematisk metod för att automatiskt identifiera och evaluera interaktioner innan de inkluderas i en traditionell GLM. Modellen kan användas på tre olika sätt: Först och främst kan den användas för att skapa en tabell med statistiskt signifikanta interaktioner att addera till en existerande GLM. Utöver detta kan den iterativt och automatiskt lägga till sådana interaktioner tills inga fler återstår. Slutligen kan modellen också användas för att skapa en helt ny GLM från grunden, utan en existerande prissättningsmodell. Metoderna testas på två motorförsäkringsdataset från ett nordiskt skadeförsäkringsbolag och resultaten visar att alla överträffar originalregressionen. Även om de två iterativa metoderna överträffar den första metoden rekommenderas försäkringsbolag att använda den första metoden. Detta eftersom den resulterar i en rimlig avvägning mellan att automatisera processer och att nyttja aktuariers omdömesförmåga.
|
42 |
Analytisk Studie av Avancerade Gradientförstärkningsalgoritmer för Maskininlärning : En jämförelse mellan XGBoost, CatBoost, LightGBM, SnapBoost, KTBoost, AdaBoost och GBDT för klassificering- och regressionsproblemWessman, Filip January 2021 (has links)
Maskininlärning (ML) är idag ett mycket aktuellt, populärt och aktivt forskat område. Därav finns det idag en stor uppsjö av olika avancerade och moderna ML-algoritmer. Svårigheten är att bland dessa identifiera den mest optimala att applicera på ens tillämpningsområde. Algoritmer som bygger på Gradientförstärkning (eng. Gradient Boosting (GB)) har visat sig ha ett väldigt brett spektrum av appliceringsområden, flexibilitet, hög förutsägelseprestanda samt låga tränings- och förutsägelsetider. Huvudsyftet med denna studie är på klassificerings- och regressiondataset utvärdera och belysa prestandaskillnaderna av 5 moderna samt 2 äldre GB-algoritmer. Målet är att avgöra vilken av dessa moderna algoritmer som presterar i genomsnitt bäst utifrån på flera utvärderingsmått. Initialt utfördes en teoretisk förstudie inom det aktuella forskningsområdet. Algoritmerna XGBoost, LightGBM, CatBoost, AdaBoost, SnapBoost, KTBoost, GBDT implementerades på plattformen Google Colab. Där utvärderades dess respektive, tränings- och förutsägelsestid samt prestandamåtten, uppdelat i ROCAUC och Log Loss för klassificering samt R2 och RMSE för regression. Resultaten visade att det generellt var små skillnader mellan dom olika testade algoritmerna. Med undantag för AdaBoost som i allmänhet, med större marginal, hade den sämsta prestandan. Därmed gick det inte i denna jämförelse utse en klar vinnare. Däremot presterade SnapBoost väldigt bra på flera utvärderingsmått. Modellresultaten är generellt sätt väldigt begränsade och bundna till det applicerade datasetet vilket gör att det överlag är väldigt svårt att generalisera det till andra datauppsättningar. Detta speglar sig från resultaten med svårigheten att identifiera ett ML-ramverk som utmärker sig och presterar bra i alla scenarier. / Machine learning (ML) is today a very relevent, popular and actively researched area. As a result, today there exits a large numer of different advanced and modern ML algorithms. The difficulty is to identify among these the most optimal to apply to one’s area of application. Algorithms based on Gradient Boosting (GB) have been shown to have a very wide range of application areas, flexibility, high prediction performance and low training and prediction times. The main purpose of this study is on classification and regression datasets evaluate and illustrate the performance differences of 5 modern and 2 older GB algorithms. The goal is to determine which of these modern algorithms, on average, performs best on the basis of several evaluation metrics. Initially, a theoretical feasibility study was carried out in the current research area. The algorithms XGBoost, LightGBM, CatBoost, AdaBoost, SnapBoost, KTBoost, GBDT were implemented on the Google Colab platform. There, respective training and prediction time as well as the performance metrics were evaluated, divided into ROC-AUC and Log Loss for classification and R2 and RMSE for regression. The results showed that there were generally small differences between the different algorithms tested. With the exception of AdaBoost which in general, by a larger margin, had the worst performance. Thus, it was not possible in this comparison to nominate a clear winner. However, SnapBoost performed very well in several evaluation metrics. The model results are generally very limited and bound to the applied dataset, which makes it generally very difficult to generalize it to other data sets. This is reflected in the results with the difficulty of identifying an ML framework that excels and performs well in all scenarios.
|
43 |
Modeling Melodic Accents in Jazz Solos / Modellering av melodiska accenter i jazzsolonBerrios Salas, Misael January 2023 (has links)
This thesis looks at how accurately one can model accents in jazz solos, more specifically the sound level. Further understanding the structure of jazz solos can give a way of pedagogically presenting differences within music styles and even between performers. Some studies have tried to model perceived accents in different music styles. In other words, model how listeners perceive some tones as somehow accentuated and more important than others. Other studies have looked at how the sound level correlates to other attributes of the tone. But to our knowledge, no other studies have been made modeling actual accents within jazz solos, nor have other studies had such a big amount of training data. The training data used is a set of 456 solos from the Weimar Jazz Database. This is a database containing tone data and metadata from monophonic solos performed with multiple instruments. The features used for the training algorithms are features obtained from the software Director Musices created at the Royal Institute of Technology in Sweden; features obtained from the software "melfeature" created at the University of Music Franz Liszt Weimar in Germany; and features built upon tone data or solo metadata from the Weimar Jazz Database. A comparison between these is made. Three learning algorithms are used, Multiple Linear Regression (MLR), Support Vector Regression (SVR), and eXtreme Gradient Boosting (XGBoost). The first two are simpler regression models while the last is an award-winning tree boosting algorithm. The tests resulted in eXtreme Gradient Boosting (XGBoost) having the highest accuracy when combining all the available features minus some features that were removed since they did not improve the accuracy. The accuracy was around 27% with a high standard deviation. This tells that there was quite some difference when predicting the different solos, some had an accuracy of about 67% while others did not predict one tone correctly in the entire solo. But as a general model, the accuracy is too low for actual practical use. Either the methods were not the optimal ones or jazz solos differ too much to find a general pattern. / Detta examensarbete undersöker hur väl man kan modellera accenter i jazz-solos, mer specifikt ljudnivån. En bredare förståelse för strukturen i jazzsolos kan ge ett sätt att pedagogiskt presentera skillnaderna mellan olika musikstilar och även mellan olika artister. Andra studier har försökt modellera uppfattade accenter inom olika musik-stilar. Det vill säga, modellera hur åhörare upplever vissa toner som accentuerade och viktigare än andra. Andra studier har undersökt hur ljudnivån är korrelerad till andra attribut hos tonen. Men såvitt vi vet, så finns det inga andra studier som modellerar faktiska accenter inom jazzsolos, eller som haft samma stora mängd träningsdata. Träningsdatan som använts är ett set av 456 solos tagna från Weimar Jazz Database. Databasen innehåller data på toner och metadata från monofoniska solos genomförda med olika instrument. Särdragen som använts för tränings-algoritmerna är särdrag erhållna från mjukvaran Director Musices skapad på Kungliga Tekniska Högskolan i Sverige; särdrag erhållna från mjukvaran ”melfeature” skapad på University of Music Franz Liszt Weimar i Tyskland; och särdrag skapade utifrån datat i Weimar Jazz Database. En jämförelse mellan dessa har också gjorts. Tre inlärningsalgoritmer har använts, Multiple Linear Regression (MLR), Support Vector Regression (SVR), och eXtreme Gradient Boosting (XGBoost). De första två är enklare regressionsalgoritmer, medan den senare är en prisbelönt trädförstärkningsalgoritm. Testen resulterade i att eXtreme Gradient Boosting (XGBoost) skapade en modell med högst noggrannhet givet alla tillgängliga särdrag som träningsdata minus vissa särdrag som tagits bort då de inte förbättrar noggrannheten. Den erhållna noggrannheten låg på runt 27% med en hög standardavvikelse. Detta pekar på att det finns stora skillnader mellan att förutsäga ljudnivån mellan de olika solin. Vissa solin gav en noggrannhet på runt 67% medan andra erhöll inte en endaste ljudnivå korrekt i hela solot. Men som en generell modell är noggrannheten för låg för att användas i praktiken. Antingen är de valda metoderna inte de bästa, eller så är jazzsolin för olika för att hitta ett generellt mönster som går att förutsäga.
|
44 |
Using Machine Learning to Detect Customer Acquisition Opportunities and Evaluating the Required Organizational PrerequisitesMalmberg, Olle, Zhou, Bobby January 2019 (has links)
This paper aims to investigate whether or not it is possible to identify users who are about change provider of service with machine learning. It is believed that the Consumer Decision Journey is a better model than traditional funnel models when it comes to depicting the processes which consumers go through, leading up to a purchase. Analytical and operational Customer Relationship Management are presented as possible fields where such implementations can be useful. Based on previous studies, Random Forest and XGBoost were chosen as algorithms to be further evaluated because of its general high performance. The final results were produced by an iterative process which began with data processing followed by feature selection, training of model and testing the model. Literature review and unstructured and semi-structured interviews with the employer Growth Hackers Sthlm were also used as methods in a complementary fashion, with the purpose of gaining a wider perspective of the state-of-the-art of ML-implementations. The final results showed that Random Forest could identify the sought-after users (positive) while XGBoost was inferior to Random Forest in terms of distinguishing between positive and negative classes. An implementation of such model could support and benefit an organization’s customer acquisition operations. However, organizational prerequisites regarding the data infrastructure and the level of AI and machine learning integration in the organization’s culture are the most important ones and need to be considered before such implementations. / I det här arbetet undersöks huruvida det är möjligt att identifiera ett beteende bland användare som innebär att användaren snart ska byta tillhandahållare av tjänst med hjälp av maskininlärning. Målet är att kunna bidra till ett maskininlärningsverktyg i kundförvärvningssyfte, såsom analytical och operational Customer Relationship Management. Det sökta beteendet i rapporten utgår från modellen ”the Consumer Decision Journey”. I modellen beskrivs fyra faser där fas två innebär att konsumenten aktivt söker samt är mer mottaglig för information kring köpet. Genom tidigare studier och handledning av uppdragsgivare valdes algoritmerna RandomForest och XGBoost som huvudsakliga algoritmer som skulle testas. Resultaten producerades genom en iterativ process. Det första steget var att städa data. Därefter valdes parametrar och viktades. Sedan testades algoritmerna mot testdata och utvärderades. Detta gjordes i loopar tills förbättringar endast var marginella. De slutliga resultaten visade att framförallt Random Forest kunde identifiera ett beteende som innebär att en användare är i fas 2, medan XGBoost presterade sämre när det kom till att urskilja bland positiva och negativa användare. Dock fångade XGBoost fler positiva användare än vad Random Forest gjorde. I syfte att undersöka de organisatoriska förutsättningarna för att implementera maskininlärning och AI gjordes litteraturstudier och uppdragsgivaren intervjuades kontinuerligt. De viktigaste förutsättningarna fastställdes till två kategorier, datainfrastruktur och hur väl AI och maskininlärning är integrerat i organisationens kultur.
|
45 |
Segmentation and Valuation in Stockholm Housing Market : Spatial Continuous and Discontinuous Submarkets Evaluating by Hedonic Price Model and XGBoost Model / Segmentering och värdering på Stockholms bostadsmarknad : Rumsliga kontinuerliga och diskontinuerliga delmarknader som utvärderas med hedonisk prismodell och XGBoost-modellSun, Xianglin January 2023 (has links)
The housing market segmentation could provide a reference for more targeted policymaking and investment strategies. Although there have been many studies, there are no consistent submarkets delineating methods because of a lack of theoretical support and subjective evaluation. In this paper, two market segmentation methods are introduced. The continuous spatial segmentation divides properties into submarkets according to their coordinates, while the discontinuous spatial segmentation creates submarkets according to the variable having the most significant impact on the price index, which is the construction year of properties. Two valuation methods, the hedonic price model and the XGBoost regression model, are applied to evaluate the overall Stockholm housing markets and the created. The results proved that both market segmentation methods could improve the valuation prediction accuracy compared to the valuation under the overall Stockholm housing market. The non-spatial continuous market segmentation approach delivers more improvement in valuation accuracy but also has greater volatility. As for the two valuation models, no single valuation method can be absolutely advantageous in any market context. / Segmenteringen av bostadsmarknaden skulle kunna utgöra en referens för mer målinriktade politiska beslut och investeringsstrategier. Även om det har gjorts många studier finns det inga konsekventa metoder för att avgränsa delmarknader på grund av brist på teoretiskt stöd och subjektiv utvärdering. I detta dokument presenteras två metoder för marknadssegmentering. Den kontinuerliga rumsliga segmenteringen delar in fastigheter i delmarknader utifrån deras koordinater, medan den diskontinuerliga rumsliga segmenteringen skapar delmarknader utifrån den variabel som har störst inverkan på prisindexet, vilket är fastigheternas byggnadsår. Två värderingsmetoder, den hedoniska prismodellen och XGBoost-regressionsmodellen, används för att utvärdera Stockholms bostadsmarknad och den skapade marknaden. Resultaten visade att båda marknadssegmenteringsmetoderna kunde förbättra värderingens prediktionsnoggrannhet jämfört med värderingen under den övergripande bostadsmarknaden i Stockholm. Den icke-rumsliga kontinuerliga marknadssegmenteringsmetoden ger större förbättringar i värderingsnoggrannheten men har också större volatilitet. Vad gäller de två värderingsmodellerna kan ingen enskild värderingsmetod vara helt fördelaktig i något marknadssammanhang.
|
46 |
Evaluating machine learning models for time series forecasting in smart buildings / Utvärdera maskininlärningsmodeller för tidsserieprognos inom smarta byggnaderBalachandran, Sarugan, Perez Legrand, Diego January 2023 (has links)
Temperature regulation in buildings can be tricky and expensive. A common problem when heating buildings is that an unnecessary amount of energy is supplied. This waste of energy is often caused by a faulty regulation system. This thesis presents a machine learning ap- proach, using time series data, to predict the energy supply needed to keep the inside tem- perature at around 21 degrees Celsius. The machine learning models LSTM, Ensemble LSTM, AT-LSTM, ARIMA, and XGBoost were used for this project. The validation showed that the ensemble LSTM model gave the most accurate predictions with the Mean Absolute Error of 22486.79 (Wh) and Symmetric Mean Absolute Percentage Error of 5.41 % and was the model used for comparison with the current system. From the performance of the different models, the conclusion is that machine learning can be a useful tool to pre- dict the energy supply. But on the other hand, there exist other complex factors that need to be given more attention to, to evaluate the model in a better way. / Temperaturreglering i byggnader kan vara knepigt och dyrt. Ett vanligt problem vid upp- värmning av byggnader är att det tillförs onödigt mycket energi. Detta energispill orsakas oftast av ett felaktigt regleringssystem. Denna rapport studerar möjligheten att, med hjälp av tidsseriedata, kunna träna olika maskininlärningmodeller för att förutsäga den energitill- försel som behövs för att hålla inomhustemperaturen runt 21 grader Celsius. Maskininlär- ningsmodellerna LSTM, Ensemble LSTM, AT-LSTM, ARIMA och XGBoost användes för detta projekt. Valideringen visade att ensemble LSTM-modellen gav den mest exakta förut- sägelserna med Mean Absolute Error på 22486.79 (Wh) och Symmetric Mean Absolute Percentage Error på 5.41% och var modellen som användes för att jämföra med det befint- liga systemet. Från modellernas prestation är slutsatsen att maskininlärning kan vara ett an- vändbart verktyg för att förutsäga energitillförseln. Men å andra sidan finns det andra kom- plexa faktorer som bör tas hänsyn till så att modellen kan evalueras på ett bättre sätt.
|
47 |
Forecasting Daily Supermarkets Sales with Machine Learning / Dagliga Försäljningsprognoser för Livsmedel med MaskininlärningFredén, Daniel, Larsson, Hampus January 2020 (has links)
Improved sales forecasts for individual products in retail stores can have a positive effect both environmentally and economically. Historically these forecasts have been done through a combination of statistical measurements and experience. However, with the increased computational power available in modern computers, there has been an interest in applying machine learning for this problem. The aim of this thesis was to utilize two years of sales data, yearly calendar events, and weather data to investigate which machine learning method could forecast sales the best. The investigated methods were XGBoost, ARIMAX, LSTM, and Facebook Prophet. Overall the XGBoost and LSTM models performed the best and had a lower mean absolute value and symmetric mean percentage absolute error compared to the other models. However, Facebook Prophet performed the best in regards to root mean squared error and mean absolute error during the holiday season, indicating that Facebook Prophet was the best model for the holidays. The LSTM model could however quickly adapt during the holiday season improved the performance. Furthermore, the inclusion of weather did not improve the models significantly, and in some cases, the results were worsened. Thus, the results are inconclusive but indicate that the best model is dependent on the time period and goal of the forecast. / Förbättrade försäljningsprognoser för individuella produkter inom detaljhandeln kan leda till både en miljömässig och ekonomisk förbättring. Historiskt sett har dessa utförts genom en kombination av statistiska metoder och erfarenhet. Med den ökade beräkningskraften hos dagens datorer har intresset för att applicera maskininlärning på dessa problem ökat. Målet med detta examensarbete är därför att undersöka vilken maskininlärningsmetod som kunde prognostisera försäljning bäst. De undersökta metoderna var XGBoost, ARIMAX, LSTM och Facebook Prophet. Generellt presterade XGBoost och LSTM modellerna bäst då dem hade ett lägre mean absolute value och symmetric mean percentage absolute error jämfört med de andra modellerna. Dock, gällande root mean squared error hade Facebook Prophet bättre resultat under högtider, vilket indikerade att Facebook Prophet var den bäst lämpade modellen för att förutspå försäljningen under högtider. Dock, kunde LSTM modellen snabbt anpassa sig och förbättrade estimeringarna. Inkluderingen av väderdata i modellerna resulterade inte i några markanta förbättringar och gav i vissa fall även försämringar. Övergripande, var resultaten tvetydiga men indikerar att den bästa modellen är beroende av prognosens tidsperiod och mål.
|
48 |
A Study of an Iterative User-Specific Human Activity Classification ApproachFürderer, Niklas January 2019 (has links)
Applications for sensor-based human activity recognition use the latest algorithms for the detection and classification of human everyday activities, both for online and offline use cases. The insights generated by those algorithms can in a next step be used within a wide broad of applications such as safety, fitness tracking, localization, personalized health advice and improved child and elderly care.In order for an algorithm to be performant, a significant amount of annotated data from a specific target audience is required. However, a satisfying data collection process is cost and labor intensive. This also may be unfeasible for specific target groups as aging effects motion patterns and behaviors. One main challenge in this application area lies in the ability to identify relevant changes over time while being able to reuse previously annotated user data. The accurate detection of those user-specific patterns and movement behaviors therefore requires individual and adaptive classification models for human activities.The goal of this degree work is to compare several supervised classifier performances when trained and tested on a newly iterative user-specific human activity classification approach as described in this report. A qualitative and quantitative data collection process was applied. The tree-based classification algorithms Decision Tree, Random Forest as well as XGBoost were tested on custom based datasets divided into three groups. The datasets contained labeled motion data of 21 volunteers from wrist worn sensors.Computed across all datasets, the average performance measured in recall increased by 5.2% (using a simulated leave-one-subject-out cross evaluation) for algorithms trained via the described approach compared to a random non-iterative approach. / Sensorbaserad aktivitetsigenkänning använder sig av det senaste algoritmerna för detektion och klassificering av mänskliga vardagliga aktiviteter, både i uppoch frånkopplat läge. De insikter som genereras av algoritmerna kan i ett nästa steg användas inom en mängd nya applikationer inom områden så som säkerhet, träningmonitorering, platsangivelser, personifierade hälsoråd samt inom barnoch äldreomsorgen.För att en algoritm skall uppnå hög prestanda krävs en inte obetydlig mängd annoterad data, som med fördel härrör från den avsedda målgruppen. Dock är datainsamlingsprocessen kostnadsoch arbetsintensiv. Den kan dessutom även vara orimlig att genomföra för vissa specifika målgrupper, då åldrandet påverkar rörelsemönster och beteenden. En av de största utmaningarna inom detta område är att hitta de relevanta förändringar som sker över tid, samtidigt som man vill återanvända tidigare annoterad data. För att kunna skapa en korrekt bild av det individuella rörelsemönstret behövs därför individuella och adaptiva klassificeringsmodeller.Målet med detta examensarbete är att jämföra flera olika övervakade klassificerares (eng. supervised classifiers) prestanda när dem tränats med hjälp av ett iterativt användarspecifikt aktivitetsklassificeringsmetod, som beskrivs i denna rapport. En kvalitativ och kvantitativ datainsamlingsprocess tillämpades. Trädbaserade klassificeringsalgoritmerna Decision Tree, Random Forest samt XGBoost testades utifrån specifikt skapade dataset baserade på 21 volontärer, som delades in i tre grupper. Data är baserad på rörelsedata från armbandssensorer.Beräknat över samtlig data, ökade den genomsnittliga sensitiviteten med 5.2% (simulerad korsvalidering genom utelämna-en-individ) för algoritmer tränade via beskrivna metoden jämfört med slumpvis icke-iterativ träning.
|
49 |
Evaluation of Machine Learning Methods for Time Series Forecasting on E-commerce Data / Utvärdering av Maskininlärningsmodeller för tidsserie-prognotisering på e-handels dataAbrahamsson, Peter, Ahlqvist, Niklas January 2022 (has links)
Within demand forecasting, and specifically within the field of e-commerce, the provided data often contains erratic behaviours which are difficult to explain. This induces contradictions to the common assumptions within classical approaches for time series analysis. Yet, classical and naive approaches are still commonly used. Machine learning could be used to alleviate such problems. This thesis evaluates four models together with Swedish fin-tech company QLIRO AB. More specifically, a MLR (Multiple Linear Regression) model, a classic Box-Jenkins model (SARIMAX), an XGBoost model, and a LSTM-network (Long Short-Term Memory). The provided data consists of aggregated total daily reservations by e-merchants within the Nordic market from 2014. Some data pre processing was required and a smoothed version of the data set was created for comparison. Each model was constructed according to their specific requirements but with similar feature engineering. Evaluation was then made on a monthly level with a forecast horizon of 30 days during 2021. The results shows that both the MLR and the XGBoost provides the most consistent results together with perks for being easy to use. After these two, the LSTM-network showed the best results for November and December on the original data set but worst overall. Yet it had good performance on the smoothed data set and was then comparable to the first two. The SARIMAX was the worst performing of all the models considered in this thesis and was not as easy to implement. / Inom efterfrågeprognoser, och specifikt inom området e-handel, innehåller den tillhandahållna informationen ofta oberäkneliga beteenden som är svåra att förklara. Detta motsäger vanliga antaganden inom tidsserier som används för de mer klassiska tillvägagångssätten. Ändå är klassiska och naiva metoder fortfarande vanliga. Maskininlärning skulle kunna användas för att lindra sådana problem. Detta examensarbete utvärderar fyra modeller tillsammans med det svenska fintechföretaget QLIRO AB. Mer specifikt en MLR-modell (Multiple Linear Regression), en klassisk Box-Jenkins-modell (SARIMAX), en XGBoost-modell och ett LSTM-nätverk (Long Short-Term Memory). Den tillhandahållna informationen består av aggregerade dagliga reservationer från e-handlare inom den nordiska marknaden från 2014. Viss dataförbehandling krävdes och en utjämnad version av datamängden skapades för jämförelse. Varje modell konstruerades enligt deras specifika krav men med liknande \textit{feature engineering}. Utvärderingen gjordes sedan på månadsnivå med en prognoshorisont på 30 dagar under 2021. Resultaten visar att både MLR och XGBoost ger de mest pålitliga resultaten tillsammans med fördelar som att vara lätta att använda. Efter dessa visar LSTM-nätverket de bästa resultaten för november och december på den ursprungliga datamängden men sämst totalt sett. Ändå visar den god prestanda på den utjämnade datamängden och var sedan jämförbar med de två första modellerna. SARIMAX var den sämst presterande av alla jämförda modeller och inte lika lätt att implementera.
|
50 |
Predicting House Prices on the Countryside using Boosted Decision Trees / Förutseende av huspriser på landsbygden genom boostade beslutsträdRevend, War January 2020 (has links)
This thesis intends to evaluate the feasibility of supervised learning models for predicting house prices on the countryside of South Sweden. It is essential for mortgage lenders to have accurate housing valuation algorithms and the current model offered by Booli is not accurate enough when evaluating residence prices on the countryside. Different types of boosted decision trees were implemented to address this issue and their performances were compared to traditional machine learning methods. These different types of supervised learning models were implemented in order to find the best model with regards to relevant evaluation metrics such as root-mean-squared error (RMSE) and mean absolute percentage error (MAPE). The implemented models were ridge regression, lasso regression, random forest, AdaBoost, gradient boosting, CatBoost, XGBoost, and LightGBM. All these models were benchmarked against Booli's current housing valuation algorithms which are based on a k-NN model. The results from this thesis indicated that the LightGBM model is the optimal one as it had the best overall performance with respect to the chosen evaluation metrics. When comparing the LightGBM model to the benchmark, the performance was overall better, the LightGBM model had an RMSE score of 0.330 compared to 0.358 for the Booli model, indicating that there is a potential of using boosted decision trees to improve the predictive accuracy of residence prices on the countryside. / Denna uppsats ämnar utvärdera genomförbarheten hos olika övervakade inlärningsmodeller för att förutse huspriser på landsbygden i Södra Sverige. Det är viktigt för bostadslånsgivare att ha noggranna algoritmer när de värderar bostäder, den nuvarande modellen som Booli erbjuder har dålig precision när det gäller värderingar av bostäder på landsbygden. Olika typer av boostade beslutsträd implementerades för att ta itu med denna fråga och deras prestanda jämfördes med traditionella maskininlärningsmetoder. Dessa olika typer av övervakad inlärningsmodeller implementerades för att hitta den bästa modellen med avseende på relevanta prestationsmått som t.ex. root-mean-squared error (RMSE) och mean absolute percentage error (MAPE). De övervakade inlärningsmodellerna var ridge regression, lasso regression, random forest, AdaBoost, gradient boosting, CatBoost, XGBoost, and LightGBM. Samtliga algoritmers prestanda jämförs med Boolis nuvarande bostadsvärderingsalgoritm, som är baserade på en k-NN modell. Resultatet från denna uppsats visar att LightGBM modellen är den optimala modellen för att värdera husen på landsbygden eftersom den hade den bästa totala prestandan med avseende på de utvalda utvärderingsmetoderna. LightGBM modellen jämfördes med Booli modellen där prestandan av LightGBM modellen var i överlag bättre, där LightGBM modellen hade ett RMSE värde på 0.330 jämfört med Booli modellen som hade ett RMSE värde på 0.358. Vilket indikerar att det finns en potential att använda boostade beslutsträd för att förbättra noggrannheten i förutsägelserna av huspriser på landsbygden.
|
Page generated in 0.0375 seconds