• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 40
  • 2
  • 2
  • 2
  • 1
  • 1
  • 1
  • Tagged with
  • 51
  • 51
  • 32
  • 29
  • 22
  • 20
  • 20
  • 20
  • 19
  • 18
  • 13
  • 13
  • 11
  • 10
  • 8
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

A Machine Learning Assessment to Predict the Sediment Transport Rate Under Oscillating Sheet Flow Conditions

Vu, Huy 01 December 2019 (has links)
The two-phase flow approach has been the conventional method designed to study the sediment transport rate. Due to the complexity of sediment transport, the precisely numerical models computed from that approach require initial assumptions and, as a result, may not yield accurate output for all conditions. This research work proposes that Machine Learning algorithms can be an alternative way to predict the processes of sediment transport in two-dimensional directions under oscillating sheet flow conditions, by utilizing the available dataset of the SedFoam multidimensional two-phase model. The assessment utilized linear regression and gradient boosting algorithm to analyze the lowest average mean squared error in each case and search for the best partition method based on the domain height of the simulation setup.
12

Essays on Reinforcement Learning with Decision Trees and Accelerated Boosting of Partially Linear Additive Models

Dinger, Steven 01 October 2019 (has links)
No description available.
13

Automation of price prediction using machine learning in a large furniture company

Ghorbanali, Mojtaba January 2022 (has links)
The accurate prediction of the price of products can be highlybeneficial for the procurers both businesses wised and productionwise. Many companies today, in various fields ofoperations and sizes, have access to a vast amount of datathat valuable information can be extracted from them. In thismaster thesis, some large databases of products in differentcategories have been analyzed. Because of confidentiality, thelabels from the database that are in this thesis are subtitled bysome general titles and the real titles are not mentioned. Also,the company is not referred to by name, but the whole job iscarried out on the real data set of products. As a real-worlddata set, the data was messy and full of nulls and missing data.So, the data wrangling took some more time. The approachesthat were used for the model were Regression methods andGradient Boosting models.The main purpose of this master thesis was to build priceprediction models based on the features of each item to assistwith the initial positioning of the product and its initial price.The best result that was achieved during this master thesiswas from XGBoost machine learning model with about 96%accuracy which can be beneficial for the producer to acceleratetheir pricing strategies.
14

Machine Learning and Telematics for Risk Assessment in Auto Insurance

Ekström, Frithiof, Chen, Anton January 2020 (has links)
Pricing models for car insurance traditionally use variables related to the policyholder and the insured vehicle (e.g. car brand and driver age) to determine the premium. This can lead to situations where policyholders belonging to a group that is seen as carrying a higher risk for accidents wrongfully get a higher premium, even if the higher risk might not necessarily apply on a per- individual basis. Telematics data offers an opportunity to look at driving behavior during individual trips, enabling a pricing model that can be customized to each policyholder. While these additional variables can be used in a generalized linear model (GLM) similar to the traditional pricing models, machine learning methods can possibly unravel non-linear connections between the variables. Using telematics data, we build a gradient boosting model (GBM) and a neural network (NN) to predict the claim frequency of policyholders on a monthly basis. We find that both GBMs and NNs offer predictive power that can be generalized to data that has not been used in the training of the models. The results of the study also show that telematics data play a considerable role in the model predictions, and that the frequency and distance of trips are important factors in determining the risk using these models. / Prissättningsmodeller för bilförsäkringar använder traditionellt variabler relaterade till försäkringstagaren och det försäkrade fordonet (t.ex. bilmärke och förarålder) för att bestämma försäkringspremien. Detta kan leda till situationer där försäkringstagare som tillhör en grupp som anses bära på en högre risk för olyckor får en felaktigt hög premie, även om den högre risken inte nödvändigtvis gäller på en individbasis. Telematikdata erbjuder en möjlighet att titta på körbeteende under individuella resor, vilket möjliggör en prissättningsmodell som kan anpassas till varje enskild försäkringstagare. Ä ven om dessa variabler kan användas i en linjär modell liknande de traditionella prissättningsmodellerna kan användandet av maskininlärningsmetoder möjligen avslöja icke-linjära samband mellan variablerna. Med hjälp av telematikdata bygger vi en modell baserad på gradient boosting (GBM) och ett neuralt nätverk (NN) för att förutsäga frekvensen av olyckor för försäkringstagare på månadsbasis. Vi kommer fram till att båda modeller har en prediktiv förmåga som går att generalisera till data som inte har använts vid träningen av modellerna. Resultaten av studien visar även att telematikdata spelar en betydande roll i modellernas prediktioner, samt att frekvensen och sträckan av resor är viktiga faktorer vid bedömningen av risken med hjälp av dessa modeller.
15

Data Analytics using Regression Models for Health Insurance Market place Data

Killada, Parimala January 2017 (has links)
No description available.
16

Using Gradient Boosting to Identify Pricing Errors in GLM-Based Tariffs for Non-life Insurance / Identifiering av felprissättningar i GLM-baserade skadeförsäkringstariffer genom Gradient boosting

Greberg, Felix, Rylander, Andreas January 2022 (has links)
Most non-life insurers and many creditors use regressions, more specifically Generalized Linear Models (GLM), to price their liabilities. One limitation with GLMs is that interactions between predictors are handled manually, which makes finding interactions a tedious and time-consuming task. This increases the cost of rate making and, more importantly, actuaries can miss important interactions resulting in sub-optimal customer prices. Several papers have shown that Gradient Tree Boosting can outperform GLMs in insurance pricing since it handles interactions automatically. Insurers and creditors are however reluctant to use so-called ”Black-Box” solutions for both regulatory and technical reasons. Tree-based methods have been used to identify pricing errors in regressions, albeit only as ad-hoc solutions. The authors instead propose a systematic approach to automatically identify and evaluate interactions between predictors before adding them to a traditional GLM. The model can be used in three different ways: Firstly, it can create a table of statistically significant candidate interactions to add to a GLM. Secondly, it can automatically and iteratively add new interactions to an old GLM until no more statistically significant interactions can be found. Lastly, it can automatically create a new GLM without an existing pricing model. All approaches are tested on two motor insurance data sets from a Nordic P&C insurer and the results show that all methods outperform the original GLMs. Although the two iterative modes perform better than the first, insurers are recommended to mainly use the first mode since this results in a reasonable trade-off between automating processes and leveraging actuaries’ professional judgment. / De flesta skadeförsäkringsbolag och många långivare använder regressioner, mer specifikt generaliserade linjära modeller (GLM), för att prissätta sina skulder. En begräsning med GLM:er är att interaktioner mellan exogena variabler hanteras manuellt, vilket innebär att hanteringen av dessa är tidskrävande. Detta påverkar försäkringsbolags lönsamhet på flera sätt. För det första ökar kostnaderna för att skapa tariffer och för det andra kan aktuarier missa viktiga interaktioner, vilket resulterar i suboptimala kundpriser. Tidigare forskning visar att Gradient Boosting kan överträffa GLM:er inom försäkringsprissättning eftersom denna metod hanterar interaktioner automatiskt. Försäkringsbolag och kreditgivare är dock motvilliga till att använda så kallade ”Black-box-lösningar” på grund av både regulatoriska och tekniska skäl. Trädbaserade metoder har tidigare använts för att hitta felprissättningar i regressioner, dock endast genom situationsanpassade lösningar. Författarna föreslår i stället en systematisk metod för att automatiskt identifiera och evaluera interaktioner innan de inkluderas i en traditionell GLM. Modellen kan användas på tre olika sätt: Först och främst kan den användas för att skapa en tabell med statistiskt signifikanta interaktioner att addera till en existerande GLM. Utöver detta kan den iterativt och automatiskt lägga till sådana interaktioner tills inga fler återstår. Slutligen kan modellen också användas för att skapa en helt ny GLM från grunden, utan en existerande prissättningsmodell. Metoderna testas på två motorförsäkringsdataset från ett nordiskt skadeförsäkringsbolag och resultaten visar att alla överträffar originalregressionen. Även om de två iterativa metoderna överträffar den första metoden rekommenderas försäkringsbolag att använda den första metoden. Detta eftersom den resulterar i en rimlig avvägning mellan att automatisera processer och att nyttja aktuariers omdömesförmåga.
17

Modeling Melodic Accents in Jazz Solos / Modellering av melodiska accenter i jazzsolon

Berrios Salas, Misael January 2023 (has links)
This thesis looks at how accurately one can model accents in jazz solos, more specifically the sound level. Further understanding the structure of jazz solos can give a way of pedagogically presenting differences within music styles and even between performers. Some studies have tried to model perceived accents in different music styles. In other words, model how listeners perceive some tones as somehow accentuated and more important than others. Other studies have looked at how the sound level correlates to other attributes of the tone. But to our knowledge, no other studies have been made modeling actual accents within jazz solos, nor have other studies had such a big amount of training data. The training data used is a set of 456 solos from the Weimar Jazz Database. This is a database containing tone data and metadata from monophonic solos performed with multiple instruments. The features used for the training algorithms are features obtained from the software Director Musices created at the Royal Institute of Technology in Sweden; features obtained from the software "melfeature" created at the University of Music Franz Liszt Weimar in Germany; and features built upon tone data or solo metadata from the Weimar Jazz Database. A comparison between these is made. Three learning algorithms are used, Multiple Linear Regression (MLR), Support Vector Regression (SVR), and eXtreme Gradient Boosting (XGBoost). The first two are simpler regression models while the last is an award-winning tree boosting algorithm. The tests resulted in eXtreme Gradient Boosting (XGBoost) having the highest accuracy when combining all the available features minus some features that were removed since they did not improve the accuracy. The accuracy was around 27% with a high standard deviation. This tells that there was quite some difference when predicting the different solos, some had an accuracy of about 67% while others did not predict one tone correctly in the entire solo. But as a general model, the accuracy is too low for actual practical use. Either the methods were not the optimal ones or jazz solos differ too much to find a general pattern. / Detta examensarbete undersöker hur väl man kan modellera accenter i jazz-solos, mer specifikt ljudnivån. En bredare förståelse för strukturen i jazzsolos kan ge ett sätt att pedagogiskt presentera skillnaderna mellan olika musikstilar och även mellan olika artister. Andra studier har försökt modellera uppfattade accenter inom olika musik-stilar. Det vill säga, modellera hur åhörare upplever vissa toner som accentuerade och viktigare än andra. Andra studier har undersökt hur ljudnivån är korrelerad till andra attribut hos tonen. Men såvitt vi vet, så finns det inga andra studier som modellerar faktiska accenter inom jazzsolos, eller som haft samma stora mängd träningsdata. Träningsdatan som använts är ett set av 456 solos tagna från Weimar Jazz Database. Databasen innehåller data på toner och metadata från monofoniska solos genomförda med olika instrument. Särdragen som använts för tränings-algoritmerna är särdrag erhållna från mjukvaran Director Musices skapad på Kungliga Tekniska Högskolan i Sverige; särdrag erhållna från mjukvaran ”melfeature” skapad på University of Music Franz Liszt Weimar i Tyskland; och särdrag skapade utifrån datat i Weimar Jazz Database. En jämförelse mellan dessa har också gjorts. Tre inlärningsalgoritmer har använts, Multiple Linear Regression (MLR), Support Vector Regression (SVR), och eXtreme Gradient Boosting (XGBoost). De första två är enklare regressionsalgoritmer, medan den senare är en prisbelönt trädförstärkningsalgoritm. Testen resulterade i att eXtreme Gradient Boosting (XGBoost) skapade en modell med högst noggrannhet givet alla tillgängliga särdrag som träningsdata minus vissa särdrag som tagits bort då de inte förbättrar noggrannheten. Den erhållna noggrannheten låg på runt 27% med en hög standardavvikelse. Detta pekar på att det finns stora skillnader mellan att förutsäga ljudnivån mellan de olika solin. Vissa solin gav en noggrannhet på runt 67% medan andra erhöll inte en endaste ljudnivå korrekt i hela solot. Men som en generell modell är noggrannheten för låg för att användas i praktiken. Antingen är de valda metoderna inte de bästa, eller så är jazzsolin för olika för att hitta ett generellt mönster som går att förutsäga.
18

Identifying Optimal Throw-in Strategy in Football Using Logistic Regression / Identifiering av Optimal Inkaststrategi i Fotboll med Logistisk Regression

Nieto, Stephan January 2023 (has links)
Set-pieces such as free-kicks and corners have been thoroughly examined in studies related to football analytics in recent years. However, little focus has been put on the most frequently occurring set-piece: the throw-in. This project aims to investigate how football teams can optimize their throw-in tactics in order to improve the chance of taking a successful throw-in. Two different definitions of what constitutes a successful throw-in are considered, firstly if the ball is kept in possession and secondly if a goal chance is created after the throw-in. The analysis is conducted using logistic regression, as this model comes with high interpretability, making it easier for players and coaches to gain direct insights from the results. A substantial focus is put on the investigation of the logistic regression assumptions, with the greatest emphasis being put on the linearity assumption. The results suggest that long throws directed towards the opposition’s goal are the most effective for creating goal-scoring opportunities from throw-ins taken in the attacking third of the pitch. However, if the throw-in is taken in the middle or defensive regions of the pitch, the results interestingly indicate that throwing the ball backwards leads to increased chance of scoring. When it comes to retaining the ball possession, the results suggest that throwing the ball backwards is an effective strategy regardless of the pitch position. Moreover, the project outlines how feature transformations can be used to improve the fitting of the logistic regression model. However, it turns out that the most significant improvement in accuracy of logistic regression occurs when incorporating additional relevant features into the model. In such case, the logistic regression model achieves a predictive power comparable to more advanced machine learning methods. / Fasta situationer såsom frisparkar och hörnor har varit välstuderade i studier rörande fotbollsanalys de senaste åren. Lite fokus har emellertid lagts på den vanligast förekommande fasta situationen: inkastet. Detta projekt syftar till att undersöka hur fotbollslag kan optimera sin inkasttaktik för att förbättra möjligheterna till att genomföra ett lyckat inkast. Två olika definitioner av vad som utgör ett lyckat inkast beaktas, dels om bollinnehavet behålls och dels om en målchans skapas efter inkastet. Analysen görs med logistisk regression eftersom denna modell har hög tolkningsbarhet, vilket gör det lättare för spelare och tränare att få direkta insikter från resultaten. Stort fokus läggs på undersökning av de logistiska regressionsantagandena, där störst vikt läggs på antagandet gällande linjäritet. Resultaten tyder på att långa inkast riktade mot motståndarnas mål är de mest gynnsamma för att skapa en målchans från inkast tagna i den offensiva tredjedelen av planen. Om inkastet istället tas från de mellersta eller defensiva delarna av planen tyder resultaten intressant nog på att inkast riktade bakåt leder till ökad chans till att göra mål. När det kommer till att behålla bollinnehavet visar resultaten att kast bakåt är en gynnsam strategi, oavsett var på planen inkasten tas ifrån. Vidare visar projektet hur variabeltransformationer kan användas för att förbättra modellanpassningen för logistisk regression. Det visar sig dock att den tydligaste förbättringen fås då fler relevanta variabler läggs till i modellen. I sådant fall, får logistisk regression en prediktiv förmåga som är jämförbar med mer avancerade maskininlärningsmetoder.
19

Predicting House Prices on the Countryside using Boosted Decision Trees / Förutseende av huspriser på landsbygden genom boostade beslutsträd

Revend, War January 2020 (has links)
This thesis intends to evaluate the feasibility of supervised learning models for predicting house prices on the countryside of South Sweden. It is essential for mortgage lenders to have accurate housing valuation algorithms and the current model offered by Booli is not accurate enough when evaluating residence prices on the countryside. Different types of boosted decision trees were implemented to address this issue and their performances were compared to traditional machine learning methods. These different types of supervised learning models were implemented in order to find the best model with regards to relevant evaluation metrics such as root-mean-squared error (RMSE) and mean absolute percentage error (MAPE). The implemented models were ridge regression, lasso regression, random forest, AdaBoost, gradient boosting, CatBoost, XGBoost, and LightGBM. All these models were benchmarked against Booli's current housing valuation algorithms which are based on a k-NN model. The results from this thesis indicated that the LightGBM model is the optimal one as it had the best overall performance with respect to the chosen evaluation metrics. When comparing the LightGBM model to the benchmark, the performance was overall better, the LightGBM model had an RMSE score of 0.330 compared to 0.358 for the Booli model, indicating that there is a potential of using boosted decision trees to improve the predictive accuracy of residence prices on the countryside. / Denna uppsats ämnar utvärdera genomförbarheten hos olika övervakade inlärningsmodeller för att förutse huspriser på landsbygden i Södra Sverige. Det är viktigt för bostadslånsgivare att ha noggranna algoritmer när de värderar bostäder, den nuvarande modellen som Booli erbjuder har dålig precision när det gäller värderingar av bostäder på landsbygden. Olika typer av boostade beslutsträd implementerades för att ta itu med denna fråga och deras prestanda jämfördes med traditionella maskininlärningsmetoder. Dessa olika typer av övervakad inlärningsmodeller implementerades för att hitta den bästa modellen med avseende på relevanta prestationsmått som t.ex. root-mean-squared error (RMSE) och mean absolute percentage error (MAPE). De övervakade inlärningsmodellerna var ridge regression, lasso regression, random forest, AdaBoost, gradient boosting, CatBoost, XGBoost, and LightGBM. Samtliga algoritmers prestanda jämförs med Boolis nuvarande bostadsvärderingsalgoritm, som är baserade på en k-NN modell. Resultatet från denna uppsats visar att LightGBM modellen är den optimala modellen för att värdera husen på landsbygden eftersom den hade den bästa totala prestandan med avseende på de utvalda utvärderingsmetoderna. LightGBM modellen jämfördes med Booli modellen där prestandan av LightGBM modellen var i överlag bättre, där LightGBM modellen hade ett RMSE värde på 0.330 jämfört med Booli modellen som hade ett RMSE värde på 0.358. Vilket indikerar att det finns en potential att använda boostade beslutsträd för att förbättra noggrannheten i förutsägelserna av huspriser på landsbygden.
20

A Predictive Analysis of Customer Churn / : En Prediktiv Analys av Kundbortfall

Eskils, Olivia, Backman, Anna January 2023 (has links)
Churn refers to the discontinuation of a contract; consequently, customer churn occurs when existing customers stop being customers. Predicting customer churn is a challenging task in customer retention, but with the advancements made in the field of artificial intelligence and machine learning, the feasibility to predict customer churn has increased. Prior studies have demonstrated that machine learning can be utilized to forecast customer churn. The aim of this thesis was to develop and implement a machine learning model to predict customer churn and identify the customer features that have a significant impact on churn. This Study has been conducted in cooperation with the Swedish insurance company Bliwa, who expressed interest in gaining an increased understanding of why customers choose to leave.  Three models, Logistic Regression, Random Forest, and Gradient Boosting, were used and evaluated. Bayesian optimization was used to optimize the models. After obtaining an indication of their predictive performance during evaluation using Cross-Validation, it was concluded that LightGBM provided the best result in terms of PR-AUC, making it the most effective approach for the problem at hand. Subsequently, a SHAP-analysis was carried out to gain insights into which customer features that have an impact on whether or not a customer churn. The outcome of the SHAP-analysis revealed specific customer features that had a significant influence on churn. This knowledge can be utilized to proactively implement measures aimed at reducing the probability of churn. / Att förutsäga kundbortfall är en utmanande uppgift inom kundbehållning, men med de framsteg som gjorts inom artificiell intelligens och maskininlärning har möjligheten att förutsäga kundbortfall ökat. Tidigare studier har visat att maskinlärning kan användas för att prognostisera kundbortfall. Syftet med denna studie var att utveckla och implementera en maskininlärningsmodell för att förutsäga kundbortfall och identifiera kundegenskaper som har en betydande inverkan på varför en kund väljer att lämna eller inte. Denna studie har genomförts i samarbete med det svenska försäkringsbolaget Bliwa, som uttryckte sitt intresse över att få en ökad förståelse för varför kunder väljer att lämna. Tre modeller, Logistisk Regression, Random Forest och Gradient Boosting användes och utvärderades. Bayesiansk optimering användes för att optimera dessa modeller. Efter att ha utvärderat prediktiv noggrannhet i samband med krossvalidering drogs slutsatsen att LightGBM gav det bästa resultatet i termer av PR-AUC och ansågs därför vara den mest effektiva metoden för det aktuella problemet. Därefter genomfördes en SHAP-analys för att ge insikter om vilka kundegenskaper som påverkar varför en kund riskerar, eller inte riskerar att lämna. Resultatet av SHAP-analysen visade att vissa kundegenskaper stack ut och verkade ha en betydande påverkan på kundbortfall. Denna kunskap kan användas för att vidta proaktiva åtgärder för att minska sannolikheten för kundbortfall.

Page generated in 0.3715 seconds