Spelling suggestions: "subject:"regressionstest"" "subject:"regressionstester""
1 |
Using Gradient Boosting to Identify Pricing Errors in GLM-Based Tariffs for Non-life Insurance / Identifiering av felprissättningar i GLM-baserade skadeförsäkringstariffer genom Gradient boostingGreberg, Felix, Rylander, Andreas January 2022 (has links)
Most non-life insurers and many creditors use regressions, more specifically Generalized Linear Models (GLM), to price their liabilities. One limitation with GLMs is that interactions between predictors are handled manually, which makes finding interactions a tedious and time-consuming task. This increases the cost of rate making and, more importantly, actuaries can miss important interactions resulting in sub-optimal customer prices. Several papers have shown that Gradient Tree Boosting can outperform GLMs in insurance pricing since it handles interactions automatically. Insurers and creditors are however reluctant to use so-called ”Black-Box” solutions for both regulatory and technical reasons. Tree-based methods have been used to identify pricing errors in regressions, albeit only as ad-hoc solutions. The authors instead propose a systematic approach to automatically identify and evaluate interactions between predictors before adding them to a traditional GLM. The model can be used in three different ways: Firstly, it can create a table of statistically significant candidate interactions to add to a GLM. Secondly, it can automatically and iteratively add new interactions to an old GLM until no more statistically significant interactions can be found. Lastly, it can automatically create a new GLM without an existing pricing model. All approaches are tested on two motor insurance data sets from a Nordic P&C insurer and the results show that all methods outperform the original GLMs. Although the two iterative modes perform better than the first, insurers are recommended to mainly use the first mode since this results in a reasonable trade-off between automating processes and leveraging actuaries’ professional judgment. / De flesta skadeförsäkringsbolag och många långivare använder regressioner, mer specifikt generaliserade linjära modeller (GLM), för att prissätta sina skulder. En begräsning med GLM:er är att interaktioner mellan exogena variabler hanteras manuellt, vilket innebär att hanteringen av dessa är tidskrävande. Detta påverkar försäkringsbolags lönsamhet på flera sätt. För det första ökar kostnaderna för att skapa tariffer och för det andra kan aktuarier missa viktiga interaktioner, vilket resulterar i suboptimala kundpriser. Tidigare forskning visar att Gradient Boosting kan överträffa GLM:er inom försäkringsprissättning eftersom denna metod hanterar interaktioner automatiskt. Försäkringsbolag och kreditgivare är dock motvilliga till att använda så kallade ”Black-box-lösningar” på grund av både regulatoriska och tekniska skäl. Trädbaserade metoder har tidigare använts för att hitta felprissättningar i regressioner, dock endast genom situationsanpassade lösningar. Författarna föreslår i stället en systematisk metod för att automatiskt identifiera och evaluera interaktioner innan de inkluderas i en traditionell GLM. Modellen kan användas på tre olika sätt: Först och främst kan den användas för att skapa en tabell med statistiskt signifikanta interaktioner att addera till en existerande GLM. Utöver detta kan den iterativt och automatiskt lägga till sådana interaktioner tills inga fler återstår. Slutligen kan modellen också användas för att skapa en helt ny GLM från grunden, utan en existerande prissättningsmodell. Metoderna testas på två motorförsäkringsdataset från ett nordiskt skadeförsäkringsbolag och resultaten visar att alla överträffar originalregressionen. Även om de två iterativa metoderna överträffar den första metoden rekommenderas försäkringsbolag att använda den första metoden. Detta eftersom den resulterar i en rimlig avvägning mellan att automatisera processer och att nyttja aktuariers omdömesförmåga.
|
2 |
R-ljud är hårda: slumpskogsanalys av sambandet mellan språkljud och betydelse i taktila adjektiv / R is for hard: random forest analysis of the association between sound and meaning in tactile adjectivesRåberg, Emil, Siljamäki, Mia January 2022 (has links)
Få studier om ljudsymbolik, d.v.s. kopplingen mellan ords form och betydelse, har baserats på statistisk analys. I denna studie använder vi random forests med måttet permutation variable importance för att utforska vilka fonem (språkljud) som är prevalenta i engelska ord som beskriver hårdhet eller mjukhet. Denna icke-parametriska maskininlärningsmetod har funnits vara användbar för identifiering av ett fåtal inflytelserika förklaringsvariabler i situationer där n < p eller interkorrelationer förekommer. Vårt material och val av metod grundar sig på en tidigare studie, som fann att r-ljud hade starkt samband med betydelsen ‘strävhet’, men som inte kontrollerade för betydelsen ‘hårdhet’ trots att dessa korrelerar med varandra. Vi kontrollerar för dimensionen strävhet-lenhet genom att utföra random forest-analysen på två delmängder: ord som används för att beskriva hårdhet eller mjukhet (n = 81), samt den delmängd av dessa ord som inte beskriver strävhet eller lenhet (n = 40). Samtliga regressorer är binära variabler, som anger förekomsten eller avsaknaden av varsitt fonem; vi utförde separata analyser på respektive datamängd för att se vilka fonem som hade störst effekt, då man betraktade specifika stavelsekomponenter. Vi fann att r-ljuden hade starkt samband med betydelsen ‘hårdhet’ både före och efter kontrollen för ‘strävhet’. Vi fann även att ljudet med symbolen i (t.ex. sista vokalen i fluffy) hade starkt samband med betydelsen ‘mjukhet’ före och efter kontroll, men vi misstänker att detta egentligen reflekterar sambandet mellan ‘mjukhet’ och exkluderade bakgrundsvariabler. / Few studies about sound symbolism, i.e. the association between the shape and meaning of words, have been based on statistical analysis. In this study, we use random forests and the permutation variable importance measure to explore which phonemes (language sounds) are prevalent in English descriptors of hardness or softness. This non-parametric machine learning method has been found useful for identification of a few influential predictors in situations where n < p or intercorrelations are present. Our materials and choice of method are based on an earlier study, in which a strong association was found between r-sounds and ‘roughness’, but which did not control for the meaning ‘hardness’ despite the correlation between them. We control for the dimension ‘roughness-smoothness’ by performing the random forest-analysis on two subsets of data: descriptors of hardness or softness (n = 81), and descriptors of hardness or softness which are not used to describe roughness or smoothness (n = 40). All regressors are binary variables indicating the presence or absence of a phoneme. Separate analyses were conducted on each subset to see which phonemes had the largest effect when specific syllable compontents were considered. We found that r-sounds had a strong association with ‘hardness’ both before and after controlling for ‘roughness’. We also found that the sound here symbolized by i (e.g. the last vowel of fluffy) had a strong association with ‘softness’ before and after control, but we suspect that this might instead reflect an association between ‘softness’ and excluded variables.
|
3 |
Estimating the load weight of freight trains using machine learningKongpachith, Erik January 2023 (has links)
Accurate estimation of the load weight of freight trains is crucial for ensuring safe, efficient and sustainable rail freight transports. Traditional methods for estimating load weight often suffer from limitations in accuracy and efficiency. In recent years, machine learning algorithms have gained significant attention and use cases within the railway industry due to their strong predictive capabilities for classification and regression tasks. This study aims to present a proof of concept in the form of a comparative analysis of five machine learning regression algorithms: Polynomial Regression, K-Nearest Neighbors, Regression Trees, Random Forest Regression, and Support Vector Regression for estimating the load weight of freight trains using simulation data. The study utilizes two comprehensive datasets derived from train simulations in GENSYS, a simulation software for modeling rail vehicles. The datasets encompasses various driving condition factors such as train speed, track conditions and running gear configurations. The algorithms are trained and evaluated on these datasets and their performance is evaluated based on the root mean squared error and R2 metrics. Results from the experiments demonstrate that all five machine learning algorithms show promising performance for estimating the load weight. Polynomial regression achieves the best result for both of the datasets when using many features of the datasets are considered. Random forest regression achieves the best result for both of the data sets when a small number features of the datasets are considered. Furthermore, it is suggested that the methodical approach of this study is examined on real world data from operating freight trains to assert the proof of concept in a real world setting. / Noggrann uppskattning av godstågens lastvikt är avgörande för att säkerställa säkra, effektiva och hållbara godstransporter via järnväg. Traditionella metoder för att uppskatta lastvikt lider ofta av begränsningar i noggrannhet och effektivitet. Under de senaste åren har maskininlärningsalgoritmer fått betydande uppmärksamhet och användningsfall inom järnvägsindustrin på grund av deras starka prediktiva förmåga för klassificerings- och regressionsproblem. Denna studie syftar till att presentera en proof of concept i form av en jämförande analys av fem maskininlärningalgoritmer för regression: Polynom regression, K-Nearest Neighbors, Regression träd, Random Forest Regression och Support Vector Regression för att uppskatta lastvikten för godståg med hjälp av simuleringsdata. Studien använder två omfattande dataset konstruerade från tågsimuleringar i GENSYS, en simuleringsprogramvara för modellering av järnvägsfordon. Dataseten omfattar olika körfaktorer såsom tåghastighet, spårförhållanden och vagns konfigurationer. Algoritmerna tränas och utvärderas på dessa dataset och deras prestanda utvärderas baserat på root mean squared error och R2 måtten. Resultat från experimenten visar att alla fem maskininlärningsalgoritmerna visar lovande prestanda för att uppskatta lastvikten. Polynom regression uppnår det bästa resultatet för båda dataset när många variabler i datan beaktas. Random Forest Regression ger det bästa resultatet för båda dataset när ett mindre antal variabler i datan beaktas. Det föreslås det att det metodiska tillvägagångssättet för denna studie undersöks på verklig data från aktiva godståg för att fastställa en proof of concept på en verklig världsbild.
|
Page generated in 0.0615 seconds