This Master's Thesis project set out with the objective to propose a machine learning model for predicting insurance risk at the level of an individual coverage, and compare it towards the existing models used by the project provider Gjensidige Försäkring. Due to interpretability constraints, it was found that this problem can be translated into a standard tabular regression task, with well defined target distributions. However, it was early identified that the set of feasible models do not contain pure black box models such as XGBoost, LightGBM and CatBoost which are typical choices for tabular data regression. In the report, we explicitly formulate the interpretability constraints in sharp mathematical language. It is concluded that interpretability can be ensured by enforcing a particular structure on the Hilbert space across which we are looking for the model. Using this formalism, we consider two different approaches for fitting high performing models that maintain interpretability, where we conclude that gradient boosted regression tree based Generalized Additive Models in general, and the Explainable Boosting Machine in particular, is a promising model candidate consisting of functions within the Hilbert space of interest. The other approach considered is the basis expansion approach, which is currently used at the project provider. We make the argument that the gradient boosted regression tree approach used by the Explainable Boosting Machine is a more suitable model type for an automated, data driven modelling approach which is likely to generalize well outside of the training set. Finally, we perform an empirical study on three different internal datasets, where the Explainable Boosting Machine is compared towards the current production models. We find that the Explainable Boosting Machine systematically outperforms the current models on unseen test data. There are many potential ways to explain this, but the main hypothesis brought forward in the report is that the sequential model fitting procedure allowed by the regression tree approach allows us to effectively explore a larger portion of the Hilbert space which contains all permitted models in comparison to the basis expansion approach. / Detta mastersexamensarbete utgår från målsättningen att föreslå en maskinlärningsmodell för att förutspå försäkringsrisk, på nivån av enskilda försäkringar. Denna modell ska sedan jämföras mot nuvarande modeller som används hos Gjensidige Försäkring, som tillhandahåller projektet. Detta problem kan formuleras som ett traditionellt regressionsproblem på tabulär data, med väldefinerade målfördelningar. På grund av begränsningar kring krav på modellens förståbarhet identifierades det tidigt i projektet att mängden av tillåtna modeller inte innehåller ren black box modeller som XGBoost, LightGBM eller CatBoost, vilket är typiska förstahandsval för den här problemklassen. I rapporten formulerar vi förståbarhetskraven i skarpt, matematiskt språk, och drar slutsatsen att önskad förståbarhet kan uppnås genom en specifik struktur på det Hilbertrum där vi letar efter den optimala modellen. Utifrån denna formalism evaluerar vi två olika metoder för att anpassa modeller med god prestanda som uppnår önskade förståbarhetskrav. Vi drar slutsatsen att Generalized Additive Models anpassade till datat genom gradientboostade regressionsträd i allmänhet, och Explainable Boosting Machine i synnerhet är en lovande modellkandidat bestående av funktioner i vårt Hilbertrum av intresse. Vi utvärderar dessutom ett tillvägagångssätt för att anpassa Generalized Additive Models till datat genom basexpansioner, vilket är den metod som primärt används idag hos Gjensidige Försäkring. Vi argumenterar för att metoder som bygger på gradientboostade regressionsträd, såsom Explainable Boosting Machine, är mer lämplig för ett automatiserbart, datadrivet arbetssätt till att bygga modeller som generaliserar väl utanför träningsdatat. Slutligen genomför vi en empirisk studie på tre olika interna dataset, där Explainable Boosting Machine jämförs mot nuvarande produktionsmodeller, vilka bygger på den tidigare nämnda basexpansionsmetodiken. Vi finner att Explainable Boosting Machine systematiskt överpresterar kontra nuvarande modeller på osedd testdata. Det finns många potentiella förklaringar till detta, men den huvudsakliga hypotsen som diskuteras i denna rapport är att den gradientboostade regressionsträdsmetodiken gör det möjligt att effektivt utforska en större delmängd av det Hilbertrum som innehåller alla tillåtna modeller i jämförelse med basexpansionsmetodiken.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-345035 |
Date | January 2023 |
Creators | Darke, Felix |
Publisher | KTH, Matematik (Avd.) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-SCI-GRU ; 2023:390 |
Page generated in 0.0022 seconds