Fintech companies that offer Buy Now, Pay Later products are heavily dependent on accurate default probability models. This is since the fintech companies bear the risk of customers not fulfilling their obligations. In order to minimize the losses incurred to customers defaulting several machine learning algorithms can be applied but in an era in which machine learning is gaining popularity, there is a vast amount of algorithms to select from. This thesis aims to address this issue by applying three fundamentally different machine learning algorithms in order to find the best algorithm according to a selection of chosen metrics such as ROCAUC and precision-recall AUC. The algorithms that were compared are Logistic Regression, Random Forest and CatBoost. All these algorithms were benchmarked against Klarna's current XGBoost model. The results indicated that the CatBoost model is the optimal one according to the main metric of comparison, the ROCAUC-score. The CatBoost model outperformed the Logistic Regression model by seven percentage points, the Random Forest model by three percentage points and the XGBoost model by one percentage point. / Fintechbolag som erbjuder Köp Nu, Betala Senare-tjänster är starkt beroende av välfungerande fallissemangmodeller. Detta då dessa fintechbolag bär risken av att kunder inte betalar tillbaka sina krediter. För att minimera förlusterna som uppkommer när en kund inte betalar tillbaka finns flera olika maskininlärningsalgoritmer att applicera, men i dagens explosiva utveckling på maskininlärningsfronten finns det ett stort antal algoritmer att välja mellan. Denna avhandling ämnar att testa tre olika maskininlärningsalgoritmer för att fastställa vilken av dessa som presterar bäst sett till olika prestationsmått så som ROCAUC och precision-recall AUC. Algoritmerna som jämförs är Logistisk Regression, Random Forest och CatBoost. Samtliga algoritmers prestanda jämförs även med Klarnas nuvarande XGBoost-modell. Resultaten visar på att CatBoost-modellen är den mest optimala sett till det primära prestationsmåttet ROCAUC. CatBoost-modellen var överlägset bättre med sju procentenheter högre ROCAUC än Logistisk Regression, tre procentenheter högre ROCAUC än Random Forest och en procentenhet högre ROCAUC än Klarnas nuvarande XGBoost-modell
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-273570 |
Date | January 2020 |
Creators | Jovanovic, Filip, Singh, Paul |
Publisher | KTH, Matematisk statistik |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | English |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-SCI-GRU ; 2020:053 |
Page generated in 0.4538 seconds