This thesis explores how survival analysis models performs for default risk prediction of small-to-medium sized enterprises (SME) and investigates when survival analysis models are preferable to use. This is examined by comparing the performance of three deep learning models in a survival analysis setting, a traditional survival analysis model Cox Proportional Hazards, and a traditional credit risk model logistic regression. The performance is evaluated by three metrics; concordance index, integrated Brier score and ROC-AUC. The models are trained on financial data from Swedish SME holding profit and loss statement and balance sheet results. The dataset is divided into two feature sets: a smaller and a larger, additionally the features are binned. The results show that DeepHit and Logistic Hazard performed the best with the three metrics in mind. In terms of the AUC score all three deep learning survival models generally outperform the logistic regression model. The Cox Proportional Hazards (Cox PH) showed worse performance than the logistic regression model on the non-binned feature sets while having more comparable results in the case where the data was binned. In terms of the concordance index and integrated Brier score the Cox Proportional Hazards model consistently performed the worst out of all survival models. The largest significant performance gain for the concordance index and AUC score was however seen by the Cox PH model when binning was applied to the larger feature set. The concordance index went from 0.65 to 0.75 and the test AUC went from 76.56% to 83.91% for the larger set to larger dataset with binned features. The main conclusions is that the neural networks models did outperform the traditional models slightly and that binning had a great impact on all models, but in particular for the Cox PH model. / Det här examensarbete utreder hur modeller inom överlevnadsanalys presterar för kreditriskprediktion på små och medelstora företag (SMF) och utvärderar när överlevnadsanalys modeller är att föredra. För att besvara frågan jämförs prestandan av tre modeller för djupinlärning i en överlevnadsanalysmiljö, en traditionell överlevnadsanalys modell: Cox Proportional Hazards och en traditionell kreditriskmodell: logistik regression. Prestandan har utvärderats utifrån tre metriker; concordance index, integrated Brier score och AUC. Modellerna är tränade på finansiell data från små och medelstora företag som innefattar resultaträkning och balansräkningsresultat. Datasetet är fördelat i ett mindre variabelset och ett större set, dessutom är variablerna binnade. Resultatet visar att DeepHit och Logistic Hazard presterar bäst baserat på alla metriker. Generellt sett är AUC måttet högre för alla djupinlärningsmodeller än för den logistiska regressionen. Cox Proportional Hazards (Cox PH) modellen presterar sämre för variabelset som inte är binnade men får jämförelsebar resultat när datan är binnad. När det gäller concordance index och integrated Brier score så har Cox PH överlag sämst resultat utav alla överlevnadsmodeller. Den största signifikanta förbättringen i resultatet för concordance index och AUC ses för Cox PH när datan binnas för det stora variabelsetet. Concordance indexet gick från 0.65 till 0.75 och test AUC måttet gick från 76.56% till 83.91% för det större variabel setet till större variabel setet med binnade variabler. De huvudsakliga slutsatserna är att de neurala nätverksmodeller presterar något bättre än de traditionella modellerna och att binning är mycket gynnsam för alla modeller men framförallt för Cox PH.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-322562 |
Date | January 2022 |
Creators | Kazi, Mehnaz, Stanojlovic, Natalija |
Publisher | KTH, Matematisk statistik |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | English |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-SCI-GRU ; 2022:314 |
Page generated in 0.0028 seconds