Survival analysis is a subfield of statistics where the goal is to analyse and model the data where the outcome is the time until the occurrence of an event of interest. Because of the intrinsic temporal nature of the analysis, the employment of more recently developed sequential models (Recurrent Neural Network (RNN) and Long Short Term Memory (LSTM)) has been paired with the use of dynamic temporal features, in contrast with the past reliance on static ones. Such an abrupt shift of policy has left open the challenge of understanding how those two kinds of features influence the predictive capabilities of models. This thesis aims at assessing the effect of combining static and dynamic features on the most commonly used models in survival analysis. In doing so, we compare the error measurements of such models with dataset composed of purely dynamic features or a combination of static and dynamic ones. Empirical measurements have shown that models respond differently to the addition of static features to the analysis, with more complex, sequential models like the LSTM struggling to deal with the added data complexity (with a 12% increase in error), while non sequential models see reductions of up to 14.7% in error. The thesis also includes a clusterization task aimed at aiding the interpretation of survival analysis outcomes. / Överlevnadsanalys är ett delområde inom statistiken där målet är att analysera och modellera data där utfallet är tiden fram till dess att en händelse av intresse inträffar. På grund av analysens inneboende tidsmässiga karaktär har användningen av mer nyligen utvecklade sekventiella modeller (RNN och LSTM) kombinerats med användningen av dynamiska tidsmässiga egenskaper, i motsats till den tidigare förlitningen på statiska sådana. En sådan drastisk förändring av ansatsen har lämnat öppet för utmaningen att förstå hur dessa två typer av egenskaper påverkar modellernas förutsägande förmåga. Syftet med denna uppsats är att bedöma effekten av att kombinera statiska och dynamiska egenskaper på de vanligaste modellerna för överlevnadsanalys. I detta syfte jämför vi felmätningar av sådana modeller med dataset som består av rent dynamiska egenskaper eller en kombination av statiska och dynamiska egenskaper. Empiriska mätningar har visat att modellerna reagerar olika på tillägget av statiska egenskaper till analysen, där mer komplexa, sekventiella modeller som LSTM kämpar för att hantera den ökade datakomplexiteten (med en ökning av felet med 12 %), medan icke-sekventiella modeller ser en minskning av felet med upp till 14,7 %. Uppsatsen innehåller också en klusteruppgift som syftar till att underlätta tolkningen av resultaten av överlevnadsanalyser. / L’analisi della sopravvivenza è una branca della statistica il cui obiettivo è l’analisi e la modellazione di dati il cui risultato è il tempo che intercorre fino al verificarsi di un evento di interesse. A causa dell’intrinseca natura temporale dell’analisi, l’impiego di modelli sequenziali di più recente sviluppo (RNN e LSTM) è stato abbinato all’uso di attributi temporali dinamici, a differenza dell’uso più diffuso in passato di attributi statici. Questo brusco cambiamento ha lasciato aperta la sfida di capire come questi due tipi di attributi influenzino le capacità predittive dei modelli. Questa tesi si propone di valutare l’effetto della combinazione di attributi statici e dinamici sui modelli più comunemente utilizzati nell’analisi della sopravvivenza. A tal fine, confrontiamo le misure di errore di tali modelli con set di dati composti da attributi puramente dinamici o da una combinazione di statici e dinamici. I risultati empirici hanno mostrato che i modelli rispondono in modo diverso all’aggiunta di attrbiuti statici, con i modelli sequenziali più complessi, come l’LSTM, che faticano a gestire la complessità dei dati aggiunti (con un aumento dell’errore del 12%), mentre i modelli non sequenziali registrano riduzioni dell’errore fino al 14,7%. La tesi comprende anche una clusterizzazione volta a facilitare l’interpretazione dei risultati dell’analisi di sopravvivenza.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-325884 |
Date | January 2023 |
Creators | Colasanti, Luca |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Italian |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2023:65 |
Page generated in 0.002 seconds