Return to search

Encoding Temporal Healthcare Data for Machine Learning

This thesis contains a review of previous work in the fields of encoding sequential healthcare data and predicting graft- versus- host disease, a medical condition, based on patient history using machine learning. A new encoding of such data is proposed for machine learning purposes. The proposed encoding, called bag of binned weighted events, is a combination of two strategies proposed in previous work, called bag of binned events and bag of weighted events. An empirical experiment is designed to evaluate the predictive performance of the proposed encoding over various binning windows to that of the previous encodings, based on the area under the receiver operating characteristic curve (AUC) metric. The experiment is carried out on real- world healthcare data obtained from Swedish registries, using the random forest and the logistic regression algorithms. After filtering the data, solving quality issues and tuning hyperparameters of the models, final results are obtained. These results indicate that the proposed encoding strategy performs on par, or slightly better than the bag of weighted events, and outperforms the bag of binned events in most cases. However, differences in metrics show small differences. It is also observed that the proposed encoding usually performs better with longer binning windows which may be attributed to data noise. Future work is proposed in the form of repeating the experiment with different datasets and models, as well as changing the binning window length of the baseline algorithms. / Denna avhandling innehåller en recension av tidigare arbete inom områden av kodning av sekventiell sjukvårdsdata och förutsägelse av transplantat- mot- värdsjukdom, ett medicinskt tillstånd, baserat på patienthistoria med maskininlärning. En ny kodning av sådan data föreslås i maskininlärningssyfte. Den föreslagna kodningen, kallad bag of binned weighted events, är en kombination av två strategier som föreslagits i tidigare arbete, kallad bag of binned events och bag of weighted events. Ett empiriskt experiment är utformat för att utvärdera den föreslagna prestandan för den föreslagna kodningen över olika binningfönster jämfört med tidigare kodningar, baserat på AUC- måttet. Experimentet utförs på verkliga sjukvårdsdata som erhållits från svenska register, med random forest och logistic regression. Efter filtrering av data, lösning av kvalitetsproblem och justering av hyperparametrar för modellerna, erhålls slutliga resultat. Dessa resultat indikerar att den föreslagna kodningsstrategin presterar i nivå med, eller något bättre än bag of weighted events, och överträffar i de flesta fall bag of binned events. Skillnader i mått är dock små. Det observeras också att den föreslagna kodningen vanligtvis fungerar bättre med längre binningfönster som kan tillskrivas dataljud. Framtida arbete föreslås i form av att upprepa experimentet med olika datamängder och modeller, samt att ändra binningfönstrets längd för basalgoritmerna.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-299433
Date January 2021
CreatorsLaczik, Tamás
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2021:238

Page generated in 0.0024 seconds