Early detection reduces mortality in lung cancer, but it is also considered as a challenge for oncologists and for healthcare systems. In addition, screening modalities like CT-scans come with undesired effects, many suspected patients are wrongly diagnosed with lung cancer. This thesis contributes to solve the challenge of early lung cancer detection by utilizing unique data consisting of self-reported symptoms. The proposed method is a predictive machine learning algorithm based on natural language processing, which handles the data as an unstructured data set. A replication of a previous study where a prediction model based on a conventional multivariate machine learning using the same data is done and presented, for comparison. After evaluation, validation and interpretation, a set of variables were highlighted as early predictors of lung cancer. The performance of the proposed approach managed to match the performance of the conventional approach. This promising result opens for further development where such an approach can be used in clinical decision support systems. Future work could then involve other modalities, in a multimodal machine learning approach. / Tidig lungcancerdiagnostisering kan öka chanserna för överlevnad hos lungcancerpatienter, men att upptäcka lungcancer i ett tidigt stadie är en av de större utmaningarna för onkologer och sjukvården. Idag undersöks patienter med riskfaktorer baserat på rökning och ålder, dessa undersökningar sker med hjälp av bland annat medicinskt avbildningssystem, då oftast CT-bilder, vilket medför felaktiga och kostsamma diagnoser. Detta arbete föreslår en maskininlärninig algoritm baserad på Natural language processing, som genom analys och bearbetning av ostrukturerade data, av patienternas egna anamneser, kan prediktera lungcancer. Arbetet har genomfört en jämförelse med en konventionell maskininlärning algoritm baserat på en replikering av ett annat studie där samma data behandlades som strukturerad. Den föreslagna metoden har visat ett likartat resultat samt prestanda, och har identifierat riskfaktorer samt symptom för lungcancer. Detta arbete öppnar upp för en utveckling mot ett kliniskt användande i form av beslutsstödsystem, som även kan hantera elektriska hälsojournaler. Andra arbeten kan vidareutveckla metoden för att hantera andra varianter av data, så som medicinska bilder och biomarkörer, och genom det förbättra prestandan.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-314817 |
Date | January 2022 |
Creators | Sadek, Ahmad |
Publisher | KTH, Skolan för kemi, bioteknologi och hälsa (CBH) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | English |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-CBH-GRU ; 2022:092 |
Page generated in 0.0393 seconds