Return to search

Utilizing Primary Health Care Data for Early Detection of Colorectal Cancer: A Machine Learning Approach / Användning av primärvårdsdata för tidig upptäckt av kolorektalcancer: Ett maskininlärningsperspektiv

Colorectal cancer (CRC) is a health challenge worldwide and early detection of the disease is crucial to improve patient prognosis. It is common for the first contact with care to occur in primary care centers where general practitioners often face the challenge of distinguishing CRC from other diseases with similar symptoms. In this master thesis, patient records from primary care were used to create, optimize, and evaluate a machine learning model that classifies patients with CRC for early detection of the disease. The data used in the project included parts of electronic health records (EHRs) from both public (SLSO) and privately run (Capio and Praktikertjänst) primary care centers in the Stockholm region. The available dataset was cleaned and pre- processed, and then tested on four separate models. After selecting and optimizing the most promising model, LightGBM, a detailed evaluation of the model was performed. To simulate realistic clinical conditions, data from the three months prior to diagnosis were excluded from two of the datasets. The results were then compared with a baseline machine learning model that utilized ICD codes extracted from EHRs in primary care for early detection of CRC.The results showed that the final developed model had a generally good performance with an AUROC score of a maximum of 85.8%, which indicates very good ability to distinguish between the classes. The performance dropped when using the datasets with 3 months of data removed, but the ROC curves still showed a better ability than random classification to distinguish between the classes with a AUROC score of maximum 60,8%. The results also showed that the model developed in this master thesis outperforms the baseline model, which was based on ICD codes, from a performance perspective. For future development and before a possible clinical implementation, a larger data set should be used for training and testing. / Tjock- och ändtarmscancer, kolorektal cancer (KRC) är en hälsoutmaning över hela världen och tidig upptäckt av sjukdomen är avgörande för att förbättra patientens prognos. Det är vanligt att den första kontakten med vården inträffar på vårdcentraler där allmänläkare ofta står inför utmaningen att skilja KRC från andra sjukdomar med liknande symtom. I denna masteruppsats kommer patientjournaler från primärvården att användas för att skapa, optimera och utvärdera en maskininlärningsmodell som klassificerar patienter med KRC för tidig upptäckt av sjukdomen.De data som använts i projektet omfattade delar av elektroniska patientjournaler (EHR) från både offentliga (SLSO) och privatägda (Capio och Praktikertjänst) primärvårdscentraler i Stockholmsregionen. Den tillgängliga datamängden städades och förbehandlades, och testades sedan på fyra separata modeller. Efter att ha valt ut och optimerat den mest lovande modellen, LightGBM, utfördes en detaljerad utvärdering av modellen. För att simulera realistiska kliniska tillstånd utvärderades modellen på två datamängder där data från tre månader före diagnos uteslöts. Resultaten jämfördes sedan med en baslinjemodell som använde ICD-koder som hämtats från journalsystem inom primärvården för tidig upptäckt av CRC.Resultaten visade att den slutliga utvecklade modellen hade en generellt bra prestanda med en AUROC-poäng på högst 85,8%, vilket indikerar mycket god förmåga att skilja mellan klasserna. Prestandan sjönk vid användning av datasatserna med 3 månaders data borttagen, men ROC-kurvorna visade fortfarande en bättre förmåga än slumpmässig klassificering att skilja mellan klasserna med en AUROC-poäng på högst 60,8%. Resultaten visade också att den modell som utvecklats i denna masteruppsats överträffar baslinjemodellen, som baserades på ICD-koder, ur ett prestationsperspektiv. För framtida utveckling och före en eventuell klinisk implementation bör en större datamängd användas för träning och testning av modellen.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-347253
Date January 2024
CreatorsEivinsson, Tova
PublisherKTH, Medicinteknik och hälsosystem
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-CBH-GRU ; 2024:117

Page generated in 0.0025 seconds