Primary health care is facing extensive changes due to digitalization, while the field of application for machine learning is expanding. The merging of these two fields could result in a range of outcomes, one of them being an improved and more rigorous adoption of clinical decision support systems. Clinical decision support systems have been around for a long time but are still not fully adopted in primary health care due to insufficient performance and interpretation. Clinical decision support systems have a range of supportive functions to assist the clinician during decision making, where one of the most researched topics is diagnostic support. This thesis investigates how the use of self-described anamnesis in the form of free text and multiple-choice questions performs in prediction of diagnostic outcome. The chosen approach is to compare text to different subsets of multiple-choice questions for diagnostic prediction on a range of classification methods. The results indicate that text data holds a substantial amount of information, and that the multiple-choice questions used in this study are of varying quality, yet suboptimal compared to text data. The over-all tendency is that Support Vector Machines perform well on text classification and that Random Forests and Naive Bayes have equal performance to Support Vector Machines on multiple-choice questions. / Primärvården förväntas genomgå en utbredd digitalisering under de kommande åren, samtidigt som maskininlärning får utökade tillämpningsområden. Sammanslagningen av dessa två fält möjliggör en mängd förbättrade tekniker, varav en vore ett förbättrat och mer rigoröst anammande av kliniska beslutsstödsystem. Det har länge funnits varianter av kliniska beslutsstödsystem, men de har ännu inte lyckats blivit fullständigt inkorporerade i primärvården, framför allt på̊ grund av bristfällig prestanda och förmåga till tolkning. Kliniskt beslutstöd erbjuder en mängd funktioner för läkare vid beslutsfattning, där ett av de mest uppmärksammade fälten inom forskningen är support vid diagnosticering. Denna uppsats ämnar att undersöka hur självbeskriven anamnes i form av fritext och flervalsfrågor presterar för förutsägning av diagnos. Det valda tillvägagångssättet har varit att jämföra text med olika delmängder av flervalsfrågor med hjälp av en mängd metoder för klassificering. Resultaten indikerar att textdatan innehåller en avsevärt större mängd information än flervalsfrågorna, samt att flervalsfrågorna som har använts i denna studie är av varierande kvalité, men generellt sett suboptimala vad gäller prestanda i jämförelse med textdatan. Den generella tendensen är att Support Vector Machines presterar bra för klassificering med text data medan Random Forests och Naive Bayes är likvärdiga alternativ till Support Vector Machines för predicering vid användning av flervalsfrågor.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-231827 |
Date | January 2018 |
Creators | Kindblom, Marie |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2018:523 |
Page generated in 0.0025 seconds