Through the digitization of healthcare, large volumes of data are generated and stored in healthcare operations. Today, a multitude of platforms and digital infrastructures are used for storage and management of data. The systems lack a common ontology which limits the interoperability between datasets. Limited interoperability impacts various areas of healthcare, for instance sharing of data between entities and the possibilities for aggregated machine learning research incorporating distributed data. This study examines how a random forest classifier performs on two datasets consisting of phase III clinical trial studies on small-cell lung cancer where the datasets do not share a common ontology. The performance is then compared to the same classifier’s performance on one dataset consisting of a connection of the two earlier mentioned sets where a common ontology is implemented. The study does not show unambiguous results indicating that a single ontology is creating a better performance for the random forest classifier. In addition, the conditions of entities within primary care in Sweden for undergoing a transition to a new platform for storage of data is discussed together with areas for future research. / Till följd av digitaliseringen inom hälso- och sjukvården genereras stora volymer data som lagras och används i verksamheten. Idag används en mängd olika plattformar för lagring och hantering av data. Systemen saknar en gemensam ontologi, vilket begränsar interoperabiliteten mellan datamängderna. Bristande interoperabilitet påverkar olika områden inom hälso- och sjukvården, till exempel delning av data mellan vårdinstanser och möjligheterna för forskning på en aggregerad nivå där maskininlärning används. Denna studie undersöker hur en random forest klassificerare presterar på två dataset bestående av fas III kliniska prövningar av småcellig lungcancer där dataseten inte delar en gemensam ontologi. Prestandan jämförs sedan med samma klassificerares prestanda på ett dataset som består av en anslutning mellan de två tidigare nämnda dataseten där en gemensam ontologi har implementerats. Studien visar inte entydiga resultat som indikerar att en gemensam eller icke-gemensam ontologi skapar bättre prestanda för en random forest klassificerare. Vidare diskuteras förutsättningarna och krav på förändringsprocessen för en övergång till Centrum för Datadriven Hälsas föreslagna plattform utifrån en klinik inom primärvårdens perspektiv.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-335005 |
Date | January 2023 |
Creators | Karlsson, Ludvig, Wilhelm Kopp Sundin, Gustav |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2023:450 |
Page generated in 0.0023 seconds