Return to search

Causal discovery in the presence of missing data

Missing data are ubiquitous in many domains such as healthcare. Depending on how they are missing, the (conditional) independence relations in the observed data may be different from those for the complete data generated by the underlying causal process (which are not fully observable) and, as a consequence, simply applying existing causal discovery methods to the observed data may give wrong conclusions. It is then essential to extend existing causal discovery approaches to find true underlying causal structure from such incomplete data. In this thesis, we aim at solving this problem for data that are missing completely at random (MCAR), missing at random (MAR), or missing not at random (MNAR). With missingness mechanisms represented by the Missingness Graph, we present conditions under which addition corrected to derive conditional independence/dependence relations in the complete data. Combined with the correction method that gives closed-form, consistent tests of conditional independence, the proposed causal discovery method, as an extension of the PC algorithm, is shown to give asymptotically correct results. Experiment results illustrate that with further reasonable assumptions, the proposed algorithm can correct the conditional independence for values MCAR, MAR and rather general cases of values MNAR. / Saknade data är allestädes närvarande på många områden, t.ex. sjukvård. Beroende på hur de saknas kan de (villkorliga) oberoende förhållandena i de observerade uppgifterna skilja sig från de för de fullständiga data som genereras av den underliggande orsaksprocessen (som inte är fullt observerbara) och som en följd av att helt enkelt tillämpa befintlig kausal upptäckt metoder för de observerade data kan ge felaktiga slutsatser. Det är då viktigt att förlänga befintliga metoder för kausala upptäckter för att hitta en sann underliggande kausalstruktur från sådana ofullständiga data. I denna avhandling strävar vi efter att lösa detta problem för data som saknas helt slumpmässigt (MCAR), saknas slumpmässigt (MAR) eller saknas inte slumpmässigt (MNAR). Med missmekanismer representerade av Missfallsgrafen presenterar vi förhållanden under vilka tillägg korrigerade för att härleda villkorliga oberoende/beroendeförhållanden i de fullständiga uppgifterna.Kombinerad med korrigeringsmetoden som ger sluten form, konsekventa test av villkorligt oberoende, visas att den föreslagnaorsaks-sökningsmetoden, som en förlängning av PC-algoritmen, ger asymptotiskt korrekta resultat. Experimentresultat illustrera att med ytterligare rimliga antaganden kan den föreslagna algoritmen korrigera det villkorliga oberoende för värdena MCAR, MAR och ganska generella fall av värden MNAR.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-233336
Date January 2018
CreatorsTu, Ruibo
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2018:498

Page generated in 0.0019 seconds