Partiellt bortfall är en vanligt förekommande felkälla vid statistiska undersökningar. Med partiellt bortfall avses avsaknad av vissa variabelvärden för ett observationsobjekt, något som riskerar leda till förlust av statistisk styrka och skeva parameterskattningar. Ett stort antal metoder har utvecklats för att hantera denna problematik, och syftet med denna uppsats är att undersöka vilken effekt några av dessa metoder har på parameterskattningarna i en logistisk regressionsmodell, och huruvida dessa metoder är lämpliga att tillämpa på aktuellt datamaterial. De metoder som inkluderats i denna studie är complete case analysis, MICE och missForest. För ändamålet simuleras partiellt bortfall av olika omfattningar och under olika bortfallsmekanismer i ett verkligt datamaterial som består av 2987 observationer och fem variabler. Metoderna utvärderas sedan med avseende på normalized root mean squared error (NRMSE), samt genom att undersöka hur de regressionskoefficienter som skattats med de imputerade datamaterialen avviker från de regressionskoefficienter som skattats med det kompletta, observerade datamaterialet. missForest resulterar i lägst NRMSE. I den efterföljande logistiska regressionsanalysen resulterar dock MICE i betydligt lägre bias än missForest. / Missing data is a common problem in research and can lead to loss of statistical power and bias in parameter estimates. Numerous methods have been developed for dealing with missing data, and the aim of this thesis is to evaluate how a number of these methods affect the parameter estimates in a logistic regression model, and whether these methods are suitable for the data in question. The methods included in this study are complete case analysis, MICE and missForest. For the purpose of evaluating the methods, missing values in varying proportions and under different missing mechanisms are generated in a real dataset consisting of 2987 observations and five variables. The performance of the methods is assessed by normalized root mean squared error (NRMSE), and by comparing the regression coefficients estimated using the original, true data set with the regression coefficients estimated using imputed data sets. missForest results in the lowest NRMSE. In the subsequent logistic regression analysis, however, MICE results in considerably lower bias than missForest.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:liu-177727 |
Date | January 2021 |
Creators | Alsén, Simon, Åkesson, Andreas |
Publisher | Linköpings universitet, Statistik och maskininlärning |
Source Sets | DiVA Archive at Upsalla University |
Language | Swedish |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0021 seconds