41 |
Praleistų reikšmių įrašymo metodų efektyvumas turizmo tyrime / Efficiency of missing data imputation methods in the survey on tourismŠležaitė, Gintvilė 08 September 2009 (has links)
Šiame darbe išnagrinėjome kelis praleistų reikšmių įrašymo metodus, kuriuos taikėme išvykstamojo turizmo statistinio tyrimo 2.6. klausimo pirmiems dviem punktams: paslaugų paketo ir transporto išlaidoms. Įrašymo metodų efektyvumo analizę atlikome su pilnais duomenimis, juose fiktyviai padarydamos praleistas reikšmes ir į jas įrašydamos reikšmes keliais praleistų reikšmių įrašymo metodais. Tuomet turėdamos tikras ir įrašytas reikšmes galėjome palyginti parametrų įverčius. Kadangi praleistos reikšmės gali atsirasti atsitiktinai ir neatsitiktinai, todėl mes praleistų reikšmių įrašymo metodus taikėme trims atvejams: kai praleistos reikšmės atsiranda atsitiktinai, kai praleistos reikšmės atsiranda tada, kai neatsako respondentai turėję didžiausias ar mažiausias išlaidas kelionėje. Praleistų reikšmių įrašymui taikėme skirstiniu pagrįstą, vidurkio, atsitiktinio pakartojimo, santykiu pagrįstą ir daugiareikšmio įrašymo metodus, nesudarydamos įrašymo klasių ir sudarydamos įrašymo klases. Taigi, siūlome tokį pat praleistų reikšmių įrašymo metodų efektyvumo tyrimą atlikti ir likusiems 2.6. klausimo punktams, nusistatyti tinkamiausią įrašymo metodą ir tada jį taikyti jau tikroms praleistoms reikšmėms įrašyti. Be to, reikėtų atsižvelgti ir į dėl įrašymo atsirandančios dispersijos įvertinį, nes jos indėlis į bendrą dispersijos įvertinį yra nemažas. Atlikus praleistų reikšmių įrašymą, bus galima taikyti kompiuterinius įverčių skaičiavimo metodus ir nebus prarasta kita informacija, kurią... [toliau žr. visą tekstą] / In this work, we examined some missing data imputation methods in the survey on outbound tourism for the package tour and transport expenses. We performed an analysis of the efficiency of missing data imputation methods using full data sets with fictitious missing data applying various missing data imputation methods to fill in the missing data. Thus, we had real values and imputed values and could compare the estimated parameters. The missing data can appear randomly and non-randomly, so we applied missing data imputation methods in three cases: when missing data appear randomly and when missing data appear in case of non-response of respondents who had the highest or the lowest travel expenses. We applied distribution, average, random, ratio and multiple imputation methods for missing data imputation without using imputation classes and using imputation classes. We propose to perform the same efficiency survey of missing data imputation methods for the remaining items of expenses in the outbound tourism questionnaire in order to find out a convenient missing data imputation method and apply it for the real missing data (the current analysis was performed applying fictitious missing data). After the missing data imputation, we can apply the procedures of parameter estimation and we will not lose other information as it would be the case with the elimination of questionnaires having missing data.
|
42 |
Contributions to imputation for missing survey data /Haziza, David, January 1900 (has links)
Thesis (Ph.D.) - Carleton University, 2005. / Includes bibliographical references (p. 252-258). Also available in electronic format on the Internet.
|
43 |
Estimating market values for non-publicly-traded U.S. life insurersZhao, Liyan, January 1900 (has links) (PDF)
Thesis (Ph. D.)--University of Texas at Austin, 2005. / Vita. Includes bibliographical references.
|
44 |
Multilevel multiple imputation: An examination of competing methodsJanuary 2015 (has links)
abstract: Missing data are common in psychology research and can lead to bias and reduced power if not properly handled. Multiple imputation is a state-of-the-art missing data method recommended by methodologists. Multiple imputation methods can generally be divided into two broad categories: joint model (JM) imputation and fully conditional specification (FCS) imputation. JM draws missing values simultaneously for all incomplete variables using a multivariate distribution (e.g., multivariate normal). FCS, on the other hand, imputes variables one at a time, drawing missing values from a series of univariate distributions. In the single-level context, these two approaches have been shown to be equivalent with multivariate normal data. However, less is known about the similarities and differences of these two approaches with multilevel data, and the methodological literature provides no insight into the situations under which the approaches would produce identical results. This document examined five multilevel multiple imputation approaches (three JM methods and two FCS methods) that have been proposed in the literature. An analytic section shows that only two of the methods (one JM method and one FCS method) used imputation models equivalent to a two-level joint population model that contained random intercepts and different associations across levels. The other three methods employed imputation models that differed from the population model primarily in their ability to preserve distinct level-1 and level-2 covariances. I verified the analytic work with computer simulations, and the simulation results also showed that imputation models that failed to preserve level-specific covariances produced biased estimates. The studies also highlighted conditions that exacerbated the amount of bias produced (e.g., bias was greater for conditions with small cluster sizes). The analytic work and simulations lead to a number of practical recommendations for researchers. / Dissertation/Thesis / Doctoral Dissertation Psychology 2015
|
45 |
Checking the adequacy of regression models with complex data structureGuo, Xu 29 July 2014 (has links)
In this thesis, we investigate the model checking problem for parametric regression model with missing response at random and nonignorable missing response. Besides, we also propose a hypothesis-adaptive procedure which is based on the dimension reduction theory. Finally, to extend our methods to missing response situation, we consider the dimension reduction problem with missing response at random. The .rst part of the thesis introduces the model checking for parametric models with response missing at random which is a more general missing mechanism than missing completely at random. Di.erent from existing approaches, two tests have normal distributions as the limiting null distributions no matter whether the inverse probability weight is estimated parametrically or nonparametrically. Thus, p-values can be easily determined. This observation shows that slow convergence rate of nonparametric estimation does not have signi.cant e.ect on the asymptotic behaviours of the tests although it may have impact in .nite sample scenarios. The tests can detect the alternatives distinct from the null hypothesis at a nonparametric rate which is an optimal rate for locally smoothing-based methods in this area. Simulation study is carried out to examine the performance of the tests. The tests are also applied to analyze a data set on monozygotic twins for illustration. In the second part of the thesis, we consider model checking for general linear regression model with non-ignorable missing response. Based on an exponential tilting model, we .rst propose three estimators for the unknown parameter in the general linear regression model. Three empirical process-based tests are constructed. We discuss the asymptotic properties of the proposed tests under null and local alternative hypothesis with di.erent scenarios. We .nd that these three tests perform the same in the asymptotic sense. Simulation studies are also carried out to assess the performance of our proposed test procedures. In the third part, we revisit traditional local smoothing model checking procedures. Noticing that the general nonparametric regression model can be considered as a special multi-index model, we propose an adaptive testing procedure based on the dimension reduction theory. To our surprise, our method can detect local alternative at faster rate than the traditional optimal rate. The theory indicates that in model checking problem, dimensionality may not have strong impact. Simulations are carried out to examine the performance of our methodology. A real data analysis is conducted for illustration. In the last part, we study the dimension reduction problem with missing response at random. Based on the work in this part, we can extend the adaptive testing procedure introduced in the third part to the missing response situation. When there are many predictors, how to e.ciently impute responses missing at random is an important problem to deal with for regression analysis because this missing mechanism, unlike missing completely at random, is highly related to high-dimensional predictor vector. In su.cient dimension reduction framework, the fusion-re.nement (FR) method in the literature is a promising approach. To make estimation more accurate and e.cient, two methods are suggested in this paper. Among them, one method uses the observed data to help on missing data generation, and the other one is an ad hoc approach that mainly reduces the dimension in the nonparametric smoothing in data generation. A data-adaptive synthesization of these two methods is also developed. Simulations are conducted to examine their performance and a HIV clinical trial dataset is analysed for illustration. Keywords: Model checking; Inverse probability weight; Non-ignorable missing response; Adaptive; Central subspace; Dimension reduction; Data-adaptive Synthesization; Missing recovery; Missing response at random; Multiple imputation.
|
46 |
Schätzung von HLA-Subtypen aus SNP-Array-Daten und Assoziation mit ambulant erworbener PneumonieSchuch, Alexander Michael Manfred 07 January 2020 (has links)
In der vorliegenden Arbeit wurden die Daten aus zwei Studien im Hinblick auf eine genetische Komponente der erfassten Pneumonie hin untersucht. Diese Untersuchung umfasst mehr als 1.500 Probanden aus der PROGRESS-Studie von CAPNETZ (3, 6) von denen 937 in der Arbeit analysiert werden konnten und 4.985 Probanden aus der LIFE-Adult-Studie (34). Da hier lediglich SNP-Daten vorlagen, war für die weitere Arbeit eine Schätzung der Daten zu den entsprechenden HLA-Allelen notwendig. Für diesen Schritt wurde die Axiom HLA-Analysis von Affymetrix (1, 2) sowie das SNP2HLA Tool des broadinstitute (7, 26) verwendet.
Zur Validierung der verwendeten Imputationstools und der betrachteten Datengrundlage wurden enzymatisch bestimmte Daten von 70 Probanden aus der LIFE-Child Kohorte verwendet (46). Die Ergebnisse der HapMap-Referenz des SNP2HLA-Tools zeigten sich in diesem Vergleich den Ergebnissen der T1DGC-Referenz und den Ergebnissen von Axiom HLA-Analysis von Affymetrix unterlegen (Siehe 7.1 Validierung der HLA-Bestimmung mittels SNPArray).
Der Einfluss der gemessenen SNP-Dichte wurde durch die Analyse der PROGRESS Studie durchgeführt. Hierbei wurde der im HLA-Bereich angereicherte CAP2-Array mit einem SNP-Datensatz verglichen, der lediglich die Schnittmenge zwischen dem CAP2 und dem CEU-Array enthielt. Daher erscheint die Anreicherung des CAP2-Arrays im HLA-Bereich förderlich für die Qualität der HLASchätzung (Siehe 7.3 Einfluss der SNP-Dichte des Datensatzes auf die Qualität der HLA-Schätzung).
Im Hinblick auf den Einfluss einer zusätzlichen SNP-Imputation wurden die Daten aus der PROGRESS-Studie geschätzt durch die T1DGC-Referenz für die SNP-Imputation 1000Genomes Phase1 und Phase3 auf Basis des CEU-Arrays verwendet, wobei sich keine deutlichen Veränderungen der bestimmten HLA-Genotypen ergaben (Siehe 7.4 Einfluss einer vorangestellten SNP-Imputation auf die Schätzqualität). Über die zusätzliche vorgeschaltete SNP-Imputation konnte die Zahl der in die Analyse eingehenden SNP deutlich gesteigert werden (Siehe 6.6.3 SNP- Imputation).
Im Hinblick auf den Infoscore-Äquivalenzwert zeigte sich bei den Schätzungen auf Basis von Affymetrix Axiom HLA-Analysis keine deutliche Veränderung auf Basis unterschiedlicher Datengrundlagen. Bei der T1DGC war bei der Betrachtung des Infoscores über alle Loci ein Abfall zu beobachten, der ebenfalls, wie oben beschrieben, nivelliert werden konnte (Siehe 7.4 Einfluss einer vorangestellten SNPImputation auf die Schätzqualität). Im Hinblick auf die Anzahl an HLA-Allelen mit einem Infoscore ungleich 0, zeigte sich bei der SNP-Imputation 1000Genomes Phase3 auf Basis des CAP2-Arrays eine größere Vielfalt der bestimmten Allele, als bei CAP2. In der Darstellung durch ein Box-Plot erscheinen die Abweichungen vom CAP2-Array bei der Axiom HLA-Analysis zufällig. Auf Basis dessen wurde für die finalen Analysen die SNP-Imputation 1000Genomes Phase3 auf Basis des CEU-Array ausgewählt (Siehe 7.4 Einfluss einer vorangestellten SNPImputation auf die Schätzqualität). Im Vergleich zeigte sich bei Affymetrix Axiom HLA-Analysis eine höhere Konsistenz zwischen den betrachteten Schätzungen (1000Genomes Phase 1 zu 1000Genomes Phase 3), als bei der T1DGC-Referenz. Zwischen den beiden Tools liegt eine hohe Übereinstimmung von 96,65 % (1000Genomes Phase1) und 96,69 % (1000Genomes Phase3) vor. In den Bland-Altman-Diagrammen zeigte sich eine tendenziell höhere Sicherheit des Affymetrix-Tools bei Loci mit einem mittleren Infoscore-Äquivalenzwert von 0,7 und kleiner auf. Bei dem Vergleich wurden die Loci DRB3, DRB4 und DRB5 nicht berücksichtigt (Siehe 7.6 Vergleich Affymetrix Axiom HLA-Analysis und SNP2HLA bezüglich der Schätzungsqualität).
Nach Korrektur gemäß Bonferroni ist hier bei DQB1*501 mit einem p von 0,004 (nach Korrektur: 0,036) ein signifikantes Ergebnis zu beobachten. Die Analyse auf den schweren Verlauf, der in Tod, intensivmedizinischer Überwachung oder in einer indizierten Beatmung des Patienten besteht, zeigte ebenso einen p<0,05 (0,009 nach Korrektur gemäß Bonferroni) bei DQB1*501, der hier mit einem Regressionskoeffizienten von 0,98 ein Risikofaktor zu sein scheint (Siehe 7.8 Assoziation des HLA-Locus mit der Verlaufsschwere von Pneumonieerkrankungen). In der statistischen Auswertung der LIFE-Daten unter Betrachtung der Fragestellung, ob in der Krankengeschichte des Patienten jemals eine Pneumonie vorgekommen ist, konnten keine statistisch signifikanten Ergebnisse nachgewiesen werden. In der Analyse der Fragestellung nach einer hospitalisierten Pneumonie konnte trotz eines Effektes im Chi²-Test kein einzelnes Allel als Risikofaktor identifiziert werden (Siehe 7.9 Der Einfluss des HLA-Locus auf die Suszeptibilität für Pneumonieerkrankungen). Dementsprechend lassen sich auf Basis dieser Arbeit Hinweise auf eine genetische Komponente in der Entstehung und dem Verlauf der CAP ableiten, die in weiteren Studien näher untersucht und statistisch verifiziert werden sollten.:1 Abkürzungsverzeichnis
2 Tabellenverzeichnis
3 Abkürzungsverzeichnis
4 Zielsetzung der Arbeit
4.1 Vergleichbarkeit von HLA-Genotypisierung mit HLA-Schätzung
4.2 Vergleich der geschätzten HLA-Frequenzen mit Referenzdaten
4.3 Einfluss der SNP-Dichte auf die Güte der HLA-Schätzung durch Vergleich verschiedener Arrays
4.4 Einfluss der SNP-Dichte auf die Güte der HLA-Schätzung unter vorgeschalteter SNP Imputation
4.5 Vergleich der betrachteten Loci hinsichtlich Güte der HLA-Schätzung
4.6 Vergleich existierender Tools hinsichtlich Güte der HLA-Schätzung
4.7 HLA-Assoziationen mit dem Schwereverlauf von Pneumonieerkrankungen
4.8 HLA-Assoziationen mit der Suszeptibilität für Pneumonieerkrankungen
5 Biologische Einführung
5.1 HLA Einführung
5.2 HLA-Klasse-I-Antigene
5.3 HLA Klasse-II-Antigene
5.4 HLA-Polymorphismus und Kopplungsungleichgewicht
5.5 Festlegung der HLA-Region
5.6 HLA-Typisierung
5.7 HLA-assoziierte Erkrankungen
5.8 Pneumonie – CAP
6 Material und Methoden
6.1 LIFE-Child – Studienbeschreibung
6.2 LIFE-Adult – Studienbeschreibung
6.3 PROGRESS – Studienbeschreibung
6.4 Tools zur Schätzung von HLA-Genotypen aus SNP-Daten
6.5 Analysedatensätze PROGRESS SNP2HLA
6.6 Analysedatensätze PROGRESS Affymetrix
6.7 Analysedatensätze LIFE-Child
6.8 Analysedatensätze LIFE-Adult
6.9 Übersicht aller Analysedatensätze
6.10 Vergleich der Allelfrequenzen mit einer Bevölkerungsreferenz
6.11 Hardy-Weinberg-Equilibrium für HLA-Allele
6.12 Statistische Auswertung
7 Ergebnisse
7.1 Validierung der HLA-Bestimmung mittels SNP-Array
7.2 Vergleich der Häufigkeit der geschätzten HLA-Allele mit der Häufigkeit in der
Bevölkerungsreferenz
7.3 Einfluss der SNP-Dichte des Datensatzes auf die Qualität der HLA-Schätzung
7.4 Einfluss einer vorangestellten SNP-Imputation auf die Schätzqualität
7.5 Vergleich der betrachteten HLA-Loci bezüglich der Schätzqualität
7.6 Vergleich Affymetrix Axiom HLA-Analysis und SNP2HLA bezüglich der Schätzungsqualität
7.7 Assoziation von HLA-Genotypen mit Suszeptibilität und Verlauf der Pneumonie
7.8 Assoziation des HLA-Locus mit der Verlaufsschwere von Pneumonieerkrankungen
7.9 Der Einfluss des HLA-Locus auf die Suszeptibilität für Pneumonieerkrankungen
8 Diskussion
8.1 Validierung der HLA-Schätzung mittels SNP-Array
8.2 Vergleich der Häufigkeit der geschätzten HLA-Allele mit der Häufigkeit in der
Bevölkerungsreferenz
8.3 Einfluss der gemessenen SNP-Dichte auf die Schätzungsqualität
8.4 Einfluss einer zusätzlichen SNP-Imputation auf die Schätzungsqualität
8.5 Vergleich der betrachteten Loci bezüglich der Schätzungsqualität
8.6 Vergleich Affymetrix Axiom HLA-Analysis und SNP2HLA bezüglich der Schätzungsqualität
8.7 Assoziation des HLA-Locus mit der Verlaufsschwere von Pneumonieerkrankungen
8.8 Der Einfluss des HLA-Locus auf die Suszeptibilität für Pneumonieerkrankungen
9 Zusammenfassung
10 Thesen
11 Literaturverzeichnis
12 Anhang
13 Erklärung über die eigenständige Abfassung der Arbeit
14 Tabellarischer Lebenslauf
15 Danksagung
|
47 |
Investigation of Multiple Imputation Methods for Categorical VariablesMiranda, Samantha 01 May 2020 (has links)
We compare different multiple imputation methods for categorical variables using the MICE package in R. We take a complete data set and remove different levels of missingness and evaluate the imputation methods for each level of missingness. Logistic regression imputation and linear discriminant analysis (LDA) are used for binary variables. Multinomial logit imputation and LDA are used for nominal variables while ordered logit imputation and LDA are used for ordinal variables. After imputation, the regression coefficients, percent deviation index (PDI) values, and relative frequency tables were found for each imputed data set for each level of missingness and compared to the complete corresponding data set. It was found that logistic regression outperformed LDA for binary variables, and LDA outperformed both multinomial logit imputation and ordered logit imputation for nominal and ordered variables. Simulations were ran to confirm the validity of the results.
|
48 |
Multiple Imputation for Handling Missing Data of Covariates in Meta-RegressionDiaz Yanez, Karina Gabriela January 2021 (has links)
The term meta-analysis refers to the quantitative process of statistically combining results of studies in order to draw overall trends found in a research literature. This technique has become the preferred form of systematic review in fields such as social science and education. As the method has become more standard, the number of large meta-analyses has expanded in these fields as well. Accordingly, the purpose of meta-analysis has expanded to explaining the variation of effect sizes across studies using meta-regression. Unfortunately, missing data is a common problem in meta-analysis. Particularly in meta-regression, missing data problems are frequently related to missing covariates.
When not handled properly, missing covariates in meta-regression can impact the precision of statistical inferences and thus the precision of systematic reviews. Ad hoc methods such as complete-case analysis and shifting units of analysis are the most common approaches to address missing data in meta-analysis. These techniques, to some extent, ignore missing values which in turn can lead to biased estimates. The use of model-based methods for missing data are more justifiable than ad hoc approaches. However, its application in meta-analysis is very limited. Multiple imputation is one of these approaches. Its precision relies mainly on how missing values are imputed. Standard multiple imputation approaches do not consider imputations that are compatible with meta-regression and thus can still yield biased estimates.
This dissertation addresses these issues by firstly assessing the performance of standard multiple imputation methods in the meta-regression context through a simulation study. To later develop compatible multiple imputations that accommodate features of meta-regression assuming dependent effect sizes.
Results show that even though multiple imputation methods can accurately estimate missing data in meta-regression, its accuracy decreases with larger missingness rates and when missingness is strongly related to effect sizes. This study also revealed that, in general, the developed compatible multiple imputation method outperforms standard multiple imputations. These findings also hold for cases in which missingness in a covariate is highly related to the effect size estimates. Finally, an algorithm that allows practitioners to apply compatible imputations in meta-regression was implemented using the R software language.
|
49 |
A Study on How Data Quality Influences Machine Learning Predictability and Interpretability for Tabular DataAhsan, Humra 05 May 2022 (has links)
No description available.
|
50 |
Bayesian Semiparametric Joint Modeling of Longitudinal Predictors and Discrete Outcomeslim, woobeen 29 September 2021 (has links)
No description available.
|
Page generated in 0.0711 seconds