Return to search

Study and validation of data structures with missing values. Application to survival analysis

En aquest treball tractem tres metodologies diferents -no paramètrica, paramètrica i semiparamètrica- per tal de considerar els patrons de dades amb valors no observats en un context d'anàlisi de la supervivència. Les dues primeres metodologies han estat desenvolupades sota les hipòtesis de MCAR (Missing Completely at Random) o MAR (Missing at Random). Primer, hem utilitzat el mètode de remostreig de bootstrap i un esquema d'imputació basat en un model bilineal en la matriu de dades per tal d'inferir sobre la distribució dels paràmetres d'interès. Per una altra banda, hem analitzat els inconvenients a l'hora d'obtenir inferències correctes quan es tracta el problema de forma totalment paramètrica, a la vegada que hem proposat algunes estratègies per tenir en compte la informació complementària que poden proporcionar altres covariants completament observades.De tota manera, en general no es pot suposar la ignorabilitat del mecanisme de no resposta. Aleshores, ens proposem desenvolupar un mètode semiparamètric per a l'anàlisi de la supervivència quan tenim un patró de no resposta no ignorable. Primer, proposem l'estimador de Kaplan-Meier Agrupat (GKM) com una alternativa a l'estimador KM estàndard per tal d'estimar la supervivència en un nombre finit de temps fixats. De tota manera, quan les covariants són parcialment observades ni l'estimador GKM estratificat ni l'estimador KM estratificat poden ser calculats directament a partir de la mostra. Aleshores, proposem una classe d'equacions d'estimació per tal d'obtenir estimadors semiparamètrics de les probabilitats i substituïm aquestes estimacions en l'estimador GKM estratificat. Ens referim a aquest nou estimador com l'estimador Kaplan-Meier Agrupat-Estimat (EGKM). Demostrem que els estimadors GKM i EGKM són arrel quadrada consistents i que asimptòticament segueixen una distribució normal multivariant, a la vegada que obtenim estimadors consistents per a la matriu de variància-covariància límit. L'avantatge de l'estimador EGKM és que proporciona estimacions no esbiaixades de la supervivència i permet utilitzar un model de selecció flexible per a les probabilitats de no resposta. Il·lustrem el mètode amb una aplicació a una cohort de pacients amb Tuberculosi i infectats pel VIH. Al final de l'aplicació, duem a terme una anàlisi de sensibilitat que inclou tots els tipus de patrons de no resposta, des de MCAR fins a no ignorable, i que permet que l'analista pugui obtenir conclusions després d'analitzar tots els escenaris plausibles i d'avaluar l'impacte que tenen les suposicions en el mecanisme no ignorable de no resposta sobre les inferències resultants.Acabem l'enfoc semiparamètric explorant el comportament de l'estimador EGKM per a mostres finites. Per fer-ho, duem a terme un estudi de simulació. Les simulacions, sota escenaris que tenen en compte diferents nivells de censura, de patrons de no resposta i de grandàries mostrals, il·lustren les bones propietats que té l'estimador que proposem. Per exemple, les probabilitats de cobertura tendeixen a les nominals quan el patró de no resposta fet servir en l'anàlisi és proper al vertader patró de no resposta que ha generat les dades. En particular, l'estimador és eficient en el cas menys informatiu dels considerats: aproximadament un 80% de censura i un 50% de dades no observades. / In this work we have approached three different methodologies --nonparametric, parametric and semiparametric-- to deal with data patterns with missing values in a survival analysis context. The first two approaches have been developed under the assumption that the investigator has enough information and can assume that the non-response mechanism is MCAR or MAR. In this situation, we have adapted a bootstrap and bilinear multiple imputation scheme to draw the distribution of the parameters of interest. On the other hand, we have analyzed the drawbacks encountered to get correct inferences, as well as, we have proposed some strategies to take into account the information provided by other fully observed covariates.However, in many situations it is impossible to assume the ignorability of the non-response probabilities. Then, we focus our interest in developing a method for survival analysis when we have a non-ignorable non-response pattern, using a semiparametric perspective. First, for right censored samples with completely observed covariates, we propose the Grouped Kaplan-Meier estimator (GKM) as an alternative to the standard KM estimator when we are interested in the survival at a finite number of fixed times of interest. However, when the covariates are partially observed, neither the stratified GKM estimator, nor the stratified KM estimator can be directly computed from the sample. Henceforth, we propose a class of estimating equations to obtain semiparametric estimates for these probabilities and then we substitute these estimates in the stratified GKM estimator. We refer to this new estimation procedure as Estimated Grouped Kaplan-Meier estimator (EGKM). We prove that the GKM and EGKM estimators are squared root consistent and asymptotically normal distributed, and a consistent estimator for their limiting variances is derived. The advantage of the EGKM estimator is that provides asymptotically unbiased estimates for the survival under a flexible selection model for the non-response probability pattern. We illustrate the method with a cohort of HIV-infected with Tuberculosis patients. At the end of the application, a sensitivity analysis that includes all types of non-response pattern, from MCAR to non-ignorable, allows the investigator to draw conclusions after analyzing all the plausible scenarios and evaluating the impact on the resulting inferences of the non-ignorable assumptions in the non-response mechanism.We close the semiparametric approach by exploring the behaviour of the EGKM estimator for finite samples. In order to do that, a simulation study is carried out. Simulations performed under scenarios taking into account different levels of censoring, non-response probability patterns and sample sizes show the good properties of the proposed estimator. For instance, the empirical coverage probabilities tend to the nominal ones when the non-response pattern used in the analysis is close to the true non-response pattern that generated the data. In particular, it is specially efficient in the less informative scenarios (e,g, around a 80% of censoring and a 50% of missing data).

Identiferoai:union.ndltd.org:TDX_UPC/oai:www.tdx.cat:10803/6500
Date21 May 2001
CreatorsSerrat i Piè, Carles
ContributorsGómez Melis, Guadalupe, Universitat Politècnica de Catalunya. Departament d'Estadística i Investigació Operativa
PublisherUniversitat Politècnica de Catalunya
Source SetsUniversitat Politècnica de Catalunya
LanguageEnglish
Detected LanguageEnglish
Typeinfo:eu-repo/semantics/doctoralThesis, info:eu-repo/semantics/publishedVersion
Formatapplication/pdf
SourceTDX (Tesis Doctorals en Xarxa)
Rightsinfo:eu-repo/semantics/openAccess, ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

Page generated in 0.0029 seconds