Global ETD Search

11	The maximum entropy principle as a basis for statistical models in epidemiology / LeBlanc, Raymond. January 1990 (has links) We propose an approach for the construction of statistical models based on the maximum entropy principle in conjunction with a constructive method relying on a precise description of the individual contribution of each possible unit of observation of the population. This procedure is applied to the analysis of 2 x 2 tables, ubiquitous in biostatistics. This approach provides a new perspective and understanding of the fundamental nature of logistic regression, of Cox's proportional hazard model and of the noncentral hypergeometric model. Application of this method to analyse the odds ratio produces new distributions for this random variable and gives new means of estimating the odds ratio by confidence intervals. We present basic properties of these distributions and compare results with other methods. / Finally, this constructive approach that proceeds from the lower level of the individual contribution of the experimental units to the global level of the population is applied to sample size determination for comparative studies when, in the compared groups, there is attrition due to noncompliance to the specific regimen. This attrition reduces the apparent treatment effect in the analysis. This presentation constitutes a foundation for a more general and elegant solution to the problem. Biology, Biostatistics.
12	Comparison of prior distributions for bayesian inference for small proportions Liu, Guoyuan January 2011 (has links) Often, Bayesian analyses for epidemiological applications use objective prior distributions. These prior distributions are chosen with the goal of allowing the posterior distribution to be determined by the observed data alone. While this is achieved in most situations, it is not the case for Bayesian estimation of a small proportion. Such a situation might arise, for example, when estimating the prevalence of a rare disease. Several candidate objective prior distributions have been proposed for a Binomial proportion, including the Uniform distribution and Jeffrey's distribution. Each of these prior distributions may lead to very different posterior inferences when the number of events in the Binomial experiment is small, but it is unclear which of these would lead to better estimates on average. We explore this question by examining the frequentist performance of the posterior credible interval in two problems: i) estimating a single proportion, ii) estimating the difference between two proportions. The credible intervals obtained when using standard objective prior distributions as well as informative prior distributions motivated by real-life examples are compared. To assess frequentist performance, numerous statistics, including average coverage and average length of the posterior credible intervals were considered. / Souvent des analyses bayésiennes de données épidémiologiques utilisent les distributions à priori objectives. Ces distributions à priori sont sélectionnées de sorte que les distributions à posteriori soient déterminées uniquement par les données observées. Bien que cette méthode soit efficace dans plusieurs situations, elle ne l'est pas dans le cas de l'estimation bayésienne de petites proportions. Cette situation peut survenir, par exemple lors de l'estimation de la prévalence d'une maladie rare. Plusieurs distributions à priori objectives ont été proposées pour l'estimation d'une proportion, telle que, par exemple la distribution uniforme de Jeffrey. Chacune de ces distributions à priori peut conduire à de différentes distributions à posteriori lorsque le nombre d'événements dans l'expérience binomiale est petit. Mais il n'est pas clair laquelle de ces distributions, en moyenne, donne de meilleurs estimés. Nous explorons cette question en examinant la performance fréquentiste des intervalles crédibles à posteriori obtenus, respectivement, avec chacune de ces distributions à priori. Pour évaluer cette performance, nous considèrons des statistiques comme la couverture moyenne et la longueur moyenne des intervalles crédibles à posteriori. Nous considérons aussi des distributions à priori plus informatives comme les distributions uniformes définies sur un sous-intervalle de l'intervalle [0, 1]. La performance des distributions à priori est évaluée en utilisant des données simulées de situations où l'intérêt de recherche est concentré sur l'estimation d'une seule proportion ou sur la différence entre deux proportions. Biology - Biostatistics
13	Hierarchical changepoint modeling of post-radiotherapy prostate-specific antigen (PSA) series in men with prostate cancer Bellera, Carine A. January 2005 (has links) Prostate-specific antigens (PSA) help monitor the post-therapy course of prostate cancer. If radiotherapy is successful, levels reach a nadir, and remain low or possibly rise very slowly. A sustained steep increase indicates biochemical failure. / Serial PSA measurements are rarely perfectly monotonic. The American Society for Therapeutic Radiology and Oncology (ASTRO) consensus panel defines biochemical failure as three consecutive PSA increases. I examined the sensitivity and specificity of the ASTRO criterion using simulations of realistic, sophisticated data sets, that accurately reflect the systematic and random variations observed in PSA series. / In a preliminary analysis, I estimated the underlying PSA trajectories in a cohort of 470 men treated with radiotherapy for localized prostate cancer. I exploited the flexibility of Bayesian hierarchical regression models to describe the individual PSA series, each with its own changepoint, and non-constant variance. / The estimates provided by the hierarchical model allowed me to simulate a large set of true PSA series. From these, I generated observed PSA series: each underlying PSA value was distorted by adding a realistic amount of 'noise'. To evaluate the performance of rules for biochemical failure, including the ASTRO criterion, I then compared the generated observed PSA series to the underlying true PSA series. My results suggest that another rule might outperform ASTRO. This simulation-based approach can be applied to evaluate other rules that purport to rapidly and accurately detect up (down) turns in noisy series, such as in other medical data, and in data series used to monitor economic trends. / Finally, I present a practical charting paper for physicians to record post-treatment PSA values of individual patients. The plotted serial values provide rapid and accurate estimates of the PSA doubling time, without any difficult computations. Biology, Biostatistics.
14	Separable variance-covariance structure: estimation, testing and environmental application Manceur, Marc Ameur January 2012 (has links) Multi-dimensional, univariate or multivariate datasets arise when one or several random variables are observed on a spatio-temporal domain. A parsimonious model is often used to facilitate the estimation of variance-covariance parameters. This is the case in particular with the matrix and tensor normal distribution models, which imply a simply and doubly separable variance-covariance structure, respectively. A separable variance-covariance matrix is the Kronecker product of two, three, or more component variance-covariance matrices, each representing variability and dependencies in one dimension (e.g. 1-D space and time; multivariate, 1-D space, and time; 3-D space and time). In this thesis, the focus is on parameter estimation by maximum likelihood (ML), the likelihood ratio test (LRT) of separability, and the application to an original dataset. First, the empirical bias of the ML estimator of a simply separable variance-covariance matrix is shown to follow a non-monotonic 'peak-trough' pattern with increasing sample size, a result apparently not conform to theory. This atypical pattern is explained by decomposing the ergodic (empirical) bias into an estimation bias and a fluctuation bias minus a non-orthogonality factor. Then, an unbiased modified LRT for simple separability of a variance-covariance structure, without or with modeling of the mean, is proposed. A penalty factor improves the chi-square distribution of the LRT statistic in finite samples, which represents a simpler and more general procedure to obtain a valid LRT of separability than existing methods. Thereafter, the tensor normal distribution model is presented in detail, with a decomposition of the bias of the ML estimator of a doubly separable variance-covariance matrix and an unbiased modified LRT for double separability. Finally, an original multi-dimensional dataset of wood density in trunk sections of white spruce (Picea glauca (Moench) Voss), as measured from computed tomography scanning data, is used to test and accept the hypothesis of double separability on the variance-covariance structure and to assess direction, height and year effects on mean wood density using modified analysis-of-variance F-tests based on Box's 'epsilon'. / Les jeux de données multidimensionnels, univariés ou multivariés, se présentent lorsqu'une ou plusieurs variables aléatoires sont observées sur un domaine spatio-temporel. Un modèle parcimonieux est souvent utilisé pour faciliter l'estimation de la matrice de variance-covariance. C'est le cas en particulier des modèles de la matrice et du tenseur aléatoires normaux, qui impliquent une structure de variance-covariance simplement ou doublement séparable, respectivement. Une matrice de variance-covariance séparable est le produit de Kronecker de deux, trois, ou plus de matrices de variance-covariance, chacune représentant la variabilité et les dépendances dans une dimension (p. ex. espace 1-D et temps; plusieurs variables, espace 1-D, et temps; espace 3-D et temps). Dans cette thèse, le focus est sur l'estimation des paramètres par maximum de vraisemblance (MV), le test du rapport de vraisemblances (TRV), et l'application des modèles à un jeu de données original. Tout d'abord, il est montré que le biais empirique de l'estimateur MV d'une matrice de variance-covariance simplement séparable décroît de manière non-monotone en suivant un patron 'pic-creux' lorsque la taille d'échantillon augmente, un résultat non conforme à la théorie en apparence. Ce patron atypique est expliqué en décomposant le biais ergodique (empirique) en un biais d'estimation et un biais de fluctuation, moins un facteur de non-orthogonalité. Ensuite, un TRV modifié non-biaisé de séparabilité simple pour une structure de variance-covariance, sans ou avec modélisation de la moyenne, est proposé. Un facteur de pénalité améliore la distribution chi-deux de la statistique TRV en échantillons finis, ce qui représente une procédure plus simple et plus générale d'obtenir un TRV valide de séparabilité que les méthodes existantes. Par après, le modèle du tenseur aléatoire normal est présenté en détail, avec une décomposition du biais de l'estimateur MV d'une matrice de variance-covariance doublement séparable et un TRV modifié non-biaisé de séparabilité double. Enfin, un jeu de données multidimensionnel, fait de mesures de densité du bois obtenues à partir de données de tomodensitométrie pour des sections de troncs d'épinette blanche (Picea glauca (Moench) Voss), est utilisé pour tester et accepter l'hypothèse de séparabilité double de la matrice de variance-covariance et pour évaluer les effets de la direction, de la hauteur et de l'année sur la densité moyenne du bois à l'aide de tests F d'analyse de variance modifiés sur base du 'epsilon' de Box. Biology - Biostatistics
15	Flexible modeling with generalized additive models and generalized linear mixed models: comprehensive simulation and case studies Hercz, Daniel January 2013 (has links) This thesis compares GAMs and GLMMs in the context of modeling nonlinear curves. The study contains a comprehensive simulation and a few real life data analyses. The simulation uses thousands of generated datasets to compare and contrast the two models' (and linear models as a benchmark) fit, extent of nonlinearity, and shape of the resulting curve. The data analyses extend the results of the simulation to GLMM/GAM curves of lung function with measures of smoking as the independent variable. An additional and larger real life data analysis with dichotomous outcomes rounds out the study and allow for more representative results. / Cette these compare des GAM et GLMM dans le cadre de la modélisation des courbes non-linéaires. L'étude comprend une simulation complète et quelques analyses réelles. La simulation utilise des milliers de 'datasets' générés pour comparer forme entres les deux modèles (et les modèles linéaires comme point de repère), l'étendue de la non-linéarité, et la forme de la courbe obtenue. Les analyses d'étendre les résultats de la simulation à courbes de la fonction pulmonaire avec de GLMM / GAM avec mesures du tabagisme (la variable indépendante). Un autre analyse réelle avec les résultats dichotomiques complète l'étude et que les résultats soient plus représentatifs. Biology - Biostatistics
16	Optimal dynamic treatment regime structural nested mean models: improving efficiency through diagnostics and re-weighting and application to adaptive individual dosing Rich, Benjamin January 2013 (has links) Dynamic treatment regimes are common in medicine, for example in the treatment of chronic diseases. As information about a patient is gathered over time, it is desirable to make use of this accumulating information to make treatment decisions that are specifically tailored to the individual patient, or to base decisions on dynamically evolving observations. Dynamic treatment regimes have been the topic of much recent work in the area of causal inference. In particular, semi-parametric methods for estimating a "best" or "optimal" treatment rule or strategy from observational data have been developed. One such method proposed by Robins is the optimal dynamic treatment regime structural nested mean model (ODTR-SNMM) and associated g-estimation procedure. Of significant concern when applying this methodology are the modelling assumptions involved. In this work, checking of modelling assumptions using residual and influence diagnostics as is typically done in a traditional regression setting is extended to the ODTR-SNMM. The methodology is evaluated on simulated data under different model specification settings. These ideas are also applied to real data from a breastfeeding cessation study. Subsequently, partially misspecified models, which give rise to consistent though inefficient estimation of the parameter of interest due to misspecification of a nuisance model, are considered. In addition to the possibility of addressing partial misspecification through the proposed diagnostic techniques, re-weighting is considered as a means of improving the efficiency of estimators under these modeling assumptions. A re-weighting approach based on sample influence is proposed and studied with simulations. Finally, the application of optimal dynamic treatment regimes estimation to adaptive dosing strategies for drugs with narrow therapeutic windows and highly variable dosing is considered. Using oral anticoagulation therapy as a motivating example, a simulation is designed using realistic pharmacokinetic (PK) and pharmacodynamic (PD) models to generate the data. A modelling approach for ODTR-SNMM with continuous dosing is proposed and applied to the PK/PD simulated data. The performance of various models under different settings is compared. / Les régimes de traitement dynamiques sont utilisés fréquemment en médecine. Nous les retrouvons, par exemple, dans le traitement des maladies chroniques. Alors que l'information obtenue chez un patient est récupérée dans le temps, il est souhaitable d'utiliser cette information afin de pouvoir faire des décisions de traitement qui sont adaptées à chaque patient, ou de pouvoir baser des décisions de traitements sur des observations qui évoluent. Les régimes de traitement dynamiques ont fait le sujet de travaux récents dans le domaine de l'inférence causale. Plus particulièrement, des méthodes semi-paramétriques ont été développées pour estimer, à partir de données non expérimentales, la règle de traitement ou la stratégie la meilleure ou optimale. Une de ces méthodes, proposée par Robins, est le modèle moyen structurel emboîté pour régime de traitement optimal dynamique (Optimal Dynamic Treatment Regime Structural Nested Mean Model : ODTR-SNMM) et la procédure g-estimation associée. Les suppostitions impliquées dans la modèlisation sont une préoccupation importante lors de l'application de cette méthodologie. Dans cette thèse, la vérification des suppositions de modélisation en utilisant les diagnostics résiduels et d'influence, normalement réalisée dans une analyse de régression traditionelle, est étendue à l'approche ODTR-SNMM. La méthodogie est évaluée en utilisant des données simulées, obtenues à partir de différents réglages de simulation. L'approche est aussi mise en application dans une étude d'arrêt d'allaitement. Par la suite, nous considérons des modèles partiellement mal spécifiés qui engendrent une estimation cohérente mais inefficace du paramètre d'intérêt en raison de la mal spécification du modèle de nuisance. En plus de la possibilité de traiter les mal spécifications partielles par les méthodes de diagnostic proposées, la repondération est considérée comme façon d'améliorer l'efficacité des estimateurs sous ces suppositions de modélisation. Une méthode de repondération basée sur l'influence des échantillons est proposée et étudiée par simulations. Finalement, nous considérons l'application de l'estimation des régimes de traitement dynamiques optimaux sur les stratégies de dosage adaptatifs pour les médicaments ayant une marge thérapeutique étroite et un dosage hautement variable. Utilisant l'anticoagulothérapie orale en exemple, nous concevons une simulation dans laquelle les données sont réalisées à partir de modèles pharmacocinétique (PK) et pharmacodynamique (PD) réalistes. Une technique de modélisation pour l'ODTR-SNMM avec dosage continu est proposée et appliquée aux données PK et PD simulées. Nous comparons la performance de plusieurs modèles utilisant différent réglages. Biology - Biostatistics
17	Targeted maximum likelihood estimation for longitudinal data Schnitzer, Mireille January 2013 (has links) Semiparametric efficient methods in causal inference have been developed to robustly and efficiently estimate causal parameters. As in general causal estimation, the methods rely on a set of mathematical assumptions that translate into requirements of causal knowledge and confounder identification. Targeted maximum likelihood estimation (TMLE) methodology has been developed as a potential improvement on efficient estimating equations, in that it shares the qualities of double robustness (unbiasedness under partial misspecification) and semiparametric efficiency, but can be constructed to provide boundedness of parameter estimates, robustness to data sparsity, and a unique estimate.This thesis, composed primarily of three manuscripts, presents new research on the analysis of longitudinal and survival data with time-dependent confounders using TMLE. The ﬁrst manuscript describes the construction of a two time-point TMLE using a generalized exponential distribution family member as the loss function for the outcome model. It demonstrates the robustness of the continuous version of this TMLE algorithm in a simulation study, and uses a modified version of the method in a simplified analysis of the PROmotion of Breastfeeding Intervention Trial (PROBIT) where evidence for a protective causal effect of breastfeeding on gastrointestinal infection is obtained.The second manuscript presents a description of several substitution estimators for longitudinal data, a specialized implementation of a longitudinal TMLE method, and a case study using the full PROBIT dataset. The K time point sequential TMLE algorithm employed (theory previously developed), implemented nonparametrically using Super Learner, differs fundamentally from the strategy used in the first manuscript, and offers some benefits in computation and ease of implementation. The analysis compares different durations of breastfeeding and the related exposure-specific (and censoring-free) mean counts of gastrointestinal infections over the first year of an infant's life and concludes that a protective effect is present. Simulated data mirroring the PROBIT dataset was generated, and the performance of TMLE was again assessed.The third manuscript develops a methodology to estimate marginal structural models for survival data. Utilizing the sequential longitudinal TMLE algorithm to estimate the exposure-specific survival curves for all exposure patterns, it demonstrates a way to combine inference in order to model the outcome using a linear specification. This article presents the theoretical construction of two different types of marginal structural models (modeling the log-odds survival and the hazard) and presents a simulation study demonstrating the unbiasedness of the technique. It then describes an analysis of the Canadian Co-infection Cohort study undertaken with one of the TMLE methods to ﬁt survival curves and a model for the hazard function of development of end-stage liver disease (ESLD) conditional on time and clearance of the Hepatitis C virus. / Des méthodes d'analyse causale semi-paramétriques et efficaces ont été développées pour estimer les paramètres causaux efficacement et de façon robuste. Comme c'est le cas en général pour l'estimation causale, ces méthodes se basent sur un ensemble d'hypothèses mathématiques qui impliquent que la structure causale et les facteurs de confusion doivent être connus. La méthode d'estimation par le maximum de vraisemblance ciblé (TMLE) se veut une amélioration des équations d'estimation efficaces: elle a les propriétés de double robustesse (sans biais même avec une erreur de spécification partielle) et d'efficacité semi-paramétrique, mais peut également garantir des estimés finis pour les paramètres et la production d'un seul estimé en plus d'être robuste si les données sont éparses. Cette thèse, composée essentiellement de trois manuscrits, présente de nouvelles recherches sur l'analyse avec le TMLE de données longitudinales et de données de survie avec des facteurs de confusion variant dans le temps. Le premier manuscrit décrit la construction d'un TMLE à deux points dans le temps avec une distribution de la famille exponentielle généralisée comme fonction de perte du modèle de la réponse. Il démontre à l'aide d'une étude de simulation la robustesse de la version continue de cet algorithme TMLE, et utilise une version Poisson de la méthode pour une analyse simplifiée de l'étude PROmotion of Breastfeeding Intervention Trial (PROBIT) qui donne des signes d'un effet causal protecteur de l'allaitement sur les infections gastrointestinales. Le deuxième manuscrit présente une description de plusieurs estimateurs de substitution pour données longitudinales, une implémentation spéciale de la méthode TMLE longitudinale et une étude de cas du jeu de données PROBIT entier. Un algorithme TMLE séquentiel à K points dans le temps est utilisé (théorie déjà développée), lequel est implémenté de façon non-paramétrique avec le Super Learner. Cet algorithme diffère fondamentalement de la stratégie utilisée dans le premier manuscrit et offre des avantages en terme de calcul et de facilité d'implémentation. L'analyse compare les moyennes de dénombrements du nombre d'infections gastrointestinales dans la première année de vie d'un nouveau-né par durée d'allaitement et avec aucune censure, et conclut à la présence d'un effet protecteur. Des données simulées semblables au jeu de données PROBIT sont également générées, et la performance du TMLE de nouveau étudiée. Le troisième manuscrit développe une méthodologie pour estimer des modèles structurels marginaux pour données de survie. En utilisant l'algorithme séquentiel du TMLE longitudinal pour estimer des courbes de survie spécifiques à l'exposition pour tous les patrons d'exposition, il montre une façon de combiner les inférences pour modéliser la réponse à l'aide d'une spécification linéaire. Cet article présente la construction théorique de deux différents types de modèles structurels marginaux (modélisant le log du rapport des chances de survie et le risque) et présente une étude de simulation démontrant l'absence de biais de la technique. Il décrit ensuite une analyse de l'Étude de la Cohorte Canadienne de Co-Infection à l'aide d'une des méthodes TMLE pour ajuster des courbes de survie et un modèle pour la fonction de risque du développement de la maladie chronique du foie (ESLD) conditionnellement au temps et à l'élimination du virus de l'hépatite C. Biology - Biostatistics
18	Flexible marginal structural models for survival analysis Xiao, Yongling January 2012 (has links) In longitudinal studies, both treatments and covariates may vary throughout the follow-up period. Time-dependent (TD) Cox proportional hazards (PH) models can be used to model the effect of time-varying treatments on the hazard. However, two challenges exist in such modeling. First, accurate modeling of the effects of TD treatments on the hazard requires resolving the uncertainty about the etiological relevance of treatments taken in different time periods. The second challenge arises in the presence of TD confounders affected by prior treatments. By assuming the absence of the other challenge, two different methodologies, weighted cumulative exposure (WCE) and marginal structural models (MSM), have been recently proposed to separately address each challenge, respectively. In this thesis, I proposed the combination of these methodologies so as to address both challenges simultaneously, as both may commonly arise in combination in longitudinal studies.In the first manuscript, I proposed and validated a novel approach to implement the marginal structural Cox proportional hazards model (referred to as Cox MSM) with inverse-probability-of-treatment weighting (IPTW) directly via a weighted time-dependent Cox PH model, rather than via a pooled logistic regression approximation. The simulations show that the IPTW estimator yields consistent estimates of the causal effect of treatment, but it may suffer from large variability, due to some extremely high IPT weights. The precision of the IPTW estimator could be improved by normalizing the stabilized IPT weights.Simple weight truncation has been proposed and commonly used in practice as another solution to reduce the large variability of IPTW estimators. However, truncation levels are typically chosen based on ad hoc criteria which have not been systematically evaluated. Thus, in the second manuscript, I proposed a systematic data-adaptive approach to select the optimal truncation level which minimizes the estimated expected MSE of the IPTW estimates. In simulation, the new approach exhibited the performance that was as good as the approaches that simply truncate the stabilized weights at high percentiles such as the 99th or 99.5th of their distribution, in terms of reducing the variance and improving the MSE of the estimatesIn the third manuscript, I proposed a new, flexible model to estimate the cumulative effect of time-varying treatment in the presence of the time-dependent confounders/mediators. The model incorporated weighted cumulative exposure modeling in a marginal structural Cox model. Specifically, weighted cumulative exposure was used to summarize the treatment history, which was defined as the weighted sum of the past treatments. The function that assigns different weights to treatments received at different times was modeled with cubic regression splines. The stabilized IPT weights for each person at each visit were calculated to account for the time-varying confounding and mediation. The weighted Cox MSM, using stabilized IPT weights, was fitted to estimate the total causal cumulative effect of the treatments on the hazard. Simulations demonstrate that the proposed new model can estimate the total causal cumulative effect, i.e. to capture both the direct and the indirect (mediated by the TD confounder) treatment effects. Bootstrap-based 95% confidence bounds for the estimated weight function were constructed and the impact of some extreme IPT weights on the estimates of the causal cumulative effect was explored.In the last manuscript, I applied the WCE MSM to the Swiss HIV Cohort Study (SHCS) to re-assess whether the cumulative exposure to abacavir therapy may increase the potential risk of cardiovascular events, such as myocardial infarction or the cardiovascular-related death. / Dans les études longitudinales, aussi bien les covariables que les traitements peuvent varier au cours de la période de suivi. Les modèles de Cox à effets proportionnels avec variables dépendantes du temps peuvent être utilisés pour modéliser l'effet de traitement variant au cours du temps. Cependant, deux défis apparaissent pour ce type de modélisation. Tout d'abord, une modélisation précise des effets des traitements dépendants du temps sur le risque nécessite de résoudre l'incertitude quant à l'importance étiologique des traitements pris a différentes périodes de temps. Ensuite, un second défi se pose dans le cas de la présence d'une variable de confusion qui dépend du temps et qui est également un médiateur de l'effet du traitement sur le risque. Deux différentes méthodologies ont récemment été suggérées pour répondre, séparément, à chacun de ces deux défis, respectivement l'exposition cumulée pondérée et les modèles structuraux marginaux (MSM). Dans cette thèse, j'ai proposé la combinaison de ces méthodologies de façon à répondre aux deux défis simultanément, étant donné qu'ils peuvent tous les deux fréquemment se poser en même temps dans des études longitudinales. Dans le premier article, j'ai proposé et validé une nouvelle approche pour mettre en œuvre le Cox MSM avec la pondération par l'inverse de probabilité de traitement (PIPT) directement à partir d'un modèle de Cox a effets proportionnels pondéré et avec variables dépendantes du temps plutôt que par une approximation par régression logistique sur données agrégées. Les simulations montrent que l'estimateur PIPT donne des estimations consistantes de l'effet causal du traitement alors qu'il serait associé à une grande variabilité dans les estimations, à cause d'inverses de probabilités de traitement extrêmement élevés. La simple troncature de poids a été proposée et couramment utilisée dans la pratique comme une autre solution pour réduire la grande variabilité des estimateurs PIPT. Cependant, les niveaux de troncature sont généralement choisis en fonction de critères ad hoc, qui n'ont pas été systématiquement évalués. Ainsi, dans le deuxième article, j'ai proposé une approche systématique adaptative aux données systématique pour sélectionner le niveau de troncature optimal qui minimise l'erreur quadratique moyenne des estimations PIPT. Dans le troisième article, j'ai proposé un nouveau modèle flexible afin d'estimer l'effet cumulatif de traitements qui varient dans le temps en présence de facteurs de confusion/médiateurs dépendant du temps. Le modèle intègre la modélisation de l'exposition cumulative pondérée dans un Cox MSM. Plus précisément, l'exposition cumulée pondérée a été utilisée pour résumer l'histoire du traitement, qui a été définie comme la somme pondérée des traitements antérieurs. La fonction qui assigne des poids différents aux traitements reçus à différents moments a été modélisée avec des régressions par B-splines cubiques, en utilisant différentes covariables dépendantes du temps artificielles. Les poids IPT stabilisés pour chaque personne à chaque visite ont été calculés afin de tenir compte des variables de confusion et des médiateurs qui dépendent du temps. Le modèle structurel marginal de Cox à effets proportionnel et avec des covariables dépendantes du temps pondéré, qui utilise des poids stabilisés pondérés, a été ajusté pour estimer l'effet cumulatif causal total des traitements sur le risque. Les simulations montrent que le nouveau modèle proposé permet d'estimer l'effet cumulatif causal total, c'est à dire qu'il permet de capturer à la fois les effets direct et indirect.Dans le dernier article, j'ai appliqué le modèle structural marginal avec exposition cumulée pondérée à une étude de cohorte suisse sur le VIH afin de réévaluer si l'exposition cumulée à la thérapie abacavir augmentait le risque potentiel d'événements cardiovasculaires, tels que l'infarctus du myocarde ou le décès lié a un événement cardiovasculaire. Biology - Biostatistics
19	Bayesian modeling of continuous diagnostic test data: sample size and Polya trees Kaouache, Mohammed January 2012 (has links) Parametric models such as the bi-normal have been widely used to analyse datafrom imperfect continuous diagnostic tests. Such models rely on assumptions thatmay often be unrealistic and/or unveri_able, and in such cases nonparametric modelspresent an attractive alternative. Further, even when normality holds, researcherstend to underestimate the sample size required to accurately estimate disease preva-lence from bi-normal models when densities from diseased and non-diseased subjectsoverlap. In this thesis we investigate both of these problems. First, we study theuse of nonparametric Polya tree models to analyze continuous diagnostic test data.Since we do not assume a gold standard test is available, our model includes a latentclass component, the latent data being the unknown true disease status for each sub-ject. Second, we develop methods for the sample size determination when designingstudies with continuous diagnostic tests. Finally, we show how Bayes factors can beused to compare the _t of Polya tree models to parametric bi-normal models. Bothsimulations and a real data illustration are included. / Les modèles paramétriques tel que le modèle binormal ont été largement utilisés pour analyser les données provenant de tests de diagnostic continus et non parfaits. De tels modèles reposent sur des suppositions souvent non réalistes et/ou non verifiables, et dans de tels cas les modèles nonparamétriques représentent une alternative attrayante. De plus, même quand la supposition de normalité est rencontrée les chercheurs ont tendence à sous-estimer la taille d'échantillon requise pour estimer avec exactitude la prédominance d'une maladie à partir de ces modèles bi-normaux quand les densités associées aux sujets malades se chevauchent avec celles associées aux sujets non malades. D'abord, nous étudions l'utilisation de modèles nonparametriques d'arbres de Polya pour analyser les données provenant de tests de diagnostic continus. Puisque nous ne supposons pas l'existance d'un test étalon d'or, notre modèle contient une composante de classe latente, les données latentes étant le vrai état de maladie de chaque sujet. Ensuite nous développons des méthodes pourla determination de la taille d'échantillon quand on planifie des études avec des tests de diagnostic continus. Finalement, nous montrons comment les facteurs de Bayes peuvent être utilisés pour comparer la qualité d'ajustement de modèles d'arbres de Polya à celles de modèles paramétriques binormaux. Des simulations ansi que des données réelles sont incluses. Biology - Biostatistics
20	Bias from a missing covariate in the analysis of diagnostic test data in the absence of a gold-standard Wang, Zhuoyu January 2013 (has links) Covariates that influence the sensitivity and/or specificity of different diagnostic tests can create correlations between these tests, conditional on disease status. Thus, ignoring such covariates in a latent class analysis of imperfect tests would amount to ignoring conditional dependence, potentially leading to biased estimates of the prevalence of the condition under study and the accuracies of the tests. In the case of a dichotomous covariate affecting two imperfect tests, we derive an expression showing that the conditional covariance is a function of the product of the change in test sensitivity (or specificity) within subgroups defined by the covariate. For a uniformly or normally distributed continuous covariate, similar results are obtained numerically. Using series of simulated datasets, we study whether in the absence of covariate, unbiased estimates may be obtained by fitting a latent class model that allows for conditional dependence. We found that bias induced by ignoring the dependence and using a conditional independence model is not large in most cases. In cases where bias is present, a conditional dependence model, which places no constraints on the covariance between the tests, works well in adjusting for all three types of missing covariates. Our methods are applied to diagnostic testing data for the detection of tuberculosis which varies by the covariate HIV status. / Les covariables qui influencent la sensibilité et/ou la spécificité des différents tests de diagnostic peuvent créer des corrélations entre ces tests, conditionnellement à l'état de la maladie. Ainsi, en ignorant ces variables dans une analyse de classe latente de tests imparfaits, on en reviendrait à ignorer la dépendance conditionnelle pouvant conduire à des estimations biaisées de la prévalence de la condition sous étude ainsi qu'à la précision des tests. Dans le cas d'une covariable dichotomique affectant deux essais imparfaits, nous dérivons une expression qui montre que la covariance conditionnelle est une fonction du produit de la variation de la sensibilité du test (ou de la spécificité) dans les sous-groupes définis par la covariable. Pour une covariable continue distribuée uniformément ou normalement des résultats similaires sont obtenus numériquement. En utilisant des séries de données simulées, nous étudions si, avec l'absence de covariable, des estimations impartiales peuvent être obtenues en ajustant un modèle de classe latente permettant la dépendance conditionnelle. Nous avons constaté, en ignorant la dépendance et en utilisant un modèle d'indépendance conditionnelle, que le biais induit n'est pas grand dans la plupart des cas. Dans les cas où le biais est présent, un modèle de dépendance conditionnelle qui n'impose pas de contraintes sur la covariance entre les tests fonctionne bien en ajustant tous les trois types de variables manquantes. Nos méthodes sont appliquées aux données des tests diagnostiques pour le dépistage de la tuberculose qui varient en fonction du statut de la covariable du VIH. Biology - Biostatistics

Search results