Spelling suggestions: "subject:"pure ciences - estatistics"" "subject:"pure ciences - cstatistics""
11 |
A Bayesian approach to the statistical interpretation of DNA evidenceMaimon, Geva January 2010 (has links)
This dissertation sets forth a foundation for a continuous model for the interpretation of DNA mixture evidence. We take a new approach to modelling electropherogram data by modelling the actual electropherogram as a curve rather than modelling the allelic peak areas under the curve. This shift allows us to retain all the data available and to bypass the approximation of peak areas by GeneMapper R (Applied Biosystems, 2003). The two problems associated with the use of this programme - prohibitive costs and patented processes - are thus avoided. / To establish a model for electropherogram data, we explore two Bayesian wavelet approaches to modelling functions (Chipman et al., 1997 ; M. Clyde et al., 1998) as well as a Bayesian Adaptive Regression Splines approach (DiMatteo et al., 2001). Furthermore, we establish our own genotyping algorithm, once again circumventing the need for GeneMapper R, and obtain posterior probabilities for the resulting genotypes. / With a model in place for single-source DNA samples, we develop an algorithm that deconvolves a two-person mixture into its separate components and provides the posterior probabilities for the resulting genotype combinations. / In addition, because of the widely recognized need to perform further research on continuous models in mixture interpretation and the difficulty in obtaining the necessary data to do so (due to privacy laws and laboratory restrictions), a tool for simulating realistic data is of the utmost importance. PCRSIM (Gill et al., 2005) is the most popular simulation software for this purpose. We propose a method for refining the parameter estimates used in PCRSIM in order to simulate more accurate data. / Cette dissertation établit les fondations nécessaires à la création d'un modèle continu servant à l'interprétation des échantillons d'ADN à sources multiples (mélanges). Nous prenons une nouvelle approche de la modélisation des données d'´electrophérogrammes en modélisant l'électrophérogramme en tant que courbe plutôt que de modéliser l'aire sous la courbe des sommets alléliques. Cette approche nous permet de conserver toutes les données disponibles et d'éviter l'estimation de l'aire sous la courbe au moyen de GeneMapper R (Applied Biosystems, 2003). Deux problèmes associés à l'utilisation de ce programme - des coûts prohibitifs et une procédure brevetée - sont ainsi évités. / Afin d'établir un modèle pour les données d'électrophérogramme, nous explorons deux approches bayésiennes pour la modélisation des fonctions par ondelettes (Chipman et al., 1997 ; M. Clyde et al., 1998) de même qu'une approche connue sous le nom de Bayesian Adaptive Regression Splines (DiMatteo et al., 2001). De plus, nous élaborons notre propre algorithme pour l'analyse des génotypes, nous permettant, encore une fois, d'éviter GeneMapper R, et d'obtenir les probabilités postérieures des génotypes résultants. / À l'aide d'un modèle d'échantillon d'ADN à source unique, nous développons un algorithme qui divise un échantillon de deux personnes en ses composantes séparées et estime les probabilités postérieures des différentes combinaisons possibles de génotype. / De plus, en raison des lacunes dans la littérature sur les modèles continus pour l'analyse d'échantillons d'ADN à sources multiples et de la difficulté à obtenir les données n´ecessaire pour l'effectuer (en raison des lois sur la protection de la vie privée et des restrictions en laboratoire), un outil qui simule des données réalistes est de la plus grande importance. PCRSIM (Gill et al., 2005) est un outil qui permet de répondre à ce besoin. Par cet outil, nous proposons une méthode pour raffiner les estimations des paramètres afin de simuler des données plus précises.
|
12 |
Simultaneous fixed and random effects selection in finite mixtures of linear mixed-effects modelsDu, Ye Ting January 2012 (has links)
Linear mixed-effects (LME) models are frequently used for modeling longitudinal data. One complicating factor in the analysis of such data is that samples are sometimes obtained from a population with significant underlying heterogeneity, which would be hard to capture by a single LME model. Such problems may be addressed by a finite mixture of linear mixed-effects (FMLME) models, which segments the population into subpopulations and models each subpopulation by a distinct LME model. Often in the initial stage of a study, a large number of predictors are introduced. However, their associations to the response variable vary from one component to another of the FMLME model. To enhance predictability and to obtain a parsimonious model, it is of great practical interest to identify the important effects, both fixed and random, in the model. Traditional variable selection techniques such as stepwise deletion and subset selection are computationally expensive even with modest numbers of covariates and components in the mixture model. In this thesis, we introduce a penalized likelihood approach and propose a nested EM algorithm for efficient numerical computations. The estimators are shown to possess consistency and sparsity properties and asymptotic normality. We illustrate the performance of the proposed method through simulations and a real data example. / Les modèles linéaires mixtes (LME) sont fréquemment employés pour la modélisation des données longitudinales. Un facteur qui complique l'analyse de ce genre de données est que les échantillons sont parfois obtenus à partir d'une population d'importante hétérogénéité sous-jacente, qui serait difficile à capter par un seul LME. De tels problèmes peuvent être surmontés par un mélange fini de modèles linéaires mixtes (FMLME), qui segmente la population en sous-populations et modélise chacune de ces dernières par un LME distinct. Souvent, un grand nombre de variables explicatives sont introduites dans la phase initiale d'une étude. Cependant, leurs associations à la variable réponse varient d'un composant à l'autre du modèle FMLME. Afin d'améliorer la prévisibilité et de recueillir un modèle parcimonieux, il est d'un grand intérêt pratique d'identifier les effets importants, tant fixes qu'aléatoires, dans le modèle. Les techniques conventionnelles de sélection de variables telles que la suppression progressive et la sélection de sous-ensembles sont informatiquement chères, même lorsque le nombre de composants et de covariables est relativement modeste. La présente thèse introduit une approche basée sur la vraisemblance pénalisée et propose un algorithme EM imbriqué qui est computationnellement efficace. On démontre aussi que les estimateurs possèdent des propriétés telles que la cohérence, la parcimonie et la normalité asymptotique. On illustre la performance de la méthode proposée au moyen de simulations et d'une application sur un vrai jeu de données.
|
13 |
Modelling operational risk using a Bayesian approach to extreme value theoryRivera Mancía, María Elena January 2014 (has links)
Extreme-value theory is concerned with the tail behaviour of probability distributions. In recent years, it has found many applications in areas as diverse as hydrology, actuarial science, and finance, where complex phenomena must often be modelled from a small number of observations.Extreme-value theory can be used to assess the risk of rare events either through the block maxima or peaks-over-threshold method. The choice of threshold is both influential and delicate, as a balance between the bias and variance of the estimates is required. At present, this threshold is often chosen arbitrarily, either graphically or by setting it as some high quantile of the data.Bayesian inference is an alternative to deal with this problem by treating the threshold as a parameter in the model. In addition, a Bayesian approach allows for the incorporation of internal and external observations in combination with expert opinion, thereby providing a natural probabilistic framework to evaluate risk models.This thesis presents a Bayesian inference framework for extremes. We focus on a model proposed by Behrens et al. (2004), where an analysis of extremes is performed using a mixture model that combines a parametric form for the centre and a Generalized Pareto Distribution (GPD) for the tail of the distribution. Our approach accounts for all the information available in making inference about the unknown parameters from both distributions, the threshold included. A Bayesian analysis is then performed by using expert opinions to determine the parameters for prior distributions; posterior inference is carried out through Markov Chain Monte Carlo methods. We apply this methodology to operational risk data to analyze its performance.The contributions of this thesis can be outlined as follows:-Bayesian models have been barely explored in operational risk analysis. In Chapter 3, we show how these models can be adapted to operational risk analysis using fraud data collected by different banks between 2007 and 2010. By combining prior information to the data, we can estimate the minimum capital requirement and risk measures such as the Value-at-Risk (VaR) and the Expected Shortfall (ES) for each bank.-The use of expert opinion plays a fundamental role in operational risk modelling. However, most of time this issue is not addressed properly. In Chapter 4, we consider the context of the problem and show how to construct a prior distribution based on measures that experts are familiar with, including VaR and ES. The purpose is to facilitate prior elicitation and reproduce expert judgement faithfully.-In Section 4.3, we describe techniques for the combination of expert opinions. While this issue has been addressed in other fields, it is relatively recent in our context. We examine how different expert opinions may influence the posterior distribution and how to build a prior distribution in this case. Results are presented on simulated and real data.-In Chapter 5, we propose several new mixture models with Gamma and Generalized Pareto elements. Our models improve upon previous work by Behrens et al. (2004) since the loss distribution is either continuous at a fixed quantile or it has continuous first derivative at the blend point. We also consider the cases when the scaling is arbitrary and when the density is discontinuous.-Finally, we introduce two nonparametric models. The first one is based on the fact that the GPD model can be represented as a Gamma mixture of exponential distributions, while the second uses a Dirichlet process prior on the parameters of the GPD model. / La théorie des valeurs extrêmes concerne l'étude du comportement caudal de lois de probabilité. Ces dernières années, elle a trouvé de nombreuses applications dans des domaines aussi variés que l'hydrologie, l'actuariat et la finance, où l'on doit parfois modéliser des phénomènes complexes à partir d'un petit nombre d'observations.La théorie des valeurs extrêmes permet d'évaluer le risque d'événements rares par la méthode des maxima bloc par bloc ou celle des excès au-delà d'un seuil. Le choix du seuil est à la fois influent et délicat, vu la nécessité de trouver un équilibre entre le biais et la précision des estimations. À l'heure actuelle, ce seuil est souvent choisi arbitrairement, soit à partir d'un graphique ou d'un quantile élevé des données.L'inférence bayésienne permet de contourner cette difficulté en traitant le seuil comme un paramètre du modèle. L'approche bayésienne permet en outre d'incorporer des observations internes et externes en lien avec l'opinion d'experts, fournissant ainsi un cadre probabiliste naturel pour l'évaluation des modèles de risque.Cette thèse décrit un cadre d'inférence bayésien pour les extrêmes. Ce cadre est inspiré des travaux de Behrens et coll. (2004), dans lesquels l'étude des extrêmes est réalisée au moyen d'un modèle de mélange alliant une forme paramétrique pour le cœur de la distribution et une loi de Pareto généralisée (LPG) pour sa queue. L'approche proposée exploite toute l'information disponible pour le choix des paramètres des deux lois, y compris le seuil. Une analyse bayésienne tenant compte d'avis d'experts sur les paramètres des lois a priori est ensuite effectué; l'inférence a posteriori s'appuie sur une chaîne de Markov Monte-Carlo. Nous appliquons cette approche à des données relatives aux risqué opérationnels afin d'analyser sa performance.Les principales contributions de cette thèse sont les suivantes :-On fait rarement appel aux modèles bayésiens pour l'analyse du risque opérationnel. Au chapitre 3, nous montrons comment adapter ces modèles à l'analyse du risqué opérationnel au moyen de statistiques de fraudes recueillies par des banques entre 2007 et 2010. L'intégration d'information a priori aux données nous permet d'estimer le capital minimal requis pour chaque banque, ainsi que diverses mesures de risque telles que la valeur à-risque (VaR) et le déficit prévu (DP).-Les avis d'experts jouent un rôle clef dans la modélisation du risque opérationnel. Toutefois, cette question est souvent traitée de façon incorrecte. Au chapitre 4, nous examinons le problème dans son contexte et montrons comment choisir une loi a priori à partir de mesures que les experts connaissent bien, dont la VaR et le DP. Le but est de faciliter le choix de la loi a priori et de mieux refléter l'avis des experts.-À la section 4.3, nous décrivons diverses techniques de synthèse d'opinions d'experts. Bien que ce problème ait déjà été abordé dans d'autres domaines, il est relativement nouveau dans notre contexte. Nous montrons comment élaborer une loi a priori à partir d'avis d'experts et mesurons leur influence sur la loi a posteriori. Des données réelles et simulées sont utilisées aux fins d'illustration.-Au chapitre 5, nous proposons plusieurs nouveaux modèles faisant intervenir des mélanges de lois gamma et de Pareto généralisées. Ces modèles étendent les travaux de Behrens et coll. (2004) dans la mesure où la loi des pertes peut être continue à un quantile donné ou avoir une première dérivée continue au point de jonction. Nous traitons aussi les cas o ù l'échelle est arbitraire et la densité est discontinue.-Enfin, nous présentons deux modèles non paramétriques. Le premier s'appuie sur le fait que le modèle LPG peut être représenté comme un mélange gamma de lois exponentielles; dans le second, l'information a priori sur les paramètres du modèle LPG est représentée par un processus de Dirichlet.
|
14 |
On estimation and testing for change points in the hazard density from right censored prevalent cohort survival dataRabhi, Yassir January 2012 (has links)
A practical concern of many studies in survival analysis is the study of the risk patterns of a disease, mortality, or other time-related event in a population. The structural change of these patterns are usually explored via the hazard function, and most of the significant information within the hazard is often carried by singularities and irregular structures. One particular form is a change-point or discontinuity in the hazard function. It is therefore of interest to find the location of such a possible change-point and gather knowledge regarding the question whether such change-point really exists in the data. The appearance of discontinuities will obviously change the path of the hazard function, paving the way for different conclusions from the continuous case. Hence, the estimation of such a function is also of great importance. In this dissertation, we approach these questions with the particular challenge of right censored prevalent cohort data. To the best of our knowledge, these questions are novel and have not previously been discussed in the literature in such a setting.In this thesis, we develop the necessary methodology to estimate the location of such a possible discontinuity and its size. We study asymptotic properties of our estimators. In particular, we show that our estimators are consistent. We further study the asymptotic distribution of our estimators to test for the existence of a genuine change-point. In addition, we propose an adaptive estimator for the discontinuous hazard function. Our simulations show that the estimators behave as expected even for moderate sample sizes. The last chapter of this thesis is devoted to an application of this methodology to a subset of the CSHA data. Our analysis indicates that there seems to be a sharp change in the hazard of failure with dementia between 12 to 24 months after onset. After adjusting for the age-at-onset of dementia (AAO), we notice a similar change for those with 75 < AAO <= 85 and AAO > 85. For the younger age group (AAO <= 75) the change appears to occur after 3 years. / En analyse de survie, les changements structurels des modèles de risque d'une maladie, du décés ou d'autres événements sont habituellement explorés par la fonction de risque. Souvent, la plupart de l'information importante du taux de risque se trouve dans les points singuliers ou les structures irrégulières. Une forme particulière est le point de rupture ou la discontinuité dans la fonction de risque. Il est donc intéressant de trouver l'endroit du point de rupture, et de recueillir l'information nécessaire pour vérifier si une telle rupture existe réellement dans les données. L'apparition de la discontinuité va bien évidemment changer le comportement de la fonction de risque, ouvrant la voie à des conclusions différentes du cas continue. Ainsi, l'estimation de cette fonction est également de grande importance. Dans cette thèse, nous abordons ces questions avec un défi particulier, des données qui sont à la fois censurées à droite et tronquées à gauche. Au mieux de nos connaissances, il s'agit de nouvelles questions qui n'ont pas été discutées auparavant dans la littérature pour ce type de données.Dans cette thèse, nous développons la méthodologie nécessaire pour estimer l'endroit de la discontinuité et la taille du saut à ce point. Il convient de souligner que nos estimateurs sont cohérents. De plus, nous étudions la distribution asymptotique de nos estimateurs pour tester l'existence d'une telle discontinuité. En outre, nous proposons un estimateur adaptatif pour la fonction de risque discontinue. Nos simulations montrent que les estimateurs se comportent comme prévu, même pour des tailles modérées d'échantillon comme celles des données de la CSHA. Le dernier chapitre de cette thèse est consacré à l'application de ces méthodes aux données de la CSHA. Notre analyse indique qu'il semble y avoir un changement brusque dans la fonction de risque de décés entre 12 à 24 mois après le début de la démence. Après l'ajustement pour l'âge au début de la démence (AAO), nous remarquons le même changement pour les deux catégories 75 < AAO <= 85 et AAO > 85. Cependant, il semble y avoir un changement après 3 ans pour le jeune groupe avec AAO <= 75.
|
15 |
The leverage effect in stochastic volatility: new models, Bayesian inference, and model selectionMehrabian, Amanollah January 2012 (has links)
A striking empirical feature of many financial time series is that when the price drops, the future volatility increases. This negative correlation between the financial return and future volatility processes was initially addressed in Black 76 and explained based on financial leverage, or a firm's debt-to-equity ratio: when the price drops, financial leverage increases, the firm becomes riskier, and hence, the future expected volatility increases. The phenomenon is, therefore, traditionally been named the leverage effect. In a discrete time Stochastic Volatility (SV) model framework, the leverage effect is often modelled by a negative correlation between the innovation processes of return and volatility equations. These models can be represented as state space models in which the returns and the volatilities are considered as the observed and the latent state variables respectively. Including the leverage effect in the SV model not only results in a better fit of the model to several types of financial time series, but also yields significant improvements in option pricing applications. Statistical inference and model selection for such models are, in general, involved, mainly due to the fact that the model likelihood is not available in analytical closed-form and appears as a high-dimensional integral over the latent volatility vector. In this thesis, we apply Markov chain Monte Carlo (MCMC) methods (based on the influential work of Jacquier Et al 94) for parameter estimation. For model selection purposes, based on the Deviance Information Criterion (DIC) (introduced by Spiegelhalter Et al 02), we utilize a version of the DIC in which the latent volatility variables are integrated out. We then elaborate on new models for the leverage effect. The important contributions of this thesis can be outlined as follows: In Section Bayesian Model Selection we demonstrate, through extensive simulations, that when applying the DIC to the SV model selection problem, the latent volatility variables must be integrated out, otherwise the model selection conclusions will be potentially misleading. We use particle filtering algorithm (based on sequential Monte Carlo methods) to estimate the marginal likelihood of the SV model. We then use numerical maximization techniques to calculate the Akaike/Bayesian information criteria to test for the leverage effect in a selection of real financial time series. This method is applied as an alternative to the DIC model selection method and is shown to yield similar results (Section MLforSV). In order to capture a potential nonlinear extreme value dependence structure between the returns and volatilities, in Chapter 3 we propose a new model that incorporates copulas into SV models. We develop the corresponding Bayesian inference methodology for the new model and show that for a wide selection of stock prices and indices, a Gaussian copula is favoured to the extreme value copulas. In Section SVAL we propose a new model which assumes that the leverage effect is a time-varying stochastic process. Specifically, we consider an intuitively-supported high-persistence autoregressive process for the leverage effect. We then develop the corresponding Bayesian inference methodology and show that our new model outperforms the conventional fixed-leverage SV models in terms of the DIC. In Section SVRV we propose a model that incorporates the realized volatility (which is an accurate estimator of the true volatility) into the SV model. Our model improves upon an existing similar model by correcting a subtle leverage timing issue and capturing the correlation between the realized volatility and the returns.We test all our new models on simulated data as well as several real financial time series including stock prices, stock indices, and foreign exchange time series. / Dans beaucoup de séries chronologiques financières, on observe qu'une chute de prix provoque une hausse de la volatilité. Ce phénomène a d'abord été étudié par Black (1976), qui l'a attribué au fait que la diminution de la valeur d'un titre accroît le rapport entre la dette et les fonds propres de l'entreprise, ce qui augmente le risque et, par conséquent, la volatilité. C'est ce que l'on appelle traditionnellement l'effet de levier. Pour rendre compte de l'effet de levier dans les modèles de volatilité stochastique à temps discret, on suppose souvent que les processus d'innovation des rendements sont corrélés négativement avec ceux des équations régissant la volatilité. On postule typiquement un modèle à espace d'états dans lequel les rendements sont observés et les volatilités sont des variables latentes. La prise en compte de l'effet de levier permet non seulement d'obtenir un meilleur ajustement de ces modèles pour divers types de séries chronologiques financières, mais aussi d'améliorer de façon significative l'évaluation des options. Toutefois, les procédures d'inférence statistique et de sélection de tels modèles sont généralement complexes, notamment parce que la vraisemblance ne s'exprime qu'en termes d'une intégrale multidimensionnelle faisant intervenir le vecteur des volatilités latentes. Dans cette thèse, on propose donc d'estimer les paramètres de ces modèles au moyen de l'algorithme de Monte-Carlo par chaîne de Markov décrit, entre autres, dans l'ouvrage de Jacquier et coll. (1994). À des fins de sélection de modèle, on propose aussi une adaptation du critère de déviance d'information (DIC) de Spiegelhalter et coll. (2002) dans laquelle les variables de volatilité latentes sont intégrées. On utilise ensuite ces outils pour développer de nouveaux modèles à effet de levier. Les principales contributions de cette thèse se résument comme suit: Dans la section Bayesian Model Selection, on démontre par voie de simulation que l'application du critère DIC classique au problème de sélection de modèles à volatilité stochastique peut induire l'utilisateur en erreur si les variables de volatilité latentes ne sont pas intégrées. On a recours à des algorithmes de filtration de particules (basés sur des méthodes séquentielles de Monte-Carlo) pour estimer la vraisemblance marginale du modèle. On utilise ensuite des méthodes d'optimisation numériques pour évaluer les critères d'information d'Akaike et bayésiens et tester la présence d'un effet de levier dans diverses séries chronologiques financières réelles. Bien qu'elle se distingue de la méthode DIC, cette technique conduit à des résultats semblables (Section MLforSV). Afin de détecter la présence d'une éventuelle structure de dépendance non linéaire de type extrémal entre les rendements et la volatilité, on propose au chapitre 3 un nouveau modèle à volatilité stochastique dans lequel interviennent des copules. On développe une méthode d'inférence bayésienne adaptée à ce contexte et on montre que pour un grand nombre de titres et d'indices boursiers, la copule gaussienne s'avère préférable aux copules de valeurs extrêmes. Dans la section SVAL, on s'intéresse à la modélisation de l'effet de levier à l'aide d'un processus stochastique temporel. On considère pour ce faire un processus autorégressif à haute persistance dans lequel l'effet de levier se manifeste en accord avec l'intuition. On décrit une méthode d'inférence bayésienne adaptée à ce contexte et on montre qu'en termes de DIC, le modèle proposé se comporte mieux que les modèles à volatilité stochastique avec effet de levier fixe.
|
16 |
Scoring the SF-36 health survey in scleroderma using independent component analysis and principle component analysisShawli, Alaa January 2011 (has links)
The short form SF-36 survey is a widely used survey of patient health related quality of life. It yields eight subscale scores of functional health and well-being that are summarized by two physical and mental component summary scores. However, recent studies have reported inconsistent results between the eight subscales and the two component summary measures when the scores are from a sick population. They claim that this problem is due to the method used to compute the SF-36 component summary scores, which is based on principal component analysis with orthogonal rotation.In this thesis, we explore various methods in order to identify a method that is more accurate in obtaining the SF-36 physical and mental component component summary scores (PCS and MCS), with a focus on diseased patient subpopulations. We first explore traditional data analysis methods such as principal component analysis (PCA) and factor analysis using maximum likelihoodestimation and apply orthogonal and oblique rotations with both methods to data from the Canadian Scleroderma Research Group registry. We compare these common approaches to a recently developed data analysis method from signal processing and neural network research, independent component analysis (ICA). We found that oblique rotation is the only method that reduces the meanmental component scores to best match the mental subscale scores. In order to try to better elucidate the differences between the orthogonal and oblique rotation, we studied the performance of PCA with the two approaches for recovering the true physical and mental component summary scores in a simulated diseased population where we knew the truth. We explored the methods in situations where the true scores were independent and when they were also correlated. We found that ICA and PCA with orthogonal rotation performed very similarly when the data were generated to be independent, but differently (with ICA performing worse) when the data were generated to be correlated. PCA with oblique rotation tended to perform worse than both methods when the data were independent, but better when the data were correlated. We also discuss the connection between ICA and PCA with orthogonal rotation, which lends strength to the use of the varimax rotation for the SF-36.Finally, we applied ICA to the scleroderma data and found relatively low correlation between ICA and unrotated PCA in estimating the PCS and MCS scores and very high correlation between ICA and PCA with varimax rotation. PCA with oblique rotation also had a relatively high correlation with ICA. Hence, we concluded that ICA could be seen as a compromise solution between the two methods. / La version abrégée du questionnaire SF-36 est largement utilisée pour valider la qualité de vie reliée à la santé. Ce questionnaire fournit huit scores s'attardant à la capacité fonctionnelle et au bien-être, lesquels sont regroupés en cotes sommaires attribuées aux composantes physiques et mentales. Cependant, des études récentes ont rapporté des résultats contradictoires entre les huit sous-échelles et les deux cotes sommaires lorsque les scores sont obtenus auprès de sujets malades. Cette discordance serait due à la méthode utilisée pour calculer les cotes sommaires du SF-36 qui est fondée sur l'analyse en composantes principales avec rotation orthogonale.Dans cette thèse, nous explorons diverses méthodes dans le but d'identifier une méthode plus précise pour calculer les cotes sommaires du SF-36 attribuées aux composantes physiques et mentales (CCP et CCM), en mettant l'accent sur des sous-populations de sujets malades. Nous évaluerons d'abord des méthodes traditionnelles d'analyse de données, telles que l'analyse en composantes principales (ACP) et l'analyse factorielle, en utilisant l'étude de l'estimation du maximum de vraisemblance et en appliquant les rotations orthogonale et oblique aux deux méthodes sur les données du registre du Groupe de recherche canadien sur la sclérodermie. Nous comparons ces approches courantes à une méthode d'analyse de données développée récemment à partir de travaux de recherche sur le réseau neuronal et le traitement du signal, l'analyse en composantes indépendantes (ACI).Nous avons découvert que la rotation oblique est la seule méthode qui réduit les cotes attribuées aux composantes mentales moyennes afin de mieux les corréler aux scores de la sous-échelle des symptômes mentaux. Dans le but de mieux comprendre les différences entre la rotation orthogonale et la rotation oblique, nous avons étudié le rendement de l'ACP avec deux approches pour déterminer les véritables cotes sommaires attribuées aux composantes physiques et mentales dans une population simulée de sujets malades pour laquelle les données étaient connues. Nous avons exploré les méthodes dans des situations où les scores véritables étaient indépendants et lorsqu'ils étaient corrélés. Nous avons conclu que le rendement de l'ACI et de l'ACP associées à la rotation orthogonale était très similaire lorsque les données étaient indépendantes, mais que le rendement différait lorsque les données étaient corrélées (ACI étant moins performante). L'ACP associée à la rotation oblique a tendance à être moins performante que les deux méthodes lorsque les données étaient indépendantes, mais elle est plus performante lorsque les données étaient corrélées. Nous discutons également du lien entre l'ACI et l'ACP avec la rotation orthogonale, ce qui appuie l'emploi de la rotation varimax dans le questionnaire SF 36.Enfin, nous avons appliqué l'ACI aux données sur la sclérodermie et nous avons mis en évidence une corrélation relativement faible entre l'ACI et l'ACP sans rotation dans l'estimation des scores CCP et CCM, et une corrélation très élevée entre l'ACI et l'ACP avec rotation varimax. L'ACP avec rotation oblique présentait également une corrélation relativement élevée avec l'ACI. Par conséquent, nous en avons conclu que l'ACI pourrait servir de solution de compromis entre ces deux méthodes.
|
17 |
Casual inference via propensity score regression and length-biased samplingErtefaie, Ashkan January 2011 (has links)
Confounder adjustment is the key in the estimation of exposure effect in observational studies. Two well known causal adjustment techniques are the propensity score and the inverse probability of treatment weighting. We have compared the asymptotic properties of these two estimators and showed that the former method results in a more efficient estimator. Since ignoring important confounders result in a biased estimator, it seems beneficial to adjust for all the covariates. This, however, may result in an inflation of the variance of the estimated parameters and induce bias as well. We present a penalization technique based on the joint likelihood of the treatment and response variables to select the key covariates that need to be included in the treatment assignment model. Besides the bias induced by the non-randomization, we discuss another source of bias induced by having a non-representative sample of the target population. In particular, we study the effect of length-biased sampling in the estimation of the treatment effect. We introduced a weighted and a double robust estimating equations to adjust for the biased sampling and the non-randomization in the generalized accelerated failure time model setting. Large sample properties of the estimators are established.We conduct an extensive simulation studies to study the small sample properties of the estimators. In each Chapter, we apply our proposed technique on real data sets and compare the result with those obtained by other methods. / L'ajustement du facteur de confusion est la clé dans l'estimation de l'effet de traitement dans les études observationelles. Deux techniques bien connus d'ajustement causal sont le score de propension et la probabilité de traitement inverse pondéré. Nous avons comparé les propriétés asymptotiques de ces deux estimateurs et avons démontré que la première méthode est un estimateur plus efficace. Étant donné que d'ignorer des facteurs de confusion importants ne fait que biaiser l'estimateur, il semble bénéfique de tenir compte de tous les co-variables. Cependant, ceci peut entrainer une inflation de la variance des paramètres estimés et provoquer des biais également. Par conséquent, nous présentons une pénalisation technique basée conjointement sur la probabilité du traitement et sur les variables de la réponse pour sélectionner la clé co-variables qui doit être inclus dans le modèle du traitement attribué. Outre le biais introduit par la non-randomisation, nous discutons d'une autre source de biais introduit par un échantillon non représentatif de la population cible. Plus précisément, nous étudions l'effet de la longueur du biais de l'échantillon dans l'estimation de la résultante du traitement. Nous avons introduit une pondération et une solide équation d'estimation double pour ajuster l'échantillonnage biaisé et la non-randomisation dans la généralisation du modèle à temps accéléré échec réglage. Puis, les propriétés des estimateurs du vaste échantillon sont établies. Nous menons une étude étendue pour examiner la simulation des propriétés des estimateurs du petit échantillon. Dans chaque chapitre, nous appliquons notre propre technique sur de véritables ensembles de données et comparons les résultats avec ceux obtenus par d'autres méthodes.
|
18 |
A comparison of methods for longitudinal data with nonignorable dropout with an application in systemic sclerosisSchnitzer, Mireille January 2009 (has links)
Longitudinal studies in the medical field often experience data loss resulting from subject dropout. The general practice is still dominated by the use of unproven ad-hoc techniques. Modeling methods for longitudinal data with absent values exist and are valid under different missingness assumptions. A simulation study was performed that compared the linear mixed model, a pattern-mixture model using multiple imputations, Schafer's multiple imputation PAN model, and two fully Bayesian selection models. The models were contrasted in terms of their ability to estimate the slope of the response over time, and variability of the slope estimates and confidence bounds they produced. The success of each of these models varied under different missing data mechanisms, with the mixed model and the selection model (with a low amount of dependence between the probability of missingness and response values) outstanding in the MCAR and MAR cases, and the selection model (with a higher amount of probability of missingness/response dependence) alone doing very well for NMAR data. The pattern-mixture model also had good coverage for MCAR and MAR cases, but the PAN model did the poorest under all three missing data conditions. The modeling methods were then applied to longitudinal disability scores from the Canadian Scleroderma Research Group registry. Almost all were able to identify an increase in disability over time for patients, but with varying magnitudes. This example allowed for insight into the benefits of the models that were simpler to implement (the mixed model and PAN) and the pitfalls of using the pattern-mixture model in certain irregular settings. / Lors d'études statistiques dans le domaine médical où l'on mesure les variables au fil du temps, il arrive souvent que certains participants abandonnent l'étude. En général, on néglige l'importance de traiter ces manques de données avec des méthodes statistiques valides. Néanmoins, plusieurs méthodes existent pour traiter ces lacunes, sous différentes hypothèses de manque de données. Une étude de simulation a été effectuée afin de comparer différents modèles : mixte linéaire, mélange de configurations à redressements répétés, PAN à redressements répétés (introduit par Schafer), et deux modèles de sélection de Bayes. Les modèles ont été comparés en fonction de leur capacité à estimer la pente de la réaction au fil du temps, ainsi que la variabilité de l'approximation de la pente et des intervalles de confiance. En fait, la performance des modèles diffère en fonction de la façon dont les données manquantes ont été produites : MCAR, MAR, et NMAR. Le modèle mixte et un des modèles de sélection (celui avec le moins de dépendance entre la probabilité d'obtenir une donné manquante et la valeur de la réaction) ont bien performé dans les cas MCAR et MAR, tandis que le second modèle de sélection a mieux performé dans le cas NMAR. De plus, le modèle à mélange de configurations a produit des intervalles de confiance qui ont bien couvert la véritable pente, tandis que le modèle PAN, dans tous les cas, n'a pas produit de bons résultats. Ces méthodes ont ensuite été appliquées aux données longitudinales d'handicap physique du Groupe de recherche canadien sur la sclérodermie. Les modèles ont presque tous été capables d'identifier une augmentation de l'handicap au fil du temps. D'ailleurs, l'exemple sur la sclérodermie nous a permis d'identifier les avantages des modèles plus faciles à utiliser, ainsi que les désavantages du modèle à mélang
|
19 |
A latent profile clustering approach to phenotype definition in family based genetic association studiesLiu, Andrew January 2012 (has links)
No description available.
|
20 |
Simultaneous fixed and random effects selection in finite mixtures of linear mixed-effects modelsDu, Ye Ting January 2012 (has links)
No description available.
|
Page generated in 0.1021 seconds