Spelling suggestions: "subject:"pure ciences - estatistics"" "subject:"pure ciences - cstatistics""
1 |
Automobile insurance claim reserve modelingChen, Huijun January 2013 (has links)
This thesis describes a model for predicting individual claim losses and estimating the capital reserve for the automobile portfolio of a large Canadian insurance company. Depending on the nature of a claim, its settlement can involve medical costs, rehabilitation costs, income compensation costs, optional coverage costs, and even death benefit coverage. Any combination of these costs can occur, and the dependence between them must be accounted for. To this end, a two-level hierarchical structure is adopted. First, a multinomial logistic model is used to predict the combination of costs associated to a claim. The claim severity is then modeled as a function of this composition. A Log-Normal model is used to predict different types of loss; claimant information, accident information, medical and legal report information serve as explanatory variables. The dependence between medical, rehabilitation and income loss is characterized by a Gumbel copula. A Bayesian framework with Markov Chain Monte Carlo sampling is adopted to estimate jointly the copula regression model parameters. Simulations are carried out to obtain prediction of individual loss, the distribution of total portfolio loss and the capital reserve. / Ce mémoire décrit un modèle de prévision des coûts d'indemnisation des particuliers et l'estimation de la réserve de trésorerie du portefeuille automobile d'une grande compagnie d'assurance canadienne. Selon la nature d'une réclamation, son règlement peut comporter des frais médicaux, des frais de réadaptation, une compensation pour perte de revenus, le paiement d'avantages facultatifs, voire même une prestation pour décès. Toute combinaison de ces coûts est susceptible de se produire et leur dépendance doit être prise en compte. Une structure hiérarchique à deux niveaux est adoptée à cet effet. Un modèle logistique multinomial permet d'abord de prédire la structure decoût associée à une réclamation. La gravité des sinistres est ensuite modélisée en fonction de cette structure. Un modèle log-normal permet de prédire divers types de coûts ; des renseignements sur l'assuré, la nature du sinistre, les rapports légaux et médicaux servent de variables explicatives. Une copule de Gumbel caractérise la dépendance entre les frais médicaux, les frais de réhabilitation et la compensation pour perte de revenus. Un cadre bayésien avec échantillonnage par chaîne de Markov Monte-Carlo conduit à une estimation conjointe des paramètres du modèle de régression avec copule. Des simulations permettent de prédire le coût total d'une réclamation ou du portefeuille,ainsi que la réserve de trésorerie.
|
2 |
Statistical applications in knowledge translation research implemented through the information assessment methodMoscovici, Jonathan January 2013 (has links)
Of interest are two knowledge translation [27] research projects conducted by and with the ITPCRG (Information Technology Primary Care Research Group) during the period 2010-2012, as well as their underlying statistical analyses. For physicians, continuing medical education (CME) is a critical activity that helps them acquire new knowledge and keep their practice up to date. In Canada, popular CME programs are structured around the reading of short synopses or summaries of important clinical research on e-mail. After reading one synopsis, the physician completes a short reective exercise, using the Information Assessment Method (IAM). IAMis a brief questionnaire that asks physicians to reect on the following: -Therelevance of the information? -The impact of the information e.g. did you learn something new? -If they intend to use the information for a specic patient? -Whether they expect to see health benets for that patient as aresult? This type of CME is very popular. Since September 2006, about4,500 members of the Canadian Medical Association have submitted more than one million IAM questionnaires linked to e-mailed synopses. Previous work suggests the response format of the IAM questionnaire can impact the willingness of physicians to participate, and that information use for a specic patient might be linked to certain factors measurable by IAM. Therefore, the objectives were to improve CME programs that use the IAM questionnaire by determining which response formats optimize physician participation and their reective learning, and explore the determinants of information use. These were accomplished by implementing a survival analysis framework, as well as mixed logistic regression models. / Ce memoire porte sur deux projets de mise en pratique des connaissances menes par et avec le ITPCRG (Information Technology Primary Care Research Group) de 2010 a 2012, ainsi que l'analyse statistique qui s'en est issue. La formation medicale continue est une activite essentielle qui aide l'acquisition de nouvelles connaissances et la mise a jour des pratiques pour les medecins. Au Canada, des programmes populaires utilisentla lecture de courts synopsis ou de sommaires de recherches cliniques importantes transmis par courriel. Apres la lecture du synopsis, le medecin complete un bref exercice de reexion en utilisant le Information Assessment Method (IAM). IAM est un petit questionnaire qui demande aux medecins de reechir aux sujets qui suivent: -La pertinence de l'information? -L'impacte de cette information ex : avez-vous appris quelque chose?-L'intention d'utiliser cette information pour un patient specique? -Anticipent-ils observer des beneces de sante pour ce patient grâce a cetteinformation? Ce type de formation continue medicale est tres populaire. Depuis septembre 2006, pres de 4500 membres de l'Association medicale canadienne ont soumis plus d'un million de questionnaires IAM relies auxsynopsis recus par courriel. Les recherches precedentes suggerent que leformat de reponse des questionnaires IAM peut inuencer la participationdes medecins et que l'utilisation de l'information pour un patient specique peut être liee a certains facteurs mesurables par IAM. Les mêmes recherches indiquent que certains formats peuvent stimuler des reponses plus reechies. Aucune recherche n'a etudie l'eet de ce genre de formation continue surla sante de patients speciques. Les objectifs etaient donc d'ameliorer les programmes d'education continue medicale qui utilisent les questionnaires IAM en determinant les formats de reponse qui optimisent la participation des medecins ainsi que l'apprentissage reectif, et d'explorer les facteurs relies a l'utilisation de l'information. Ceux-ci ont ete accomplis en executant une analyse de la survie, ainsi que des modeles de regression logistique mixtes.
|
3 |
Copula-based tests of independence for bivariate discrete dataMurphy, Orla January 2013 (has links)
New statistics are proposed for testing the hypothesis that two non-continuous random variables are independent. These statistics, which lead to consistent tests, are Cramér–von Mises and Kolmogorov–Smirnov type functionals of the checkerboard copula. The power of the new tests is compared via simulation to those based on the Pearson chi-squared, likelihood ratio, and Zelterman statistics often used in this context. To study their power, data are generated from five families of bivariate distributions whose margins may be known or not. In all cases considered, the new tests are seen to be more powerful than the standard tests. The new tests and the Zelterman statistic maintain their levels when the data are sparse; as is well known, this is not the case for Pearson's chi-squared and the likelihood ratio test. On the basis of the results presented here, the new Cramér–von Mises statistics can be recommended to test the independence between two random variables in the presence of ties in the sample. / De nouvelles statistiques sont proposées pour tester l'indépendance de deux aléas non continus. Ces statistiques, qui mènent à des tests convergents, sont des fonctionnelles de type Cramér–von Mises et Kolmogorov–Smirnov de la copule en damier. La puissance des nouveaux tests est comparée par simulation à celle des tests fondés sur les statistiques du khi-deux de Pearson, du rapport des vraisemblances et de la statistique de Zelterman souvent utilisées dans ce contexte. Pour étudier leur puissance, on génère des données de cinq familles de lois bivariées dont les marges peuvent être connues ou non. Dans tous les cas considérés, les nouveaux tests s'avèrent plus puissants que les tests standard. À l'instar du test de Zelterman, les nouveaux tests maintiennent leur seuil lorsque les données sont clairsemées; comme on le sait, ce n'est pas le cas des tests du khi-deux de Pearson et du rapport des vraisemblances. À la lumière des résultats présentés ici, les nouvelles statistiques de Cramér–von Mises peuvent être recommandées pour tester l'indépendance entre deux aléas en présence d'ex æquo dans les données.
|
4 |
A penalized quasi-likelihood approach for estimating the number of states in a hidden markov modelMcGillivray, Annaliza January 2012 (has links)
In statistical applications of hidden Markov models (HMMs), one may have no knowledge of the number of hidden states (or order) of the model needed to be able to accurately represent the underlying process of the data. The problem of estimating the number of states of the HMM is thus a task of major importance. We begin with a literature review of the major developments in the problem of order estimation for HMMs. We then propose a new penalized quasi-likelihood method for estimating the number of hidden states, which makes use of the fact that the marginal distribution of the HMM observations is a finite mixture model. Starting with a HMM with a large number of states, the method obtains a model of lower order by clustering and merging similar states of the model through two penalty functions. We study some of the asymptotic properties of the proposed method and present a numerical procedure for its implementation. The performance of the new method is assessed via extensive simulation studies for normal and Poisson HMMs. The new method is more computationally efficient than existing methods, such as AIC and BIC, as the order of the model is determined in a single optimization. We conclude with applications of the method to two real data sets. / Dans les applications des chaînes de Markov cachées (CMC), il se peut que les statisticiens n'aient pas l'information sur le nombre d'états (ou ordre) nécessaires pour représenter le processus. Le problème d'estimer le nombre d'états du CMC est ainsi une tâche d'importance majeure. Nous commençons avec une revue de littérature des développements majeurs dans le problème d'estimation de l'ordre d'un CMC. Nous proposons alors une nouvelle méthode de la quasi-vraisemblance pénalisée pour estimer l'ordre dans des CMC. Cette méthode utilise le fait que la distribution marginale des observations CMC est un mélange fini. La méthode débute avec un CMC avec un grand nombre d'états et obtient un modèle d'ordre inférieur en regroupant et fusionnant les états à l'aide de deux fonctions de pénalité. Nous étudions certaines propriétés asymptotiques de la méthode proposée et présentons une procédure numérique pour sa mise en œuvre. La performance est évaluée via des simulations extensives. La nouvelle méthode est plus efficace qu'autres méthodes, comme CIA et CIB, comme l'ordre du modèle est déterminé dans une seule optimisation. Nous concluons avec l'application de la méthode à deux vrais jeux de données.
|
5 |
A latent profile clustering approach to phenotype definition in family based genetic association studiesLiu, Andrew January 2012 (has links)
Objectives: Genetic association studies have shown that genes play a role in the incidence of attention deficit hyperactivity disorder (ADHD) in children. However, the relationship between genes and response to medication (methylphenidate) has not been studied extensively, with very few findings and difficulty in replication. Possible reasons for the lack of findings could be due to the difficulty in defining a valid, objective measure of response to treatment. Furthermore, traditional statistical methods may have shortcomings when used in genetic association studies. Our objectives are: 1) compare two methods used in genetic association studies and 2) define a phenotype for response to treatment that can improve the quality of a genetic analysis.Methods: From a family study (n=416) with ADHD children, we construct a response to treatment phenotype using a latent profile analysis (LPA) clustering approach. This LPA phenotype is based on the RASS, and accelerometer (Actiwatch) data. Using the LPA phenotype and another phenotype based on clinical judgement (Clinical Consensus Rating), we perform a genetic association analysis for each phenotype individually. For the genetic analysis, we use both a case-control design (logistic regression) and a family based design (FBAT). The genes used in the study are candidate genes, known to be associated with the diagnosis of ADHD. Some notable genes include the dopamine receptor (DRD3, DRD4), dopamine transporter (DAT) and latrophilin (LPHN3).Results: Several SNPs were found to be associated with both the LPA response to medication variable and the Clinical Consensus Rating variable (CCR). Overall, the phenotype based on latent profile analysis performed better than the phenotype based on CCR, and showed highly significant findings, which the CCR was not able to do (p = 0.000189 vs p = 0.026691). The FBAT analysis approach, although providing the benefit of being immune to population stratification, was not as powerful as the logistic regression approach. This was because of smaller sample sizes due to uninformative heterozygous parents. Discussion: Our analysis showed that the way a phenotype is defined is very important to the quality of the analysis. The phenotype we constructed performed better likely due to its ability to separate heterogeneous groups of subjects. Both methods of genetic analysis have their shortcomings, and it is advisable to use both in a genetic association study. Some shortcomings of this study include limited sample size, which limited our power, and prevented alternative methods such as a haplotype analysis. / Objectifs: Des études d'association génétique ont démontré que les gènes affectent l'incidence du trouble déficitaire de l'attention avec ou sans hyperactivité (TDAH) chez les enfants. Cependant, la relation entre les gènes et la réponse aux médicaments (méthylphénidate) n'a pas été étudiée de façon approfondie. Les découvertes en la matière sont rares et difficiles à répliquer. L'absence de résultats pourrait s'expliquer par la difficulté de définir une mesure valide et objective pour quantifier la réponse au traitement. De plus, les méthodes statistiques conventionnelles pourraient avoir des lacunes dans le contexte des études d'association génétique. Nos objectifs sont les suivants: 1) comparer deux méthodes utilisées dans les études d'association génétique et 2) définir un phénotype pour la réponse au traitement ayant le potentiel d'améliorer la qualité des analyses génétiques.Méthodes: À partir d'une étude de famille (n = 416) avec des enfants TDAH, nous concevons une réponse à un phénotype de traitement à l'aide d'une approche de groupement fondée sur une analyse de profil latent (APL). Le phénotype APL est basé sur des données de RASS et d'accéléromètre (Actiwatch). À partir du phénotype APL et d'un autre phénotype basé sur un jugement clinique (évaluation de consensus clinique), nous procédons à une analyse d'association génétique pour chaque phénotype séparément. Aux fins de l'analyse génétique, nous utilisons à la fois un plan cas témoins (régression logistique) et un plan basé sur la famille (FBAT). Les gènes employés dans l'étude sont des gènes candidats reconnus pour leur association avec le diagnostic de TDAH, notamment le récepteur de la dopamine (DRD3, DRD4), le latrophilin (LPHN3) et le transporteur de la dopamine (DAT).Résultats: Nous avons détecté une association entre plusieurs SNPs et la réponse APL à la variable médication ainsi que l'évaluation du consensus clinique (CCR). Dans l'ensemble, le phénotype basé sur l'analyse du profil latent a surpassé le phénotype basé sur l'évaluation du consensus clinique (CCR) par sa capacité de produire des résultats très significatifs (p = 0,000189 contre p = 0,026691). L'approche d'analyse FBAT, malgré son insensibilité à la stratification de la population, n'était pas aussi puissante que la méthode de régression logistique, en raison de la taille restreinte des échantillons, expliquée par des parents hétérozygotes non-informatifs.Discussion: Notre analyse a démontré que la façon dont le phénotype est défini affecte sérieusement la qualité de l'analyse. Le phénotype que nous avons conçu a offert un meilleur rendement probablement en raison de sa capacité à distinguer des groupes hétérogènes de sujets. Les deux méthodes d'analyse génétique ont leurs défauts: il est donc conseillé de les utiliser conjointement dans une étude d'association génétique. Les lacunes de cette étude comprennent entre autres la taille limitée de l'échantillon, qui a limité la puissance et empêché le recours à d'autres méthodes telle l'analyse des haplotypes.
|
6 |
Estimating nonlinear mixed-effects models by the generalized profiling method and its application to pharmacokineticsWang, Liangliang January 2007 (has links)
Several methods with software tools have been developed to estimate nonlinear mixed-effects models. However, fewer have addressed the issue when nonlinear mixed-effects models are implicitly expressed as a set of ordinary differential equations (ODE's) while these ODE's have no closed-form solutions. The main objective of this thesis is to solve this problem based on the framework of the generalized profiling method proposed by Ramsay, Hooker, Campbell, and Cao (2007). Four types of parameters are identified and estimated in a cascaded way by a multiple-level nested optimization. In the outermost level, the smoothing parameter is selected by the criterion of generalized cross-validation (GCV). In the outer level, the structural parameters, including the fixed effects, the variance-covariance matrix for random effects, and the residual variance, are optimized by a criterion based on a first-order Taylor expansion of the nonlinear function. In the middle level, the random effects are optimized by the penalized nonlinear least squares. In the inner level, the coefficients of basis function expansions are optimized by penalized smoothing with the penalty defined by ODE's. Consequently, some types of parameters are expressed as explicit or implicit functions of other parameters. The dimensionality of the parameter space is reduced, and the optimization surface becomes smoother. The Newton-Raphson algorithm is applied to estimate parameters for each level of optimization with gradients and Hessian matrices worked out analytically with the Implicit Function Theorem. Our method, along with MATLAB codes, is tested by estimating several compartment models in pharmacokinetics from both simulated and real data sets. Results are compared with the true values or estimates obtained by the package nlme in R, and it turns out that the generalized profiling method can achieve reasonable estimates without solving ODE's directly. / Il n'y a aucune solution de exacte pour beaucoup de modèles non-linéaires à effets mixtes (NLME) exprimés comme un ensemble d'équations ordinaires (ODE) en modèles de compartiment. Cette thèse passe en revue plusieurs méthodes et outils courants de logiciel pour NLME, et explore une nouvelle manière d'estimer des effets mixtes non-linéaires en modèles de compartiment basée sur le cadre de la méthode de profilage généralisée proposée par Ramsay, Hooker, Campbell, et Cao (2007). Quatre types de paramètres sont identifiés et estimés d'en cascade par une optimisation de multiple-niveau: le paramètre regularisateur est choisi par le critère de la contre-vérification généralisée (GCV); les paramètres structuraux, y compris les effets fixes, la matrice de variance-covariance pour les effets aléatoires, et la variance résiduelle sont optimisés par un critère basé sur une expansion de premier ordre de Taylor de fonction non-linéaire ; les effets aléatoires sont optimisés par une methode des moindres carrés non-linéaires pénalisés ; et les coefficients d'expansions de fonction de base sont optimisés par un lissage pénalisé avec la pénalité définie par l'equation differentielle. En conséquence, certains des paramètres sont exprimés en tant que fonctions explicites ou implicites d'autres paramètres. La dimensionnalité de l'espace des paramètres est réduite, et la surface d'optimisation devient plus lisse. L'algorithme de Newton-Raphson est appliqué aux paramètres d'évaluation pour chaque niveau d'optimisation, où le théorème des fonctions implicites est employé couramment pour établir les gradients et les matrices de Hessiennes de facon analytiques. La méthode proposée et des codes de MATLAB sont examinés par des applications à plusieurs modèles de compartiment en pharmacocinétique sur des donnees simulées et vraies. Des résultats sont comparés aux valeurs ou aux évaluations vraies obtenues pa
|
7 |
Induced bias on measuring influence by length-biased sampling of failure timesMorrone, Dario January 2008 (has links)
Influence diagnostic measures for various statistical models have been developed. Nonetheless, a proper influence measure for handling right-censored prevalent cohort data has yet to have been suggested. We present an influence measure which properly accounts for the length-bias and right censoring encountered in prevalent cohort data. This measure makes use of a likelihood correctly accounting for length-bias and possible information in the marginal covariate distribution. An approximation of this influence diagnostic measure is also developed. We illustrate the relevance of correctly incorporating length-bias and covariate information by analyzing differences in influence when one appropriately acknowledges the nature of prevalent cohort data and when one does not. Results are depicted with data on survival with dementia among the elderly in Canada provided by the Canadian Study on Health and Aging. / Des mesures d'influence pour divers modèles statistiques ont déjà été développées. Néanmoins, une mesure d'influence qui traite des données censurées de la droite parvenant de cohorte prévalentes n'a pourtant pas été traitée. Nous présentons une mesure d'influence qui tient compte du biais en longueur et de la censure de la droite, présents dans des données parvenant d'une cohorte prévalente. Cette mesure fait usage d'une vraisemblance correctement ajustée pour le biais en longueur ainsi que l'information potentiellement contenu dans la distribution marginale des covariés. Une approximation de cette mesure est développée. Nous illustrons la pertinence de correctement incorporer le biais en longueur et l'information contenu dans les covariés en analysant les différences d'influence quand la nature des données provenant d'une cohorte prévalente est reconnue et quand elle est ignorée. Les résultats sont illustrés avec l'aide de données sur la survie avec la démence parmi les personnes âgées au Canada fourni par le Canadian Study on Health and Aging.
|
8 |
Characteristic function based inference methodsAtoyan, Tigran January 2011 (has links)
We present a method of performing parameter inference when we have an i.i.d. sample drawn from a parametric distribution with a known characteristic function but with densities or probability mass functions not known in closed form. The context we focus on is in making inference on regularly sampled Lévy processes of a known parametric form, as is often encountered in financial time series modeling. The method uses the empirical characteristic function, obtained from the sample, to find the parameter values which will minimize a specific distance function. We provide proofs of strong consistency and asymptotic normality of the obtained estimates. We also study the link between asymptotic efficiency and the choice of the distance function we choose to minimize, and we show that there are characteristic function based estimators with an asymptotic efficiency arbitrarily close to 1. We then propose an EM algorithm for making inference on Brownian motions evaluated at an independent stochastic time. We present the results of various simulation studies testing the ECF method, and then compare the characteristic function based methods to MLE methods in terms of efficiency and computation time. These results support the theoretic findings and also give some insight to the small sample properties of the studied estimators. We finally apply the ECF method to fit the Variance Gamma model to SPX500 data and compare the results with the fit obtained using an MLE method. / On présente une méthode d'inférence de paramètres lorsque l'on a un échantillon d'une distribution avec une fonction caractéristique connue mais avec une densité de probabilité inconnue. Le contexte sur lequel on se concentre est l'inférence paramétrique avec des données régulièrement échantillonnées d'un processus de Lévy, comme c'est souvent le cas dans la modélisation de séries temporelles financières. La méthode utilise la fonction caractéristique empirique, obtenue à partir des données, pour trouver les paramètres qui minimisent une fonction de distance spécifique. On présente les preuves de la consistence et de la normalité asymptotique des estimateurs obtenus. On étudie aussi le lien entre l'efficacité asymptotique et le choix de la fonction de distance que l'on choisit de minimiser, et on prouve qu'il y a des estimateurs basés sur des fonctions caractéristiques avec une efficacité asymptotique arbitrairement proche de 1. Ensuite, on propose un algorithme EM pour faire de l'inférence avec des mouvements browniens évalués à un temps stochastique indépendent. On présente les résultats d'expériments simulées qui testent la méthode à base de fonctions caractéristiques, et ensuite on compare cette méthode avec des méthodes MLE en termes de leur efficacité et le temps de calcul des algorithmes. Les résultats numériques supportent les résultats théoriques et donnent aussi un aperçu sur les propriétés des estimateurs pour des petits échantillons. Pour conclure, on applique la méthode à base de fonctions caractéristiques pour trouver les paramètres du modèle Variance Gamma pour les données de SPX500 et on compare les résultats avec ceux obtenus par une méthode MLE.
|
9 |
Development of a new disease activity index for Systemic Sclerosis using traditional and machine learning techniquesJulien, Marilyse January 2008 (has links)
Scleroderma is an auto-immune disease characterized by thickened and hardened skin. Similarly to other rheumatic diseases such as Lupus, disease activity in Scleroderma greatly fluctuates over time. Developing a new disease activity index for Scleroderma is a necessary step before undertaking clinical trials to test different treatments and would provide a conceptual structure to approach this poorly-defined disease. In this thesis, we first apply statistical methods traditionally used to develop disease activity indices such as Factor Analysis, Principal Component Analysis and Multiple Linear Regression. We then compare these approaches to more modern statistical learning approaches such as Ridge and Lasso Regression, Principal Component Regression, Partial Least Squares Regression and Regression trees in the context of disease activity index construction and validation. We assess the predictive ability of the traditional and new methods using data from the Canadian Scleroderma Research Group (CSRG) registry. The methods are first assessed and compared by limiting the diagnostic criteria to those that are included in the commonly used Scleroderma Disease Activity Score (SDAS, Valentini et al., 2001 and 2003). In our work, we found that the SDAS does not predict physician global assessment of activity very well for patients in the CSRG registry. There are important discrepancies between the performance and generability of the index as reported by Valentini et al. and the results of our analyses. Thus, we conclude with the development of a new disease activity index for Scleroderma using the methods that previously showed good properties and a wider class of predictors. In summary, we found that the Lasso Regression approach outperforms other unsupervised and supervised learning techniques for predicting our outcome variables. It automatically selects good predictors and yields accurate prediction models, both in the context of the original SDAS and the new in / La Sclérodermie est une maladie auto-immune characterisée par un épaississement et un durcissement de la peau. Similairement à d'autres maladies rhumatiques telles que le Lupus, l'activité de la maladie varie grandement dans le temps. Développer un nouvel indice d'activité pour la Sclérodermie est un passage obligé avant d'entreprendre des essais cliniques pour évaluer l'efficacité de différents traitements en plus de fournir une structure pour étudier cette maladie jusqu'ici peu connue. Dans ce mémoire, nous explorons en premier lieu des méthodes statistiques traditionnellement utilisées pour le développement d'indices d'activité telles que l'Analyse Factorielle, l'Analyse de Composantes Principales et la Régression Linéaire Multiple. Nous comparons ensuite ces approches avec des méthodes d'apprentissage statistique plus modernes pouvant être utilisées pour le développement et la validation d'indices d'activité telles que la Régression de Ridge et de Lasso, la Régression de Composantes Principales, la Régression de Moindre Carrés Partiels ainsi que les Arbres de Régression. Nous évaluons ces différentes approches en termes de leur habileté à prédire l'activité de nouveaux patients en utilisant les données du Groupe de Recherche Canadien sur la Sclérodermie (GRCS). Dans un premier temps, nous évaluons et comparons ces méthodes en limitant notre attention aux items utilisés dans l'Indice d'Activité pour la Sclérodermie (IAS, Valentini et al., 2001 et 2003). Lors de nos travaux, nous avons découvert que l'IAS ne prédit pas adéquatement l'évaluation globale de l'activité faite par le médecin membre du GRCS. Plusieurs différences quant à la performance et à la généralisation de l'indice telles que rapportées par Valentini et al. se sont révélées lors de nos analyses. Nous terminons avec la construction de notre propre indice en utilisant les méthodes qui ont démontré de bonnes capacités à prédire l'a
|
10 |
Nonparametric random fields with applications in functional imagingRohani, Farzan January 2010 (has links)
In functional imaging, we are searching for the location of a particular effect in a group of images. It is often of interest to perform a statistical test at each point of the image, and reject the null hypothesis of "no effect" where there is significant evidence to do so. For such purpose, a test statistic should be evaluated at each point of the image, resulting in a test statistic image. The test statistic image can be considered as a stochastic process or a random field, f, defined on some parameter space, T, and taking values in R. When the statistic image, f, is submitted to a threshold of level u the p-value will be the excursion probability. When f satisfies certain conditions, Random Field Theory (RFT) can be used to estimate the above excursion probability by calculating the expected Euler characteristic (EC) of the excursion sets of f. The existing RFT results give explicit formulas for E[EC(Au)] when f is a function of Gaussian random fields [26, 27]. From the "hypothesis testing" point of view, this means that the test performed at each point of the image should be parametric. Parametric tests often assume that the observations are normally distributed and this assumption does not always hold. If this normality assumption fails, the underlying random fields of our test will not be Gaussian, and consequently, the Gaussian RFT results would not be valid. / In this thesis we propose nonparametric counterparts to these parametric tests. Evaluating a nonparametric test statistic at each point of the parameter space, T, results in a random field, which we call a "nonparametric random field". The nonparametric tests used in this work are the Sign test, the Wilcoxon rank-sum test and a general linear rank test. We define the nonparametric random fields precisely, and then derive a formula for E[EC(Au)], when the parameter space is T = [a, b]. Although these results work only for one-dimensional parameter spaces,they constitute a solid first attempt and should pave the way for future generalizations. Moreover, we introduce a new application for the one-dimensional case, in localization of data types, in file type detection studies. We also study the asymptotic behavior of nonparametric random fields and show that the discrete nonparametric fields converge weakly to Gaussian fields, for which we are able to use the existing RFT results. These asymptotic results can be practically used for any dimension. We finally apply these asymptotic results to brain imaging data. / En imagerie fonctionelle, on cherche à localiser un effet particulier à l'aide d'une collection d'images. Il est souvent d'intérêt d'effectuer un test statistique à chaque point de l'image, et de rejeter l'hypothèse nulle stipulant "aucun effet" s'il y a preuve considérable en cette direction. À cette fin, une statistique-test devrait être évaluée à chaque point de l'image, résultant ainsi en une image statistique-test. L'image statistique-test peut être perçue comme étant un procédé stochastique ou un champ aléatoire, f, défini sur un espace-paramètre, T, et avec image en R. Quand l'image statistique-test, f, est soumise à un seuil de niveau u la p-valeur sera la probabilité d'excursion. Quand f satisfait certaines conditions, la Théorie des Champs Aléatoires (TCA) peut être utilisée afin d'estimer cette probabilité d'excursion en calculant l'espérance mathématique de la caractérisque d'Euler (CE) des ensembles d'excursion de f. Les résultats de la TCA déjà établis procurent des formules explicites pour E[EC(Au)] quand f est une fonction de champs gaussiens [26, 27]. De la perspective des tests d'hypothèse, ceci implique que le test effectué à chaque point de l'image devrait être paramétrique. Les tests paramétriques requièrent fréquemment que les observations soient normalement distribuées, bien que cette hypothèse ne soit pas toujours vraie. Si l'hypothèse de normalité est fausse, les champs aléatoires obtenues à partir de notre statistique-test ne sont pas gaussiens et conséquemment, les résultats de la TCA gaussiens sont invalides. / Dans cette thèse, on propose un homologue non-paramétrique aux tests paramétriques. L'évaluation d'une statistique-test nonparamétrique à chaque point de l'espace-paramètre, T, résulte en un champ aléatoire, que l'on nommera " champ aléatoire non-paramétrique. " Les tests non-paramétriques utilisés dans ce travail sont le test du signe, le test de la somme des rangs de Wilcoxon et le test de rangs linéaire général. On définit précisément le champ aléatoire non-paramétrique, pour ensuite dériver une formule pour E[EC(Au)] quand l'espace-paramètre est T = [a, b]. Bien que ces résultats soient uniquement valides pour des espaces-paramètre unidimensionels, ils constituent un premier pas important et devrait frayer la voie à de plus amples généralisations. De plus, on introduit une nouvelle application pour le cas unidimensionel, notamment concernant la localisation de types de données lors d'études de détection de types de fichiers. On étudie également le comportement asymptotique des champs aléatoires non-paramétriques et démontre que les champs aléatoires discrets converge faiblement vers des champs gaussiens, pour lesquelles les résults de la TAC sont applicables. Ces résultats asymptotiques s'avèrent utiles pour toute dimension. On applique finalement ces résultats asymptotiques à des données d'imagerie cervicale.
|
Page generated in 0.1427 seconds