201 |
Méthode de simulation avec les variables antithétiquesGatarayiha, Jean Philippe 06 1900 (has links)
Dans ce mémoire, nous travaillons sur une méthode de simulation de Monte-Carlo qui utilise des variables antithétiques pour estimer un intégrale de la fonction f(x) sur un intervalle (0,1] où f peut être une fonction monotone, non-monotone ou une autre fonction difficile à simuler.
L'idée principale de la méthode qu'on propose est de subdiviser l'intervalle (0,1] en m sections dont chacune est subdivisée en l sous intervalles. Cette technique se fait en plusieurs étapes et à chaque fois qu'on passe à l'étape supérieure la variance diminue. C'est à dire que la variance obtenue à la kième étape est plus petite que celle trouvée à la (k-1)ième étape ce qui nous permet également de rendre plus petite l'erreur d’estimation car l'estimateur de l'intégrale de f(x) sur [0,1] est sans biais. L'objectif est de trouver m, le nombre optimal de sections, qui permet de trouver cette diminution de la variance. / In this master thesis, we consider simulation methods based on antithetic variates for estimate integrales of f(x) on interval (0,1] where f is monotonic function, not a monotonic function or a function difficult to integrate.
The main idea consists in subdividing the (0,1] in m sections of which each one is subdivided in l subintervals. This method is done recursively. At each step the variance decreases, i.e. The variance obtained at the kth step is smaller than that is found at the (k-1)th step. This allows us to reduce the error in the estimation because the estimator of integrales of f(x) on interval [0,1] is unbiased. The objective is to optimize m. / Les fichiers qui accompagnent mon document ont été réalisés avec le logiciel Latex et les simulations ont été réalisés par Splus(R).
|
202 |
Sélection de modèle d'imputation à partir de modèles bayésiens hiérarchiques linéaires multivariésChagra, Djamila 06 1900 (has links)
Résumé
La technique connue comme l'imputation multiple semble être la technique la plus appropriée pour résoudre le problème de non-réponse. La littérature mentionne des méthodes qui modélisent la nature et la structure des valeurs manquantes. Une des méthodes les plus populaires est l'algorithme « Pan » de (Schafer & Yucel, 2002). Les imputations rapportées par cette méthode sont basées sur un modèle linéaire multivarié à effets mixtes pour la variable réponse. La méthode « BHLC » de (Murua et al, 2005) est une extension de « Pan » dont le modèle est bayésien hiérarchique avec groupes. Le but principal de ce travail est d'étudier le problème de sélection du modèle pour l'imputation multiple en termes d'efficacité et d'exactitude des prédictions des valeurs manquantes. Nous proposons une mesure de performance liée à la prédiction des valeurs manquantes. La mesure est une erreur quadratique moyenne reflétant la variance associée aux imputations multiples et le biais de prédiction. Nous montrons que cette mesure est plus objective que la mesure de variance de Rubin. Notre mesure est calculée en augmentant par une faible proportion le nombre de valeurs manquantes dans les données. La performance du modèle d'imputation est alors évaluée par l'erreur de prédiction associée aux valeurs manquantes. Pour étudier le problème objectivement, nous avons effectué plusieurs simulations. Les données ont été produites selon des modèles explicites différents avec des hypothèses particulières sur la structure des erreurs et la distribution a priori des valeurs manquantes. Notre étude examine si la vraie structure d'erreur des données a un effet sur la performance du choix des différentes hypothèses formulées pour le modèle d'imputation. Nous avons conclu que la réponse est oui. De plus, le choix de la distribution des valeurs manquantes semble être le facteur le plus important pour l'exactitude des prédictions. En général, les choix les plus efficaces pour de bonnes imputations sont une distribution de student avec inégalité des variances dans les groupes pour la structure des erreurs et une loi a priori choisie pour les valeurs manquantes est la loi normale avec moyenne et variance empirique des données observées, ou celle régularisé avec grande variabilité. Finalement, nous avons appliqué nos idées à un cas réel traitant un problème de santé.
Mots clés : valeurs manquantes, imputations multiples, modèle linéaire bayésien hiérarchique, modèle à effets mixtes. / Abstract
The technique known as multiple imputation seems to be the most suitable technique for solving the problem of non-response. The literature mentions methods that models the nature and structure of missing values. One of the most popular methods is the PAN algorithm of Schafer and Yucel (2002). The imputations yielded by this method are based on a multivariate linear mixed-effects model for the response variable. A Bayesian hierarchical clustered and more flexible extension of PAN is given by the BHLC model of Murua et al. (2005). The main goal of this work is to study the problem of model selection for multiple imputation in terms of efficiency and accuracy of missing-value predictions. We propose a measure of performance linked to the prediction of missing values. The measure is a mean squared error, and hence in addition to the variance associated to the multiple imputations, it includes a measure of bias in the prediction. We show that this measure is more objective than the most common variance measure of Rubin. Our measure is computed by incrementing by a small proportion the number of missing values in the data and supposing that those values are also missing. The performance of the imputation model is then assessed through the prediction error associated to these pseudo missing values. In order to study the problem objectively, we have devised several simulations. Data were generated according to different explicit models that assumed particular error structures. Several missing-value prior distributions as well as error-term distributions are then hypothesized. Our study investigates if the true error structure of the data has an effect on the performance of the different hypothesized choices for the imputation model. We concluded that the answer is yes. Moreover, the choice of missing-value prior distribution seems to be the most important factor for accuracy of predictions. In general, the most effective choices for good imputations are a t-Student distribution with different cluster variances for the error-term, and a missing-value Normal prior with data-driven mean and variance, or a missing-value regularizing Normal prior with large variance (a ridge-regression-like prior). Finally, we have applied our ideas to a real problem dealing with health outcome observations associated to a large number of countries around the world.
Keywords: Missing values, multiple imputation, Bayesian hierarchical linear model, mixed effects model. / Les logiciels utilisés sont Splus et R.
|
203 |
Analyse bayésienne et classification pour modèles continus modifiés à zéroLabrecque-Synnott, Félix 08 1900 (has links)
Les modèles à sur-représentation de zéros discrets et continus ont une large gamme d'applications et leurs propriétés sont bien connues. Bien qu'il existe des travaux portant sur les modèles discrets à sous-représentation de zéro et modifiés à zéro, la formulation usuelle des modèles continus à sur-représentation -- un mélange entre une densité continue et une masse de Dirac -- empêche de les généraliser afin de couvrir le cas de la sous-représentation de zéros. Une formulation alternative des modèles continus à sur-représentation de zéros, pouvant aisément être généralisée au cas de la sous-représentation, est présentée ici. L'estimation est d'abord abordée sous le paradigme classique, et plusieurs méthodes d'obtention des estimateurs du maximum de vraisemblance sont proposées. Le problème de l'estimation ponctuelle est également considéré du point de vue bayésien. Des tests d'hypothèses classiques et bayésiens visant à déterminer si des données sont à sur- ou sous-représentation de zéros sont présentées. Les méthodes d'estimation et de tests sont aussi évaluées au moyen d'études de simulation et appliquées à des données de précipitation agrégées. Les diverses méthodes s'accordent sur la sous-représentation de zéros des données, démontrant la pertinence du modèle proposé.
Nous considérons ensuite la classification d'échantillons de données à sous-représentation de zéros. De telles données étant fortement non normales, il est possible de croire que les méthodes courantes de détermination du nombre de grappes s'avèrent peu performantes. Nous affirmons que la classification bayésienne, basée sur la distribution marginale des observations, tiendrait compte des particularités du modèle, ce qui se traduirait par une meilleure performance. Plusieurs méthodes de classification sont comparées au moyen d'une étude de simulation, et la méthode proposée est appliquée à des données de précipitation agrégées provenant de 28 stations de mesure en Colombie-Britannique. / Zero-inflated models, both discrete and continuous, have a large variety of applications and fairly well-known properties. Some work has been done on zero-deflated and zero-modified discrete models. The usual formulation of continuous zero-inflated models -- a mixture between a continuous density and a Dirac mass at zero -- precludes their extension to cover the zero-deflated case. We introduce an alternative formulation of zero-inflated continuous models, along with a natural extension to the zero-deflated case. Parameter estimation is first studied within the classical frequentist framework. Several methods for obtaining the maximum likelihood estimators are proposed. The problem of point estimation is considered from a Bayesian point of view. Hypothesis testing, aiming at determining whether data are zero-inflated, zero-deflated or not zero-modified, is also considered under both the classical and Bayesian paradigms. The proposed estimation and testing methods are assessed through simulation studies and applied to aggregated rainfall data. The data is shown to be zero-deflated, demonstrating the relevance of the proposed model.
We next consider the clustering of samples of zero-deflated data. Such data present strong non-normality. Therefore, the usual methods for determining the number of clusters are expected to perform poorly. We argue that Bayesian clustering based on the marginal distribution of the observations would take into account the particularities of the model and exhibit better performance. Several clustering methods are compared using a simulation study. The proposed method is applied to aggregated rainfall data sampled from 28 measuring stations in British Columbia.
|
204 |
Imputation en présence de données contenant des zérosNambeu, Christian O. 12 1900 (has links)
L’imputation simple est très souvent utilisée dans les enquêtes pour compenser
pour la non-réponse partielle. Dans certaines situations, la variable nécessitant
l’imputation prend des valeurs nulles un très grand nombre de fois. Ceci est très
fréquent dans les enquêtes entreprises qui collectent les variables économiques.
Dans ce mémoire, nous étudions les propriétés de deux méthodes d’imputation
souvent utilisées en pratique et nous montrons qu’elles produisent des estimateurs
imputés biaisés en général. Motivé par un modèle de mélange, nous proposons
trois méthodes d’imputation et étudions leurs propriétés en termes de biais.
Pour ces méthodes d’imputation, nous considérons un estimateur jackknife de la
variance convergent vers la vraie variance, sous l’hypothèse que la fraction de
sondage est négligeable. Finalement, nous effectuons une étude par simulation
pour étudier la performance des estimateurs ponctuels et de variance en termes
de biais et d’erreur quadratique moyenne. / Single imputation is often used in surveys to compensate for item nonresponse.
In some cases, the variable requiring imputation contains a large amount
of zeroes. This is especially frequent in business surveys that collect economic
variables. In this thesis, we study the properties of two imputation procedures
frequently used in practice and show that they lead to biased estimators, in general.
Motivated by a mixture regression model, we then propose three imputation
procedures and study their properties in terms of bias. For the proposed imputation
procedures, we consider a jackknife variance estimator that is consistent
for the true variance, provided the overall sampling fraction is negligible. Finally,
we perform a simulation study to evaluate the performance of point and variance
estimators in terms of relative bias and mean square error.
|
205 |
Recyclage des candidats dans l'algorithme Metropolis à essais multiplesGroiez, Assia 03 1900 (has links)
Les méthodes de Monte Carlo par chaînes de Markov (MCCM) sont des méthodes
servant à échantillonner à partir de distributions de probabilité. Ces techniques
se basent sur le parcours de chaînes de Markov ayant pour lois stationnaires
les distributions à échantillonner. Étant donné leur facilité d’application, elles
constituent une des approches les plus utilisées dans la communauté statistique,
et tout particulièrement en analyse bayésienne. Ce sont des outils très populaires
pour l’échantillonnage de lois de probabilité complexes et/ou en grandes dimensions.
Depuis l’apparition de la première méthode MCCM en 1953 (la méthode de
Metropolis, voir [10]), l’intérêt pour ces méthodes, ainsi que l’éventail d’algorithmes
disponibles ne cessent de s’accroître d’une année à l’autre.
Bien que l’algorithme Metropolis-Hastings (voir [8]) puisse être considéré
comme l’un des algorithmes de Monte Carlo par chaînes de Markov les plus généraux,
il est aussi l’un des plus simples à comprendre et à expliquer, ce qui en fait
un algorithme idéal pour débuter. Il a été sujet de développement par plusieurs
chercheurs. L’algorithme Metropolis à essais multiples (MTM), introduit dans la
littérature statistique par [9], est considéré comme un développement intéressant
dans ce domaine, mais malheureusement son implémentation est très coûteuse
(en termes de temps).
Récemment, un nouvel algorithme a été développé par [1]. Il s’agit de l’algorithme
Metropolis à essais multiples revisité (MTM revisité), qui définit la méthode
MTM standard mentionnée précédemment dans le cadre de l’algorithme
Metropolis-Hastings sur un espace étendu.
L’objectif de ce travail est, en premier lieu, de présenter les méthodes MCCM,
et par la suite d’étudier et d’analyser les algorithmes Metropolis-Hastings ainsi
que le MTM standard afin de permettre aux lecteurs une meilleure compréhension
de l’implémentation de ces méthodes. Un deuxième objectif est d’étudier les
perspectives ainsi que les inconvénients de l’algorithme MTM revisité afin de voir
s’il répond aux attentes de la communauté statistique. Enfin, nous tentons de combattre le problème de sédentarité de l’algorithme MTM revisité, ce qui donne
lieu à un tout nouvel algorithme. Ce nouvel algorithme performe bien lorsque le
nombre de candidats générés à chaque itérations est petit, mais sa performance
se dégrade à mesure que ce nombre de candidats croît. / Markov Chain Monte Carlo (MCMC) algorithms are methods that are used
for sampling from probability distributions. These tools are based on the path
of a Markov chain whose stationary distribution is the distribution to be sampled.
Given their relative ease of application, they are one of the most popular
approaches in the statistical community, especially in Bayesian analysis. These
methods are very popular for sampling from complex and/or high dimensional
probability distributions.
Since the appearance of the first MCMC method in 1953 (the Metropolis algorithm,
see [10]), the interest for these methods, as well as the range of algorithms
available, continue to increase from one year to another.
Although the Metropolis-Hastings algorithm (see [8]) can be considered as
one of the most general Markov chain Monte Carlo algorithms, it is also one of
the easiest to understand and explain, making it an ideal algorithm for beginners.
As such, it has been studied by several researchers. The multiple-try Metropolis
(MTM) algorithm , proposed by [9], is considered as one interesting development
in this field, but unfortunately its implementation is quite expensive (in terms of
time).
Recently, a new algorithm was developed by [1]. This method is named the revisited
multiple-try Metropolis algorithm (MTM revisited), which is obtained by
expressing the MTM method as a Metropolis-Hastings algorithm on an extended
space.
The objective of this work is to first present MCMC methods, and subsequently
study and analyze the Metropolis-Hastings and standard MTM algorithms
to allow readers a better perspective on the implementation of these methods.
A second objective is to explore the opportunities and disadvantages of
the revisited MTM algorithm to see if it meets the expectations of the statistical
community. We finally attempt to fight the sedentarity of the revisited MTM algorithm,
which leads to a new algorithm. The latter performs efficiently when the
number of generated candidates in a given iteration is small, but the performance of this new algorithm then deteriorates as the number of candidates in a given
iteration increases.
|
206 |
Estimation utilisant les polynômes de BernsteinTchouake Tchuiguep, Hervé 03 1900 (has links)
Ce mémoire porte sur la présentation des estimateurs de Bernstein qui sont des alternatives récentes aux différents estimateurs classiques de fonctions de répartition et de densité. Plus précisément, nous étudions leurs différentes propriétés et les comparons à celles de la fonction de répartition empirique et à celles de l'estimateur par la méthode du noyau. Nous déterminons une expression asymptotique des deux premiers moments de l'estimateur de Bernstein pour la fonction de répartition. Comme pour les estimateurs classiques, nous montrons que cet estimateur vérifie la propriété de Chung-Smirnov sous certaines conditions. Nous montrons ensuite que l'estimateur de Bernstein est meilleur que la fonction de répartition empirique en terme d'erreur quadratique moyenne. En s'intéressant au comportement asymptotique des estimateurs de Bernstein, pour un choix convenable du degré du polynôme, nous montrons que ces estimateurs sont asymptotiquement normaux. Des études numériques sur quelques distributions classiques nous permettent de confirmer que les estimateurs de Bernstein peuvent être préférables aux estimateurs classiques. / This thesis focuses on the presentation of the Bernstein estimators which are recent alternatives to conventional estimators of the distribution function and density. More precisely, we study their various properties and compare them with the empirical distribution function and the kernel method estimators. We determine an asymptotic expression of the first two moments of the Bernstein estimator for the distribution function. As the conventional estimators, we show that this estimator satisfies the Chung-Smirnov property under conditions. We then show that the Bernstein estimator is better than the empirical distribution function in terms of mean squared error. We are interested in the asymptotic behavior of Bernstein estimators, for a suitable choice of the degree of the polynomial, we show that the Bernstein estimators are asymptotically normal. Numerical studies on some classical distributions confirm that the Bernstein estimators may be preferable to conventional estimators.
|
207 |
Convergence d’un algorithme de type Metropolis pour une distribution cible bimodaleLalancette, Michaël 07 1900 (has links)
Nous présentons dans ce mémoire un nouvel algorithme de type Metropolis-Hastings dans lequel la distribution instrumentale a été conçue pour l'estimation de distributions cibles bimodales. En fait, cet algorithme peut être vu comme une modification de l'algorithme Metropolis de type marche aléatoire habituel auquel on ajoute quelques incréments de grande envergure à des moments aléatoires à travers la simulation. Le but de ces grands incréments est de quitter le mode de la distribution cible où l'on se trouve et de trouver l'autre mode.
Par la suite, nous présentons puis démontrons un résultat de convergence faible qui nous assure que, lorsque la dimension de la distribution cible croît vers l'infini, la chaîne de Markov engendrée par l'algorithme converge vers un certain processus stochastique qui est continu presque partout. L'idée est similaire à ce qui a été fait par Roberts et al. (1997), mais la technique utilisée pour la démonstration des résultats est basée sur ce qui a été fait par Bédard (2006).
Nous proposons enfin une stratégie pour trouver la paramétrisation optimale de notre nouvel algorithme afin de maximiser la vitesse d'exploration locale des modes d'une distribution cible donnée tout en estimant bien la pondération relative de chaque mode. Tel que dans l'approche traditionnellement utilisée pour ce genre d'analyse, notre stratégie passe par l'optimisation de la vitesse d'exploration du processus limite.
Finalement, nous présentons des exemples numériques d'implémentation de l'algorithme sur certaines distributions cibles, dont une ne respecte pas les conditions du résultat théorique présenté. / In this thesis, we present a new Metropolis-Hastings algorithm whose proposal distribution has been designed to successfully estimate bimodal target distributions. This sampler may be seen as a variant of the usual random walk Metropolis sampler in which we propose large candidate steps at random times. The goal of these large candidate steps is to leave the actual mode of the target distribution in order to find the second one.
We then state and prove a weak convergence result stipulating that if we let the dimension of the target distribution increase to infinity, the Markov chain yielded by the algorithm converges to a certain stochastic process that is almost everywhere continuous. The theoretical result is in the flavour of Roberts et al. (1997), while the method of proof is similar to that found in Bédard (2006).
We propose a strategy for optimally parameterizing our new sampler. This strategy aims at optimizing local exploration of the target modes, while correctly estimating the relative weight of each mode. As is traditionally done in the statistical literature, our approach consists of optimizing the limiting process rather than the finite-dimensional Markov chain.
Finally, we illustrate our method via numerical examples on some target distributions, one of which violates the regularity conditions of the theoretical result.
|
208 |
Estimation simplifiée de la variance pour des plans complexesLefebvre, Isabelle 12 1900 (has links)
En présence de plans de sondage complexes, les méthodes classiques d’estimation de la variance présentent certains défis. En effet, les estimateurs de variance usuels requièrent les probabilités d’inclusion d’ordre deux qui peuvent être complexes à obtenir pour certains plans de sondage. De plus, pour des raisons de confidentialité, les fichiers externes de microdonnées n’incluent généralement pas les probabilités d’inclusion d’ordre deux (souvent sous la forme de poids bootstrap). En s’inspirant d’une approche développée par Ohlsson (1998) dans le contexte de l’échantillonnage de Poisson séquentiel, nous proposons un estimateur ne requérant que les probabilités d’inclusion d’ordre un. L’idée est d’approximer la stratégie utilisée par l’enquête (consistant du choix d’un plan de sondage et d’un estimateur) par une stratégie équivalente dont le plan de sondage est le plan de Poisson. Nous discuterons des plans proportionnels à la taille avec ou sans grappes. Les résultats d’une étude par simulation seront présentés. / In a complex design framework, standard variance estimation methods entail substantial challenges. As we know, conventional variance estimators involve second order inclusion probabilities, which can be difficult to compute for some sampling designs. Also, confidentiality standards generally prevent second order inclusion probabilities to be included in external microdata files (often in the form of bootstrap weights). Based on Ohlsson’s sequential Poisson sampling method
(1998), we suggest a simplified estimator for which we only need first order inclusion probabilities. The idea is to approximate a survey strategy (which consists of a sampling design and an estimator) by an equivalent strategy for which a Poisson sampling design is used. We will discuss proportional to size sampling and proportional to size cluster sampling. Results of a simulation study will be presented.
|
209 |
Étude d’algorithmes de simulation par chaînes de Markov non réversiblesHuguet, Guillaume 10 1900 (has links)
Les méthodes de Monte Carlo par chaînes de Markov (MCMC) utilisent généralement des
chaînes de Markov réversibles. Jusqu’à récemment, une grande partie de la recherche théorique
sur les chaînes de Markov concernait ce type de chaînes, notamment les théorèmes de
Peskun (1973) et de Tierney (1998) qui permettent d’ordonner les variances asymptotiques
de deux estimateurs issus de chaînes réversibles différentes.
Dans ce mémoire nous analysons des algorithmes simulants des chaînes qui ne respectent
pas cette condition. Nous parlons alors de chaînes non réversibles. Expérimentalement, ces
chaînes produisent souvent des estimateurs avec une variance asymptotique plus faible et/ou
une convergence plus rapide. Nous présentons deux algorithmes, soit l’algorithme de marche
aléatoire guidée (GRW) par Gustafson (1998) et l’algorithme de discrete bouncy particle
sampler (DBPS) par Sherlock et Thiery (2017). Pour ces deux algorithmes, nous comparons
expérimentalement la variance asymptotique d’un estimateur avec la variance asymptotique
en utilisant l’algorithme de Metropolis-Hastings.
Récemment, un cadre théorique a été introduit par Andrieu et Livingstone (2019) pour
ordonner les variances asymptotiques d’une certaine classe de chaînes non réversibles. Nous
présentons leur analyse de GRW. De plus, nous montrons que le DBPS est inclus dans
ce cadre théorique. Nous démontrons que la variance asymptotique d’un estimateur peut
théoriquement diminuer en ajoutant des propositions à cet algorithme. Finalement, nous
proposons deux modifications au DBPS.
Tout au long du mémoire, nous serons intéressés par des chaînes issues de propositions
déterministes. Nous montrons comment construire l’algorithme du delayed rejection avec
des fonctions déterministes et son équivalent dans le cadre de Andrieu et Livingstone (2019). / Markov chain Monte Carlo (MCMC) methods commonly use chains that respect the detailed
balance condition. These chains are called reversible. Most of the theory developed for
MCMC evolves around those particular chains. Peskun (1973) and Tierney (1998) provided
useful theorems on the ordering of the asymptotic variances for two estimators produced by
two different reversible chains.
In this thesis, we are interested in non-reversible chains, which are chains that don’t
respect the detailed balance condition. We present algorithms that simulate non-reversible
chains, mainly the Guided Random Walk (GRW) by Gustafson (1998) and the Discrete
Bouncy Particle Sampler (DBPS) by Sherlock and Thiery (2017). For both algorithms, we
compare the asymptotic variance of estimators with the ones produced by the Metropolis-
Hastings algorithm.
We present a recent theoretical framework introduced by Andrieu and Livingstone (2019)
and their analysis of the GRW. We then show that the DBPS is part of this framework
and present an analysis on the asymptotic variance of estimators. Their main theorem
can provide an ordering of the asymptotic variances of two estimators resulting from nonreversible
chains. We show that an estimator could have a lower asymptotic variance by
adding propositions to the DBPS. We then present empirical results of a modified DBPS.
Through the thesis we will mostly be interested in chains that are produced by deterministic
proposals. We show a general construction of the delayed rejection algorithm using
deterministic proposals and one possible equivalent for non-reversible chains.
|
210 |
Développements théoriques et empiriques des tests lisses d'ajustement des modèles ARMA vectorielsDesrosiers, Gabriel 12 1900 (has links)
Lors de la validation des modèles de séries chronologiques, une hypothèse qui peut s'avérer importante porte sur la loi des données. L'approche préconisée dans ce mémoire utilise les tests lisses d'ajustement. Ce mémoire apporte des développements théoriques et empiriques des tests lisses pour les modèles autorégressifs moyennes mobiles (ARMA) vectoriels. Dans des travaux précédents, Ducharme et Lafaye de Micheaux (2004) ont développé des tests lisses d'ajustement reposant sur les résidus des modèles ARMA univariés. Tagne Tatsinkou (2016) a généralisé les travaux dans le cadre des modèles ARMA vectoriels (VARMA), qui s'avèrent potentiellement utiles dans les applications avec données réelles. Des considérations particulières au cas multivarié, telles que les paramétrisations structurées dans les modèles VARMA sont abordées.
Les travaux de Tagne Tatsinkou (2016) sont complétés selon les angles théoriques et des études de simulations additionnelles sont considérées. Les nouveaux tests lisses reposent sur des familles de polynômes orthogonaux. Dans cette étude, une attention particulière est accordée aux familles de Legendre et d'Hermite. La contribution théorique majeure est une preuve complète que la statistique de test est invariante aux transformations linéaires affines lorsque la famille d'Hermite est adoptée. Les résultats de Tagne Tatsinkou (2016) représentent une première étape importante, mais ils sont incomplets quant à l'utilisation des résidus du modèle.
Les tests proposés reposent sur une famille de densités sous les hypothèses alternatives d'ordre k. La sélection automatique de l'ordre maximal, basée sur les résultats de Ledwina (1994), est discutée. La sélection automatique est également implantée dans nos études de simulations.
Nos études de simulations incluent des modèles bivariés et un modèle trivarié. Dans une étude de niveaux, on constate la bonne performance des tests lisses. Dans une étude de puissance, plusieurs compétiteurs ont été considérés. Il est trouvé que les tests lisses affichent des propriétés intéressantes de puissance lorsque les données proviennent de modèles VARMA avec des innovations dans la classe de lois normales contaminées. / When validating time series models, the distribution of the observations represents a potentially important assumption. In this Master's Thesis, the advocated approach uses smooth goodness-of-fit test statistics. This research provides theoretical and empirical developments of the smooth goodness of fit tests for vector autoregressive moving average models (VARMA). In previous work, Ducharme and Lafaye de Micheaux (2004) developed smooth goodness-of-fit tests designed for the residuals of univariate ARMA models. Later, Tagne Tatsinkou (2016) generalized the work within the framework of vector ARMA (VARMA) models, which prove to be potentially useful in real applications. Structured parameterizations, which are considerations specific to the multivariate case, are discussed.
The works of Tagne Tatsinkou (2016) are completed, according to theoretical angles, and additional simulation studies are also considered. The new smooth tests are based on families of orthogonal polynomials. In this study, special attention is given to Legendre's family and Hermite's family. The major theoretical contribution in this work is a complete proof that the test statistic is invariant to linear affine transformations when the Hermite family is adopted. The results of Tagne Tatsinkou (2016) represent an important first step, but they were incomplete with respect to the use of the model residuals.
The proposed tests are based on a family of densities under alternative hypotheses of order k. A data driven method to choose the maximal order, based on the results of Ledwina (1994), is discussed. In our simulation studies, the automatic selection is also implemented.
Our simulation studies include bivariate models and a trivariate model. In the level study, we can appreciate the good performance of the smooth tests. In the power study, several competitors were considered. We found that the smooth tests displayed interesting power properties when the data came from VARMA models with innovations in the class of contaminated normal distributions.
|
Page generated in 0.0225 seconds