O modelo de regressão linear com erros na família de distribuições t-assimétrica, que contempla as distribuições normal, t-Student e normal assimétrica como casos particulares, tem sido considerado uma alternativa robusta ao modelo normal. Para concluir qual modelo é, de fato, mais robusto, é importante ter um método tanto para identificar uma observação como discrepante quanto aferir a influência que esta observação terá em nossas estimativas. Nos modelos de regressão bayesianos, uma das medidas de identificação de observações discrepantes mais conhecidas é a conditional predictive ordinate (CPO). Analisamos a influência dessas observações nas estimativas tanto de forma global, isto é, no vetor completo de parâmetros do modelo quanto de forma marginal, apenas nos parâmetros regressores. Consideramos a norma L1 e a divergência Kullback-Leibler como medidas de influência das observações nas estimativas dos parâmetros. Além disso, encontramos as distribuições condicionais completas de todos os modelos para o uso do algoritmo de Gibbs obtendo, assim, amostras da distribuição a posteriori dos parâmetros. Tais amostras são utilizadas no calculo do CPO e das medidas de divergência estudadas. A principal contribuição deste trabalho é obter as medidas de influência global e marginal calculadas para os modelos t-Student, normal assimétrico e t-assimétrico. Na aplicação em dados reais originais e contaminados, observamos que, em geral, o modelo t-Student é uma alternativa robusta ao modelo normal. Por outro lado, o modelo t-assimétrico não é, em geral, uma alternativa robusta ao modelo normal. A capacidade de robustificação do modelo t-assimétrico está diretamente ligada à posição do resíduo do ponto discrepante em relação a distribuição dos resíduos. / The linear regression model with errors in the skew-t family, which includes the normal, Student-t and skew normal distributions as particular cases, has been considered as a robust alternative to the normal model. To conclude which model is in fact more robust its important to have a method to identify an observation as outlier, as well as to assess the influence of this observation in the estimates. In bayesian regression models, one of the most known measures to identify an outlier is the conditional predictive ordinate (CPO). We analyze the influence of these observations on the estimates both in a global way, that is, in the complete parameter vector of the model and in a marginal way, only in the regressor parameters. We consider the L1 norm and the Kullback-Leibler divergence as influence measures of the observations on the parameter estimates. Using the bayesian approach, we find the complete conditional distributions of all the models for the usage of the Gibbs sampler thus obtaining samples of the posterior distribution of the parameters. These samples are used in the calculation of the CPO and the studied divergence measures. The major contribution of this work is to present the global and marginal influence measures calculated for the Student-t, skew normal and skew-t models. In the application on original and contaminated real data, we observed that in general the Student-t model is a robust alternative to the normal model. However, the skew-t model is not a robust alternative to the normal model. The robustification capability of the skew-t model is directly linked to the position of the residual of the outlier in relation to the distribution of the residuals.
Identifer | oai:union.ndltd.org:usp.br/oai:teses.usp.br:tde-10082017-005536 |
Date | 05 May 2017 |
Creators | Silva, Diego Wesllen da |
Contributors | Branco, Marcia D Elia |
Publisher | Biblioteca Digitais de Teses e Dissertações da USP |
Source Sets | Universidade de São Paulo |
Language | Portuguese |
Detected Language | Portuguese |
Type | Dissertação de Mestrado |
Format | application/pdf |
Rights | Liberar o conteúdo para acesso público. |
Page generated in 0.0025 seconds