[pt] A seleção de variáveis em modelos estatísticos é um problema importante,
para o qual diferentes soluções foram propostas. Tradicionalmente, pode-se
escolher o conjunto de variáveis explicativas usando critérios de informação ou
informação à priori, mas o número total de modelos a serem estimados cresce
exponencialmente a medida que o número de variáveis candidatas aumenta. Um
problema adicional é a presença de mais variáveis candidatas que observações.
Nesta tese nós estudamos diversos aspectos do problema de seleção de variáveis.
No Capítulo 2, comparamos duas metodologias para regressão linear:
Autometrics, que é uma abordagem geral para específico (GETS) baseada em
testes estatísticos, e LASSO, um método de regularização. Diferentes cenários
foram contemplados para a comparação no experimento de simulação, variando o
tamanho da amostra, o número de variáveis relevantes e o número de variáveis
candidatas. Em uma aplicação a dados reais, os métodos foram comparados para a
previsão do PIB dos EUA. No Capítulo 3, introduzimos uma metodologia para
seleção de variáveis em modelos regressivos e autoregressivos de transição suave
(STR e STAR) baseada na regularização do LASSO. Apresentamos uma
abordagem direta e uma escalonada (stepwise). Ambos os métodos foram testados
com exercícios de simulação exaustivos e uma aplicação a dados genéticos.
Finalmente, no Capítulo 4, propomos um critério de mínimos quadrados
penalizado baseado na penalidade l1 do LASSO e no CVaR (Conditional Value
at Risk) dos erros da regressão out-of-sample. Este é um problema de otimização
quadrática resolvido pelo método de pontos interiores. Em um estudo de
simulação usando modelos de regressão linear, mostra-se que o método proposto
apresenta performance superior a do LASSO quando os dados são contaminados
por outliers, mostrando ser um método robusto de estimação e seleção de
variáveis. / [en] Variable selection in statistical models is an important problem, for which
many different solutions have been proposed. Traditionally, one can choose the
set of explanatory variables using information criteria or prior information, but the
total number of models to evaluate increases exponentially as the number of
candidate variables increases. One additional problem is the presence of more
candidate variables than observations. In this thesis we study several aspects of
the variable selection problem. First, we compare two procedures for linear
regression: Autometrics, which is a general-to-specific (GETS) approach based on
statistical tests, and LASSO, a shrinkage method. Different scenarios were
contemplated for the comparison in a simulation experiment, varying the sample
size, the number of relevant variables and the number of candidate variables. In a
real data application, we compare the methods for GDP forecasting. In a second
part, we introduce a variable selection methodology for smooth transition
regressive (STR) and autoregressive (STAR) models based on LASSO
regularization. We present a direct and a stepwise approach. Both methods are
tested with extensive simulation exercises and an application to genetic data.
Finally, we introduce a penalized least square criterion based on the LASSO l1-
penalty and the CVaR (Conditional Value at Risk) of the out-of-sample
regression errors. This is a quadratic optimization problem solved by interior point
methods. In a simulation study in a linear regression framework, we show that the
proposed method outperforms the LASSO when the data is contaminated by
outliers, showing to be a robust method of estimation and variable selection.
Identifer | oai:union.ndltd.org:puc-rio.br/oai:MAXWELL.puc-rio.br:26582 |
Date | 10 June 2016 |
Creators | CAMILA ROSA EPPRECHT |
Contributors | ALVARO DE LIMA VEIGA FILHO |
Publisher | MAXWELL |
Source Sets | PUC Rio |
Language | English |
Detected Language | Portuguese |
Type | TEXTO |
Page generated in 0.0019 seconds