1 |
[en] FORECASTING INDUSTRIAL PRODUCTION IN BRAZIL USING MANY PREDICTORS / [pt] PREVENDO A PRODUÇÃO INDUSTRIAL BRASILEIRA USANDO MUITOS PREDITORESLEONARDO DE PAOLI CARDOSO DE CASTRO 23 December 2016 (has links)
[pt] Nesse artigo, utilizamos o índice de produção industrial brasileira para
comparar a capacidade preditiva de regressões irrestritas e regressões sujeitas
a penalidades usando muitos preditores. Focamos no least absolute
shrinkage and selection operator (LASSO) e suas extensões. Propomos também
uma combinação entre métodos de encolhimento e um algorítmo de
seleção de variáveis (PVSA). A performance desses métodos foi comparada
com a de um modelo de fatores. Nosso estudo apresenta três principais resultados.
Em primeiro lugar, os modelos baseados no LASSO apresentaram
performance superior a do modelo usado como benchmark em projeções de
curto prazo. Segundo, o PSVA teve desempenho superior ao benchmark independente
do horizonte de projeção. Finalmente, as variáveis com a maior
capacidade preditiva foram consistentemente selecionadas pelos métodos
considerados. Como esperado, essas variáveis são intimamente relacionadas
à atividade industrial brasileira. Exemplos incluem a produção de veículos
e a expedição de papelão. / [en] In this article we compared the forecasting accuracy of unrestricted
and penalized regressions using many predictors for the Brazilian industrial
production index. We focused on the least absolute shrinkage and selection
operator (Lasso) and its extensions. We also proposed a combination
between penalized regressions and a variable search algorithm (PVSA).
Factor-based models were used as our benchmark specification. Our study
produced three main findings. First, Lasso-based models over-performed the
benchmark in short-term forecasts. Second, the PSVA over-performed the
proposed benchmark, regardless of the horizon. Finally, the best predictive
variables are consistently chosen by all methods considered. As expected,
these variables are closely related to Brazilian industrial activity. Examples
include vehicle production and cardboard production.
|
2 |
[en] GETTING THE MOST OUT OF THE WISDOM OF THE CROWDS: IMPROVING FORECASTING PERFORMANCE THROUGH ENSEMBLE METHODS AND VARIABLE SELECTION TECHNIQUES / [pt] TIRANDO O MÁXIMO PROVEITO DA SABEDORIA DAS MASSAS: APRIMORANDO PREVISÕES POR MEIO DE MÉTODOS DE ENSEMBLE E TÉCNICAS DE SELEÇÃO DE VARIÁVEISERICK MEIRA DE OLIVEIRA 03 June 2020 (has links)
[pt] A presente pesquisa tem como foco o desenvolvimento de abordagens híbridas que combinam algoritmos de aprendizado de máquina baseados em conjuntos (ensembles) e técnicas de modelagem e previsão de séries temporais. A pesquisa também inclui o desenvolvimento de heurísticas inteligentes de seleção, isto é, procedimentos capazes de selecionar, dentre o pool de preditores originados por meio dos métodos de conjunto, aqueles com os maiores potenciais de originar previsões agregadas mais acuradas. A agregação de funcionalidades de diferentes métodos visa à obtenção de previsões mais acuradas sobre o comportamento de uma vasta gama de eventos/séries temporais.
A tese está dividida em uma sequência de ensaios. Como primeiro esforço, propôsse um método alternativo de geração de conjunto de previsões, o que resultou em previsões satisfatórias para certos tipos de séries temporais de consumo de energia elétrica. A segunda iniciativa consistiu na proposição de uma nova abordagem de previsão combinando algoritmos de Bootstrap Aggregation (Bagging) e técnicas de regularização para se obter previsões acuradas de consumo de gás natural e de abastecimento de energia
em diferentes países. Uma nova variante de Bagging, na qual a construção do conjunto de classificadores é feita por meio de uma reamostragem de máxima entropia, também foi proposta. A terceira contribuição trouxe uma série de inovações na maneira pela qual são conduzidas as rotinas de seleção e combinação de modelos de previsão. Os ganhos em acurácia oriundos dos procedimentos propostos são demonstrados por meio de um experimento extensivo utilizando séries das Competições M1, M3 e M4. / [en] This research focuses on the development of hybrid approaches that combine ensemble-based supervised machine learning techniques and time series methods to obtain accurate forecasts for a wide range of variables and processes. It also includes the development of smart selection heuristics, i.e., procedures that can select, among the pool of forecasts originated via ensemble methods, those with the greatest potential of delivering accurate forecasts after aggregation. Such combinatorial approaches allow the
forecasting practitioner to deal with different stylized facts that may be present in time series, such as nonlinearities, stochastic components, heteroscedasticity, structural breaks, among others, and deliver satisfactory forecasting results, outperforming benchmarks on many occasions.
The thesis is divided into a series of essays. The first endeavor proposed an alternative method to generate ensemble forecasts which delivered satisfactory forecasting results for certain types of electricity consumption time series. In a second effort, a novel forecasting approach combining Bootstrap aggregating (Bagging) algorithms, time series methods and regularization techniques was introduced to obtain accurate forecasts of natural gas consumption and energy supplied series across different countries. A new
variant of Bagging, in which the set of classifiers is built by means of a Maximum Entropy Bootstrap routine, was also put forth. The third contribution brought a series of innovations to model selection and model combination in forecasting routines. Gains in accuracy for both point forecasts and prediction intervals were demonstrated by means of an extensive empirical experiment conducted on a wide range of series from the M- Competitions.
|
3 |
[en] VARIABLE SELECTION FOR LINEAR AND SMOOTH TRANSITION MODELS VIA LASSO: COMPARISONS, APPLICATIONS AND NEW METHODOLOGY / [pt] SELEÇÃO DE VARIÁVEIS PARA MODELOS LINEARES E DE TRANSIÇÃO SUAVE VIA LASSO: COMPARAÇÕES, APLICAÇÕES E NOVA METODOLOGIACAMILA ROSA EPPRECHT 10 June 2016 (has links)
[pt] A seleção de variáveis em modelos estatísticos é um problema importante,
para o qual diferentes soluções foram propostas. Tradicionalmente, pode-se
escolher o conjunto de variáveis explicativas usando critérios de informação ou
informação à priori, mas o número total de modelos a serem estimados cresce
exponencialmente a medida que o número de variáveis candidatas aumenta. Um
problema adicional é a presença de mais variáveis candidatas que observações.
Nesta tese nós estudamos diversos aspectos do problema de seleção de variáveis.
No Capítulo 2, comparamos duas metodologias para regressão linear:
Autometrics, que é uma abordagem geral para específico (GETS) baseada em
testes estatísticos, e LASSO, um método de regularização. Diferentes cenários
foram contemplados para a comparação no experimento de simulação, variando o
tamanho da amostra, o número de variáveis relevantes e o número de variáveis
candidatas. Em uma aplicação a dados reais, os métodos foram comparados para a
previsão do PIB dos EUA. No Capítulo 3, introduzimos uma metodologia para
seleção de variáveis em modelos regressivos e autoregressivos de transição suave
(STR e STAR) baseada na regularização do LASSO. Apresentamos uma
abordagem direta e uma escalonada (stepwise). Ambos os métodos foram testados
com exercícios de simulação exaustivos e uma aplicação a dados genéticos.
Finalmente, no Capítulo 4, propomos um critério de mínimos quadrados
penalizado baseado na penalidade l1 do LASSO e no CVaR (Conditional Value
at Risk) dos erros da regressão out-of-sample. Este é um problema de otimização
quadrática resolvido pelo método de pontos interiores. Em um estudo de
simulação usando modelos de regressão linear, mostra-se que o método proposto
apresenta performance superior a do LASSO quando os dados são contaminados
por outliers, mostrando ser um método robusto de estimação e seleção de
variáveis. / [en] Variable selection in statistical models is an important problem, for which
many different solutions have been proposed. Traditionally, one can choose the
set of explanatory variables using information criteria or prior information, but the
total number of models to evaluate increases exponentially as the number of
candidate variables increases. One additional problem is the presence of more
candidate variables than observations. In this thesis we study several aspects of
the variable selection problem. First, we compare two procedures for linear
regression: Autometrics, which is a general-to-specific (GETS) approach based on
statistical tests, and LASSO, a shrinkage method. Different scenarios were
contemplated for the comparison in a simulation experiment, varying the sample
size, the number of relevant variables and the number of candidate variables. In a
real data application, we compare the methods for GDP forecasting. In a second
part, we introduce a variable selection methodology for smooth transition
regressive (STR) and autoregressive (STAR) models based on LASSO
regularization. We present a direct and a stepwise approach. Both methods are
tested with extensive simulation exercises and an application to genetic data.
Finally, we introduce a penalized least square criterion based on the LASSO l1-
penalty and the CVaR (Conditional Value at Risk) of the out-of-sample
regression errors. This is a quadratic optimization problem solved by interior point
methods. In a simulation study in a linear regression framework, we show that the
proposed method outperforms the LASSO when the data is contaminated by
outliers, showing to be a robust method of estimation and variable selection.
|
Page generated in 0.0289 seconds