Global ETD Search

11	[en] GETTING THE MOST OUT OF THE WISDOM OF THE CROWDS: IMPROVING FORECASTING PERFORMANCE THROUGH ENSEMBLE METHODS AND VARIABLE SELECTION TECHNIQUES / [pt] TIRANDO O MÁXIMO PROVEITO DA SABEDORIA DAS MASSAS: APRIMORANDO PREVISÕES POR MEIO DE MÉTODOS DE ENSEMBLE E TÉCNICAS DE SELEÇÃO DE VARIÁVEIS ERICK MEIRA DE OLIVEIRA 03 June 2020 (has links) [pt] A presente pesquisa tem como foco o desenvolvimento de abordagens híbridas que combinam algoritmos de aprendizado de máquina baseados em conjuntos (ensembles) e técnicas de modelagem e previsão de séries temporais. A pesquisa também inclui o desenvolvimento de heurísticas inteligentes de seleção, isto é, procedimentos capazes de selecionar, dentre o pool de preditores originados por meio dos métodos de conjunto, aqueles com os maiores potenciais de originar previsões agregadas mais acuradas. A agregação de funcionalidades de diferentes métodos visa à obtenção de previsões mais acuradas sobre o comportamento de uma vasta gama de eventos/séries temporais. A tese está dividida em uma sequência de ensaios. Como primeiro esforço, propôsse um método alternativo de geração de conjunto de previsões, o que resultou em previsões satisfatórias para certos tipos de séries temporais de consumo de energia elétrica. A segunda iniciativa consistiu na proposição de uma nova abordagem de previsão combinando algoritmos de Bootstrap Aggregation (Bagging) e técnicas de regularização para se obter previsões acuradas de consumo de gás natural e de abastecimento de energia em diferentes países. Uma nova variante de Bagging, na qual a construção do conjunto de classificadores é feita por meio de uma reamostragem de máxima entropia, também foi proposta. A terceira contribuição trouxe uma série de inovações na maneira pela qual são conduzidas as rotinas de seleção e combinação de modelos de previsão. Os ganhos em acurácia oriundos dos procedimentos propostos são demonstrados por meio de um experimento extensivo utilizando séries das Competições M1, M3 e M4. / [en] This research focuses on the development of hybrid approaches that combine ensemble-based supervised machine learning techniques and time series methods to obtain accurate forecasts for a wide range of variables and processes. It also includes the development of smart selection heuristics, i.e., procedures that can select, among the pool of forecasts originated via ensemble methods, those with the greatest potential of delivering accurate forecasts after aggregation. Such combinatorial approaches allow the forecasting practitioner to deal with different stylized facts that may be present in time series, such as nonlinearities, stochastic components, heteroscedasticity, structural breaks, among others, and deliver satisfactory forecasting results, outperforming benchmarks on many occasions. The thesis is divided into a series of essays. The first endeavor proposed an alternative method to generate ensemble forecasts which delivered satisfactory forecasting results for certain types of electricity consumption time series. In a second effort, a novel forecasting approach combining Bootstrap aggregating (Bagging) algorithms, time series methods and regularization techniques was introduced to obtain accurate forecasts of natural gas consumption and energy supplied series across different countries. A new variant of Bagging, in which the set of classifiers is built by means of a Maximum Entropy Bootstrap routine, was also put forth. The third contribution brought a series of innovations to model selection and model combination in forecasting routines. Gains in accuracy for both point forecasts and prediction intervals were demonstrated by means of an extensive empirical experiment conducted on a wide range of series from the M- Competitions. [pt] SERIE TEMPORAL [pt] TECNICAS DE REGULARIZACAO [pt] BAGGING [pt] SELECAO DE MODELOS [pt] COMBINACAO DE PREVISOES [pt] METODOS ENSEMBLE [pt] PREVISAO [en] TIME SERIE [en] REGULARIZATION TECHNIQUES [en] BAGGING [en] MODEL SELECTION [en] FORECASTING
12	[en] CAPITAL FLOWS TO EMERGING MARKETS: THE CASE OF BRAZIL / [pt] FLUXOS DE CAPITAIS PARA ECONOMIAS EMERGENTES: O CASO DO BRASIL THIAGO GUEDES MORAIS 26 September 2022 (has links) [pt] Motivados pela posição de destaque do real brasileiro entre uma das moedas mais depreciadas em relação aos seus pares emergentes em meados de 2020, potencialmente fomentada pela expressiva evasão de capitais observada no decorrer da pandemia COVID-19 que culminou com um déficit no mercado cambial, realizamos previsões um trimestre a frente para os fluxos de capitais líquidos para o Brasil através de técnicas de machine learning, utilizando modelos de regularização para seleção das variáveis importantes. Os fluxos são obtidos a partir de dados trimestrais do balanço de pagamentos, englobando 2004:T1 a 2021:T1. Os modelos propostos, tanto LASSO quanto adaLASSO + OLS, foram capazes de gerar previsões fora da amostra melhores que o modelo de benchmark, AR. Apesar disso, quando comparados entre si, não podemos rejeitar a hipótese nula de que os modelos propostos possuem a mesma precisão de previsão. / [en] Motivated by the prominent position of the Brazilian real among the most depreciated currencies in comparison with its emerging peers in mid-2020, potentially fueled by the significant capital outflow observed during the COVID19 pandemic that resulted in a deficit in the foreign exchange market, we make one quarter-ahead forecast for net capital flows to Brazil through machine learning techniques, using shrinkage methods to select important variables. These flows are computed from quarterly balance of payments data from 2004:Q1 to 2021:Q1. The proposed models, both LASSO and adaLASSO + OLS, were able to generate better out-of-sample forecasts than the benchmark model, AR. Nevertheless, when compared to each other, we cannot reject the null hypothesis that the proposed models have the same forecast accuracy. [pt] FLUXOS DE CAPITAIS [pt] CONTA FINANCEIRA [pt] BALANCO DE PAGAMENTOS [pt] REGULARIZACAO [pt] MACHINE LEARNING [en] CAPITAL FLOWS [en] FINANCIAL ACCOUNT [en] BALANCE OF PAYMENTS [en] SHRINKAGE [en] MACHINE LEARNING
13	[en] A STUDY ON ELLIPSOIDAL CLUSTERING / [pt] UM ESTUDO SOBRE AGRUPAMENTO BASEADO EM DISTRIBUIÇÕES ELÍPTICAS RAPHAEL ARAUJO SAMPAIO 16 January 2019 (has links) [pt] A análise de agrupamento não supervisionado, o processo que consistem em agrupar conjuntos de pontos de acordo com um ou mais critérios de similaridade, tem desempenhado um papel essencial em vários campos. O dois algoritmos mais populares para esse processão são o k-means e o Gaussian Mixture Models (GMM). O primeiro atribui cada ponto a um único cluster e usa a distância Euclidiana como similaridade. O último determina uma matriz de probabilidade de pontos pertencentes a clusters, e usa distância de Mahalanobis como similaridade. Além da diferença no método de atribuição - a chamada atribuição hard para o primeiro e a atribuição soft para o último - os algoritmos também diferem em relação à estrutura do cluster, ou forma: o k-means considera estruturas esféricas no dados; enquanto o GMM considera elipsoidais através da estimação de matrizes de covariância. Neste trabalho, um problema de otimização matemática que combina a atribuição hard com a estrutura do cluster elipsoidal é detalhado e formulado. Uma vez que a estimativa da covariância desempenha um papel importante no comportamento de estruturas agrupamentos elipsoidais, técnicas de regularizações são exploradas. Neste contexto, dois métodos de meta-heurística, uma perturbação Random Swap e um algoritmo híbrido genético, são adaptados, e seu impacto na melhoria do desempenho dos métodos é estudado. O objetivo central dividido em três: compreender as condições em que as estruturas de agrupamento elipsoidais são mais benéficas que as esféricas; determinar o impacto da estimativa de covariância com os métodos de regularização; e analisar o efeito das meta-heurísticas de otimização global na análise de agrupamento não supervisionado. Finalmente, a fim de fornecer bases para a comparação das presentes descobertas com futuros trabalhos relacionados, foi gerada uma base de dados com um extenso benchmark contendo análise das variações de diferentes tamanhos, formas, número de grupos e separabilidade, e seu impacto nos resultados de diferentes algoritmos de agrupamento. Além disso, pacotes escritos na linguagem Julia foram disponibilizados com os algoritmos estudados ao longo deste trabalho. / [en] Unsupervised cluster analysis, the process of grouping sets of points according to one or more similarity criteria, plays an essential role in various fields. The two most popular algorithms for this process are the k-means and the Gaussian Mixture Models (GMM). The former assigns each point to a single cluster and uses Euclidean distance as similarity. The latter determines a probability matrix of points to belong to clusters, and the Mahalanobis distance is the underlying similarity. Apart from the difference in the assignment method - the so-called hard assignment for the former and soft assignment for the latter - the algorithms also differ concerning the cluster structure, or shape: the k-means considers spherical structures in the data; while the GMM considers ellipsoidal ones through the estimation of covariance matrices. In this work, a mathematical optimization problem that combines the hard assignment with the ellipsoidal cluster structure is detailed and formulated. Since the estimation of the covariance plays a major role in the behavior of ellipsoidal cluster structures, regularization techniques are explored. In this context, two meta-heuristic methods, a Random Swap perturbation and a hybrid genetic algorithm, are adapted, and their impact on the improvement of the performance of the methods is studied. The central objective is three-fold: to gain an understanding of the conditions in which ellipsoidal clustering structures are more beneficial than spherical ones; to determine the impact of covariance estimation with regularization methods; and to analyze the effect of global optimization meta-heuristics on unsupervised cluster analysis. Finally, in order to provide grounds for comparison of the present findings to future related works, a database was generated together with an extensive benchmark containing an analysis of the variations of different sizes, shapes, number of clusters, and separability and their impact on the results of different clustering algorithms. Furthermore, packages written in the Julia language have been made available with the algorithms studied throughout this work. [pt] ALGORITMO GENETICO [pt] RANDOM SWAP [pt] AGRUPAMENTOS ELIPSOIDAIS [pt] RECONHECIMENTO DE PADRAO [pt] REGULARIZACAO [en] GENETIC ALGORITHM [en] RANDOM SWAP [en] ELLIPSOIDAL CLUSTERING [en] PATTERN RECOGNITION [en] REGULARIZATION
14	[en] SEMANTIC ROLE-LABELING FOR PORTUGUESE / [pt] ANOTADOR DE PAPEIS SEMÂNTICOS PARA PORTUGUÊS ARTHUR BELTRAO CASTILHO NETO 23 June 2017 (has links) [pt] A anotação de papeis semânticos (APS) é uma importante tarefa do processamento de linguagem natural (PLN), que possibilita estabelecer uma relação de significado entre os eventos descritos em uma sentença e seus participantes. Dessa forma, tem o potencial de melhorar o desempenho de inúmeros outros sistemas, tais como: tradução automática, correção ortográfica, extração e recuperação de informações e sistemas de perguntas e respostas, uma vez que reduz as ambiguidades existentes no texto de entrada. A grande maioria dos sistemas de APS publicados no mundo realiza a tarefa empregando técnicas de aprendizado supervisionado e, para obter melhores resultados, usam corpora manualmente revisados de tamanho considerável. No caso do Brasil, o recurso lexical que possui anotações semânticas (Propbank.br) é muito menor. Por isso, nos últimos anos, foram feitas tentativas de melhorar esse resultado utilizando técnicas de aprendizado semisupervisionado ou não-supervisionado. Embora esses trabalhos tenham contribuido direta e indiretamente para a área de PLN, não foram capazes de superar o desempenho dos sistemas puramente supervisionados. Este trabalho apresenta uma abordagem ao problema de anotação de papéis semânticos no idioma português. Utilizamos aprendizado supervisionado sobre um conjunto de 114 atributos categóricos e empregando duas técnicas de regularização de domínio, combinadas para reduzir o número de atributos binários em 96 por cento. O modelo gerado usa uma support vector machine com solver L2-loss dual support vector classification e é testado na base PropBank.br, apresentando desempenho ligeiramente superior ao estado-da-arte. O sistema é avaliado empiricamente pelo script oficial da CoNLL 2005 Shared Task, obtendo 82,17 por cento de precisão, 82,88 por cento de cobertura e 82,52 por cento de F1 ao passo que o estado-da-arte anterior atinge 83,0 por cento de precisão, 81,7 por cento de cobertura e 82,3 por cento de F1. / [en] Semantic role-labeling (SRL) is an important task of natural language processing (NLP) which allows establishing meaningful relationships between events described in a given sentence and its participants. Therefore, it can potentially improve performance on a large number of NLP systems such as automatic translation, spell correction, information extraction and retrieval and question answering, as it decreases ambiguity in the input text. The vast majority of SRL systems reported so far employed supervised learning techniques to perform the task. For better results, large sized manually reviewed corpora are used. The Brazilian semantic role labeled lexical resource (Propbank.br) is much smaller. Hence, in recent years, attempts have been made to improve performance using semi supervised and unsupervised learning. Even making several direct and indirect contributions to NLP, those studies were not able to outperform exclusively supervised systems. This paper presents an approach to the SRL task in Portuguese language using supervised learning over a set of 114 categorical features. Over those, we apply a combination of two domain regularization methods to cut binary features down to 96 percent. We test a SVM model (L2-loss dual support vector classification) on PropBank.Br dataset achieving results slightly better than state-of-the-art. We empirically evaluate the system using official CoNLL 2005 Shared Task script pulling 82.17 percent precision, 82.88 percent coverage and 82.52 percent F1. The previous state-of-the-art Portuguese SRL system scores 83.0 percent precision, 81.7 percent coverage and 82.3 percent F1. [pt] SELECAO DE ATRIBUTOS [en] FEATURE SELECTION [pt] SUPPORT VECTOR MACHINES [en] SUPPORT VECTOR MACHINES [pt] SVM [en] SVM [pt] APRENDIZADO SUPERVISIONADO [pt] ANOTACAO DE PAPEIS SEMANTICOS [pt] APS [pt] PROCESSAMENTO DE LINGUA NATURAL [pt] PLN [pt] LIBLINEAR [pt] PROPBANK BR [pt] REGULARIZACAO DE DOMINIO
15	[en] A STUDY OF THE EFFECTS OF FORECASTING LINEAR TIME SERIES WITH NEURAL NETWORKS / [pt] UM ESTUDO DOS EFEITOS DA PREVISÃO DE SÉRIES TEMPORAIS LINEARES COM REDES NEURAIS FRANCISCO CARLOS SANTANA DE AZEREDO PINTO 27 November 2002 (has links) [pt] Esta dissertação de mestrado analisa os efeitos de previsão de séries temporais com redes neurais em conjunto com a técnica de poda, denominada de Regularização Bayesiana. Utilizam-se diversas séries simuladas cujo processo gerador é de fato linear para comparar as previsões feitas por meio de modelos auto-regressivos lineares e redes neurais. Apresenta-se,ao final, uma comparação entre os modelos citados acima, segundo à eficiência preditiva de cada um. / [en] This paper studies the performance of neural networks estimated with Bayesian regularization to model and forecast time series where the data generations process is in fact linear. A simulation experiment is carried out to compare the forecast made by linear autoregressive models and neural networks. [pt] SERIES TEMPORAIS [en] TIME SERIES [pt] REDES NEURAIS ARTIFICIAIS [en] ARTIFICIAL NEURAL NETWORKS [pt] PREVISAO [en] FORECASTING [pt] SIMULACAO MONTE CARLO [en] MONTE CARLO SIMULATION [pt] REGULARIZACAO BAYESIANA [en] BAYESIAN REGULARIZATION [pt] MODELOS AUTO-REGRESSIVOS LINEARES [en] AUTOREGRESSIVE NONLINEAR MODEL
16	[pt] MODELAGEM ESTATÍSTICA ESPARSA COM APLICAÇÕES EM ENERGIA RENOVÁVEL E PROCESSAMENTO DE SINAIS / [en] SPARSE STATISTICAL MODELLING WITH APPLICATIONS TO RENEWABLE ENERGY AND SIGNAL PROCESSING MARIO HENRIQUE ALVES SOUTO NETO 28 July 2015 (has links) [pt] Motivado pelos desafios de processar a grande quantidade de dados disponíveis, pesquisas recentes em estatística tem sugerido novas técnicas de modelagem e inferência. Paralelamente, outros campos como processamento de sinais e otimização também estão produzindo métodos para lidar problemas em larga escala. Em particular, este trabalho é focado nas teorias e métodos baseados na regularização l1. Após uma revisão compreensiva da norma l1 como uma ferramenta para definir soluções esparsas, estudaremos mais a fundo o método LASSO. Para exemplificar como o LASSO possui uma ampla gama de aplicações, exibimos um estudo de caso em processamento de sinal esparso. Baseado nesta idea, apresentamos o l1 level-slope filter. Resultados experimentais são apresentados para uma aplicação em transmissão de dados via fibra óptica. Para a parte final da dissertação, um novo método de estimação é proposto para modelos em alta dimensão com variância periódica. A principal ideia desta nova metodologia é combinar esparsidade, induzida pela regularização l1, com o método de máxima verossimilhança. Adicionalmente, esta metodologia é utilizada para estimar os parâmetros de um modelo mensal estocástico de geração de energia eólica e hídrica. Simulações e resultados de previsão são apresentados para um estudo real envolvendo cinquenta geradores de energia renovável do sistema Brasileiro. / [en] Motivated by the challenges of processing the vast amount of available data, recent research on the ourishing field of high-dimensional statistics is bringing new techniques for modeling and drawing inferences over large amounts of data. Simultaneously, other fields like signal processing and optimization are also producing new methods to deal with large scale problems. More particularly, this work is focused on the theories and methods based on l1-regularization. After a comprehensive review of the l1-norm as tool for finding sparse solutions, we study more deeply the LASSO shrinkage method. In order to show how the LASSO can be used for a wide range of applications, we exhibit a case study on sparse signal processing. Based on this idea, we present the l1 level-slope filter. Experimental results are given for an application on the field of fiber optics communication. For the final part of the thesis, a new estimation method is proposed for high-dimensional models with periodic variance. The main idea of this novel methodology is to combine sparsity, induced by the l1-regularization, with the maximum likelihood criteria. Additionally, this novel methodology is used for building a monthly stochastic model for wind and hydro inow. Simulations and forecasting results for a real case study involving fifty Brazilian renewable power plants are presented. [pt] ENERGIA EOLICA [en] WIND ENERGY [pt] ESTATISTICA EM ALTA DIMENSAO [pt] LASSO [en] LASSO [pt] REGULARIZACAO [en] REGULARIZATION [pt] PROCESSAMENTO DE SINAIS ESPARSOS [pt] MODELAGEM DE ENERGIA RENOVAVEL [pt] MONITORAMENTO DE FIBRA OPTICA [en] OPTICAL FIBER MONITORING [pt] PEQUENA CENTRAL HIDRELETRICA [en] SMALL HYDROELECTRIC POWER PLANT

Page generated in 0.0634 seconds