Return to search

[en] BAYESIAN LEARNING FOR NEURAL NETWORKS / [pt] APRENDIZADO BAYESIANO PARA REDES NEURAIS

[pt] Esta dissertação investiga as Redes Neurais Bayesianas, que é uma nova abordagem que conjuga o potencial das redes neurais artificiais com a solidez analítica da estatística Bayesiana.
Tipicamente, redes neurais convencionais como backpropagation, têm bom desempenho mas apresentam problemas de convergência, na ausência de dados suficientes de treinamento, ou problemas de mínimos locais, que trazem como conseqüência longo tempo de treinamento (esforço computacional) e possibilidades de sobre-treinamento (generalização ruim). Por essas razões, tem-se buscado desenvolver novos algoritmos de aprendizado para redes neurais baseados em princípios que pertencem a outras áreas da ciência como a Estatística, Lógica Nebulosa, Algoritmos Genéticos, etc.
Neste sentido, este trabalho estuda e avalia um novo algoritmo de aprendizado baseado na estatística bayesiana, que consiste na utilização do mecanismo de interferência bayesiana no cálculo dos parâmetros (pesos) da rede neural.
As principais etapas deste trabalho foram: o estudo das diferenças dos enfoques da estatística clássica e bayesiana sobre o aprendizado das redes neurais; o estudo dos métodos utilizados na inferência bayesiana; a avaliação das redes neurais Bayesianas (RNB) com aplicações Benchmarks; e por último, a avaliação das RNBs com aplicações reais.
A diferença entre a estatística clássica e Bayesiana sobre o aprendizado das redes neurais esá na forma em que os parâmetros da rede são calculados. Por exemplo, o princípio de máxima verossimilhança quepertence à estatística clássica, na qual está baseada o algoritmo de backpropagation, se caracteriza por estimar um único vetor de parâmetros da rede neural. Por outro lado, a inferência Bayesiana se caracteriza por calcular uma função de densidade de probabilidade sobre todos os possíveis vetores de parâmetros que a rede neural pode possuir.
Os métodos utilizados na inferência Bayesiana para calcular a função de densidade de probabilidade dos parâmetros. Neste trabalho se deu ênfase a dois métodos amplamente utilizados na estatística Bayesiana: o método de aproximação gaussiana e o método de MCMC (Markov Chain Monte Carlo), que mostraram sua efetividade com respeito ao problema da dimensão elevada do vetor de parâmetros.
Para avaliar o desempenho destes algoritmos de aprendizado Bayesiano, foram feitos testes em aplicações benchmarks de previsão, classificação e aproximação de uma função. Também foram desenvolvidas aplicações reais de previsão de uma série temporal e carga elétrica e reconhecimento de face onde se avaliou o desempenho destes algoritmos. Além disso, foram feitas comparações entre estes algoritmos de aprendizado Bayesiano com o backpropagation, sistemas neuro fuzzy hierárquicos e outras técnicas estatísticas tais como Box&Jenkins e Holt-Winters.
Com este trabalho, verificou-se que entre as vantagens dos algoritmos de aprendizado Bayesiano tem-se: a de minimizar o problema de sobre-treinamento (overfitting); controlar a complexidade do modelo (princípio de Occam’s razor) e ter boa generalização com poucos dados de treinamento. / [en] This dissertation investigates the Bayesianan Neural Networks, which is a new approach that merges the potencial of the artificial neural networks with the robust analytical analysis of the Bayesian Statistic.
Typically, theconventional neural networks such as backpropagation, have good performance but presents problems of convergence, when enough data for training is not available, or due to problems of local minimum, which result in long training time and overfitting. For these reasons, researchers are investigating new learning algorithm for neural networks based on principle that belong to other area of science like Statistics, Fuzzy logic, Genetic Algorithms, etc.
This dissertation studies and evaluates a new learning algorithm based on the Bayesian Statistics, that consists in the use of the Bayesian mechanical inference to calculate the value of the parameters of neural networks.
The main steps of this research are: the study of the difference between the approach of the classical statistics and the approach of the Bayesian statistics regarding the process of learning in neural networks (RNB) with Benchmarks applications; and the evaluation of RNBs with real applications.
The main differences between the classical and Bayesian statistics in regard to the learning on neural networks are in the form of calculation of the parameters. For example, the principle of maximum likelihood that belongs to classical statistics, in which the backpropagation algorithms, it is characterized for calculate only on vector of parameters of neural networks. However, the Bayesian inference, it is characterized for calculate a probabilistic density function of the parameters of neural networks are approximations or numerical methods, because the correct analytical treatment is difficult due to the high dimensions of the vector parameter. This dissertation gives especial emphasis to two methods: the Gaussian approximation and the Markov Chain Monte Carlo method (MCMC).
To evaluate the performance of these Bayesian learning algorithms, a number of test has been done in application benchmarks of time series forecasting, classification and approximation of functions. Also, have been developed real applications on time serie forecasting of electrical and face recognition. Moreover, comparations have been made between the Bayesian learning algorithms with backpropagation, neuro fuzzy systems and other statistical techniques like a Box&Jenkins and Holt-Winters.
This dissertation has shown that the advantages of the Bayesian learning algorithms are the minimization of the overfitting, control of the model complexity (principle of Occam’s razor)and good generalization with a few data for training.

Identiferoai:union.ndltd.org:puc-rio.br/oai:MAXWELL.puc-rio.br:14538
Date03 November 2009
CreatorsEDISON AMERICO HUARSAYA TITO
ContributorsMARLEY MARIA BERNARDES REBUZZI VELLASCO, MARCO AURÉLIO CAVALCANTI PACHECO, GERSON ZAVERUCHA
PublisherMAXWELL
Source SetsPUC Rio
LanguagePortuguese
Detected LanguageEnglish
TypeTEXTO

Page generated in 0.0031 seconds