A aplicação da Mecânica Estatística no estudo de Redes Neurais é baseada no fato que a extração de informação de dados (exemplos) pode ser modelada por um processo de minimização de uma função energia. Técnicas originadas no estudo de sistemas desordenados, tais como o Método de Réplicas; o Método da Cavidade; Equações de TAP; bem como técnicas de Monte Carlo tem sido exaustivamente estudadas, levando a vários resultados dentro do que temos conhecido como aprendizagem off-line, onde o sistema é posto em equilíbrio termodinâmico. A possibilidade do tempo de relaxação ser muito grande implica alto custo computacional, o que tem estimulado a busca por algoritmos de aprendizagem fora do equilíbrio, onde surge uma interessante classe de métodos conhecidos por aprendizagem on-line, na qual cada informação (exemplo) é apresentada ao sistema apenas uma vez, trazendo um baixo custo computacional junto a um bom desempenho. Nessa dissertação nós trabalhamos em cima do trabalho de Opper, que relacionou a aprendizagem on-line ótima à aprendizagem off-line Bayesiana por meio de uma aproximação Gaussiana da distribuição posterior. Isso porém, pode ser visto como apenas o primeiro passo numa expansão generalizada de Gram-Charlier (G-Ch) da densidade posterior, a qual pode trazer novos caminhos para o entendimento da relação on-line/off-line. A expansão também pode ser estendida à aprendizagem por potencial, onde a distribuição de probabilidades é Gibbsiana utilizando-se de todos os termos da série, ou seja, na aprendizagem off-line.Assim a G-Ch nos permite estudar extensões não Gaussianas da aprendizagem fora do equilíbrio (on-line) para uma aprendizagem em equilíbrio (off-line), dando uma interpretação do uso das famílias dos hiperparâmetros, construídos a partir dos cumulantes da distribuição posterior, como uma incorporação de informações sobre a forma geométrica do espaço de Versões. Apresentamos duas aplicações para os algoritmos obtidos por tais caminhos: um Perceptron unidimensional e um N-dimensional. Na primeira observamos a aprendizagem Bayesiana na presença de ruído e quando a regra a ser aprendida muda no tempo, onde construímos um diagrama de robustez para a análise da adaptabilidade do algoritmo frente a estimação incorreta do nível de ruído. Na segunda aplicação apresentamos resultados preliminares para o Perceptron em N dimensões. Estudamos aprendizagem usando o potencial ótimo que leva à saturação do limite de Bayes para a generalização no limite termodinâmico.
Identifer | oai:union.ndltd.org:usp.br/oai:teses.usp.br:tde-20112003-094624 |
Date | 02 August 2000 |
Creators | Oliveira Filho, Evaldo Araújo de |
Contributors | Alfonso, Nestor Felipe Caticha |
Publisher | Biblioteca Digitais de Teses e Dissertações da USP |
Source Sets | Universidade de São Paulo |
Language | Portuguese |
Detected Language | Portuguese |
Type | Dissertação de Mestrado |
Format | application/pdf |
Rights | Liberar o conteúdo para acesso público. |
Page generated in 0.001 seconds