Return to search

Generalização e Robustez: Aprendizagem em Redes Neurais na Presença de Ruído / Generalization and robustness: learning in neural networks in the presence of noise

Neste trabalho investigamos o aprendizado supervisionado on-line, com ênfase nas habilidades de generalização, de redes neurais feedforward. O estudo de algoritmos de aprendizagem ótimos, no sentido da generalização, é estendido para duas diferentes classes de arquiteturas: a máquina paridade com estrutura de árvore e K unidades escondidas, e o perceptron reversed wedge, uma máquina de uma camada com função de transferência não monotônica. O papel do ruído é de fundamental importância na teoria de aprendizagem. Neste trabalho estudamos os processos com ruído que podem ser parametrizados por uma única quantidade, o nível de ruído. No caso da máquina paridade analisamos o aprendizado na presença de ruído multiplicativo (na saída). O algoritmo ótimo é muito superior aos algoritmos de aprendizagem até então apresentados, como o algoritmo de mínima ação (LAA), como podemos ver, por exemplo, através do comportamento do erro de generalização que decai após a apresentação de p exemplos, com l/p ao invés de l/\'p POT. 1/3\' como no caso do LAA. Além deste fato, observa-se que não existe um nível de ruído crítico a partir do qual a rede não é capaz de generalizar, como ocorre no LAA. Além do ruído multiplicativo, no caso do perceptron reversed wedge consideramos também o ruído aditivo. Analisamos a função de modulação fornecida pelo algoritmo ótimo e as curvas de aprendizagem. A aprendizagem ótima requer o uso de parâmetros que usualmente não estão disponíveis. Neste caso estudamos a influência da utilização de uma estimativa do nível de ruído sobre as curvas de aprendizado. Estes resultados são apresentados na forma do que chamamos de diagrama de robustez, no espaço de nível de ruído real versus nível de ruído estimado. As linhas de transição deste diagrama definem regiões com comportamentos dinâmicos diferentes. Entre as propriedades mais interessantes encontradas, destacamos a universalidade do diagrama de robustez para ruído multiplicativo, uma vez que é exatamente o mesmo para a máquina paridade e comitê com estrutura de árvore, e para o perceptron reversed-wedge. Entretanto, esta universalidade não se estende para o caso de ruído aditivo, uma vez que, neste caso, os diagramas dependem da arquitetura em questão. / In this work online supervised learning is investigated with emphasis on the generalization abilities of feedforward neural networks. The study of optimal learning algorithms, in the sense of generalization, is extended to two different classes of architectures; the tree parity machine (PM) with K hidden units and the reverse wedge perceptron (RWP), a single layer machine with a non monotonic transfer function. The role of noise is of fundamental importance in learning theory, and we study noise processes which can be parametrized by a single quantity, the noise level. For the PM we analize learning in the presence of multiplicative or output noise. The optimal algorithm is far superior than previous learning algorithms, such as the Least Action Algorithm (LAA), since for example, the generalization error\'s decay is proportional to l /p instead of l/\'p POT. 1/3\' for the LAA, after p examples have been used for training. Furthermore there is no critical noise level, beyond which no generalization ability is attainable, as is the case for the LAA. For the RW perceptron in addition to multiplicative noise we also consider additive noise. The optimal algorithm modulation function and the learning curves are analized. Optimal learning requires using certain usually unavailable parameters. In this case, we study the influence that misevaluation of the noise levels has on the learning curves. The results are presented in terms of what we have called Robustness Phase Diagrams (RPD), in a space of real noise level against assumed noise level. The RPD boundary lines separate between different dynamical behaviours. Among the most interesting properties, we have found the universality of the RPD for multiplicative noise, since it is exactly the same for the PM, RWP and the tree committee machine. However this universality does not hold for the additive noise case, since RPD\'s are shown to be architecture dependent.

Identiferoai:union.ndltd.org:usp.br/oai:teses.usp.br:tde-17122013-145626
Date09 May 1997
CreatorsSimonetti, Roberta
ContributorsAlfonso, Nestor Felipe Caticha
PublisherBiblioteca Digitais de Teses e Dissertações da USP
Source SetsUniversidade de São Paulo
LanguagePortuguese
Detected LanguagePortuguese
TypeTese de Doutorado
Formatapplication/pdf
RightsLiberar o conteúdo para acesso público.

Page generated in 0.0026 seconds