Sistema adaptativo neural para compressão sequencial e classificação de textos

Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia de Produção, Florianópolis, 2001. / Made available in DSpace on 2012-10-19T11:16:50Z (GMT). No. of bitstreams: 1
275689.pdf: 1228085 bytes, checksum: 7d3ac0ba5215b376d94486385f897bb2 (MD5) / O contexto de crescente disponibilidade de informação textual em formato digital evidencia a importância de mecanismos de compactação de dados sem perda e de classificação automática de textos para a gestão de informações. Esta dissertação apresenta um novo sistema para compressão de dados sem perda, utilizando uma rede neural artificial baseada na Teoria da Ressonância Adaptativa (Adaptive Resonance Theory - ART) para modelagem preditiva de seqüências discretas. Uma rede fuzzy ARTMAP modificada gera modelos para estimações probabilísticas e é integrada a um codificador aritmético. O sistema adaptativo neural de compressão desenvolvido realiza o aprendizado incremental dos padrões observados nas seqüências apresentadas, executando a compactação seqüencial e a descompactação exata de seqüências discretas sem conhecimento prévio da estrutura estatística da fonte das mensagens. O sistema foi testado diante de uma base de dados pública para benchmark (formada por arquivos binários e de texto) para avaliação de seu desempenho em relação a compactadores de texto tradicionais, atingindo taxas de compressão melhores que o software gzip. Além da viabilidade de utilização da rede neural proposta no estágio de modelagem do processo de compressão sem perda, a capacidade do sistema desenvolvido foi testada em duas tarefas de classificação automática de textos: identificação de idiomas e classificação por gênero de textos. A classificação por gênero de textos, por meio da abordagem do presente trabalho, visa designar textos a classes de publicações digitais, conforme a similaridade em relação ao modelo que representa cada classe. A técnica neural de compressão foi aplicada a estas tarefas, medindo a entropia cruzada entre cada exemplar de teste e um modelo gerado. A similaridade entre uma seqüência de texto e cada uma das classes é determinada autonomamente pelo sistema, sem a pré-definição de atributos ou conhecimento analítico sobre o texto ou um idioma específico. Na tarefa de identificação de idiomas todos os itens de teste foram perfeitamente reconhecidos e na tarefa de classificação por gênero de textos o sistema classificou corretamente 95,83% dos exemplares de teste apresentados. A compressão sem perda de seqüências discretas propicia um ambiente para estudo do comportamento da rede neural proposta em tarefas que requerem adaptação e estimação probabilística on-line. Além da compressão de dados sem perda, o sistema neural desenvolvido pode ser aplicado a outras áreas que requerem aprendizado de padrões, modelagem preditiva e classificação de seqüências, como descoberta de conhecimento em bases de dados para gestão de informações e inteligência de negócios.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.ufsc.br:123456789/82079
Date19 October 2012
CreatorsRicken, Cristina Elisabeth
ContributorsUniversidade Federal de Santa Catarina, Wazlawick, Raul Sidnei
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Format251 f.| il., grafs., tabs.
Sourcereponame:Repositório Institucional da UFSC, instname:Universidade Federal de Santa Catarina, instacron:UFSC
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.002 seconds