Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia de Produção, Florianópolis, 2001. / Made available in DSpace on 2012-10-19T11:16:50Z (GMT). No. of bitstreams: 1
275689.pdf: 1228085 bytes, checksum: 7d3ac0ba5215b376d94486385f897bb2 (MD5) / O contexto de crescente disponibilidade de informação textual em formato digital evidencia a importância de mecanismos de compactação de dados sem perda e de classificação automática de textos para a gestão de informações. Esta dissertação apresenta um novo sistema para compressão de dados sem perda, utilizando uma rede neural artificial baseada na Teoria da Ressonância Adaptativa (Adaptive Resonance Theory - ART) para modelagem preditiva de seqüências discretas. Uma rede fuzzy ARTMAP modificada gera modelos para estimações probabilísticas e é integrada a um codificador aritmético. O sistema adaptativo neural de compressão desenvolvido realiza o aprendizado incremental dos padrões observados nas seqüências apresentadas, executando a compactação seqüencial e a descompactação exata de seqüências discretas sem conhecimento prévio da estrutura estatística da fonte das mensagens. O sistema foi testado diante de uma base de dados pública para benchmark (formada por arquivos binários e de texto) para avaliação de seu desempenho em relação a compactadores de texto tradicionais, atingindo taxas de compressão melhores que o software gzip. Além da viabilidade de utilização da rede neural proposta no estágio de modelagem do processo de compressão sem perda, a capacidade do sistema desenvolvido foi testada em duas tarefas de classificação automática de textos: identificação de idiomas e classificação por gênero de textos. A classificação por gênero de textos, por meio da abordagem do presente trabalho, visa designar textos a classes de publicações digitais, conforme a similaridade em relação ao modelo que representa cada classe. A técnica neural de compressão foi aplicada a estas tarefas, medindo a entropia cruzada entre cada exemplar de teste e um modelo gerado. A similaridade entre uma seqüência de texto e cada uma das classes é determinada autonomamente pelo sistema, sem a pré-definição de atributos ou conhecimento analítico sobre o texto ou um idioma específico. Na tarefa de identificação de idiomas todos os itens de teste foram perfeitamente reconhecidos e na tarefa de classificação por gênero de textos o sistema classificou corretamente 95,83% dos exemplares de teste apresentados. A compressão sem perda de seqüências discretas propicia um ambiente para estudo do comportamento da rede neural proposta em tarefas que requerem adaptação e estimação probabilística on-line. Além da compressão de dados sem perda, o sistema neural desenvolvido pode ser aplicado a outras áreas que requerem aprendizado de padrões, modelagem preditiva e classificação de seqüências, como descoberta de conhecimento em bases de dados para gestão de informações e inteligência de negócios.
Identifer | oai:union.ndltd.org:IBICT/oai:repositorio.ufsc.br:123456789/82079 |
Date | 19 October 2012 |
Creators | Ricken, Cristina Elisabeth |
Contributors | Universidade Federal de Santa Catarina, Wazlawick, Raul Sidnei |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Format | 251 f.| il., grafs., tabs. |
Source | reponame:Repositório Institucional da UFSC, instname:Universidade Federal de Santa Catarina, instacron:UFSC |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.002 seconds