Representação de léxicos através de autômatos acíclicos determinísticos

Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia de Produção, Florianópolis, 2004. / Made available in DSpace on 2012-10-22T04:38:56Z (GMT). No. of bitstreams: 0Bitstream added on 2013-07-16T19:45:49Z : No. of bitstreams: 1
274145.pdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / O acesso rápido a léxicos eletrônicos é fundamental para muitas aplicações de Processamento de Linguagem Natural. Uma forma de garantir isto é a representação de léxicos grandes através de autômatos finitos determinísticos minimizados, que permitem manter o léxico na memória principal. Em 1991, na sua tese de doutorado, Dominique Revuz apresentou um algoritmo que gera em tempo linear um autômato mínimo acíclico que representa um léxico. Para reduzir o problema da explosão de estados, Revuz apresentou também um algoritmo com reutilização de sufixos, por ele chamado pseudo-minimização, que supõe o léxico em ordem lexicográfica inversa. Em 1998, Maurel & Chauvier apresentaram um algoritmo de pseudo-minimização que não faz exigências de ordenação ao léxico. Jan Daciuk e Stoyan Mihov desenvolveram, independentemente, um algoritmo que mantém o autômato minimal durante a sua geração, por eles chamado de algoritmo incremental. Este algoritmo não utiliza a clonagem de estados, mas exige o léxico em ordem lexicográfica. Além disso, Bruce Watson, também em 1998, apresentou um algoritmo que mantém o autômato, durante a geração, em um tamanho limitado, acima do autômato minimal. Este algoritmo, que exige o léxico em ordem decrescente do tamanho das palavras, foi classificado pelo autor como algoritmo semi-incremental. O presente trabalho apresenta um algoritmo para geração de autômatos mínimos, a partir das características desejáveis dos algoritmos de Revuz, Maurel & Chauvier, Daciuk & Mihov e Watson, resultando num algoritmo semi-incremental com pseudo-minimização que exige o léxico na forma de uma k-partição, sendo esta uma estrutura mais fácil de obter do que a ordem lexicográfica. Para desenvolver este algoritmo, apresenta-se na tese uma versão modificada do algoritmo de Maurel & Chauvier, que divide a palavra em prefixo, meio e sufixo de forma diferente do algoritmo Maurel & Chauvier e que não utiliza a clonagem na inserção do meio da palavra. A tese apresenta uma análise comparativa preliminar dos algoritmos utilizando léxicos em inglês, polonês, francês e português. Esta análise mostra que o algoritmo semi-incremental com pseudo-minimização proposto consegue gerar uma representação de um léxico grande sem necessitar um espaço significativamente maior.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.ufsc.br:123456789/88004
Date22 October 2012
CreatorsStorb, Bernd Heinrich
ContributorsUniversidade Federal de Santa Catarina, Wazlawick, Raul Sidnei
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis
Format188 p.| il., tabs., grafs.
Sourcereponame:Repositório Institucional da UFSC, instname:Universidade Federal de Santa Catarina, instacron:UFSC
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0027 seconds