Orientador: Tomasz Kowaltowski / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação / Made available in DSpace on 2018-07-23T12:27:31Z (GMT). No. of bitstreams: 1
Caccamo_MarioJose_M.pdf: 2620384 bytes, checksum: f5050f57d7a4e7f0276200dc83121f1c (MD5)
Previous issue date: 1998 / Resumo: A análise sintática é uma componente fundamental da maioria dos sistemas de processamento automático de línguas. Tradicionalmente, esta tarefa foi implementada com técnicas derivadas do formalismo das Gramáticas Livres de Contexto. A demanda por sistemas eficientes motivou a pesquisa em busca de outras alternativas para a análise sintática. Alguns sistemas de processamento de línguas naturais não precisam de uma análise completa da estrutura profunda das sentenças (árvores de derivação), senão apenas dispor das relações superficiais entre às palavras de um texto. O objetivo de um analisador-superficial é determinar quais são as sentenças de uma língua, fornecendo apenas a informação sobre alguma característica em particular, evitando entrar em detalhes correspondentes à estrutura profunda. Este tipo de sistemas é mais eficientes e pode substituir uma análise sintática completa em várias aplicações. Nesta dissertação propõe-se um ambiente para implementar a análise superficial de línguas. A proposta consiste em representar as sentenças de uma língua usando seqüências de marcas chamadas de padrões sintáticos. Cada marca é uma categoria de palavras (adjetivos, substantivos, advérbios, etc). A hipótese é que o núcleo das sentenças usadas nos textos de uma língua pode ser capturado com um número computacionalmente tratável de padrões sintáticos. Estruturas de dados baseadas em autômatos finitos foram utilizadas para representar de forma compacta grandes vocabulários de palavras. Os padrões sintáticos são cadeias de símbolos comparáveis, em certo sentido, às palavras de um vocabulário e autômatos mostraram-se adequadas para armazená-los. Além disso, os autômatos permitem a implementação eficiente do algoritmo de reconhecimento proposto, e outros mais complexos, como o conselheiro gramatical apresentado nesta dissertação. Um dos problemas de muitas das propostas para a análise sintática de línguas é a falta de um método ou fonte de informação para construir um sistema que possa modelar um exemplo real. Como uma alternativa, propõe-se aqui a coleta de padrões sintáticos a partir de corpos de texto marcados. / Abstract: Syntactic analysis is an important component of most natural language processing systems. Typically parsers were implemented using techniques derived from Context Free Grammars. The increasing need for efficient systems was one of the reasons to search for new approaches to syntactic analysis. Some natural language applications do not need complete parsing of the deep structure of the sentences (derivation trees). In these cases, a representation of the surface relations among words in a text is enough. The goal of a surface parser is to recognize the natural language sentences providing information only about some particular features. It is not concerned with the deep structure of the sentences. This kind of parsers are more efficient and can replace a parser implementing a complete syntactic analysis in different situations. We propose in this dissertation an environment to implement surface parsing of natural languages. In our approach every sentence is represented by a sequence of part-of-speech tags cal\ed syntactic pattern. The hypothesis underlying our work is that the core of the sentences used in natural language texts can be captured with a computationally tractable number of syntactic patterns. Data structures based on finite-state automata have been used in representing1large word vocabularies. Syntactic patterns are strings of symbols that can be compared in some sense with words. We have shown that finite-state automata are adequate to' store syntactic patterns. Furthermore they allow an efficient implementation of the recognizing algorithms, and other more complex ones, as the agreement adviser presented in this work. One of the problems common to many approaches for syntactic parsing is the lack of a method or information source to build a system capable of mastering a real example. As an option, we propose the collection of syntactic patterns from annotated corpora of texts. / Mestrado / Mestre em Ciência da Computação
Identifer | oai:union.ndltd.org:IBICT/oai:repositorio.unicamp.br:REPOSIP/276048 |
Date | 30 March 1998 |
Creators | Cáccamo, Mario José |
Contributors | UNIVERSIDADE ESTADUAL DE CAMPINAS, Kowaltowski, Tomasz, 1942-, Nunes, Maria das Graças Volpe, Luchesi, Claudio Leonardo, Stolfi, Jorge |
Publisher | [s.n.], Universidade Estadual de Campinas. Instituto de Computação, Programa de Pós-Gradução em Ciência da Computação |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Format | 108f. : il., application/octet-stream |
Source | reponame:Repositório Institucional da Unicamp, instname:Universidade Estadual de Campinas, instacron:UNICAMP |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.002 seconds