[pt] Uma das tarefas mais importantes em Processamento de Linguagem Natural é
a análise sintática, onde a estrutura de uma sentença é determinada de acordo
com uma dada gramática, informando o significado de uma sentença a partir do
significado das palavras nela contidas. A Análise Sintática baseada em Gramáticas
de Dependência consiste em identificar para cada palavra a outra palavra na
sentença que a governa. Assim, a saída de um analisador sintático de dependência
é uma árvore onde os nós são as palavras da sentença. Esta estrutura simples,
mas rica, é utilizada em uma grande variedade de aplicações, entre elas Sistemas
de Pergunta-Resposta, Tradução Automática, Extração de Informação, e Identificação
de Papéis Semânticos. Os sistemas estado-da-arte em análise sintática
de dependência utilizam modelos baseados em transições ou modelos baseados
em grafos. Essa dissertação apresenta uma abordagem por classificação tokena-
token para a análise sintática de dependência ao criar um conjunto especial de
classes que permitem a correta identificação de uma palavra na sentença. Usando
esse conjunto de classes, qualquer algoritmo de classificação pode ser treinado
para identificar corretamente a palavra governante de cada palavra na sentença.
Além disso, este conjunto de classes permite tratar igualmente relações de dependência
projetivas e não-projetivas, evitando abordagens pseudo-projetivas.
Para avaliar a sua eficácia, aplicamos o algoritmo Entropy Guided Transformation
Learning aos corpora disponibilizados publicamente na tarefa proposta durante
a CoNLL 2006. Esses experimentos foram realizados em três corpora de
diferentes idiomas: dinamarquês, holandês e português. Para avaliação de desempenho
foi utilizada a métrica de Unlabeled Attachment Score. Nossos resultados
mostram que os modelos gerados atingem resultados acima da média dos sistemas
do CoNLL. Ainda, nossos resultados indicam que a abordagem por classificação
token-a-token é uma abordagem promissora para o problema de análise
sintática de dependência. / [en] One of the most important tasks in Natural Language Processing is syntactic
parsing, where the structure of a sentence is inferred according to a given grammar.
Syntactic parsing, thus, tells us how to determine the meaning of the sentence
fromthemeaning of the words in it. Syntactic parsing based on dependency
grammars is called dependency parsing. The Dependency-based syntactic parsing
task consists in identifying a head word for each word in an input sentence.
Hence, its output is a rooted tree, where the nodes are the words in the sentence.
This simple, yet powerful, structure is used in a great variety of applications, like
Question Answering,Machine Translation, Information Extraction and Semantic
Role Labeling. State-of-the-art dependency parsing systems use transition-based
or graph-based models. This dissertation presents a token classification approach
to dependency parsing, by creating a special tagging set that helps to correctly
find the head of a token. Using this tagging style, any classification algorithm can
be trained to identify the syntactic head of each word in a sentence. In addition,
this classification model treats projective and non-projective dependency graphs
equally, avoiding pseudo-projective approaches. To evaluate its effectiveness, we
apply the Entropy Guided Transformation Learning algorithm to the publicly
available corpora from the CoNLL 2006 Shared Task. These computational experiments
are performed on three corpora in different languages, namely: Danish,
Dutch and Portuguese. We use the Unlabelled Attachment Score as the accuracy
metric. Our results show that the generated models are above the average
CoNLL system performance. Additionally, these findings also indicate that the
token classification approach is a promising one.
Identifer | oai:union.ndltd.org:puc-rio.br/oai:MAXWELL.puc-rio.br:16458 |
Date | 13 October 2010 |
Creators | CARLOS EDUARDO MEGER CRESTANA |
Contributors | RUY LUIZ MILIDIU |
Publisher | MAXWELL |
Source Sets | PUC Rio |
Language | English |
Detected Language | Portuguese |
Type | TEXTO |
Page generated in 0.0019 seconds