[pt] Nesta dissertação, apresentamos um processador linguístico que resolve a tarefa
de Anotação morfossintática de mensagens em português postadas no
Twitter. Ao analisar as mensagens escritas por brasileiros no Twitter,
é fácil verificar que novos caracteres são introduzidos no alfabeto e também
que novas palavras são adicionadas ao idioma. Além disso, observamos que
essas mensagens são sintaticamente mal formadas. Isto impossibilita o uso
nessas mensagens de diversos processadores linguísticos existentes para o português. Resolvemos esse problema considerando essas mensagens como escritas
em uma nova língua, o português-twitter. O alfabeto dessa nova língua
contém o alfabeto do português e o seu vocabulário contém o vocabulário da
língua portuguesa. Porém, suas gramáticas são diferentes. Para construir os
processadores desta nova linguagem, utilizamos a técnica de aprendizado supervisionado
denominada Entropy Guided Transformation Learning
(ETL). Adicionalmente, para treinar os processadores ETL, construímos um
corpus anotado de mensagens em português-twitter. Não temos conhecimento
da existência de outros Anotadores Morfossintáticos para o português-twitter.
Porém, sabemos que, no estado-da-arte da Anotação Morfossintática para o
português, a acurácia é de aproximadamente 96%, variando de acordo com
o conjunto de classes escolhido. Construímos o processador composto de dois
estágios, um morfológico e um contextual. Como métrica de avaliação, adotamos
a acurácia, que mede quantos por cento do corpus foi anotado corretamente.
Nossos resultados experimentais apresentam uma acurácia de 90,24%
para o anotador proposto. Isto corresponde a um aprendizado significativo,
pois o sistema inicial tem uma acurácia de apenas 76,58%. Este resultado é
compatível com o aprendizado observado nos correspondentes processadores
na língua portuguesa. / [en] In this paper we present a language processor that solves the task of Morphosyntactic
Tagging of messages posted in Portuguese on Twitter. By analyzing
the messages written by Brazilian on Twitter, it is easy to notice that new
characters are introduced in the alphabet and also that new words are added
to the language. Furthermore, we note that these messages are syntactically
malformed. This precludes the use of existing Portuguese processors in these
messages, nevertheless this problem can be solved by considering these messages
as written in a new language, the Portuguese-Twitter. Both the alphabet
and the vocabulary of such idiom contain features of Portuguese. However, the
grammar is are different. In order to build the processors for this new language,
we have used a supervised learning technique known as Entropy Guided
Transformation Learning (ETL). Additionally, to train ETL processors,
we have built an annotated corpus of messages in Portuguese-Twitter. We are
not aware of any other taggers for the Morphosyntactic Portuguese-Twitter
task, thus we have compared our tagger to the the accuracy of state-of-art
Morphosyntactic Annotation for Portuguese, which has accuracy around 96%
depending on the tag set chosen. To assess the quality of the processor, we have
used accuracy, which measures how many tokens were tagged correctly. Our
experimental results show an accuracy of 90,24% for the proposed Morphosyntatic
Tagger. This corresponds to significant learning, since the initial
baseline system has an accuracy of only 76,58%. This finding is consistent with
the observed learning for the corresponding regular Portuguese taggers.
Identifer | oai:union.ndltd.org:puc-rio.br/oai:MAXWELL.puc-rio.br:18481 |
Date | 13 October 2011 |
Creators | PEDRO LARRONDA ASTI |
Contributors | RUY LUIZ MILIDIU |
Publisher | MAXWELL |
Source Sets | PUC Rio |
Language | Portuguese |
Detected Language | English |
Type | TEXTO |
Page generated in 0.0024 seconds