[pt] Esta dissertação apresenta o processo de desenvolvimento do PetroGold,
um corpus anotado com informação morfossintática – um treebank – padrão
ouro para o domínio do petróleo. O desenvolvimento do recurso é abordado sob
duas lentes: do lado linguístico, estudamos a literatura gramatical e tomamos
decisões linguisticamente motivadas para garantir a qualidade da anotação
do corpus; do lado computacional, avaliamos o recurso considerando a sua
utilidade para o processamento de linguagem natural (PLN). Recursos como
o PetroGold recebem relevância especial no contexto atual, em que o PLN
estatístico tem se beneficiado de recursos padrão ouro de domínios específicos
para alimentar o aprendizado automático. No entanto, o treebank é útil também
para tarefas como a avaliação de sistemas de anotação baseados em regras e
para os estudos linguísticos. O PetroGold foi anotado segundo as diretivas
do projeto Universal Dependencies, tendo como pressupostos a ideia de que a
anotação de um corpus é um processo interpretativo, por um lado, e utilizando
o paradigma da linguística empírica, por outro. Além de descrever a anotação
propriamente, aplicamos alguns métodos para encontrar erros na anotação de
treebanks e apresentamos uma ferramenta criada especificamente para busca,
edição e avaliação de corpora anotados. Por fim, avaliamos o impacto da revisão
de cada uma das categorias linguísticas do treebank no aprendizado automático
de um modelo alimentado pelo PetroGold e disponibilizamos publicamente a
terceira versão do corpus, a qual, quando submetida à avaliação intrínseca de
um modelo, alcança métricas até 2,55 por cento melhores que a versão anterior. / [en] This thesis reports on the development process of PetroGold, a goldstandard annotated corpus with morphosyntactic information – a treebank
– for the oil and gas domain. The development of the resource is seen
from two perspectives: on the linguistic side, we study the grammatical
literature and make linguistically motivated decisions to ensure the quality
of corpus annotation; on the computational side, we evaluate the resource
considering its usefulness for natural language processing (NLP). Resources like
PetroGold receive special importance in the current context, where statistical
NLP has benefited from domain-specific gold-standard resources to train
machine learning models. However, the treebank is also useful for tasks such as
evaluating rule-based annotation systems and for linguistic studies. PetroGold
was annotated according to the guidelines of the Universal Dependencies
project, having as theoretical assumptions the idea that the annotation of
a corpus is an interpretative process, on the one hand, and using the empirical
linguistics paradigm, on the other. In addition to describing the annotation
itself, we apply some methods to find errors in the annotation of treebanks
and present a tool created specifically for searching, editing and evaluating
annotated corpora. Finally, we evaluate the impact of revising each of the
treebank linguistic categories on the automatic learning of a model powered
by PetroGold and make the third version of the corpus publicly available,
which, when performing an intrinsic evaluation for a model using the corpus,
achieves metrics up to 2.55 perecent better than the previous version.
Identifer | oai:union.ndltd.org:puc-rio.br/oai:MAXWELL.puc-rio.br:62693 |
Date | 29 May 2023 |
Creators | ELVIS ALVES DE SOUZA |
Contributors | MARIA CLAUDIA DE FREITAS, MARIA CLAUDIA DE FREITAS |
Publisher | MAXWELL |
Source Sets | PUC Rio |
Language | Portuguese |
Detected Language | English |
Type | TEXTO |
Page generated in 0.0025 seconds