[pt] A dissertação Classes de palavras — da Grécia Antiga ao Google:
um estudo motivado pela conversão de tagsets consiste em um estudo
linguístico sobre classes gramaticais. A pesquisa tem como motivação uma
tarefa específica da Linguística Computacional: a anotação de classes
gramaticais (POS, do inglês part of speech ). Especificamente, a
dissertação relata desafios e opções linguísticas decorrentes da tarefa de
alinhamento entre dois tagsets: o tagset utilizado na anotação do corpus
Mac-Morpho, um corpus brasileiro de 1.1 milhão de palavras, e o tagset
proposto por uma equipe dos laboratórios Google e que vem sendo utilizado
no âmbito do projeto Universal Dependencies (UD). A dissertação tem
como metodologia a investigação por meio da anotação de grandes corpora
e tematiza sobretudo o alinhamento entre as formas participiais. Como
resultado, além do estudo e da documentação das opções linguísticas, a
presente pesquisa também propiciou um cenário que viabiliza o estudo do
impacto de diferentes tagsets em sistemas de Processamento de Linguagem
Natural (PLN) e possibilitou a criação e a disponibilização de mais um
recurso para a área de processamento de linguagem natural do português: o
corpus Mac-Morpho anotado com o tagset e a filosofia de anotação do
projeto UD, viabilizando assim estudos futuros sobre o impacto de
diferentes tagsets no processamento automático de uma língua. / [en] The present dissertation, Part of speech — from Ancient Greece to
Google: a study motivated by tagset conversion, is a linguistic study
regarding gramatical word classes. This research is motivated by a specific
task from Computational Linguistics: the annotation of part of speech
(POS). Specifically, this dissertation reports the challenges and linguistic
options arising from the task of aligning two tagsets: the first used in the
annotation of the Mac-Morpho corpus — a Brazilian corpus with 1.1
million words — and the second proposed by Google research lab, which
has been used in the context of the Universal Dependencies (UD) project.
The present work adopts the annotation of large corpora as methodology
and focuses mainly on the alignment of the past participle forms. As a
result, in addition to the study and the documentation of the linguistic
choices, this research provides a scenario which enables the study of the
impact different tagsets have on Natural Language Processing (NLP)
systems and presents another Portuguese NLP resource: the Mac-Morpho
corpus annotated with project UD s tagset and consistent with its annotation
philosophy, thus enabling future studies regarding the impact of different
tagsets in the automatic processing of a language.
Identifer | oai:union.ndltd.org:puc-rio.br/oai:MAXWELL.puc-rio.br:27933 |
Date | 10 November 2016 |
Creators | LUIZA FRIZZO TRUGO |
Contributors | MARIA CLAUDIA DE FREITAS, MARIA CLAUDIA DE FREITAS |
Publisher | MAXWELL |
Source Sets | PUC Rio |
Language | Portuguese |
Detected Language | English |
Type | TEXTO |
Page generated in 0.0024 seconds