1 |
[en] A FEW-SHOT LEARNING APPROACH FOR VIDEO ANNOTATION / [pt] UMA ABORDAGEM FEW-SHOT LEARNING PARA ANOTAÇÃO DE VÍDEOSDEBORA STUCK DELGADO DE SOUZA 04 July 2024 (has links)
[pt] Cada vez mais, os vídeos se tornam uma parte integrante de nossa vida
cotidiana. Plataformas como YouTube, Facebook e Instagram recebem uma
enorme quantidade de horas de vídeo todos os dias. Quando focamos na
categoria de vídeos esportivos, é evidente o crescente interesse em obter dados
estatísticos, especialmente no futebol. Isso é valioso tanto para melhorar a
performance de atletas e equipes quanto para plataformas que utilizam essas
informações, como as de apostas. Consequentemente, o interesse em resolver
problemas relacionados à Visão Computacional tem aumentado. No caso do
Aprendizado Supervisionado, a qualidade das anotações dos dados é mais um
ponto importante para o sucesso das pesquisas. Existem várias ferramentas
de anotação disponíveis no mercado, porém poucas com o foco nos quadros
relevantes e com suporte a modelos de Inteligência Artificial. Neste sentido, este
trabalho envolve a utilização da técnica de Transfer Learning com a extração
de features em uma Rede Neural Convolucional (CNN); a investigação de um
modelo de classificação baseado na abordagem Few-Shot Learning em conjunto
com o algoritmo K-Nearest Neighbors (KNN); a avaliação dos resultados com
abordagens diferentes para o balanceamento de classes; o estudo da geração do
gráfico 2D com o t-Distributed Stochastic Neighbor Embedding (t-SNE) para
análise das anotações e a criação de uma ferramenta para anotação de frames
importantes em vídeos, com o intuito de auxiliar as pesquisas e testes. / [en] More and more videos are part of our daily life. Platforms like Youtube,
Facebook and Instagram receive a large amount of hours of videos every
day. When we focus on the sports videos category, the growing interest in
obtaining statistical data is evident, especially in soccer. This is valuable
both for improving the performance of athletes and teams and for platforms
that use this information, such as betting platforms. Consequently, interest
in solving problems related to Computer Vision has increased. In the case
of Supervised Learning, the quality of data annotations is another important
point for the success of research. There are several annotation tools available on
the market, but few focus on relevant frames and support Artificial Intelligence
models. In this sense, this work involves the use of the Transfer Learning
technique for Feature Extraction in a Convolutional Neural Network (CNN);
the investigation of a classification model based on the Few-Shot Learning
approach together with the K-Nearest Neighbors (KNN) algorithm; evaluating
results with different approaches to class balancing; the study of 2D graph
generation with t-Distributed Stochastic Neighbor Embedding (t-SNE) for
annotation analysis and the creation of a tool for annotating important frames
in videos, with the aim of assisting research and testing.
|
2 |
[en] EVALUATION OF POETRY TRANSLATION: ANNOTATION IN THE SEARCH FOR CONSENSUS / [pt] AVALIAÇÃO DE TRADUÇÃO DE POESIA: A ANOTAÇÃO NA BUSCA PELO CONSENSOJULIANA CUNHA MENEZES 01 June 2017 (has links)
[pt] Este estudo, que se insere no viés pós-estruturalista, tem como hipótese a possibilidade de se estabelecerem categorias capazes de instrumentalizar avaliações minimamente consensuais de traduções de poesia. Assim, dadas duas ou mais traduções de um poema, submetidas a dois ou mais avaliadores que adotem categorias uniformes de análise, suas avaliações, ainda que não idênticas, terão em comum alguns pontos relevantes. A busca pelo consenso é feita através da anotação, uma das atividades da Linguística Computacional, que consiste em identificar e classificar um certo fenômeno linguístico, utilizando rótulos, etiquetas, categorias, em um determinado corpus para, assim, atingirmos um determinado objetivo. Os objetivos da tese são (a) fornecer, aos interessados em tradução de poesia, insumos para se poder avaliar, de forma minimamente consensual, traduções de poemas; e (b) explicitar, sistematizar e validar categorias do nível semântico-lexical, e descrever e confirmar categorias do nível formal (níveis métrico e rimático) e do plano de recursos sonoros, a fim de que possam ser usadas para embasar avaliações minimamente consensuais de traduções de poesia. A pesquisa apresenta três etapas. Na primeira, a anotação é utilizada como metodologia na busca pelo consenso. Nessa etapa, anotações de poemas originais e de traduções foram feitas por diferentes estudiosos. Ao comparar essas anotações em busca de consenso, confirmei/validei ou reformulei as categorias. O consenso permite confirmação e validação, já a falta dele abre espaço para reformulações e refinamentos. Na segunda etapa, a metodologia de Britto, com algumas observações adicionais, foi utilizada para analisar os resultados oriundos da primeira etapa. Objetiva-se, por meio de tal metodologia, verificar se os aspectos mais relevantes dos níveis métrico, rimático, semântico-lexical e do plano de recursos sonoros (aliterações, assonâncias e recursos afins) dos poemas originais foram recriados nas traduções. E na terceira, são utilizados os resultados da segunda etapa a fim de se produzir elementos para uma possível avaliação de traduções de poesia: entre duas traduções do soneto 130 de Shakespeare, verificar qual seria a mais fiel ao original. A hipótese foi comprovada quanto ao nível formal e ao plano de recursos sonoros, mas não quanto ao nível semântico-lexical. A validação das categorias do nível semântico-lexical pode prosseguir em pesquisas futuras, o que pode ou não resultar na possibilidade de concordância entre avaliações desse nível. O objetivo (a) foi atingido. Já o objetivo (b) foi atingido em parte: a explicitação, sistematização e validação das categorias do nível semântico-lexical iniciaram-se nesta pesquisa, e podem continuar em estudos futuros. Esta pesquisa pode ser vista como contribuição tanto para área de tradução de poesia, quanto para a Linguística Computacional. Quanto à primeira, a anotação prevê interpretações e tomadas de decisão, evidenciando, assim, as possíveis interpretações e decisões tomadas durante o processo de tradução. E em relação à segunda, o desenvolvimento de uma ferramenta para anotação de poemas, e de uma métrica para avaliação de traduções de poesia, utilizando as categorias presentes nesta tese, poderia ocorrer através de uma parceria com a Engenharia Computacional. / [en] This study, which can be included in the post-structuralist field, has as its hypothesis the possibility of establishing categories capable of making the following kind of evaluation possible: minimally consensual evaluations of poetry translations. Therefore, when taking into account two or more translations of a poem, submitted to two or more evaluators who adopt uniform categories of analysis, their evaluations, though not identical, will have some relevant aspects in common. The search for consensus is carried out through annotation, one of the activities of Computational Linguistics, which identify and classify a certain linguistic phenomenon, using labels, tags, categories, in a given corpus, so as to achieve a certain goal. The aims of this dissertation are (a) to provide tools for evaluating translations of poems in a minimally consensual way;and (b) to define, systematize and validate the categories of the semantic-lexical level, and to describe and confirm the categories of the formal level (metric and rhymic levels) and of the poetic field of sound resources, so that they all can be used to support minimally consensual evaluations of poetry translation.The research consists of three steps. In the first, annotation is used as a methodology in the search of consensus. In this step, annotations of poems and their translations were made by different annotators. By comparing these annotations searching for consensus, categories were confirmed/validated or reformulated. The consensus allows confirmation and validation, but absence of consensus suggests reformulations and refinements. In the second step, Britto s methodology, with some additional observations, was used to analyse the results from the first step. This methodology aims at verifying whether the most relevant aspects of the formal and semantic-lexical levels and of the poetic field of sound resources (alliterations, assonances, and the like) of the poems have been re-created in the translations. And in the third step, the results of the second one are used in order to produce resources for a possible evaluation of poetry translations: among two translations of the sonnet 130 by Shakespeare, which one would be the most faithful. The hypothesis was proved concerning the formal level and the poetic field of sound resources, but wasn t proved regarding the semantic-lexical level. The validation of categories of the semantic-lexical level can go on in future researches, which may or may not result in the possibility of agreement among evaluations of this level. Aim (a) was achieved. And aim (b) was partially achieved: the definition, systematization and validation of the categories of the semantic-lexical level started in this research, and can go on in future studies. This research can be seen as a contribution not only to the field of poetry translation, but also to Computational Linguistics. Regarding the first, annotation requires interpretations and decision-making processes, thus highlighting the possible interpretations and decision-making processes used during translation. And, concerning the second, the development of a tool for poem annotation, and of a metric for evaluation of poetry translation, using the categories present in this dissertation, may be achieved through a partnership with Computer Engineering.
|
3 |
[pt] CLASSES DE PALAVRAS - DA GRÉCIA ANTIGA AO GOOGLE: UM ESTUDO MOTIVADO PELA CONVERSÃO DE TAGSETS / [en] PART OF SPEECH - FROM ANCIENT GREECE TO GOOGLE: A STUDY MOTIVATED BY TAGSET CONVERSIONLUIZA FRIZZO TRUGO 10 November 2016 (has links)
[pt] A dissertação Classes de palavras — da Grécia Antiga ao Google:
um estudo motivado pela conversão de tagsets consiste em um estudo
linguístico sobre classes gramaticais. A pesquisa tem como motivação uma
tarefa específica da Linguística Computacional: a anotação de classes
gramaticais (POS, do inglês part of speech ). Especificamente, a
dissertação relata desafios e opções linguísticas decorrentes da tarefa de
alinhamento entre dois tagsets: o tagset utilizado na anotação do corpus
Mac-Morpho, um corpus brasileiro de 1.1 milhão de palavras, e o tagset
proposto por uma equipe dos laboratórios Google e que vem sendo utilizado
no âmbito do projeto Universal Dependencies (UD). A dissertação tem
como metodologia a investigação por meio da anotação de grandes corpora
e tematiza sobretudo o alinhamento entre as formas participiais. Como
resultado, além do estudo e da documentação das opções linguísticas, a
presente pesquisa também propiciou um cenário que viabiliza o estudo do
impacto de diferentes tagsets em sistemas de Processamento de Linguagem
Natural (PLN) e possibilitou a criação e a disponibilização de mais um
recurso para a área de processamento de linguagem natural do português: o
corpus Mac-Morpho anotado com o tagset e a filosofia de anotação do
projeto UD, viabilizando assim estudos futuros sobre o impacto de
diferentes tagsets no processamento automático de uma língua. / [en] The present dissertation, Part of speech — from Ancient Greece to
Google: a study motivated by tagset conversion, is a linguistic study
regarding gramatical word classes. This research is motivated by a specific
task from Computational Linguistics: the annotation of part of speech
(POS). Specifically, this dissertation reports the challenges and linguistic
options arising from the task of aligning two tagsets: the first used in the
annotation of the Mac-Morpho corpus — a Brazilian corpus with 1.1
million words — and the second proposed by Google research lab, which
has been used in the context of the Universal Dependencies (UD) project.
The present work adopts the annotation of large corpora as methodology
and focuses mainly on the alignment of the past participle forms. As a
result, in addition to the study and the documentation of the linguistic
choices, this research provides a scenario which enables the study of the
impact different tagsets have on Natural Language Processing (NLP)
systems and presents another Portuguese NLP resource: the Mac-Morpho
corpus annotated with project UD s tagset and consistent with its annotation
philosophy, thus enabling future studies regarding the impact of different
tagsets in the automatic processing of a language.
|
4 |
[en] A DATA ANNOTATION APPROACH USING LARGE LANGUAGE MODELS / [pt] UMA ABORDAGEM PARA ANOTAÇÃO DE DADOS UTILIZANDO GRANDES MODELOS DE LINGUAGEMCARLOS VINICIOS MARTINS ROCHA 17 October 2024 (has links)
[pt] Os documentos são essenciais para o sistema econômico e acadêmico;
no entanto, explorá-los pode ser uma tarefa complexa e demorada. Uma
abordagem para contornar esse problema é o uso de modelos de Visual
Question and Answering (VQA) para extração de informações de documentos
por meio de prompts em linguagem natural. No VQA, assim como para
o desenvolvimento dos mais variados modelos, é necessário possuir dados
anotados para a sua etapa de treinamento e validação. No entanto, criar esses
conjuntos de dados é desafiador devido ao alto custo envolvido no processo.
Com base nisso, propomos um processo de quatro etapas que combina Modelos
de Visão Computacional e Large Language Models (LLMs) para a anotação
de dados de VQA em relatórios financeiros. O método proposto inicia pelo
reconhecimento da estrutura textual dos documentos por meio de modelos de
Análise de Layout de Documentos e Extração de Estrutura de Tabelas. Em
seguida, utiliza duas LLMs distintas para a etapa de geração e avaliação dos
pares de perguntas e respostas geradas, automatizando a construção e seleção
dos melhores pares para compor a base final. Para avaliar o método proposto,
geramos um dataset para treinar e avaliar modelos especialistas em VQA. / [en] Documents are essential for the economic and academic system; however,
exploring them can be complex and time-consuming. An approach to surpass
this problem is the use of Visual Question and Answering (VQA) models to
extract information from documents through natural language prompts. In
VQA, as well as for the development of various models, it is necessary to have
annotated data for training and validation. However, creating these datasets is
challenging due to the high cost involved in the process. To face this challenge,
we propose a four-step process that combines Computer Vision Models and
Large Language Models (LLMs) for VQA data annotation in financial reports.
The proposed method starts with recognizing the textual structure of documents through Document Layout Analysis and Table Structure Extraction
models. Then, it uses two distinct LLMs for the generation and evaluation of
question and answer pairs, automating the construction and selection of the
best pairs to compose the final dataset. To evaluate the proposed method, we
generate a dataset for train and evaluate VQA specialized models.
|
5 |
[en] BUILDING AND EVALUATING A GOLD-STANDARD TREEBANK / [pt] CONSTRUÇÃO E AVALIAÇÃO DE UM TREEBANK PADRÃO OUROELVIS ALVES DE SOUZA 29 May 2023 (has links)
[pt] Esta dissertação apresenta o processo de desenvolvimento do PetroGold,
um corpus anotado com informação morfossintática – um treebank – padrão
ouro para o domínio do petróleo. O desenvolvimento do recurso é abordado sob
duas lentes: do lado linguístico, estudamos a literatura gramatical e tomamos
decisões linguisticamente motivadas para garantir a qualidade da anotação
do corpus; do lado computacional, avaliamos o recurso considerando a sua
utilidade para o processamento de linguagem natural (PLN). Recursos como
o PetroGold recebem relevância especial no contexto atual, em que o PLN
estatístico tem se beneficiado de recursos padrão ouro de domínios específicos
para alimentar o aprendizado automático. No entanto, o treebank é útil também
para tarefas como a avaliação de sistemas de anotação baseados em regras e
para os estudos linguísticos. O PetroGold foi anotado segundo as diretivas
do projeto Universal Dependencies, tendo como pressupostos a ideia de que a
anotação de um corpus é um processo interpretativo, por um lado, e utilizando
o paradigma da linguística empírica, por outro. Além de descrever a anotação
propriamente, aplicamos alguns métodos para encontrar erros na anotação de
treebanks e apresentamos uma ferramenta criada especificamente para busca,
edição e avaliação de corpora anotados. Por fim, avaliamos o impacto da revisão
de cada uma das categorias linguísticas do treebank no aprendizado automático
de um modelo alimentado pelo PetroGold e disponibilizamos publicamente a
terceira versão do corpus, a qual, quando submetida à avaliação intrínseca de
um modelo, alcança métricas até 2,55 por cento melhores que a versão anterior. / [en] This thesis reports on the development process of PetroGold, a goldstandard annotated corpus with morphosyntactic information – a treebank
– for the oil and gas domain. The development of the resource is seen
from two perspectives: on the linguistic side, we study the grammatical
literature and make linguistically motivated decisions to ensure the quality
of corpus annotation; on the computational side, we evaluate the resource
considering its usefulness for natural language processing (NLP). Resources like
PetroGold receive special importance in the current context, where statistical
NLP has benefited from domain-specific gold-standard resources to train
machine learning models. However, the treebank is also useful for tasks such as
evaluating rule-based annotation systems and for linguistic studies. PetroGold
was annotated according to the guidelines of the Universal Dependencies
project, having as theoretical assumptions the idea that the annotation of
a corpus is an interpretative process, on the one hand, and using the empirical
linguistics paradigm, on the other. In addition to describing the annotation
itself, we apply some methods to find errors in the annotation of treebanks
and present a tool created specifically for searching, editing and evaluating
annotated corpora. Finally, we evaluate the impact of revising each of the
treebank linguistic categories on the automatic learning of a model powered
by PetroGold and make the third version of the corpus publicly available,
which, when performing an intrinsic evaluation for a model using the corpus,
achieves metrics up to 2.55 perecent better than the previous version.
|
6 |
[pt] VISUALIZANDO FATOS DE DADOS: UM ESTUDO COMPARATIVO DAS TÉCNICAS DE ANOTAÇÃO E SEU IMPACTO SOBRE AS PERCEPÇÕES DOS USUÁRIOS / [en] VISUALIZING DATA FACTS: A COMPARATIVE STUDY OF ANNOTATION TECHNIQUES AND THEIR IMPACT ON USERS PERCEPTIONSDIEINISON JACK FREIRE BRAGA 03 July 2023 (has links)
[pt] Um número crescente de sistemas de visualização tem sido desenvolvido
tanto comercialmente quanto na comunidade de pesquisa. Embora estas ferramentas possam ajudar na construção de gráficos, elas apresentam desafios
para analistas não especialistas. Um desafio em particular é o de prover suporte
para destacar visualmente fatos de dados em gráficos. O esforço empregado por
analistas não especialistas ou designers (sem conhecimento de programação)
para realizar anotações visuais pode ser complexo e demorado. Nesta pesquisa,
investigamos representações visuais de fatos de dados para apoiar analistas não
especialistas na exploração e comunicação de insights através dos dados. Para
endereçar estes desafios, nós tornamos operacional um modelo conceitual que
relaciona visualizações, fatos de dados e suas representações visuais. Implementamos o modelo em uma ferramenta de visualização chamada VisStoryMaker,
que permite gerar gráficos anotados sem exigir conhecimento especializado.
Para avaliar o seu valor percebido, conduzimos um estudo de métodos mistos
com usuário comparando com o Tableau Public. No geral, a VisStoryMaker
oferece uma abordagem fácil de usar para destacar visualmente fatos sobre dados, e o uso de anotações visuais de fatos sobre dados nas visualizações podem
apoiar usuários não especialistas na exploração e comunicação por meio de
dados. Entretanto, seu uso deve ser cuidadosamente considerado para evitar
poluir visualmente os gráficos. / [en] A growing number of visualization systems have been developed both
commercially and within the research community. While these tools can aid
in building charts, they can also present challenges for non-expert analysts.
One particular challenge is providing support to visually highlight data facts
in graphs. The manual effort employed by non-expert analysts or designers
(without programming skills) to create annotations can be complex and
time-consuming. In this research, we investigate visual representations of
data facts in supporting non-expert analysts to explore and communicate
insights through data. To address these challenges, we developed a conceptual
model relating visualizations, data facts, and their visual representations.
We implemented it into a visualization tool named VisStoryMaker, which
allows generating annotated charts without requiring specialized knowledge.
To benchmark its perceived value, we conducted a mixed-methods user study
comparing it to Tableau Public. Overall, VisStoryMaker provides an easy-to-use approach to highlight facts visually, and the use of visual annotations
in data visualizations can support non-expert users in data exploration and
communication. However, their use must be carefully considered and designed
to avoid visually cluttering the charts.
|
7 |
[pt] ANOTAÇÃO PROFUNDA DE PAPÉIS SEMÂNTICOS PARA O PORTUGUÊS / [en] DEEP SEMANTIC ROLE LABELING FOR PORTUGUESEGUILHERME SANT ANNA VARELA 06 August 2019 (has links)
[pt] Vivemos em um mundo complexo, no qual incontáveis fatores aparentemente desconexos – tais como a lei de Moore que dita um aumento exponencial da capacidade de processamento em um chip de silício, a queda do custo de espaço de armazenamento e a adoção em massa de smartphones colaboram para a formação de uma sociedade progressivamente interdependente. Todos os dias são criados 2,5 quintilhões de bytes de dados, de fato 90 por cento dos dados no mundo foram criados nos últimos dois anos. Domar os padrões salientes aos dados separando informação do caos torna-se uma necessidade iminente para a tomada de decisão dos indivíduos e para sobrevivência de organizações. Nesse cenário a melhor resposta dos pesquisadores de Processamento de Linguagem Natural encontra-se na tarefa de Anotação de Papéis
Semânticos. APS é a tarefa que tem o audacioso objetivo de compreender eventos, buscando determinar Quem fez o que e aonde, Quais foram os beneficiados? ou Qual o meio utilizado para atingir os fins. APS serve como tarefa intermediária para várias aplicações de alto nível e.g information extraction, question and answering e agentes conversacionais. Tradicionalmente, resultados satisfatórios eram obtidos apenas com alta dependência de conhecimento específico de domínio. Para o português, através desta abordagem,
o sistema estado da arte da tarefa para é de 79,6 por cento de pontuação F1. Sistemas mais recentes dependem de uma série de subtarefas, obtém 58 por cento de pontuação F1. Nessa dissertação, exploramos um novo paradigma utilizando redes neurais recorrentes, para o idioma do português do Brasil,
e sem subtarefas intermediárias obtendo uma pontuação de 66,23. / [en] We live in a complex world in which a myriad of seemingly unrelated factors – such as Moore s law which states that the processing capacity on a silicon wafer should increase exponentially, the fall of storage costs and mass adoption of smart-phones contribute to the formation of an increasingly inter-dependent society: 2.5 quintillion bytes of data are generated every day, in fact ninety percent of the world s data were created in the last few years. Harnessing the emerging patterns within the data, effectively separating information from chaos is crucial for both individual decision making as well as for the survival of organizations. In this scenario the best answer from Natural Language Processing researchers is the task
of Semantic Role Labeling. SRL is the task the concerns itself with the audacious goal of event understanding, which means determining Who did what to whom, Who was the beneficiary? or What were the means to achieve some goal. APS is also an intermediary task to high level applications such as information extraction, question and answering and chatbots. Traditionally, satisfactory results were obtained only by the introduction of highly specific domain knowledge. For Portuguese, this approach is able to yields a F1 score of 79.6 percent. Recent systems, rely on a pipeline of sub-tasks, yielding a F1 score of 58 percent. In this dissertation, we adopt a new paradigm using recurrent neural networks for the Brazilian Portuguese, that does not rely on a pipeline, our system obtains a score of 66.23 percent.
|
8 |
[en] PART-OF-SPEECH TAGGING FOR PORTUGUESE / [pt] PART-OF-SPEECH TAGGING PARA PORTUGUÊSROMULO CESAR COSTA DE SOUSA 07 April 2020 (has links)
[pt] Part-of-speech (POS) tagging é o processo de categorizar cada palavra
de uma sentença com sua devida classe morfossintática (verbo, substantivo,
adjetivo e etc). POS tagging é considerada uma atividade fundamental no
processo de construção de aplicações de processamento de linguagem natural
(PLN), muitas dessas aplicações, em algum ponto, demandam esse tipo de
informação. Nesse trabalho, construímos um POS tagger para o Português
Contemporâneo e o Português Histórico, baseado em uma arquitetura de
rede neural recorrente. Tradicionalmente a construção dessas ferramentas
requer muitas features específicas do domínio da linguagem e dados externos
ao conjunto de treino, mas nosso POS tagger não usa esses requisitos.
Treinamos uma rede Bidirectional Long short-term memory (BLSTM), que
se beneficia das representações de word embeddings e character embeddings
das palavras, para atividade de classificação morfossintática. Testamos nosso
POS tagger em três corpora diferentes: a versão original do corpus MacMorpho, a versão revisada do corpus Mac-Morpho e no corpus Tycho Brahe.
Nós obtemos um desempenho ligeiramente melhor que os sistemas estado
da arte nos três corpora: 97.83 por cento de acurácia para o Mac-Morpho original,
97.65 por cento de acurácia para o Mac-Morpho revisado e 97.35 por cento de acurácia para
Tycho Brahe. Conseguimos, também, uma melhora nos três corpora para
a medida de acurácia fora do vocabulário, uma acurácia especial calculada
somente sobre as palavras desconhecidas do conjunto de treino. Realizamos
ainda um estudo comparativo para verificar qual dentre os mais populares
algoritmos de criação de word embedding (Word2Vec, FastText, Wang2Vec
e Glove), é mais adequado para a atividade POS tagging em Português. O
modelo de Wang2Vec mostrou um desempenho superior. / [en] Part-of-speech (POS) tagging is a process of labeling each word
in a sentence with a morphosyntactic class (verb, noun, adjective and
etc). POS tagging is a fundamental part of the linguistic pipeline, most
natural language processing (NLP) applications demand, at some step,
part-of-speech information. In this work, we constructed a POS tagger
for Contemporary Portuguese and Historical Portuguese, using a recurrent
neural network architecture. Traditionally the development of these tools
requires many handcraft features and external data, our POS tagger does
not use these elements. We trained a Bidirectional Long short-term memory
(BLSTM) network that benefits from the word embeddings and character
embeddings representations of the words, for morphosyntactic classification.
We tested our POS tagger on three different corpora: the original version
of the Mac-Morpho corpus, the revised version of the Mac-Morpho corpus,
and the Tycho Brahe corpus. We produce state-of-the-art POS taggers for
the three corpora: 97.83 percent accuracy on the original Mac-Morpho corpus,
97.65 percent accuracy on the revised Mac-Morpho and 97.35 percent accuracy on the
Tycho Brahe corpus. We also achieved an improvement in the three corpora
in out-of-vocabulary accuracy, that is the accuracy on words not seen in
training sentences. We also performed a comparative study to test which
different types of word embeddings (Word2Vec, FastText, Wang2Vec, and
Glove) is more suitable for Portuguese POS tagging. The Wang2Vec model
showed higher performance.
|
9 |
[en] SEMANTIC ROLE-LABELING FOR PORTUGUESE / [pt] ANOTADOR DE PAPEIS SEMÂNTICOS PARA PORTUGUÊSARTHUR BELTRAO CASTILHO NETO 23 June 2017 (has links)
[pt] A anotação de papeis semânticos (APS) é uma importante tarefa do processamento de linguagem natural (PLN), que possibilita estabelecer uma relação de significado entre os eventos descritos em uma sentença e seus participantes. Dessa forma, tem o potencial de melhorar o desempenho de inúmeros outros sistemas, tais como: tradução automática, correção ortográfica, extração e recuperação de informações e sistemas de perguntas e respostas, uma vez que reduz as ambiguidades existentes no texto de entrada. A grande maioria dos sistemas de APS publicados no mundo realiza a tarefa empregando técnicas de aprendizado supervisionado e, para obter melhores resultados, usam corpora manualmente revisados de tamanho considerável. No caso do Brasil, o recurso lexical que possui anotações semânticas (Propbank.br) é muito menor. Por isso, nos últimos anos, foram feitas tentativas de melhorar esse resultado utilizando técnicas de aprendizado semisupervisionado ou não-supervisionado. Embora esses trabalhos tenham contribuido direta e indiretamente para a área de PLN, não foram capazes de superar o desempenho dos sistemas puramente supervisionados. Este trabalho apresenta uma abordagem ao problema de anotação de papéis semânticos no idioma português. Utilizamos aprendizado supervisionado sobre um conjunto de 114 atributos categóricos e empregando duas técnicas de regularização de domínio, combinadas para reduzir o número de atributos binários em 96 por cento. O modelo gerado usa uma support vector machine com solver L2-loss dual support vector classification e é testado na base PropBank.br, apresentando desempenho ligeiramente superior ao estado-da-arte. O sistema é avaliado empiricamente pelo script oficial da CoNLL 2005 Shared Task, obtendo 82,17 por cento de precisão, 82,88 por cento de cobertura e 82,52 por cento de F1 ao passo que o estado-da-arte anterior atinge 83,0 por cento de precisão, 81,7 por cento de cobertura e 82,3 por cento de F1. / [en] Semantic role-labeling (SRL) is an important task of natural language processing (NLP) which allows establishing meaningful relationships between events described in a given sentence and its participants. Therefore, it can potentially improve performance on a large number of NLP systems such as automatic translation, spell correction, information extraction and retrieval and question answering, as it decreases ambiguity in the input text. The vast majority of SRL systems reported so far employed supervised learning techniques to perform the task. For better results, large sized manually reviewed corpora are used. The Brazilian semantic role labeled lexical resource (Propbank.br) is much smaller. Hence, in recent years, attempts have been made to improve performance using semi supervised and unsupervised learning. Even making several direct and indirect contributions to NLP, those studies were not able to outperform exclusively supervised systems. This paper presents an approach to the SRL task in Portuguese language using supervised learning over a set of 114 categorical features. Over those, we apply a combination of two domain regularization methods to cut binary features down to 96 percent. We test a SVM model (L2-loss dual support vector classification) on PropBank.Br dataset achieving results slightly better than state-of-the-art. We empirically evaluate the system using official CoNLL 2005 Shared Task script pulling 82.17 percent precision, 82.88 percent coverage and 82.52 percent F1. The previous state-of-the-art Portuguese SRL system scores 83.0 percent precision, 81.7 percent coverage and 82.3 percent F1.
|
10 |
[en] METHODOLOGIES FOR CHARACTERIZING AND DETECTING EMOTIONAL DESCRIPTION IN THE PORTUGUESE LANGUAGE / [pt] METODOLOGIAS PARA CARACTERIZAÇÃO E DETECÇÃO DA DESCRIÇÃO DE EMOÇÃO NA LÍNGUA PORTUGUESABARBARA CRISTINA MARQUES P RAMOS 29 May 2023 (has links)
[pt] O interesse desta tese recai sobre compreender como os falantes de língua
portuguesa a utilizam para materializar a menção de emoção através de um
trabalho, sobretudo, linguístico. O objetivo geral da pesquisa é criar recursos para
aprimorar a anotação do campo semântico das emoções na língua portuguesa a
partir do projeto AC/DC, projeto que reúne e disponibiliza publicamente corpora
anotados e recursos para pesquisas na língua portuguesa, e do Emocionário,
projeto de anotação semântica e léxico de emoções. Inicialmente, a pesquisa dá
um panorama dos estudos de emoção; se alinha às perspectivas que refutam a
universalidade das emoções e abordagens que postulam emoções básicas; e
contrapõe seu interesse por menção de emoção à já consolidada área de Análise de
Sentimento, contrastando cinco léxicos de sentimento e/ou polaridades em língua
portuguesa e o Emocionário. A partir de uma ampla varredura nos corpora do
AC/DC, três principais caminhos foram percorridos para investigar palavras de
emoção: (i) uma análise dos vinte e quatro grupos de emoção que já existiam no
léxico do Emocionário a fim de delinear características e desafios no estudo de
emoção na língua portuguesa; (ii) a revisão completa um terço dos grupos do
léxico do Emocionário; e (iii) buscas pelo padrão léxico-sintático sentimento de
N e por expressões anotadas pelo projeto Esqueleto usadas para descrever
emoção. A análise dos corpora à luz dos lemas previamente pertencentes aos
grupos do léxico do Emocionário evidenciou, dentre outras características, a
relevância de expressões lexicalizadas para a análise da descrição de emoção, dos
tipos de argumentos de verbos e afixos que podem causar variação de sentido, e
de variações de tempo e modo verbal que acarretam mudança de significado.
Dentre os desafios estão palavras e expressões polissêmicas e a dificuldade na
detecção de diferentes sentidos em palavras que compartilham da mesma classe
gramatical, tendo como base somente informações morfossintáticas. Esta análise
possibilitou a estruturação e documentação de uma metodologia de revisão que
pode vir a ser aplicada nos demais grupos futuramente. As principais
contribuições desta tese são decorrentes das análises e explorações em corpora: a
limpeza de lemas com sentidos não-emocionais dos grupos do léxico do
Emocionário; a criação dos grupos de emoção Ausência e Outra,
enriquecendo o léxico; a detecção de mais de novecentos lemas e expressões
provenientes das buscas pelo padrão sentimento de N e das conexões
estabelecidas entre os campos semânticos de emoção e do corpo humano; além de
descobertas de campos lexicais pouco mencionados na literatura sobre emoção,
como coletividade, estranhamento, espiritualidade, parentesco e atos
automotivados, que auxiliaram na investigação de como os falantes do português
cristalizam emoções na língua. / [en] The interest of this thesis lies in understanding how Portuguese speakers use
it to materialize the mention of emotion through a linguistic perspective. The
general objective of the research is to create resources to improve the annotation
of the semantic field of emotions in the Portuguese language based on the AC/DC
project, which gathers and makes publicly available annotated corpora and tools
for linguistic research on Portuguese language. and Emocionário, which is both a
semantic annotation project and lexicon of emotions. Initially, the research gives
an overview of emotion studies; aligning itself with perspectives that refute the
universality of emotions and approaches that postulate basic emotions; and
contrasts the interest in emotion description to the already consolidated area of
Sentiment Analysis, comparing five lexicons of emotion and/or polarities in
Portuguese to Emocionário. From a broad sweep of the AC/DC corpora, three
main paths were taken towards investigating emotion words: (i) an analysis of the
twenty-four emotion groups previously composing the Emocionário lexicon in
order to delineate characteristics and challenges in the study of emotion
description in the Portuguese language; (ii) a thorough revision of one-third of the
Emocionário lexicon groups; and (iii) searches for the lexical-syntactic pattern
sentimento de N and for expressions annotated by the Esqueleto project used to
describe emotion. The corpora analysis in the light of the lemmas previously
belonging to the Emocionário lexicon groups showed, amongst other
characteristics, the relevance of lexicalized expressions for the analysis of the
emotion description, the types of arguments of verbs and affixes that can cause
variation in meaning, and variations in tense and verbal mode that lead to a
change in meaning. Amongst the challenges are polysemous words and
expressions and the difficulty in detecting different meanings in words that share
the same grammatical class, based only on morphosyntactic information. This
analysis enabled the structuring and documentation of a revision methodology that
may be applied in other groups in the future. The main contributions of this thesis
derive from the analyzes and explorations in corpora: the exclusion of lemmas
with non-emotional meanings from the Emocionário lexicon groups; the creation
of emotion groups Ausência and Outra, enriching the lexicon; the detection of
more than nine hundred lemmas and expressions from the searches for the
sentimento de N pattern and the connections established between the semantic
fields of emotion and the human body; in addition to discoveries of lexical fields
rarely mentioned in the literature on emotion, such as coletividade,
estranhamento, espiritualidade, parentesco e atos automotivados, which
helped in the investigation of how Portuguese speakers crystallize emotions in
language.
|
Page generated in 0.0344 seconds