• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 9
  • 2
  • Tagged with
  • 11
  • 11
  • 7
  • 5
  • 5
  • 5
  • 5
  • 4
  • 4
  • 3
  • 3
  • 3
  • 3
  • 3
  • 2
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

[en] A FEW-SHOT LEARNING APPROACH FOR VIDEO ANNOTATION / [pt] UMA ABORDAGEM FEW-SHOT LEARNING PARA ANOTAÇÃO DE VÍDEOS

DEBORA STUCK DELGADO DE SOUZA 04 July 2024 (has links)
[pt] Cada vez mais, os vídeos se tornam uma parte integrante de nossa vida cotidiana. Plataformas como YouTube, Facebook e Instagram recebem uma enorme quantidade de horas de vídeo todos os dias. Quando focamos na categoria de vídeos esportivos, é evidente o crescente interesse em obter dados estatísticos, especialmente no futebol. Isso é valioso tanto para melhorar a performance de atletas e equipes quanto para plataformas que utilizam essas informações, como as de apostas. Consequentemente, o interesse em resolver problemas relacionados à Visão Computacional tem aumentado. No caso do Aprendizado Supervisionado, a qualidade das anotações dos dados é mais um ponto importante para o sucesso das pesquisas. Existem várias ferramentas de anotação disponíveis no mercado, porém poucas com o foco nos quadros relevantes e com suporte a modelos de Inteligência Artificial. Neste sentido, este trabalho envolve a utilização da técnica de Transfer Learning com a extração de features em uma Rede Neural Convolucional (CNN); a investigação de um modelo de classificação baseado na abordagem Few-Shot Learning em conjunto com o algoritmo K-Nearest Neighbors (KNN); a avaliação dos resultados com abordagens diferentes para o balanceamento de classes; o estudo da geração do gráfico 2D com o t-Distributed Stochastic Neighbor Embedding (t-SNE) para análise das anotações e a criação de uma ferramenta para anotação de frames importantes em vídeos, com o intuito de auxiliar as pesquisas e testes. / [en] More and more videos are part of our daily life. Platforms like Youtube, Facebook and Instagram receive a large amount of hours of videos every day. When we focus on the sports videos category, the growing interest in obtaining statistical data is evident, especially in soccer. This is valuable both for improving the performance of athletes and teams and for platforms that use this information, such as betting platforms. Consequently, interest in solving problems related to Computer Vision has increased. In the case of Supervised Learning, the quality of data annotations is another important point for the success of research. There are several annotation tools available on the market, but few focus on relevant frames and support Artificial Intelligence models. In this sense, this work involves the use of the Transfer Learning technique for Feature Extraction in a Convolutional Neural Network (CNN); the investigation of a classification model based on the Few-Shot Learning approach together with the K-Nearest Neighbors (KNN) algorithm; evaluating results with different approaches to class balancing; the study of 2D graph generation with t-Distributed Stochastic Neighbor Embedding (t-SNE) for annotation analysis and the creation of a tool for annotating important frames in videos, with the aim of assisting research and testing.
2

[en] EVALUATION OF POETRY TRANSLATION: ANNOTATION IN THE SEARCH FOR CONSENSUS / [pt] AVALIAÇÃO DE TRADUÇÃO DE POESIA: A ANOTAÇÃO NA BUSCA PELO CONSENSO

JULIANA CUNHA MENEZES 01 June 2017 (has links)
[pt] Este estudo, que se insere no viés pós-estruturalista, tem como hipótese a possibilidade de se estabelecerem categorias capazes de instrumentalizar avaliações minimamente consensuais de traduções de poesia. Assim, dadas duas ou mais traduções de um poema, submetidas a dois ou mais avaliadores que adotem categorias uniformes de análise, suas avaliações, ainda que não idênticas, terão em comum alguns pontos relevantes. A busca pelo consenso é feita através da anotação, uma das atividades da Linguística Computacional, que consiste em identificar e classificar um certo fenômeno linguístico, utilizando rótulos, etiquetas, categorias, em um determinado corpus para, assim, atingirmos um determinado objetivo. Os objetivos da tese são (a) fornecer, aos interessados em tradução de poesia, insumos para se poder avaliar, de forma minimamente consensual, traduções de poemas; e (b) explicitar, sistematizar e validar categorias do nível semântico-lexical, e descrever e confirmar categorias do nível formal (níveis métrico e rimático) e do plano de recursos sonoros, a fim de que possam ser usadas para embasar avaliações minimamente consensuais de traduções de poesia. A pesquisa apresenta três etapas. Na primeira, a anotação é utilizada como metodologia na busca pelo consenso. Nessa etapa, anotações de poemas originais e de traduções foram feitas por diferentes estudiosos. Ao comparar essas anotações em busca de consenso, confirmei/validei ou reformulei as categorias. O consenso permite confirmação e validação, já a falta dele abre espaço para reformulações e refinamentos. Na segunda etapa, a metodologia de Britto, com algumas observações adicionais, foi utilizada para analisar os resultados oriundos da primeira etapa. Objetiva-se, por meio de tal metodologia, verificar se os aspectos mais relevantes dos níveis métrico, rimático, semântico-lexical e do plano de recursos sonoros (aliterações, assonâncias e recursos afins) dos poemas originais foram recriados nas traduções. E na terceira, são utilizados os resultados da segunda etapa a fim de se produzir elementos para uma possível avaliação de traduções de poesia: entre duas traduções do soneto 130 de Shakespeare, verificar qual seria a mais fiel ao original. A hipótese foi comprovada quanto ao nível formal e ao plano de recursos sonoros, mas não quanto ao nível semântico-lexical. A validação das categorias do nível semântico-lexical pode prosseguir em pesquisas futuras, o que pode ou não resultar na possibilidade de concordância entre avaliações desse nível. O objetivo (a) foi atingido. Já o objetivo (b) foi atingido em parte: a explicitação, sistematização e validação das categorias do nível semântico-lexical iniciaram-se nesta pesquisa, e podem continuar em estudos futuros. Esta pesquisa pode ser vista como contribuição tanto para área de tradução de poesia, quanto para a Linguística Computacional. Quanto à primeira, a anotação prevê interpretações e tomadas de decisão, evidenciando, assim, as possíveis interpretações e decisões tomadas durante o processo de tradução. E em relação à segunda, o desenvolvimento de uma ferramenta para anotação de poemas, e de uma métrica para avaliação de traduções de poesia, utilizando as categorias presentes nesta tese, poderia ocorrer através de uma parceria com a Engenharia Computacional. / [en] This study, which can be included in the post-structuralist field, has as its hypothesis the possibility of establishing categories capable of making the following kind of evaluation possible: minimally consensual evaluations of poetry translations. Therefore, when taking into account two or more translations of a poem, submitted to two or more evaluators who adopt uniform categories of analysis, their evaluations, though not identical, will have some relevant aspects in common. The search for consensus is carried out through annotation, one of the activities of Computational Linguistics, which identify and classify a certain linguistic phenomenon, using labels, tags, categories, in a given corpus, so as to achieve a certain goal. The aims of this dissertation are (a) to provide tools for evaluating translations of poems in a minimally consensual way;and (b) to define, systematize and validate the categories of the semantic-lexical level, and to describe and confirm the categories of the formal level (metric and rhymic levels) and of the poetic field of sound resources, so that they all can be used to support minimally consensual evaluations of poetry translation.The research consists of three steps. In the first, annotation is used as a methodology in the search of consensus. In this step, annotations of poems and their translations were made by different annotators. By comparing these annotations searching for consensus, categories were confirmed/validated or reformulated. The consensus allows confirmation and validation, but absence of consensus suggests reformulations and refinements. In the second step, Britto s methodology, with some additional observations, was used to analyse the results from the first step. This methodology aims at verifying whether the most relevant aspects of the formal and semantic-lexical levels and of the poetic field of sound resources (alliterations, assonances, and the like) of the poems have been re-created in the translations. And in the third step, the results of the second one are used in order to produce resources for a possible evaluation of poetry translations: among two translations of the sonnet 130 by Shakespeare, which one would be the most faithful. The hypothesis was proved concerning the formal level and the poetic field of sound resources, but wasn t proved regarding the semantic-lexical level. The validation of categories of the semantic-lexical level can go on in future researches, which may or may not result in the possibility of agreement among evaluations of this level. Aim (a) was achieved. And aim (b) was partially achieved: the definition, systematization and validation of the categories of the semantic-lexical level started in this research, and can go on in future studies. This research can be seen as a contribution not only to the field of poetry translation, but also to Computational Linguistics. Regarding the first, annotation requires interpretations and decision-making processes, thus highlighting the possible interpretations and decision-making processes used during translation. And, concerning the second, the development of a tool for poem annotation, and of a metric for evaluation of poetry translation, using the categories present in this dissertation, may be achieved through a partnership with Computer Engineering.
3

[pt] CLASSES DE PALAVRAS - DA GRÉCIA ANTIGA AO GOOGLE: UM ESTUDO MOTIVADO PELA CONVERSÃO DE TAGSETS / [en] PART OF SPEECH - FROM ANCIENT GREECE TO GOOGLE: A STUDY MOTIVATED BY TAGSET CONVERSION

LUIZA FRIZZO TRUGO 10 November 2016 (has links)
[pt] A dissertação Classes de palavras — da Grécia Antiga ao Google: um estudo motivado pela conversão de tagsets consiste em um estudo linguístico sobre classes gramaticais. A pesquisa tem como motivação uma tarefa específica da Linguística Computacional: a anotação de classes gramaticais (POS, do inglês part of speech ). Especificamente, a dissertação relata desafios e opções linguísticas decorrentes da tarefa de alinhamento entre dois tagsets: o tagset utilizado na anotação do corpus Mac-Morpho, um corpus brasileiro de 1.1 milhão de palavras, e o tagset proposto por uma equipe dos laboratórios Google e que vem sendo utilizado no âmbito do projeto Universal Dependencies (UD). A dissertação tem como metodologia a investigação por meio da anotação de grandes corpora e tematiza sobretudo o alinhamento entre as formas participiais. Como resultado, além do estudo e da documentação das opções linguísticas, a presente pesquisa também propiciou um cenário que viabiliza o estudo do impacto de diferentes tagsets em sistemas de Processamento de Linguagem Natural (PLN) e possibilitou a criação e a disponibilização de mais um recurso para a área de processamento de linguagem natural do português: o corpus Mac-Morpho anotado com o tagset e a filosofia de anotação do projeto UD, viabilizando assim estudos futuros sobre o impacto de diferentes tagsets no processamento automático de uma língua. / [en] The present dissertation, Part of speech — from Ancient Greece to Google: a study motivated by tagset conversion, is a linguistic study regarding gramatical word classes. This research is motivated by a specific task from Computational Linguistics: the annotation of part of speech (POS). Specifically, this dissertation reports the challenges and linguistic options arising from the task of aligning two tagsets: the first used in the annotation of the Mac-Morpho corpus — a Brazilian corpus with 1.1 million words — and the second proposed by Google research lab, which has been used in the context of the Universal Dependencies (UD) project. The present work adopts the annotation of large corpora as methodology and focuses mainly on the alignment of the past participle forms. As a result, in addition to the study and the documentation of the linguistic choices, this research provides a scenario which enables the study of the impact different tagsets have on Natural Language Processing (NLP) systems and presents another Portuguese NLP resource: the Mac-Morpho corpus annotated with project UD s tagset and consistent with its annotation philosophy, thus enabling future studies regarding the impact of different tagsets in the automatic processing of a language.
4

[en] A DATA ANNOTATION APPROACH USING LARGE LANGUAGE MODELS / [pt] UMA ABORDAGEM PARA ANOTAÇÃO DE DADOS UTILIZANDO GRANDES MODELOS DE LINGUAGEM

CARLOS VINICIOS MARTINS ROCHA 17 October 2024 (has links)
[pt] Os documentos são essenciais para o sistema econômico e acadêmico; no entanto, explorá-los pode ser uma tarefa complexa e demorada. Uma abordagem para contornar esse problema é o uso de modelos de Visual Question and Answering (VQA) para extração de informações de documentos por meio de prompts em linguagem natural. No VQA, assim como para o desenvolvimento dos mais variados modelos, é necessário possuir dados anotados para a sua etapa de treinamento e validação. No entanto, criar esses conjuntos de dados é desafiador devido ao alto custo envolvido no processo. Com base nisso, propomos um processo de quatro etapas que combina Modelos de Visão Computacional e Large Language Models (LLMs) para a anotação de dados de VQA em relatórios financeiros. O método proposto inicia pelo reconhecimento da estrutura textual dos documentos por meio de modelos de Análise de Layout de Documentos e Extração de Estrutura de Tabelas. Em seguida, utiliza duas LLMs distintas para a etapa de geração e avaliação dos pares de perguntas e respostas geradas, automatizando a construção e seleção dos melhores pares para compor a base final. Para avaliar o método proposto, geramos um dataset para treinar e avaliar modelos especialistas em VQA. / [en] Documents are essential for the economic and academic system; however, exploring them can be complex and time-consuming. An approach to surpass this problem is the use of Visual Question and Answering (VQA) models to extract information from documents through natural language prompts. In VQA, as well as for the development of various models, it is necessary to have annotated data for training and validation. However, creating these datasets is challenging due to the high cost involved in the process. To face this challenge, we propose a four-step process that combines Computer Vision Models and Large Language Models (LLMs) for VQA data annotation in financial reports. The proposed method starts with recognizing the textual structure of documents through Document Layout Analysis and Table Structure Extraction models. Then, it uses two distinct LLMs for the generation and evaluation of question and answer pairs, automating the construction and selection of the best pairs to compose the final dataset. To evaluate the proposed method, we generate a dataset for train and evaluate VQA specialized models.
5

[en] BUILDING AND EVALUATING A GOLD-STANDARD TREEBANK / [pt] CONSTRUÇÃO E AVALIAÇÃO DE UM TREEBANK PADRÃO OURO

ELVIS ALVES DE SOUZA 29 May 2023 (has links)
[pt] Esta dissertação apresenta o processo de desenvolvimento do PetroGold, um corpus anotado com informação morfossintática – um treebank – padrão ouro para o domínio do petróleo. O desenvolvimento do recurso é abordado sob duas lentes: do lado linguístico, estudamos a literatura gramatical e tomamos decisões linguisticamente motivadas para garantir a qualidade da anotação do corpus; do lado computacional, avaliamos o recurso considerando a sua utilidade para o processamento de linguagem natural (PLN). Recursos como o PetroGold recebem relevância especial no contexto atual, em que o PLN estatístico tem se beneficiado de recursos padrão ouro de domínios específicos para alimentar o aprendizado automático. No entanto, o treebank é útil também para tarefas como a avaliação de sistemas de anotação baseados em regras e para os estudos linguísticos. O PetroGold foi anotado segundo as diretivas do projeto Universal Dependencies, tendo como pressupostos a ideia de que a anotação de um corpus é um processo interpretativo, por um lado, e utilizando o paradigma da linguística empírica, por outro. Além de descrever a anotação propriamente, aplicamos alguns métodos para encontrar erros na anotação de treebanks e apresentamos uma ferramenta criada especificamente para busca, edição e avaliação de corpora anotados. Por fim, avaliamos o impacto da revisão de cada uma das categorias linguísticas do treebank no aprendizado automático de um modelo alimentado pelo PetroGold e disponibilizamos publicamente a terceira versão do corpus, a qual, quando submetida à avaliação intrínseca de um modelo, alcança métricas até 2,55 por cento melhores que a versão anterior. / [en] This thesis reports on the development process of PetroGold, a goldstandard annotated corpus with morphosyntactic information – a treebank – for the oil and gas domain. The development of the resource is seen from two perspectives: on the linguistic side, we study the grammatical literature and make linguistically motivated decisions to ensure the quality of corpus annotation; on the computational side, we evaluate the resource considering its usefulness for natural language processing (NLP). Resources like PetroGold receive special importance in the current context, where statistical NLP has benefited from domain-specific gold-standard resources to train machine learning models. However, the treebank is also useful for tasks such as evaluating rule-based annotation systems and for linguistic studies. PetroGold was annotated according to the guidelines of the Universal Dependencies project, having as theoretical assumptions the idea that the annotation of a corpus is an interpretative process, on the one hand, and using the empirical linguistics paradigm, on the other. In addition to describing the annotation itself, we apply some methods to find errors in the annotation of treebanks and present a tool created specifically for searching, editing and evaluating annotated corpora. Finally, we evaluate the impact of revising each of the treebank linguistic categories on the automatic learning of a model powered by PetroGold and make the third version of the corpus publicly available, which, when performing an intrinsic evaluation for a model using the corpus, achieves metrics up to 2.55 perecent better than the previous version.
6

[pt] VISUALIZANDO FATOS DE DADOS: UM ESTUDO COMPARATIVO DAS TÉCNICAS DE ANOTAÇÃO E SEU IMPACTO SOBRE AS PERCEPÇÕES DOS USUÁRIOS / [en] VISUALIZING DATA FACTS: A COMPARATIVE STUDY OF ANNOTATION TECHNIQUES AND THEIR IMPACT ON USERS PERCEPTIONS

DIEINISON JACK FREIRE BRAGA 03 July 2023 (has links)
[pt] Um número crescente de sistemas de visualização tem sido desenvolvido tanto comercialmente quanto na comunidade de pesquisa. Embora estas ferramentas possam ajudar na construção de gráficos, elas apresentam desafios para analistas não especialistas. Um desafio em particular é o de prover suporte para destacar visualmente fatos de dados em gráficos. O esforço empregado por analistas não especialistas ou designers (sem conhecimento de programação) para realizar anotações visuais pode ser complexo e demorado. Nesta pesquisa, investigamos representações visuais de fatos de dados para apoiar analistas não especialistas na exploração e comunicação de insights através dos dados. Para endereçar estes desafios, nós tornamos operacional um modelo conceitual que relaciona visualizações, fatos de dados e suas representações visuais. Implementamos o modelo em uma ferramenta de visualização chamada VisStoryMaker, que permite gerar gráficos anotados sem exigir conhecimento especializado. Para avaliar o seu valor percebido, conduzimos um estudo de métodos mistos com usuário comparando com o Tableau Public. No geral, a VisStoryMaker oferece uma abordagem fácil de usar para destacar visualmente fatos sobre dados, e o uso de anotações visuais de fatos sobre dados nas visualizações podem apoiar usuários não especialistas na exploração e comunicação por meio de dados. Entretanto, seu uso deve ser cuidadosamente considerado para evitar poluir visualmente os gráficos. / [en] A growing number of visualization systems have been developed both commercially and within the research community. While these tools can aid in building charts, they can also present challenges for non-expert analysts. One particular challenge is providing support to visually highlight data facts in graphs. The manual effort employed by non-expert analysts or designers (without programming skills) to create annotations can be complex and time-consuming. In this research, we investigate visual representations of data facts in supporting non-expert analysts to explore and communicate insights through data. To address these challenges, we developed a conceptual model relating visualizations, data facts, and their visual representations. We implemented it into a visualization tool named VisStoryMaker, which allows generating annotated charts without requiring specialized knowledge. To benchmark its perceived value, we conducted a mixed-methods user study comparing it to Tableau Public. Overall, VisStoryMaker provides an easy-to-use approach to highlight facts visually, and the use of visual annotations in data visualizations can support non-expert users in data exploration and communication. However, their use must be carefully considered and designed to avoid visually cluttering the charts.
7

[pt] ANOTAÇÃO PROFUNDA DE PAPÉIS SEMÂNTICOS PARA O PORTUGUÊS / [en] DEEP SEMANTIC ROLE LABELING FOR PORTUGUESE

GUILHERME SANT ANNA VARELA 06 August 2019 (has links)
[pt] Vivemos em um mundo complexo, no qual incontáveis fatores aparentemente desconexos – tais como a lei de Moore que dita um aumento exponencial da capacidade de processamento em um chip de silício, a queda do custo de espaço de armazenamento e a adoção em massa de smartphones colaboram para a formação de uma sociedade progressivamente interdependente. Todos os dias são criados 2,5 quintilhões de bytes de dados, de fato 90 por cento dos dados no mundo foram criados nos últimos dois anos. Domar os padrões salientes aos dados separando informação do caos torna-se uma necessidade iminente para a tomada de decisão dos indivíduos e para sobrevivência de organizações. Nesse cenário a melhor resposta dos pesquisadores de Processamento de Linguagem Natural encontra-se na tarefa de Anotação de Papéis Semânticos. APS é a tarefa que tem o audacioso objetivo de compreender eventos, buscando determinar Quem fez o que e aonde, Quais foram os beneficiados? ou Qual o meio utilizado para atingir os fins. APS serve como tarefa intermediária para várias aplicações de alto nível e.g information extraction, question and answering e agentes conversacionais. Tradicionalmente, resultados satisfatórios eram obtidos apenas com alta dependência de conhecimento específico de domínio. Para o português, através desta abordagem, o sistema estado da arte da tarefa para é de 79,6 por cento de pontuação F1. Sistemas mais recentes dependem de uma série de subtarefas, obtém 58 por cento de pontuação F1. Nessa dissertação, exploramos um novo paradigma utilizando redes neurais recorrentes, para o idioma do português do Brasil, e sem subtarefas intermediárias obtendo uma pontuação de 66,23. / [en] We live in a complex world in which a myriad of seemingly unrelated factors – such as Moore s law which states that the processing capacity on a silicon wafer should increase exponentially, the fall of storage costs and mass adoption of smart-phones contribute to the formation of an increasingly inter-dependent society: 2.5 quintillion bytes of data are generated every day, in fact ninety percent of the world s data were created in the last few years. Harnessing the emerging patterns within the data, effectively separating information from chaos is crucial for both individual decision making as well as for the survival of organizations. In this scenario the best answer from Natural Language Processing researchers is the task of Semantic Role Labeling. SRL is the task the concerns itself with the audacious goal of event understanding, which means determining Who did what to whom, Who was the beneficiary? or What were the means to achieve some goal. APS is also an intermediary task to high level applications such as information extraction, question and answering and chatbots. Traditionally, satisfactory results were obtained only by the introduction of highly specific domain knowledge. For Portuguese, this approach is able to yields a F1 score of 79.6 percent. Recent systems, rely on a pipeline of sub-tasks, yielding a F1 score of 58 percent. In this dissertation, we adopt a new paradigm using recurrent neural networks for the Brazilian Portuguese, that does not rely on a pipeline, our system obtains a score of 66.23 percent.
8

[en] PART-OF-SPEECH TAGGING FOR PORTUGUESE / [pt] PART-OF-SPEECH TAGGING PARA PORTUGUÊS

ROMULO CESAR COSTA DE SOUSA 07 April 2020 (has links)
[pt] Part-of-speech (POS) tagging é o processo de categorizar cada palavra de uma sentença com sua devida classe morfossintática (verbo, substantivo, adjetivo e etc). POS tagging é considerada uma atividade fundamental no processo de construção de aplicações de processamento de linguagem natural (PLN), muitas dessas aplicações, em algum ponto, demandam esse tipo de informação. Nesse trabalho, construímos um POS tagger para o Português Contemporâneo e o Português Histórico, baseado em uma arquitetura de rede neural recorrente. Tradicionalmente a construção dessas ferramentas requer muitas features específicas do domínio da linguagem e dados externos ao conjunto de treino, mas nosso POS tagger não usa esses requisitos. Treinamos uma rede Bidirectional Long short-term memory (BLSTM), que se beneficia das representações de word embeddings e character embeddings das palavras, para atividade de classificação morfossintática. Testamos nosso POS tagger em três corpora diferentes: a versão original do corpus MacMorpho, a versão revisada do corpus Mac-Morpho e no corpus Tycho Brahe. Nós obtemos um desempenho ligeiramente melhor que os sistemas estado da arte nos três corpora: 97.83 por cento de acurácia para o Mac-Morpho original, 97.65 por cento de acurácia para o Mac-Morpho revisado e 97.35 por cento de acurácia para Tycho Brahe. Conseguimos, também, uma melhora nos três corpora para a medida de acurácia fora do vocabulário, uma acurácia especial calculada somente sobre as palavras desconhecidas do conjunto de treino. Realizamos ainda um estudo comparativo para verificar qual dentre os mais populares algoritmos de criação de word embedding (Word2Vec, FastText, Wang2Vec e Glove), é mais adequado para a atividade POS tagging em Português. O modelo de Wang2Vec mostrou um desempenho superior. / [en] Part-of-speech (POS) tagging is a process of labeling each word in a sentence with a morphosyntactic class (verb, noun, adjective and etc). POS tagging is a fundamental part of the linguistic pipeline, most natural language processing (NLP) applications demand, at some step, part-of-speech information. In this work, we constructed a POS tagger for Contemporary Portuguese and Historical Portuguese, using a recurrent neural network architecture. Traditionally the development of these tools requires many handcraft features and external data, our POS tagger does not use these elements. We trained a Bidirectional Long short-term memory (BLSTM) network that benefits from the word embeddings and character embeddings representations of the words, for morphosyntactic classification. We tested our POS tagger on three different corpora: the original version of the Mac-Morpho corpus, the revised version of the Mac-Morpho corpus, and the Tycho Brahe corpus. We produce state-of-the-art POS taggers for the three corpora: 97.83 percent accuracy on the original Mac-Morpho corpus, 97.65 percent accuracy on the revised Mac-Morpho and 97.35 percent accuracy on the Tycho Brahe corpus. We also achieved an improvement in the three corpora in out-of-vocabulary accuracy, that is the accuracy on words not seen in training sentences. We also performed a comparative study to test which different types of word embeddings (Word2Vec, FastText, Wang2Vec, and Glove) is more suitable for Portuguese POS tagging. The Wang2Vec model showed higher performance.
9

[en] SEMANTIC ROLE-LABELING FOR PORTUGUESE / [pt] ANOTADOR DE PAPEIS SEMÂNTICOS PARA PORTUGUÊS

ARTHUR BELTRAO CASTILHO NETO 23 June 2017 (has links)
[pt] A anotação de papeis semânticos (APS) é uma importante tarefa do processamento de linguagem natural (PLN), que possibilita estabelecer uma relação de significado entre os eventos descritos em uma sentença e seus participantes. Dessa forma, tem o potencial de melhorar o desempenho de inúmeros outros sistemas, tais como: tradução automática, correção ortográfica, extração e recuperação de informações e sistemas de perguntas e respostas, uma vez que reduz as ambiguidades existentes no texto de entrada. A grande maioria dos sistemas de APS publicados no mundo realiza a tarefa empregando técnicas de aprendizado supervisionado e, para obter melhores resultados, usam corpora manualmente revisados de tamanho considerável. No caso do Brasil, o recurso lexical que possui anotações semânticas (Propbank.br) é muito menor. Por isso, nos últimos anos, foram feitas tentativas de melhorar esse resultado utilizando técnicas de aprendizado semisupervisionado ou não-supervisionado. Embora esses trabalhos tenham contribuido direta e indiretamente para a área de PLN, não foram capazes de superar o desempenho dos sistemas puramente supervisionados. Este trabalho apresenta uma abordagem ao problema de anotação de papéis semânticos no idioma português. Utilizamos aprendizado supervisionado sobre um conjunto de 114 atributos categóricos e empregando duas técnicas de regularização de domínio, combinadas para reduzir o número de atributos binários em 96 por cento. O modelo gerado usa uma support vector machine com solver L2-loss dual support vector classification e é testado na base PropBank.br, apresentando desempenho ligeiramente superior ao estado-da-arte. O sistema é avaliado empiricamente pelo script oficial da CoNLL 2005 Shared Task, obtendo 82,17 por cento de precisão, 82,88 por cento de cobertura e 82,52 por cento de F1 ao passo que o estado-da-arte anterior atinge 83,0 por cento de precisão, 81,7 por cento de cobertura e 82,3 por cento de F1. / [en] Semantic role-labeling (SRL) is an important task of natural language processing (NLP) which allows establishing meaningful relationships between events described in a given sentence and its participants. Therefore, it can potentially improve performance on a large number of NLP systems such as automatic translation, spell correction, information extraction and retrieval and question answering, as it decreases ambiguity in the input text. The vast majority of SRL systems reported so far employed supervised learning techniques to perform the task. For better results, large sized manually reviewed corpora are used. The Brazilian semantic role labeled lexical resource (Propbank.br) is much smaller. Hence, in recent years, attempts have been made to improve performance using semi supervised and unsupervised learning. Even making several direct and indirect contributions to NLP, those studies were not able to outperform exclusively supervised systems. This paper presents an approach to the SRL task in Portuguese language using supervised learning over a set of 114 categorical features. Over those, we apply a combination of two domain regularization methods to cut binary features down to 96 percent. We test a SVM model (L2-loss dual support vector classification) on PropBank.Br dataset achieving results slightly better than state-of-the-art. We empirically evaluate the system using official CoNLL 2005 Shared Task script pulling 82.17 percent precision, 82.88 percent coverage and 82.52 percent F1. The previous state-of-the-art Portuguese SRL system scores 83.0 percent precision, 81.7 percent coverage and 82.3 percent F1.
10

[en] METHODOLOGIES FOR CHARACTERIZING AND DETECTING EMOTIONAL DESCRIPTION IN THE PORTUGUESE LANGUAGE / [pt] METODOLOGIAS PARA CARACTERIZAÇÃO E DETECÇÃO DA DESCRIÇÃO DE EMOÇÃO NA LÍNGUA PORTUGUESA

BARBARA CRISTINA MARQUES P RAMOS 29 May 2023 (has links)
[pt] O interesse desta tese recai sobre compreender como os falantes de língua portuguesa a utilizam para materializar a menção de emoção através de um trabalho, sobretudo, linguístico. O objetivo geral da pesquisa é criar recursos para aprimorar a anotação do campo semântico das emoções na língua portuguesa a partir do projeto AC/DC, projeto que reúne e disponibiliza publicamente corpora anotados e recursos para pesquisas na língua portuguesa, e do Emocionário, projeto de anotação semântica e léxico de emoções. Inicialmente, a pesquisa dá um panorama dos estudos de emoção; se alinha às perspectivas que refutam a universalidade das emoções e abordagens que postulam emoções básicas; e contrapõe seu interesse por menção de emoção à já consolidada área de Análise de Sentimento, contrastando cinco léxicos de sentimento e/ou polaridades em língua portuguesa e o Emocionário. A partir de uma ampla varredura nos corpora do AC/DC, três principais caminhos foram percorridos para investigar palavras de emoção: (i) uma análise dos vinte e quatro grupos de emoção que já existiam no léxico do Emocionário a fim de delinear características e desafios no estudo de emoção na língua portuguesa; (ii) a revisão completa um terço dos grupos do léxico do Emocionário; e (iii) buscas pelo padrão léxico-sintático sentimento de N e por expressões anotadas pelo projeto Esqueleto usadas para descrever emoção. A análise dos corpora à luz dos lemas previamente pertencentes aos grupos do léxico do Emocionário evidenciou, dentre outras características, a relevância de expressões lexicalizadas para a análise da descrição de emoção, dos tipos de argumentos de verbos e afixos que podem causar variação de sentido, e de variações de tempo e modo verbal que acarretam mudança de significado. Dentre os desafios estão palavras e expressões polissêmicas e a dificuldade na detecção de diferentes sentidos em palavras que compartilham da mesma classe gramatical, tendo como base somente informações morfossintáticas. Esta análise possibilitou a estruturação e documentação de uma metodologia de revisão que pode vir a ser aplicada nos demais grupos futuramente. As principais contribuições desta tese são decorrentes das análises e explorações em corpora: a limpeza de lemas com sentidos não-emocionais dos grupos do léxico do Emocionário; a criação dos grupos de emoção Ausência e Outra, enriquecendo o léxico; a detecção de mais de novecentos lemas e expressões provenientes das buscas pelo padrão sentimento de N e das conexões estabelecidas entre os campos semânticos de emoção e do corpo humano; além de descobertas de campos lexicais pouco mencionados na literatura sobre emoção, como coletividade, estranhamento, espiritualidade, parentesco e atos automotivados, que auxiliaram na investigação de como os falantes do português cristalizam emoções na língua. / [en] The interest of this thesis lies in understanding how Portuguese speakers use it to materialize the mention of emotion through a linguistic perspective. The general objective of the research is to create resources to improve the annotation of the semantic field of emotions in the Portuguese language based on the AC/DC project, which gathers and makes publicly available annotated corpora and tools for linguistic research on Portuguese language. and Emocionário, which is both a semantic annotation project and lexicon of emotions. Initially, the research gives an overview of emotion studies; aligning itself with perspectives that refute the universality of emotions and approaches that postulate basic emotions; and contrasts the interest in emotion description to the already consolidated area of Sentiment Analysis, comparing five lexicons of emotion and/or polarities in Portuguese to Emocionário. From a broad sweep of the AC/DC corpora, three main paths were taken towards investigating emotion words: (i) an analysis of the twenty-four emotion groups previously composing the Emocionário lexicon in order to delineate characteristics and challenges in the study of emotion description in the Portuguese language; (ii) a thorough revision of one-third of the Emocionário lexicon groups; and (iii) searches for the lexical-syntactic pattern sentimento de N and for expressions annotated by the Esqueleto project used to describe emotion. The corpora analysis in the light of the lemmas previously belonging to the Emocionário lexicon groups showed, amongst other characteristics, the relevance of lexicalized expressions for the analysis of the emotion description, the types of arguments of verbs and affixes that can cause variation in meaning, and variations in tense and verbal mode that lead to a change in meaning. Amongst the challenges are polysemous words and expressions and the difficulty in detecting different meanings in words that share the same grammatical class, based only on morphosyntactic information. This analysis enabled the structuring and documentation of a revision methodology that may be applied in other groups in the future. The main contributions of this thesis derive from the analyzes and explorations in corpora: the exclusion of lemmas with non-emotional meanings from the Emocionário lexicon groups; the creation of emotion groups Ausência and Outra, enriching the lexicon; the detection of more than nine hundred lemmas and expressions from the searches for the sentimento de N pattern and the connections established between the semantic fields of emotion and the human body; in addition to discoveries of lexical fields rarely mentioned in the literature on emotion, such as coletividade, estranhamento, espiritualidade, parentesco e atos automotivados, which helped in the investigation of how Portuguese speakers crystallize emotions in language.

Page generated in 0.0344 seconds