1 |
[pt] O DIZER EM PORTUGUÊS: DIÁLOGOS ENTRE TRADUÇÃO, DESCRIÇÃO E LINGUÍSTICA COMPUTACIONAL / [en] SAY IN PORTUGUESE: A DIALOGUE BETWEEN TRANSLATION, DESCRIPTION AND COMPUTATIONAL LINGUISTICSBIANCA FREITAS DE JESUS 25 October 2016 (has links)
[pt] Os profissionais que traduzem textos do inglês para o português deparam-se com uma exigência dos clientes quanto à tradução de diálogos: diversificar os verbos de elocução, com o intuito de evitar a repetição do verbo dizer. Em resposta, esta pesquisa visa à elaboração de um glossário dos verbos que introduzem discurso relatado, chamados de verbos de elocução. Para tanto, conduzimos um estudo descritivo com base em corpus, com o intuito de compilar um léxico dos verbos de elocução do português. Assim, esta pesquisa promoveu um amplo levantamento dos verbos de elocução, estabeleceu os padrões de uso nos quais esses verbos costumam ser empregados e, ainda, propôs uma classificação desses verbos em grupos de sentido. Nosso estudo traz, portanto, dois objetivos principais, que se traduzem em contribuições concretas: (i) a elaboração de um glossário dos verbos introdutores de discurso relatado para tradutores, chamado DISSE, e (ii) a descrição dessa classe de verbos no português, tomando um viés semântico e com base em grandes corpora. Como contribuições secundárias, mas não menos importantes e já em fase final de implementação, destacam-se (iii) a criação e a disponibilização de um corpus anotado quanto aos verbos do grande grupo de dizer, também chamados de verbos de comunicação e (iv) a colaboração na elaboração de sistemas capazes de identificar automaticamente citações em textos da língua portuguesa. / [en] Professionals that translate from English to Portuguese often face a certain demand from clients when it comes to translating dialogues: diversifying the verbs that introduce reported speech, in an attempt to avoid repeating the verb dizer (say) in Portuguese. In order to help solve such problem, this study aims at developing a glossary of verbs that introduce reported speech. To reach that aim, we conducted a corpus-based descriptive research, in order to compile a quotation verbs lexicon for the Portuguese language. Thus, this study promoted a wide collection of quotation verbs, as well as stablished patters of usage in which these verbs are commonly found and put forward a classification of these verbs into groups of meaning. This study proposes two main objectives, which have led to concrete contributions: (i) the elaboration of a reported speech verbs glossary for translators of Portuguese, which is called DISSE (said, in Portuguese), and (ii) the description of such verb class in Portuguese, with a semantic approach and based on large corpora. As secondary contributions, but far from unimportant and close to final implementation, it is possible to highlight (iii) the creation and the public availability of annotated corpora, including a semantic annotation for reported speech verbs and (iv) the collaboration with the preparation of systems capable of automatically identifying quotations in Portuguese-written texts.
|
2 |
[en] BUILDING AND EVALUATING A GOLD-STANDARD TREEBANK / [pt] CONSTRUÇÃO E AVALIAÇÃO DE UM TREEBANK PADRÃO OUROELVIS ALVES DE SOUZA 29 May 2023 (has links)
[pt] Esta dissertação apresenta o processo de desenvolvimento do PetroGold,
um corpus anotado com informação morfossintática – um treebank – padrão
ouro para o domínio do petróleo. O desenvolvimento do recurso é abordado sob
duas lentes: do lado linguístico, estudamos a literatura gramatical e tomamos
decisões linguisticamente motivadas para garantir a qualidade da anotação
do corpus; do lado computacional, avaliamos o recurso considerando a sua
utilidade para o processamento de linguagem natural (PLN). Recursos como
o PetroGold recebem relevância especial no contexto atual, em que o PLN
estatístico tem se beneficiado de recursos padrão ouro de domínios específicos
para alimentar o aprendizado automático. No entanto, o treebank é útil também
para tarefas como a avaliação de sistemas de anotação baseados em regras e
para os estudos linguísticos. O PetroGold foi anotado segundo as diretivas
do projeto Universal Dependencies, tendo como pressupostos a ideia de que a
anotação de um corpus é um processo interpretativo, por um lado, e utilizando
o paradigma da linguística empírica, por outro. Além de descrever a anotação
propriamente, aplicamos alguns métodos para encontrar erros na anotação de
treebanks e apresentamos uma ferramenta criada especificamente para busca,
edição e avaliação de corpora anotados. Por fim, avaliamos o impacto da revisão
de cada uma das categorias linguísticas do treebank no aprendizado automático
de um modelo alimentado pelo PetroGold e disponibilizamos publicamente a
terceira versão do corpus, a qual, quando submetida à avaliação intrínseca de
um modelo, alcança métricas até 2,55 por cento melhores que a versão anterior. / [en] This thesis reports on the development process of PetroGold, a goldstandard annotated corpus with morphosyntactic information – a treebank
– for the oil and gas domain. The development of the resource is seen
from two perspectives: on the linguistic side, we study the grammatical
literature and make linguistically motivated decisions to ensure the quality
of corpus annotation; on the computational side, we evaluate the resource
considering its usefulness for natural language processing (NLP). Resources like
PetroGold receive special importance in the current context, where statistical
NLP has benefited from domain-specific gold-standard resources to train
machine learning models. However, the treebank is also useful for tasks such as
evaluating rule-based annotation systems and for linguistic studies. PetroGold
was annotated according to the guidelines of the Universal Dependencies
project, having as theoretical assumptions the idea that the annotation of
a corpus is an interpretative process, on the one hand, and using the empirical
linguistics paradigm, on the other. In addition to describing the annotation
itself, we apply some methods to find errors in the annotation of treebanks
and present a tool created specifically for searching, editing and evaluating
annotated corpora. Finally, we evaluate the impact of revising each of the
treebank linguistic categories on the automatic learning of a model powered
by PetroGold and make the third version of the corpus publicly available,
which, when performing an intrinsic evaluation for a model using the corpus,
achieves metrics up to 2.55 perecent better than the previous version.
|
3 |
[pt] O LÉXICO DA BELEZA E DA FEIURA EM LÍNGUA PORTUGUESA EM UM CORPUS LITERÁRIO / [en] THE LEXICON OF BEAUTY AND UGLINESS IN PORTUGUESE LANGUAGE IN A LITERARY CORPUSMICHELLE PAIVA MARINHO 07 June 2022 (has links)
[pt] Este trabalho busca descrever o léxico do belo e do feio, em língua
portuguesa, partindo de informações de dicionários para realizar buscas em um
grande corpus de textos literários. Especificamente, o trabalho faz uso dos corpora
anotados acessíveis pelo projeto AC/DC (Acesso a corpora/ Disponibilização de
corpora), para, a partir de padrões que levam em conta itens lexicais do campo da
beleza e da feiura, revelar aquilo que, em língua portuguesa, é considerado belo e,
também, o que é considerado feio. Realizado em dois momentos distintos, o
presente trabalho utilizou um dicionário digital e um físico, em seu primeiro
momento, a fim de se levantar o vocabulário da língua portuguesa que
circunscrevesse os campos semânticos da beleza e da feiura e o corpus Literateca,
no segundo momento, o que permitiu a observação dos contextos recorrentes para
os itens lexicais de cada campo. Por fim, além da descrição e análise dos dados
encontrados, é elaborado um panorama cultural que tenta explicar tais ocorrências
nas circunstâncias em que aparecem. / [en] This work seeks to describe the lexicon of the beautiful and the ugly, in
portuguese, using information from dictionaries to search a large corpus of literary
texts. Specifically, the work makes use of the annotated corpora accessible by the
AC/DC Project (Access to corpora/ Availability of corpora), in order to, from
patterns that take into account lexical items in the field of beauty and ugliness,
reveal what, in portuguese language, is considered beautiful and, also, what is
considered ugly. Carried out in two different moments, the present work used a
digital dictionary and a physical dictionary, in its first moment, in order to get the
vocabulary of the portuguese language that circumscribes the semantic fields of
beauty and ugliness and the Literateca corpus, in the second moment, which
allowed the observation of the recurrent contexts for the lexical items of each field.
Finally, in addition to the description and analysis of the data found, a cultural
panorama is elaborated that tries to explain such occurences in the circumstances in
which they appear.
|
4 |
[en] METHODOLOGIES FOR CHARACTERIZING AND DETECTING EMOTIONAL DESCRIPTION IN THE PORTUGUESE LANGUAGE / [pt] METODOLOGIAS PARA CARACTERIZAÇÃO E DETECÇÃO DA DESCRIÇÃO DE EMOÇÃO NA LÍNGUA PORTUGUESABARBARA CRISTINA MARQUES P RAMOS 29 May 2023 (has links)
[pt] O interesse desta tese recai sobre compreender como os falantes de língua
portuguesa a utilizam para materializar a menção de emoção através de um
trabalho, sobretudo, linguístico. O objetivo geral da pesquisa é criar recursos para
aprimorar a anotação do campo semântico das emoções na língua portuguesa a
partir do projeto AC/DC, projeto que reúne e disponibiliza publicamente corpora
anotados e recursos para pesquisas na língua portuguesa, e do Emocionário,
projeto de anotação semântica e léxico de emoções. Inicialmente, a pesquisa dá
um panorama dos estudos de emoção; se alinha às perspectivas que refutam a
universalidade das emoções e abordagens que postulam emoções básicas; e
contrapõe seu interesse por menção de emoção à já consolidada área de Análise de
Sentimento, contrastando cinco léxicos de sentimento e/ou polaridades em língua
portuguesa e o Emocionário. A partir de uma ampla varredura nos corpora do
AC/DC, três principais caminhos foram percorridos para investigar palavras de
emoção: (i) uma análise dos vinte e quatro grupos de emoção que já existiam no
léxico do Emocionário a fim de delinear características e desafios no estudo de
emoção na língua portuguesa; (ii) a revisão completa um terço dos grupos do
léxico do Emocionário; e (iii) buscas pelo padrão léxico-sintático sentimento de
N e por expressões anotadas pelo projeto Esqueleto usadas para descrever
emoção. A análise dos corpora à luz dos lemas previamente pertencentes aos
grupos do léxico do Emocionário evidenciou, dentre outras características, a
relevância de expressões lexicalizadas para a análise da descrição de emoção, dos
tipos de argumentos de verbos e afixos que podem causar variação de sentido, e
de variações de tempo e modo verbal que acarretam mudança de significado.
Dentre os desafios estão palavras e expressões polissêmicas e a dificuldade na
detecção de diferentes sentidos em palavras que compartilham da mesma classe
gramatical, tendo como base somente informações morfossintáticas. Esta análise
possibilitou a estruturação e documentação de uma metodologia de revisão que
pode vir a ser aplicada nos demais grupos futuramente. As principais
contribuições desta tese são decorrentes das análises e explorações em corpora: a
limpeza de lemas com sentidos não-emocionais dos grupos do léxico do
Emocionário; a criação dos grupos de emoção Ausência e Outra,
enriquecendo o léxico; a detecção de mais de novecentos lemas e expressões
provenientes das buscas pelo padrão sentimento de N e das conexões
estabelecidas entre os campos semânticos de emoção e do corpo humano; além de
descobertas de campos lexicais pouco mencionados na literatura sobre emoção,
como coletividade, estranhamento, espiritualidade, parentesco e atos
automotivados, que auxiliaram na investigação de como os falantes do português
cristalizam emoções na língua. / [en] The interest of this thesis lies in understanding how Portuguese speakers use
it to materialize the mention of emotion through a linguistic perspective. The
general objective of the research is to create resources to improve the annotation
of the semantic field of emotions in the Portuguese language based on the AC/DC
project, which gathers and makes publicly available annotated corpora and tools
for linguistic research on Portuguese language. and Emocionário, which is both a
semantic annotation project and lexicon of emotions. Initially, the research gives
an overview of emotion studies; aligning itself with perspectives that refute the
universality of emotions and approaches that postulate basic emotions; and
contrasts the interest in emotion description to the already consolidated area of
Sentiment Analysis, comparing five lexicons of emotion and/or polarities in
Portuguese to Emocionário. From a broad sweep of the AC/DC corpora, three
main paths were taken towards investigating emotion words: (i) an analysis of the
twenty-four emotion groups previously composing the Emocionário lexicon in
order to delineate characteristics and challenges in the study of emotion
description in the Portuguese language; (ii) a thorough revision of one-third of the
Emocionário lexicon groups; and (iii) searches for the lexical-syntactic pattern
sentimento de N and for expressions annotated by the Esqueleto project used to
describe emotion. The corpora analysis in the light of the lemmas previously
belonging to the Emocionário lexicon groups showed, amongst other
characteristics, the relevance of lexicalized expressions for the analysis of the
emotion description, the types of arguments of verbs and affixes that can cause
variation in meaning, and variations in tense and verbal mode that lead to a
change in meaning. Amongst the challenges are polysemous words and
expressions and the difficulty in detecting different meanings in words that share
the same grammatical class, based only on morphosyntactic information. This
analysis enabled the structuring and documentation of a revision methodology that
may be applied in other groups in the future. The main contributions of this thesis
derive from the analyzes and explorations in corpora: the exclusion of lemmas
with non-emotional meanings from the Emocionário lexicon groups; the creation
of emotion groups Ausência and Outra, enriching the lexicon; the detection of
more than nine hundred lemmas and expressions from the searches for the
sentimento de N pattern and the connections established between the semantic
fields of emotion and the human body; in addition to discoveries of lexical fields
rarely mentioned in the literature on emotion, such as coletividade,
estranhamento, espiritualidade, parentesco e atos automotivados, which
helped in the investigation of how Portuguese speakers crystallize emotions in
language.
|
Page generated in 0.0333 seconds