Global ETD Search

1	[pt] O DIZER EM PORTUGUÊS: DIÁLOGOS ENTRE TRADUÇÃO, DESCRIÇÃO E LINGUÍSTICA COMPUTACIONAL / [en] SAY IN PORTUGUESE: A DIALOGUE BETWEEN TRANSLATION, DESCRIPTION AND COMPUTATIONAL LINGUISTICS BIANCA FREITAS DE JESUS 25 October 2016 (has links) [pt] Os profissionais que traduzem textos do inglês para o português deparam-se com uma exigência dos clientes quanto à tradução de diálogos: diversificar os verbos de elocução, com o intuito de evitar a repetição do verbo dizer. Em resposta, esta pesquisa visa à elaboração de um glossário dos verbos que introduzem discurso relatado, chamados de verbos de elocução. Para tanto, conduzimos um estudo descritivo com base em corpus, com o intuito de compilar um léxico dos verbos de elocução do português. Assim, esta pesquisa promoveu um amplo levantamento dos verbos de elocução, estabeleceu os padrões de uso nos quais esses verbos costumam ser empregados e, ainda, propôs uma classificação desses verbos em grupos de sentido. Nosso estudo traz, portanto, dois objetivos principais, que se traduzem em contribuições concretas: (i) a elaboração de um glossário dos verbos introdutores de discurso relatado para tradutores, chamado DISSE, e (ii) a descrição dessa classe de verbos no português, tomando um viés semântico e com base em grandes corpora. Como contribuições secundárias, mas não menos importantes e já em fase final de implementação, destacam-se (iii) a criação e a disponibilização de um corpus anotado quanto aos verbos do grande grupo de dizer, também chamados de verbos de comunicação e (iv) a colaboração na elaboração de sistemas capazes de identificar automaticamente citações em textos da língua portuguesa. / [en] Professionals that translate from English to Portuguese often face a certain demand from clients when it comes to translating dialogues: diversifying the verbs that introduce reported speech, in an attempt to avoid repeating the verb dizer (say) in Portuguese. In order to help solve such problem, this study aims at developing a glossary of verbs that introduce reported speech. To reach that aim, we conducted a corpus-based descriptive research, in order to compile a quotation verbs lexicon for the Portuguese language. Thus, this study promoted a wide collection of quotation verbs, as well as stablished patters of usage in which these verbs are commonly found and put forward a classification of these verbs into groups of meaning. This study proposes two main objectives, which have led to concrete contributions: (i) the elaboration of a reported speech verbs glossary for translators of Portuguese, which is called DISSE (said, in Portuguese), and (ii) the description of such verb class in Portuguese, with a semantic approach and based on large corpora. As secondary contributions, but far from unimportant and close to final implementation, it is possible to highlight (iii) the creation and the public availability of annotated corpora, including a semantic annotation for reported speech verbs and (iv) the collaboration with the preparation of systems capable of automatically identifying quotations in Portuguese-written texts. [pt] TRADUCAO [pt] CORPUS [pt] DESCRICAO DO PORTUGUES [pt] VERBO DE ELOCUCAO [pt] LINGUISTICA COMPUTACIONAL [en] TRANSLATION [en] CORPORA [en] PORTUGUESE DESCRIPTION [en] COMPUTATIONAL LINGUISTICS
2	[en] BUILDING AND EVALUATING A GOLD-STANDARD TREEBANK / [pt] CONSTRUÇÃO E AVALIAÇÃO DE UM TREEBANK PADRÃO OURO ELVIS ALVES DE SOUZA 29 May 2023 (has links) [pt] Esta dissertação apresenta o processo de desenvolvimento do PetroGold, um corpus anotado com informação morfossintática – um treebank – padrão ouro para o domínio do petróleo. O desenvolvimento do recurso é abordado sob duas lentes: do lado linguístico, estudamos a literatura gramatical e tomamos decisões linguisticamente motivadas para garantir a qualidade da anotação do corpus; do lado computacional, avaliamos o recurso considerando a sua utilidade para o processamento de linguagem natural (PLN). Recursos como o PetroGold recebem relevância especial no contexto atual, em que o PLN estatístico tem se beneficiado de recursos padrão ouro de domínios específicos para alimentar o aprendizado automático. No entanto, o treebank é útil também para tarefas como a avaliação de sistemas de anotação baseados em regras e para os estudos linguísticos. O PetroGold foi anotado segundo as diretivas do projeto Universal Dependencies, tendo como pressupostos a ideia de que a anotação de um corpus é um processo interpretativo, por um lado, e utilizando o paradigma da linguística empírica, por outro. Além de descrever a anotação propriamente, aplicamos alguns métodos para encontrar erros na anotação de treebanks e apresentamos uma ferramenta criada especificamente para busca, edição e avaliação de corpora anotados. Por fim, avaliamos o impacto da revisão de cada uma das categorias linguísticas do treebank no aprendizado automático de um modelo alimentado pelo PetroGold e disponibilizamos publicamente a terceira versão do corpus, a qual, quando submetida à avaliação intrínseca de um modelo, alcança métricas até 2,55 por cento melhores que a versão anterior. / [en] This thesis reports on the development process of PetroGold, a goldstandard annotated corpus with morphosyntactic information – a treebank – for the oil and gas domain. The development of the resource is seen from two perspectives: on the linguistic side, we study the grammatical literature and make linguistically motivated decisions to ensure the quality of corpus annotation; on the computational side, we evaluate the resource considering its usefulness for natural language processing (NLP). Resources like PetroGold receive special importance in the current context, where statistical NLP has benefited from domain-specific gold-standard resources to train machine learning models. However, the treebank is also useful for tasks such as evaluating rule-based annotation systems and for linguistic studies. PetroGold was annotated according to the guidelines of the Universal Dependencies project, having as theoretical assumptions the idea that the annotation of a corpus is an interpretative process, on the one hand, and using the empirical linguistics paradigm, on the other. In addition to describing the annotation itself, we apply some methods to find errors in the annotation of treebanks and present a tool created specifically for searching, editing and evaluating annotated corpora. Finally, we evaluate the impact of revising each of the treebank linguistic categories on the automatic learning of a model powered by PetroGold and make the third version of the corpus publicly available, which, when performing an intrinsic evaluation for a model using the corpus, achieves metrics up to 2.55 perecent better than the previous version. [pt] LINGUISTICA COMPUTACIONAL [pt] ANOTACAO DE CORPUS [pt] TREEBANKS [pt] DESCRICAO DO PORTUGUES [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [en] COMPUTATIONAL LINGUISTICS [en] CORPUS ANNOTATION [en] TREEBANKS [en] PORTUGUESE DESCRIPTION [en] NATURAL LANGUAGE PROCESSING
3	[pt] O LÉXICO DA BELEZA E DA FEIURA EM LÍNGUA PORTUGUESA EM UM CORPUS LITERÁRIO / [en] THE LEXICON OF BEAUTY AND UGLINESS IN PORTUGUESE LANGUAGE IN A LITERARY CORPUS MICHELLE PAIVA MARINHO 07 June 2022 (has links) [pt] Este trabalho busca descrever o léxico do belo e do feio, em língua portuguesa, partindo de informações de dicionários para realizar buscas em um grande corpus de textos literários. Especificamente, o trabalho faz uso dos corpora anotados acessíveis pelo projeto AC/DC (Acesso a corpora/ Disponibilização de corpora), para, a partir de padrões que levam em conta itens lexicais do campo da beleza e da feiura, revelar aquilo que, em língua portuguesa, é considerado belo e, também, o que é considerado feio. Realizado em dois momentos distintos, o presente trabalho utilizou um dicionário digital e um físico, em seu primeiro momento, a fim de se levantar o vocabulário da língua portuguesa que circunscrevesse os campos semânticos da beleza e da feiura e o corpus Literateca, no segundo momento, o que permitiu a observação dos contextos recorrentes para os itens lexicais de cada campo. Por fim, além da descrição e análise dos dados encontrados, é elaborado um panorama cultural que tenta explicar tais ocorrências nas circunstâncias em que aparecem. / [en] This work seeks to describe the lexicon of the beautiful and the ugly, in portuguese, using information from dictionaries to search a large corpus of literary texts. Specifically, the work makes use of the annotated corpora accessible by the AC/DC Project (Access to corpora/ Availability of corpora), in order to, from patterns that take into account lexical items in the field of beauty and ugliness, reveal what, in portuguese language, is considered beautiful and, also, what is considered ugly. Carried out in two different moments, the present work used a digital dictionary and a physical dictionary, in its first moment, in order to get the vocabulary of the portuguese language that circumscribes the semantic fields of beauty and ugliness and the Literateca corpus, in the second moment, which allowed the observation of the recurrent contexts for the lexical items of each field. Finally, in addition to the description and analysis of the data found, a cultural panorama is elaborated that tries to explain such occurences in the circumstances in which they appear. [pt] BELEZA [pt] LITERATECA [pt] CORPUS [pt] CAMPOS SEMANTICOS [pt] DESCRICAO DO PORTUGUES [pt] FEIURA [en] BEAUTY [en] LITERACY [en] CORPUS [en] SEMANTIC FIELDS [en] PORTUGUESE DESCRIPTION [en] UGLINESS
4	[en] METHODOLOGIES FOR CHARACTERIZING AND DETECTING EMOTIONAL DESCRIPTION IN THE PORTUGUESE LANGUAGE / [pt] METODOLOGIAS PARA CARACTERIZAÇÃO E DETECÇÃO DA DESCRIÇÃO DE EMOÇÃO NA LÍNGUA PORTUGUESA BARBARA CRISTINA MARQUES P RAMOS 29 May 2023 (has links) [pt] O interesse desta tese recai sobre compreender como os falantes de língua portuguesa a utilizam para materializar a menção de emoção através de um trabalho, sobretudo, linguístico. O objetivo geral da pesquisa é criar recursos para aprimorar a anotação do campo semântico das emoções na língua portuguesa a partir do projeto AC/DC, projeto que reúne e disponibiliza publicamente corpora anotados e recursos para pesquisas na língua portuguesa, e do Emocionário, projeto de anotação semântica e léxico de emoções. Inicialmente, a pesquisa dá um panorama dos estudos de emoção; se alinha às perspectivas que refutam a universalidade das emoções e abordagens que postulam emoções básicas; e contrapõe seu interesse por menção de emoção à já consolidada área de Análise de Sentimento, contrastando cinco léxicos de sentimento e/ou polaridades em língua portuguesa e o Emocionário. A partir de uma ampla varredura nos corpora do AC/DC, três principais caminhos foram percorridos para investigar palavras de emoção: (i) uma análise dos vinte e quatro grupos de emoção que já existiam no léxico do Emocionário a fim de delinear características e desafios no estudo de emoção na língua portuguesa; (ii) a revisão completa um terço dos grupos do léxico do Emocionário; e (iii) buscas pelo padrão léxico-sintático sentimento de N e por expressões anotadas pelo projeto Esqueleto usadas para descrever emoção. A análise dos corpora à luz dos lemas previamente pertencentes aos grupos do léxico do Emocionário evidenciou, dentre outras características, a relevância de expressões lexicalizadas para a análise da descrição de emoção, dos tipos de argumentos de verbos e afixos que podem causar variação de sentido, e de variações de tempo e modo verbal que acarretam mudança de significado. Dentre os desafios estão palavras e expressões polissêmicas e a dificuldade na detecção de diferentes sentidos em palavras que compartilham da mesma classe gramatical, tendo como base somente informações morfossintáticas. Esta análise possibilitou a estruturação e documentação de uma metodologia de revisão que pode vir a ser aplicada nos demais grupos futuramente. As principais contribuições desta tese são decorrentes das análises e explorações em corpora: a limpeza de lemas com sentidos não-emocionais dos grupos do léxico do Emocionário; a criação dos grupos de emoção Ausência e Outra, enriquecendo o léxico; a detecção de mais de novecentos lemas e expressões provenientes das buscas pelo padrão sentimento de N e das conexões estabelecidas entre os campos semânticos de emoção e do corpo humano; além de descobertas de campos lexicais pouco mencionados na literatura sobre emoção, como coletividade, estranhamento, espiritualidade, parentesco e atos automotivados, que auxiliaram na investigação de como os falantes do português cristalizam emoções na língua. / [en] The interest of this thesis lies in understanding how Portuguese speakers use it to materialize the mention of emotion through a linguistic perspective. The general objective of the research is to create resources to improve the annotation of the semantic field of emotions in the Portuguese language based on the AC/DC project, which gathers and makes publicly available annotated corpora and tools for linguistic research on Portuguese language. and Emocionário, which is both a semantic annotation project and lexicon of emotions. Initially, the research gives an overview of emotion studies; aligning itself with perspectives that refute the universality of emotions and approaches that postulate basic emotions; and contrasts the interest in emotion description to the already consolidated area of Sentiment Analysis, comparing five lexicons of emotion and/or polarities in Portuguese to Emocionário. From a broad sweep of the AC/DC corpora, three main paths were taken towards investigating emotion words: (i) an analysis of the twenty-four emotion groups previously composing the Emocionário lexicon in order to delineate characteristics and challenges in the study of emotion description in the Portuguese language; (ii) a thorough revision of one-third of the Emocionário lexicon groups; and (iii) searches for the lexical-syntactic pattern sentimento de N and for expressions annotated by the Esqueleto project used to describe emotion. The corpora analysis in the light of the lemmas previously belonging to the Emocionário lexicon groups showed, amongst other characteristics, the relevance of lexicalized expressions for the analysis of the emotion description, the types of arguments of verbs and affixes that can cause variation in meaning, and variations in tense and verbal mode that lead to a change in meaning. Amongst the challenges are polysemous words and expressions and the difficulty in detecting different meanings in words that share the same grammatical class, based only on morphosyntactic information. This analysis enabled the structuring and documentation of a revision methodology that may be applied in other groups in the future. The main contributions of this thesis derive from the analyzes and explorations in corpora: the exclusion of lemmas with non-emotional meanings from the Emocionário lexicon groups; the creation of emotion groups Ausência and Outra, enriching the lexicon; the detection of more than nine hundred lemmas and expressions from the searches for the sentimento de N pattern and the connections established between the semantic fields of emotion and the human body; in addition to discoveries of lexical fields rarely mentioned in the literature on emotion, such as coletividade, estranhamento, espiritualidade, parentesco e atos automotivados, which helped in the investigation of how Portuguese speakers crystallize emotions in language. [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [pt] LEXICOS [pt] ANOTACAO LINGUISTICA [pt] ESTUDOS LINGUISTICOS COM CORPUS [pt] DESCRICAO DE EMOCAO [pt] DESCRICAO DO PORTUGUES [en] NATURAL LANGUAGE PROCESSING [en] LEXICONS [en] LINGUISTIC ANNOTATION [en] CORPORA ANALYSIS [en] EMOTION ANALYSIS [en] PORTUGUESE DESCRIPTION

1

Page generated in 0.0329 seconds