1 |
[en] THE SEMANTIC CLASSIFICATION OF TECHNICAL COMPOUND NOUNS AND THEIR TRANSLATION TO PORTUGUESE / [pt] A CATEGORIZAÇÃO SEMÂNTICA DOS COMPOSTOS NOMINAIS TÉCNICOS EM LÍNGUA INGLESA E OS RESULTADOS TRADUTÓRIOS EM PORTUGUÊSPAULA SANTOS DINIZ 23 May 2017 (has links)
[pt] Este trabalho propõe uma classificação semântica dos compostos nominais técnicos em língua inglesa e a análise sintática e semântica das traduções para o português. Para tanto, faz-se um panorama da literatura sobre as relações semânticas dos compostos nominais em língua inglesa. A tipologia aqui proposta é, portanto, baseada em estudos clássicos sobre a semântica dos compostos nominais (Levi, 1978; Warren, 1978) e em pesquisas mais recentes — inseridas no escopo da Linguística Computacional e ou influenciadas pela Teoria do Léxico Gerativo, de Pustejovsky (1995) —, e adaptada para a natureza dos compostos nominais selecionados. A presente dissertação também analisa as traduções dos compostos nominais técnicos para o português, bem como a função das preposições nas estruturas com sintagmas preposicionados. O corpus foi retirado de um livro técnico da área de engenharia elétrica/eletrônica traduzido pela autora.
Além da classificação semântica dos compostos nominais técnicos, propõe-se a criação de ontologias que contemplem os compostos com os mesmos núcleos ou modificadores, de modo a observar se núcleos ou modificadores iguais implicam a mesma categorização, e se é respeitada a relação de hiperonímia e hiponímia entre os compostos nominais inseridos na mesma ontologia. / [en] The major purpose of this thesis is to suggest a semantic categorization of English technical noun compounds, as well as to analyze the semantics and syntax of the Portuguese renderings. First, the literature on semantic relations in English compound nouns is reviewed. The classification here suggested is therefore based on classic studies on the semantics of compound nouns (Levi, 1978; Warren, 1978) and on more recent research within the scope of Computational Linguistics, which are influenced by the Generative Lexicon Theory (Pustejovsky, 1995). The semantic categorization is also adapted to the data collected in this work. This thesis also analyzes the Portuguese translation of the English compound nouns, as well as the role of the prepositions in prepositional phrases. The data was taken from an electrical/electronics engineering book which was translated by the author. In addition to the semantic classification, the technical compound nouns are grouped together according to the head or modifiers of the structure, and assembled into ontologies. Compound nouns sharing a common head or modifier are grouped together, so as to investigate if there is a hypernym-hyponym relation among the compounds assembled in the same ontology.
|
2 |
[pt] CLASSES DE PALAVRAS - DA GRÉCIA ANTIGA AO GOOGLE: UM ESTUDO MOTIVADO PELA CONVERSÃO DE TAGSETS / [en] PART OF SPEECH - FROM ANCIENT GREECE TO GOOGLE: A STUDY MOTIVATED BY TAGSET CONVERSIONLUIZA FRIZZO TRUGO 10 November 2016 (has links)
[pt] A dissertação Classes de palavras — da Grécia Antiga ao Google:
um estudo motivado pela conversão de tagsets consiste em um estudo
linguístico sobre classes gramaticais. A pesquisa tem como motivação uma
tarefa específica da Linguística Computacional: a anotação de classes
gramaticais (POS, do inglês part of speech ). Especificamente, a
dissertação relata desafios e opções linguísticas decorrentes da tarefa de
alinhamento entre dois tagsets: o tagset utilizado na anotação do corpus
Mac-Morpho, um corpus brasileiro de 1.1 milhão de palavras, e o tagset
proposto por uma equipe dos laboratórios Google e que vem sendo utilizado
no âmbito do projeto Universal Dependencies (UD). A dissertação tem
como metodologia a investigação por meio da anotação de grandes corpora
e tematiza sobretudo o alinhamento entre as formas participiais. Como
resultado, além do estudo e da documentação das opções linguísticas, a
presente pesquisa também propiciou um cenário que viabiliza o estudo do
impacto de diferentes tagsets em sistemas de Processamento de Linguagem
Natural (PLN) e possibilitou a criação e a disponibilização de mais um
recurso para a área de processamento de linguagem natural do português: o
corpus Mac-Morpho anotado com o tagset e a filosofia de anotação do
projeto UD, viabilizando assim estudos futuros sobre o impacto de
diferentes tagsets no processamento automático de uma língua. / [en] The present dissertation, Part of speech — from Ancient Greece to
Google: a study motivated by tagset conversion, is a linguistic study
regarding gramatical word classes. This research is motivated by a specific
task from Computational Linguistics: the annotation of part of speech
(POS). Specifically, this dissertation reports the challenges and linguistic
options arising from the task of aligning two tagsets: the first used in the
annotation of the Mac-Morpho corpus — a Brazilian corpus with 1.1
million words — and the second proposed by Google research lab, which
has been used in the context of the Universal Dependencies (UD) project.
The present work adopts the annotation of large corpora as methodology
and focuses mainly on the alignment of the past participle forms. As a
result, in addition to the study and the documentation of the linguistic
choices, this research provides a scenario which enables the study of the
impact different tagsets have on Natural Language Processing (NLP)
systems and presents another Portuguese NLP resource: the Mac-Morpho
corpus annotated with project UD s tagset and consistent with its annotation
philosophy, thus enabling future studies regarding the impact of different
tagsets in the automatic processing of a language.
|
3 |
[pt] O DIZER EM PORTUGUÊS: DIÁLOGOS ENTRE TRADUÇÃO, DESCRIÇÃO E LINGUÍSTICA COMPUTACIONAL / [en] SAY IN PORTUGUESE: A DIALOGUE BETWEEN TRANSLATION, DESCRIPTION AND COMPUTATIONAL LINGUISTICSBIANCA FREITAS DE JESUS 25 October 2016 (has links)
[pt] Os profissionais que traduzem textos do inglês para o português deparam-se com uma exigência dos clientes quanto à tradução de diálogos: diversificar os verbos de elocução, com o intuito de evitar a repetição do verbo dizer. Em resposta, esta pesquisa visa à elaboração de um glossário dos verbos que introduzem discurso relatado, chamados de verbos de elocução. Para tanto, conduzimos um estudo descritivo com base em corpus, com o intuito de compilar um léxico dos verbos de elocução do português. Assim, esta pesquisa promoveu um amplo levantamento dos verbos de elocução, estabeleceu os padrões de uso nos quais esses verbos costumam ser empregados e, ainda, propôs uma classificação desses verbos em grupos de sentido. Nosso estudo traz, portanto, dois objetivos principais, que se traduzem em contribuições concretas: (i) a elaboração de um glossário dos verbos introdutores de discurso relatado para tradutores, chamado DISSE, e (ii) a descrição dessa classe de verbos no português, tomando um viés semântico e com base em grandes corpora. Como contribuições secundárias, mas não menos importantes e já em fase final de implementação, destacam-se (iii) a criação e a disponibilização de um corpus anotado quanto aos verbos do grande grupo de dizer, também chamados de verbos de comunicação e (iv) a colaboração na elaboração de sistemas capazes de identificar automaticamente citações em textos da língua portuguesa. / [en] Professionals that translate from English to Portuguese often face a certain demand from clients when it comes to translating dialogues: diversifying the verbs that introduce reported speech, in an attempt to avoid repeating the verb dizer (say) in Portuguese. In order to help solve such problem, this study aims at developing a glossary of verbs that introduce reported speech. To reach that aim, we conducted a corpus-based descriptive research, in order to compile a quotation verbs lexicon for the Portuguese language. Thus, this study promoted a wide collection of quotation verbs, as well as stablished patters of usage in which these verbs are commonly found and put forward a classification of these verbs into groups of meaning. This study proposes two main objectives, which have led to concrete contributions: (i) the elaboration of a reported speech verbs glossary for translators of Portuguese, which is called DISSE (said, in Portuguese), and (ii) the description of such verb class in Portuguese, with a semantic approach and based on large corpora. As secondary contributions, but far from unimportant and close to final implementation, it is possible to highlight (iii) the creation and the public availability of annotated corpora, including a semantic annotation for reported speech verbs and (iv) the collaboration with the preparation of systems capable of automatically identifying quotations in Portuguese-written texts.
|
4 |
[pt] O LÉXICO DA BELEZA E DA FEIURA EM LÍNGUA PORTUGUESA EM UM CORPUS LITERÁRIO / [en] THE LEXICON OF BEAUTY AND UGLINESS IN PORTUGUESE LANGUAGE IN A LITERARY CORPUSMICHELLE PAIVA MARINHO 07 June 2022 (has links)
[pt] Este trabalho busca descrever o léxico do belo e do feio, em língua
portuguesa, partindo de informações de dicionários para realizar buscas em um
grande corpus de textos literários. Especificamente, o trabalho faz uso dos corpora
anotados acessíveis pelo projeto AC/DC (Acesso a corpora/ Disponibilização de
corpora), para, a partir de padrões que levam em conta itens lexicais do campo da
beleza e da feiura, revelar aquilo que, em língua portuguesa, é considerado belo e,
também, o que é considerado feio. Realizado em dois momentos distintos, o
presente trabalho utilizou um dicionário digital e um físico, em seu primeiro
momento, a fim de se levantar o vocabulário da língua portuguesa que
circunscrevesse os campos semânticos da beleza e da feiura e o corpus Literateca,
no segundo momento, o que permitiu a observação dos contextos recorrentes para
os itens lexicais de cada campo. Por fim, além da descrição e análise dos dados
encontrados, é elaborado um panorama cultural que tenta explicar tais ocorrências
nas circunstâncias em que aparecem. / [en] This work seeks to describe the lexicon of the beautiful and the ugly, in
portuguese, using information from dictionaries to search a large corpus of literary
texts. Specifically, the work makes use of the annotated corpora accessible by the
AC/DC Project (Access to corpora/ Availability of corpora), in order to, from
patterns that take into account lexical items in the field of beauty and ugliness,
reveal what, in portuguese language, is considered beautiful and, also, what is
considered ugly. Carried out in two different moments, the present work used a
digital dictionary and a physical dictionary, in its first moment, in order to get the
vocabulary of the portuguese language that circumscribes the semantic fields of
beauty and ugliness and the Literateca corpus, in the second moment, which
allowed the observation of the recurrent contexts for the lexical items of each field.
Finally, in addition to the description and analysis of the data found, a cultural
panorama is elaborated that tries to explain such occurences in the circumstances in
which they appear.
|
Page generated in 0.0398 seconds