[pt] A busca orientada a idéia é um novo paradigma para
mecanismos de busca em
acervos compostos por arquivos de texto. Esse paradigma
visa resolver um problema
comum aos mecanismos de busca: exigir que o usuário
preveja as palavras contidas
nos documentos que possam conter a informação que procura,
assim, de se concentrar diretamente na informação
desejada. Buscando solucionar
esse problema, são propostas as bases lingüísticas para o
desenvolvimento de um
modelo teórico preliminar que acrescente dados semânticos
aos arquivos de texto.
Nesse modelo, a informação semântica de um texto é
representada através do que se
chamou de estrutura de conceitos. O principal intuito das
estruturas de conceitos é
representar de uma mesma maneira frases que expressem o
mesmo significado, ou
seja, as paráfrases apresentam a mesma estrutura de
conceitos. Serão expostos nesta
dissertação os primeiros elementos do modelo em suas
partes semântica, sintática e
textual, além da integração entre as mesmas. A dissertação
apresenta ainda um estudo
de caso a fim de exemplificar o desenvolvimento de uma
aplicação para busca de
arquivos de texto em que essa tecnologia seria usada. / [en] The idea-oriented search is a new pattern for search
engines whose databases
are composed by text files. This pattern sets out to solve
a usual problem for search
engines: demanding that users foresee which words are
contained in the desired
document, keeping them from focusing on the information
they are indeed seeking.
To solve this problem, the linguistic bases for the
development of a theoretical model
that can add semantical data to the text files are laid
down. In this model, the
semantical information of a text is represented by what
has been referred to as
structure of concepts. The main goal of the structure of
concepts is to give one single
representation to sentences that express the same meaning.
Thus, paraphrases present
the same structure of concepts. In this dissertation, the
first elements of this model are
exposed in its semantical, syntactic and textual parts.
Also present are the integration
of these elements. A small case study is presented as
well, with the intention of
illustrating the development of an application for text
files databases search engines
in which this technology is used.
[pt] Este estudo, que se insere no viés pós-estruturalista, tem como hipótese a possibilidade de se estabelecerem categorias capazes de instrumentalizar avaliações minimamente consensuais de traduções de poesia. Assim, dadas duas ou mais traduções de um poema, submetidas a dois ou mais avaliadores que adotem categorias uniformes de análise, suas avaliações, ainda que não idênticas, terão em comum alguns pontos relevantes. A busca pelo consenso é feita através da anotação, uma das atividades da Linguística Computacional, que consiste em identificar e classificar um certo fenômeno linguístico, utilizando rótulos, etiquetas, categorias, em um determinado corpus para, assim, atingirmos um determinado objetivo. Os objetivos da tese são (a) fornecer, aos interessados em tradução de poesia, insumos para se poder avaliar, de forma minimamente consensual, traduções de poemas; e (b) explicitar, sistematizar e validar categorias do nível semântico-lexical, e descrever e confirmar categorias do nível formal (níveis métrico e rimático) e do plano de recursos sonoros, a fim de que possam ser usadas para embasar avaliações minimamente consensuais de traduções de poesia. A pesquisa apresenta três etapas. Na primeira, a anotação é utilizada como metodologia na busca pelo consenso. Nessa etapa, anotações de poemas originais e de traduções foram feitas por diferentes estudiosos. Ao comparar essas anotações em busca de consenso, confirmei/validei ou reformulei as categorias. O consenso permite confirmação e validação, já a falta dele abre espaço para reformulações e refinamentos. Na segunda etapa, a metodologia de Britto, com algumas observações adicionais, foi utilizada para analisar os resultados oriundos da primeira etapa. Objetiva-se, por meio de tal metodologia, verificar se os aspectos mais relevantes dos níveis métrico, rimático, semântico-lexical e do plano de recursos sonoros (aliterações, assonâncias e recursos afins) dos poemas originais foram recriados nas traduções. E na terceira, são utilizados os resultados da segunda etapa a fim de se produzir elementos para uma possível avaliação de traduções de poesia: entre duas traduções do soneto 130 de Shakespeare, verificar qual seria a mais fiel ao original. A hipótese foi comprovada quanto ao nível formal e ao plano de recursos sonoros, mas não quanto ao nível semântico-lexical. A validação das categorias do nível semântico-lexical pode prosseguir em pesquisas futuras, o que pode ou não resultar na possibilidade de concordância entre avaliações desse nível. O objetivo (a) foi atingido. Já o objetivo (b) foi atingido em parte: a explicitação, sistematização e validação das categorias do nível semântico-lexical iniciaram-se nesta pesquisa, e podem continuar em estudos futuros. Esta pesquisa pode ser vista como contribuição tanto para área de tradução de poesia, quanto para a Linguística Computacional. Quanto à primeira, a anotação prevê interpretações e tomadas de decisão, evidenciando, assim, as possíveis interpretações e decisões tomadas durante o processo de tradução. E em relação à segunda, o desenvolvimento de uma ferramenta para anotação de poemas, e de uma métrica para avaliação de traduções de poesia, utilizando as categorias presentes nesta tese, poderia ocorrer através de uma parceria com a Engenharia Computacional. / [en] This study, which can be included in the post-structuralist field, has as its hypothesis the possibility of establishing categories capable of making the following kind of evaluation possible: minimally consensual evaluations of poetry translations. Therefore, when taking into account two or more translations of a poem, submitted to two or more evaluators who adopt uniform categories of analysis, their evaluations, though not identical, will have some relevant aspects in common. The search for consensus is carried out through annotation, one of the activities of Computational Linguistics, which identify and classify a certain linguistic phenomenon, using labels, tags, categories, in a given corpus, so as to achieve a certain goal. The aims of this dissertation are (a) to provide tools for evaluating translations of poems in a minimally consensual way;and (b) to define, systematize and validate the categories of the semantic-lexical level, and to describe and confirm the categories of the formal level (metric and rhymic levels) and of the poetic field of sound resources, so that they all can be used to support minimally consensual evaluations of poetry translation.The research consists of three steps. In the first, annotation is used as a methodology in the search of consensus. In this step, annotations of poems and their translations were made by different annotators. By comparing these annotations searching for consensus, categories were confirmed/validated or reformulated. The consensus allows confirmation and validation, but absence of consensus suggests reformulations and refinements. In the second step, Britto s methodology, with some additional observations, was used to analyse the results from the first step. This methodology aims at verifying whether the most relevant aspects of the formal and semantic-lexical levels and of the poetic field of sound resources (alliterations, assonances, and the like) of the poems have been re-created in the translations. And in the third step, the results of the second one are used in order to produce resources for a possible evaluation of poetry translations: among two translations of the sonnet 130 by Shakespeare, which one would be the most faithful. The hypothesis was proved concerning the formal level and the poetic field of sound resources, but wasn t proved regarding the semantic-lexical level. The validation of categories of the semantic-lexical level can go on in future researches, which may or may not result in the possibility of agreement among evaluations of this level. Aim (a) was achieved. And aim (b) was partially achieved: the definition, systematization and validation of the categories of the semantic-lexical level started in this research, and can go on in future studies. This research can be seen as a contribution not only to the field of poetry translation, but also to Computational Linguistics. Regarding the first, annotation requires interpretations and decision-making processes, thus highlighting the possible interpretations and decision-making processes used during translation. And, concerning the second, the development of a tool for poem annotation, and of a metric for evaluation of poetry translation, using the categories present in this dissertation, may be achieved through a partnership with Computer Engineering.
[pt] A dissertação Classes de palavras — da Grécia Antiga ao Google:
um estudo motivado pela conversão de tagsets consiste em um estudo
linguístico sobre classes gramaticais. A pesquisa tem como motivação uma
tarefa específica da Linguística Computacional: a anotação de classes
gramaticais (POS, do inglês part of speech ). Especificamente, a
dissertação relata desafios e opções linguísticas decorrentes da tarefa de
alinhamento entre dois tagsets: o tagset utilizado na anotação do corpus
Mac-Morpho, um corpus brasileiro de 1.1 milhão de palavras, e o tagset
proposto por uma equipe dos laboratórios Google e que vem sendo utilizado
no âmbito do projeto Universal Dependencies (UD). A dissertação tem
como metodologia a investigação por meio da anotação de grandes corpora
e tematiza sobretudo o alinhamento entre as formas participiais. Como
resultado, além do estudo e da documentação das opções linguísticas, a
presente pesquisa também propiciou um cenário que viabiliza o estudo do
impacto de diferentes tagsets em sistemas de Processamento de Linguagem
Natural (PLN) e possibilitou a criação e a disponibilização de mais um
recurso para a área de processamento de linguagem natural do português: o
corpus Mac-Morpho anotado com o tagset e a filosofia de anotação do
projeto UD, viabilizando assim estudos futuros sobre o impacto de
diferentes tagsets no processamento automático de uma língua. / [en] The present dissertation, Part of speech — from Ancient Greece to
Google: a study motivated by tagset conversion, is a linguistic study
regarding gramatical word classes. This research is motivated by a specific
task from Computational Linguistics: the annotation of part of speech
(POS). Specifically, this dissertation reports the challenges and linguistic
options arising from the task of aligning two tagsets: the first used in the
annotation of the Mac-Morpho corpus — a Brazilian corpus with 1.1
million words — and the second proposed by Google research lab, which
has been used in the context of the Universal Dependencies (UD) project.
The present work adopts the annotation of large corpora as methodology
and focuses mainly on the alignment of the past participle forms. As a
result, in addition to the study and the documentation of the linguistic
choices, this research provides a scenario which enables the study of the
impact different tagsets have on Natural Language Processing (NLP)
systems and presents another Portuguese NLP resource: the Mac-Morpho
corpus annotated with project UD s tagset and consistent with its annotation
philosophy, thus enabling future studies regarding the impact of different
tagsets in the automatic processing of a language.
[pt] Os profissionais que traduzem textos do inglês para o português deparam-se com uma exigência dos clientes quanto à tradução de diálogos: diversificar os verbos de elocução, com o intuito de evitar a repetição do verbo dizer. Em resposta, esta pesquisa visa à elaboração de um glossário dos verbos que introduzem discurso relatado, chamados de verbos de elocução. Para tanto, conduzimos um estudo descritivo com base em corpus, com o intuito de compilar um léxico dos verbos de elocução do português. Assim, esta pesquisa promoveu um amplo levantamento dos verbos de elocução, estabeleceu os padrões de uso nos quais esses verbos costumam ser empregados e, ainda, propôs uma classificação desses verbos em grupos de sentido. Nosso estudo traz, portanto, dois objetivos principais, que se traduzem em contribuições concretas: (i) a elaboração de um glossário dos verbos introdutores de discurso relatado para tradutores, chamado DISSE, e (ii) a descrição dessa classe de verbos no português, tomando um viés semântico e com base em grandes corpora. Como contribuições secundárias, mas não menos importantes e já em fase final de implementação, destacam-se (iii) a criação e a disponibilização de um corpus anotado quanto aos verbos do grande grupo de dizer, também chamados de verbos de comunicação e (iv) a colaboração na elaboração de sistemas capazes de identificar automaticamente citações em textos da língua portuguesa. / [en] Professionals that translate from English to Portuguese often face a certain demand from clients when it comes to translating dialogues: diversifying the verbs that introduce reported speech, in an attempt to avoid repeating the verb dizer (say) in Portuguese. In order to help solve such problem, this study aims at developing a glossary of verbs that introduce reported speech. To reach that aim, we conducted a corpus-based descriptive research, in order to compile a quotation verbs lexicon for the Portuguese language. Thus, this study promoted a wide collection of quotation verbs, as well as stablished patters of usage in which these verbs are commonly found and put forward a classification of these verbs into groups of meaning. This study proposes two main objectives, which have led to concrete contributions: (i) the elaboration of a reported speech verbs glossary for translators of Portuguese, which is called DISSE (said, in Portuguese), and (ii) the description of such verb class in Portuguese, with a semantic approach and based on large corpora. As secondary contributions, but far from unimportant and close to final implementation, it is possible to highlight (iii) the creation and the public availability of annotated corpora, including a semantic annotation for reported speech verbs and (iv) the collaboration with the preparation of systems capable of automatically identifying quotations in Portuguese-written texts.
[pt] Neste trabalho estudam-se os nomes com a estrutura NdeN que
podem ser
descritos como nomes compostos por justaposição. São
observadas 1.500
seqüências de palavras, com o objetivo de contribuir na
descrição formal do
léxico do português do Brasil e de definir os critérios de
identificação de um nome
composto com essa estrutura. O critério geral está baseado
no conceito da nãocomposicionalidade
semântica. Os testes são feitos a partir das propriedades
sintáticas e semânticas que há na relação entre os
elementos que constituem o
grupo nominal, mostrando as distinções entre um grupo
nominal livre e um grupo
nominal composto. Entre as propriedades, podem ser
destacadas: o bloqueio
distribucional, a inseparabilidade, a inserção lexical, o
apagamento de N2, a
substituição de N2 e as variações em gênero e número. Essa
descrição mostra-se
útil na medida em que um conjunto de regras e critérios de
delimitação de
unidades lexicais foi definido, constituindo uma base para
a incorporação de
novos itens ao léxico. Por fim, as propriedades das
entradas incorporadas
receberam uma representação formal, resultando na criação
de um dicionário
eletrônico utilizável em processos eletrônicos. / [en] This paper is a study of the NofN structure nouns, which
may be described
as compound nouns by juxtaposition. 1500 word sequences are
observed, aiming
at contributing to the formal description of the Brazilian
Portuguese lexicon, and
defining the identification criteria of a compound noun
with such a structure. The
general criterion is based on the concept of semantic non-
compositionality. The
tests are made from the syntactic and semantic properties
existing in the
relationship between the elements that constitute the
nominal group, showing the
differences between a free nominal group and a compound
nominal group.
Among such properties, the following can be pointed out:
distributional blockage,
inseparability, lexical insertion, N2 erasing, N2
substitution, and gender and
number variations. Such description proves to be useful in
the sense that a set of
lexical units delimitation rules and criteria has been
defined, constituting a basis
for the incorporation of new items to the lexicon. Finally,
the incorporated entries`
properties received a formal representation, which resulted
in the creation of an
electronic dictionary that can be used in electronic
processes. / [fr] On étudie dans ce travail les noms formés par la structure
NdeN qui
caractérise un nom composé par juxtaposition. On a observé
1.500 séquences de
mots, pour définir les critères d`identification d`un nom
composé par cette
structure. Le critère general est fondé sur le concept de
la non compositionalité
sémantique. Les tests ont été faits à partir des propriétés
syntaxiques et
sémantiques qu`il y a dans la relation existante entre les
éléments qui constituent
le groupe nominal, en démontrant les distinctions entre un
groupe nominal libre et
un groupe nominal composé. Parmi ces propriétés, on peut
remarquer le
bloquement distributionnel, l`inséparabilité, l`insertion
lexical, l`effacement de
N2, le remplacement de N2 et les variations en genre et en
nombre. En examinant
ces propriétés, on a pu observer qu`il y a des
irrégularités dans la formation de ce
procès. Cette description devient utile dans la mesure que
cette reconnaissance
peut être formulée et qu`un ensemble de règles et de
critères de délimitation
d`unités lexicales peut être defini, et que, par là, on
peut aboutir à l`incorporation
de nouveaux items lexicaux. Au bout, en tenant compte de la
possibilité de
formalisation, les mots composés peuvent être processés
automatiquement dans
les diccionnaires électroniques.
[pt] Esta dissertação apresenta o processo de desenvolvimento do PetroGold,
um corpus anotado com informação morfossintática – um treebank – padrão
ouro para o domínio do petróleo. O desenvolvimento do recurso é abordado sob
duas lentes: do lado linguístico, estudamos a literatura gramatical e tomamos
decisões linguisticamente motivadas para garantir a qualidade da anotação
do corpus; do lado computacional, avaliamos o recurso considerando a sua
utilidade para o processamento de linguagem natural (PLN). Recursos como
o PetroGold recebem relevância especial no contexto atual, em que o PLN
estatístico tem se beneficiado de recursos padrão ouro de domínios específicos
para alimentar o aprendizado automático. No entanto, o treebank é útil também
para tarefas como a avaliação de sistemas de anotação baseados em regras e
para os estudos linguísticos. O PetroGold foi anotado segundo as diretivas
do projeto Universal Dependencies, tendo como pressupostos a ideia de que a
anotação de um corpus é um processo interpretativo, por um lado, e utilizando
o paradigma da linguística empírica, por outro. Além de descrever a anotação
propriamente, aplicamos alguns métodos para encontrar erros na anotação de
treebanks e apresentamos uma ferramenta criada especificamente para busca,
edição e avaliação de corpora anotados. Por fim, avaliamos o impacto da revisão
de cada uma das categorias linguísticas do treebank no aprendizado automático
de um modelo alimentado pelo PetroGold e disponibilizamos publicamente a
terceira versão do corpus, a qual, quando submetida à avaliação intrínseca de
um modelo, alcança métricas até 2,55 por cento melhores que a versão anterior. / [en] This thesis reports on the development process of PetroGold, a goldstandard annotated corpus with morphosyntactic information – a treebank
– for the oil and gas domain. The development of the resource is seen
from two perspectives: on the linguistic side, we study the grammatical
literature and make linguistically motivated decisions to ensure the quality
of corpus annotation; on the computational side, we evaluate the resource
considering its usefulness for natural language processing (NLP). Resources like
PetroGold receive special importance in the current context, where statistical
NLP has benefited from domain-specific gold-standard resources to train
machine learning models. However, the treebank is also useful for tasks such as
evaluating rule-based annotation systems and for linguistic studies. PetroGold
was annotated according to the guidelines of the Universal Dependencies
project, having as theoretical assumptions the idea that the annotation of
a corpus is an interpretative process, on the one hand, and using the empirical
linguistics paradigm, on the other. In addition to describing the annotation
itself, we apply some methods to find errors in the annotation of treebanks
and present a tool created specifically for searching, editing and evaluating
annotated corpora. Finally, we evaluate the impact of revising each of the
treebank linguistic categories on the automatic learning of a model powered
by PetroGold and make the third version of the corpus publicly available,
which, when performing an intrinsic evaluation for a model using the corpus,
achieves metrics up to 2.55 perecent better than the previous version.
7 |
[pt] A pesquisa aplica algumas técnicas de processamento de linguagem natural (PLN) ao domínio da história, tendo como objeto de investigação o Dicionário Histórico-Biográfico Brasileiro (DHBB), obra de estilo enciclopédico concebida pelo Centro de Pesquisa e Documentação de História Contemporânea do Brasil (CPDOC) da Fundação Getulio Vargas (FGV). O objetivo foi criar, a partir do DHBB, um corpus anotado para fins de extração automática de informações, relevante para as Humanidades Digitais, capaz de viabilizar ‘leituras distantes’ da política contemporânea brasileira. O processo completo passa pelas etapas de análise morfossintática do material, identificação de entidades relevantes ao domínio, inclusão de anotação no corpus, definição de relações semânticas de interesse para a pesquisa e mapeamento dos padrões léxico-sintáticos existentes nestas relações. Busca-se com estas etapas preparar os textos para a identificação de estruturas de interesse, isolando as informações relevantes e apresentando-as de forma estruturada. Para testar e avaliar um conjunto de padrões quanto à sua produtividade, foram selecionados como temas de interesse idade de entrada dos biografados na carreira política, formação acadêmica e vínculos familiares. O pressuposto é que utilizando padrões léxico-sintáticos é possível extrair informação de qualidade direcionada ao domínio da História, a partir de um corpus anotado do gênero enciclopédico. Na avaliação dos padrões para a extração do ano de nascimento dos biografados a medida-F foi de 99 por cento, para a extração de relações familiares a medida-F foi de 84% e para informações sobre formação acadêmica o índice de acertos alcançou 99,1 por cento. Essas extrações, por sua vez, permitiram uma leitura distante dos dados do DHBB que nos mostra i) queda da média de idade no que se refere à entrada dos políticos na carreira pública, que passam a se posicionar cada vez mais abaixo dos 40 anos, principalmente os nascidos a partir da década de 1960; ii) declínio acentuado na formação militar, sobretudo para as gerações pós 1920, demonstrando que o treinamento civil estava substituindo o militar enquanto caminho para atingir cargos políticos importantes; e iii) vínculos familiares na política como um fenômeno que se mantêm ao longo do tempo em índices bastante significativos, muitas vezes representando mais de 50 por cento do total de membros de determinadas categorias. As principais contribuições da tese são: criação de um corpus de gênero enciclopédico anotado e disponibilizado para estudos linguísticos e das humanidades; apresentação de metodologia baseada em uma filosofia de enriquecimento cíclico, em que à medida que se vai obtendo mais informações, elas são adicionadas ao próprio corpus melhorando a extração; e compilação de um conjunto de padrões passível de ser adaptado para quaisquer corpora contendo o mesmo tipo de anotações. / [en] The research applies some natural language processing techniques (NLP) to the domain of history, having as object of investigation the Brazilian Historical-Biographical Dictionary (DHBB), an encyclopedic style work conceived by the Centro de Pesquisa e Documentação de História Contemporânea do Brasil (CPDOC) of Fundação Getulio Vargas (FGV). The target is to create, from the DHBB, an annotated corpus for automatic information extraction s purpose, relevant to the Digital Humanities, enabling distant readings of Brazilian contemporary political history. The complete process goes through the morphosyntactic analysis of the material, identification of entities relevant to the domain, inclusion of semantic annotation in the corpus, definition of semantic relations of interest and mapping of lexical-syntactic patterns existing in these relations. These steps seek to prepare the texts for the identification of structures of interest, isolating the relevant information and presenting them in a structured way. To test and evaluate a set of textual patterns regarding their productivity in relation to DHBB, some specific topics were selected: age of the politician when entering public life, academic training and family ties. The assumption is that using lexical-syntactic patterns it is possible to extract high quality information from the domain of History, from an annotated corpus of the encyclopedic genre. In the evaluation of the patterns for extraction of the year of birth of the biographees, the F-measure was 99 per cent, for the extraction of family relationships, the F-measure was 84 per cent and for information on academic training, the correctness index reached 99.1 per cent. These extractions, in turn, allowed us to make a distant reading of the data in the DHBB that shows us i) a drop in the average age with regard to the entry of politicians into the public career, who start to position themselves more and more under 40 years of age, mainly those born from the 1960s; ii) sharp decline in military training, especially for the post-1920 generations, demonstrating that civilian training was replacing military training as a way to reach important political positions; and iii) family ties in politics as a phenomenon that remain over time at very significant rates, often representing more than 50 per cent of the total members of certain categories. The main contributions of the thesis are: creation of an encyclopedic genre corpus annotated and made available for linguistic and humanities studies; presentation of a methodology based on a philosophy of cyclic enrichment, in which, as more information is obtained, they are added to the corpus itself, improving extraction; and compilation of a set of productive patterns that can be adapted for any corpora containing the same type of annotations.
