Global ETD Search

1	[en] LINGUISTIC BASIS FOR IDEA-ORIENTED SEARCH / [pt] AS BASES LINGÜÍSTICAS PARA A BUSCA ORIENTADA A IDÉIA CAROLINA MONTE FERREIRA GONCALVES 27 September 2006 (has links) [pt] A busca orientada a idéia é um novo paradigma para mecanismos de busca em acervos compostos por arquivos de texto. Esse paradigma visa resolver um problema comum aos mecanismos de busca: exigir que o usuário preveja as palavras contidas nos documentos que possam conter a informação que procura, impossibilitando-o, assim, de se concentrar diretamente na informação desejada. Buscando solucionar esse problema, são propostas as bases lingüísticas para o desenvolvimento de um modelo teórico preliminar que acrescente dados semânticos aos arquivos de texto. Nesse modelo, a informação semântica de um texto é representada através do que se chamou de estrutura de conceitos. O principal intuito das estruturas de conceitos é representar de uma mesma maneira frases que expressem o mesmo significado, ou seja, as paráfrases apresentam a mesma estrutura de conceitos. Serão expostos nesta dissertação os primeiros elementos do modelo em suas partes semântica, sintática e textual, além da integração entre as mesmas. A dissertação apresenta ainda um estudo de caso a fim de exemplificar o desenvolvimento de uma aplicação para busca de arquivos de texto em que essa tecnologia seria usada. / [en] The idea-oriented search is a new pattern for search engines whose databases are composed by text files. This pattern sets out to solve a usual problem for search engines: demanding that users foresee which words are contained in the desired document, keeping them from focusing on the information they are indeed seeking. To solve this problem, the linguistic bases for the development of a theoretical model that can add semantical data to the text files are laid down. In this model, the semantical information of a text is represented by what has been referred to as structure of concepts. The main goal of the structure of concepts is to give one single representation to sentences that express the same meaning. Thus, paraphrases present the same structure of concepts. In this dissertation, the first elements of this model are exposed in its semantical, syntactic and textual parts. Also present are the integration of these elements. A small case study is presented as well, with the intention of illustrating the development of an application for text files databases search engines in which this technology is used. [pt] RECUPERACAO DE INFORMACAO [en] INFORMATION RETRIEVAL [pt] LINGUISTICA COMPUTACIONAL [en] COMPUTATIONAL LINGUISTICS [pt] TEORIA SINTATICA [en] SYNTACTIC THEORY [pt] TEORIA SEMANTICA [en] SEMANTIC THEORY
2	[en] EVALUATION OF POETRY TRANSLATION: ANNOTATION IN THE SEARCH FOR CONSENSUS / [pt] AVALIAÇÃO DE TRADUÇÃO DE POESIA: A ANOTAÇÃO NA BUSCA PELO CONSENSO JULIANA CUNHA MENEZES 01 June 2017 (has links) [pt] Este estudo, que se insere no viés pós-estruturalista, tem como hipótese a possibilidade de se estabelecerem categorias capazes de instrumentalizar avaliações minimamente consensuais de traduções de poesia. Assim, dadas duas ou mais traduções de um poema, submetidas a dois ou mais avaliadores que adotem categorias uniformes de análise, suas avaliações, ainda que não idênticas, terão em comum alguns pontos relevantes. A busca pelo consenso é feita através da anotação, uma das atividades da Linguística Computacional, que consiste em identificar e classificar um certo fenômeno linguístico, utilizando rótulos, etiquetas, categorias, em um determinado corpus para, assim, atingirmos um determinado objetivo. Os objetivos da tese são (a) fornecer, aos interessados em tradução de poesia, insumos para se poder avaliar, de forma minimamente consensual, traduções de poemas; e (b) explicitar, sistematizar e validar categorias do nível semântico-lexical, e descrever e confirmar categorias do nível formal (níveis métrico e rimático) e do plano de recursos sonoros, a fim de que possam ser usadas para embasar avaliações minimamente consensuais de traduções de poesia. A pesquisa apresenta três etapas. Na primeira, a anotação é utilizada como metodologia na busca pelo consenso. Nessa etapa, anotações de poemas originais e de traduções foram feitas por diferentes estudiosos. Ao comparar essas anotações em busca de consenso, confirmei/validei ou reformulei as categorias. O consenso permite confirmação e validação, já a falta dele abre espaço para reformulações e refinamentos. Na segunda etapa, a metodologia de Britto, com algumas observações adicionais, foi utilizada para analisar os resultados oriundos da primeira etapa. Objetiva-se, por meio de tal metodologia, verificar se os aspectos mais relevantes dos níveis métrico, rimático, semântico-lexical e do plano de recursos sonoros (aliterações, assonâncias e recursos afins) dos poemas originais foram recriados nas traduções. E na terceira, são utilizados os resultados da segunda etapa a fim de se produzir elementos para uma possível avaliação de traduções de poesia: entre duas traduções do soneto 130 de Shakespeare, verificar qual seria a mais fiel ao original. A hipótese foi comprovada quanto ao nível formal e ao plano de recursos sonoros, mas não quanto ao nível semântico-lexical. A validação das categorias do nível semântico-lexical pode prosseguir em pesquisas futuras, o que pode ou não resultar na possibilidade de concordância entre avaliações desse nível. O objetivo (a) foi atingido. Já o objetivo (b) foi atingido em parte: a explicitação, sistematização e validação das categorias do nível semântico-lexical iniciaram-se nesta pesquisa, e podem continuar em estudos futuros. Esta pesquisa pode ser vista como contribuição tanto para área de tradução de poesia, quanto para a Linguística Computacional. Quanto à primeira, a anotação prevê interpretações e tomadas de decisão, evidenciando, assim, as possíveis interpretações e decisões tomadas durante o processo de tradução. E em relação à segunda, o desenvolvimento de uma ferramenta para anotação de poemas, e de uma métrica para avaliação de traduções de poesia, utilizando as categorias presentes nesta tese, poderia ocorrer através de uma parceria com a Engenharia Computacional. / [en] This study, which can be included in the post-structuralist field, has as its hypothesis the possibility of establishing categories capable of making the following kind of evaluation possible: minimally consensual evaluations of poetry translations. Therefore, when taking into account two or more translations of a poem, submitted to two or more evaluators who adopt uniform categories of analysis, their evaluations, though not identical, will have some relevant aspects in common. The search for consensus is carried out through annotation, one of the activities of Computational Linguistics, which identify and classify a certain linguistic phenomenon, using labels, tags, categories, in a given corpus, so as to achieve a certain goal. The aims of this dissertation are (a) to provide tools for evaluating translations of poems in a minimally consensual way;and (b) to define, systematize and validate the categories of the semantic-lexical level, and to describe and confirm the categories of the formal level (metric and rhymic levels) and of the poetic field of sound resources, so that they all can be used to support minimally consensual evaluations of poetry translation.The research consists of three steps. In the first, annotation is used as a methodology in the search of consensus. In this step, annotations of poems and their translations were made by different annotators. By comparing these annotations searching for consensus, categories were confirmed/validated or reformulated. The consensus allows confirmation and validation, but absence of consensus suggests reformulations and refinements. In the second step, Britto s methodology, with some additional observations, was used to analyse the results from the first step. This methodology aims at verifying whether the most relevant aspects of the formal and semantic-lexical levels and of the poetic field of sound resources (alliterations, assonances, and the like) of the poems have been re-created in the translations. And in the third step, the results of the second one are used in order to produce resources for a possible evaluation of poetry translations: among two translations of the sonnet 130 by Shakespeare, which one would be the most faithful. The hypothesis was proved concerning the formal level and the poetic field of sound resources, but wasn t proved regarding the semantic-lexical level. The validation of categories of the semantic-lexical level can go on in future researches, which may or may not result in the possibility of agreement among evaluations of this level. Aim (a) was achieved. And aim (b) was partially achieved: the definition, systematization and validation of the categories of the semantic-lexical level started in this research, and can go on in future studies. This research can be seen as a contribution not only to the field of poetry translation, but also to Computational Linguistics. Regarding the first, annotation requires interpretations and decision-making processes, thus highlighting the possible interpretations and decision-making processes used during translation. And, concerning the second, the development of a tool for poem annotation, and of a metric for evaluation of poetry translation, using the categories present in this dissertation, may be achieved through a partnership with Computer Engineering. [pt] AVALIACAO [en] EVALUATION [pt] LINGUISTICA COMPUTACIONAL [en] COMPUTATIONAL LINGUISTICS [pt] TRADUCAO DE POESIA [pt] PROSODIA POETICA COMPARADA [pt] ANOTACAO [en] ANNOTATION
3	[pt] CLASSES DE PALAVRAS - DA GRÉCIA ANTIGA AO GOOGLE: UM ESTUDO MOTIVADO PELA CONVERSÃO DE TAGSETS / [en] PART OF SPEECH - FROM ANCIENT GREECE TO GOOGLE: A STUDY MOTIVATED BY TAGSET CONVERSION LUIZA FRIZZO TRUGO 10 November 2016 (has links) [pt] A dissertação Classes de palavras — da Grécia Antiga ao Google: um estudo motivado pela conversão de tagsets consiste em um estudo linguístico sobre classes gramaticais. A pesquisa tem como motivação uma tarefa específica da Linguística Computacional: a anotação de classes gramaticais (POS, do inglês part of speech ). Especificamente, a dissertação relata desafios e opções linguísticas decorrentes da tarefa de alinhamento entre dois tagsets: o tagset utilizado na anotação do corpus Mac-Morpho, um corpus brasileiro de 1.1 milhão de palavras, e o tagset proposto por uma equipe dos laboratórios Google e que vem sendo utilizado no âmbito do projeto Universal Dependencies (UD). A dissertação tem como metodologia a investigação por meio da anotação de grandes corpora e tematiza sobretudo o alinhamento entre as formas participiais. Como resultado, além do estudo e da documentação das opções linguísticas, a presente pesquisa também propiciou um cenário que viabiliza o estudo do impacto de diferentes tagsets em sistemas de Processamento de Linguagem Natural (PLN) e possibilitou a criação e a disponibilização de mais um recurso para a área de processamento de linguagem natural do português: o corpus Mac-Morpho anotado com o tagset e a filosofia de anotação do projeto UD, viabilizando assim estudos futuros sobre o impacto de diferentes tagsets no processamento automático de uma língua. / [en] The present dissertation, Part of speech — from Ancient Greece to Google: a study motivated by tagset conversion, is a linguistic study regarding gramatical word classes. This research is motivated by a specific task from Computational Linguistics: the annotation of part of speech (POS). Specifically, this dissertation reports the challenges and linguistic options arising from the task of aligning two tagsets: the first used in the annotation of the Mac-Morpho corpus — a Brazilian corpus with 1.1 million words — and the second proposed by Google research lab, which has been used in the context of the Universal Dependencies (UD) project. The present work adopts the annotation of large corpora as methodology and focuses mainly on the alignment of the past participle forms. As a result, in addition to the study and the documentation of the linguistic choices, this research provides a scenario which enables the study of the impact different tagsets have on Natural Language Processing (NLP) systems and presents another Portuguese NLP resource: the Mac-Morpho corpus annotated with project UD s tagset and consistent with its annotation philosophy, thus enabling future studies regarding the impact of different tagsets in the automatic processing of a language. [pt] LINGUISTICA COMPUTACIONAL [pt] PARTICIPIO [pt] ANOTACAO [pt] CORPUS [pt] CLASSE DE PALAVRAS [en] COMPUTATIONAL LINGUISTICS [en] PARTICIPLE [en] ANNOTATION [en] CORPORA [en] PART OF SPEECH
4	[pt] O DIZER EM PORTUGUÊS: DIÁLOGOS ENTRE TRADUÇÃO, DESCRIÇÃO E LINGUÍSTICA COMPUTACIONAL / [en] SAY IN PORTUGUESE: A DIALOGUE BETWEEN TRANSLATION, DESCRIPTION AND COMPUTATIONAL LINGUISTICS BIANCA FREITAS DE JESUS 25 October 2016 (has links) [pt] Os profissionais que traduzem textos do inglês para o português deparam-se com uma exigência dos clientes quanto à tradução de diálogos: diversificar os verbos de elocução, com o intuito de evitar a repetição do verbo dizer. Em resposta, esta pesquisa visa à elaboração de um glossário dos verbos que introduzem discurso relatado, chamados de verbos de elocução. Para tanto, conduzimos um estudo descritivo com base em corpus, com o intuito de compilar um léxico dos verbos de elocução do português. Assim, esta pesquisa promoveu um amplo levantamento dos verbos de elocução, estabeleceu os padrões de uso nos quais esses verbos costumam ser empregados e, ainda, propôs uma classificação desses verbos em grupos de sentido. Nosso estudo traz, portanto, dois objetivos principais, que se traduzem em contribuições concretas: (i) a elaboração de um glossário dos verbos introdutores de discurso relatado para tradutores, chamado DISSE, e (ii) a descrição dessa classe de verbos no português, tomando um viés semântico e com base em grandes corpora. Como contribuições secundárias, mas não menos importantes e já em fase final de implementação, destacam-se (iii) a criação e a disponibilização de um corpus anotado quanto aos verbos do grande grupo de dizer, também chamados de verbos de comunicação e (iv) a colaboração na elaboração de sistemas capazes de identificar automaticamente citações em textos da língua portuguesa. / [en] Professionals that translate from English to Portuguese often face a certain demand from clients when it comes to translating dialogues: diversifying the verbs that introduce reported speech, in an attempt to avoid repeating the verb dizer (say) in Portuguese. In order to help solve such problem, this study aims at developing a glossary of verbs that introduce reported speech. To reach that aim, we conducted a corpus-based descriptive research, in order to compile a quotation verbs lexicon for the Portuguese language. Thus, this study promoted a wide collection of quotation verbs, as well as stablished patters of usage in which these verbs are commonly found and put forward a classification of these verbs into groups of meaning. This study proposes two main objectives, which have led to concrete contributions: (i) the elaboration of a reported speech verbs glossary for translators of Portuguese, which is called DISSE (said, in Portuguese), and (ii) the description of such verb class in Portuguese, with a semantic approach and based on large corpora. As secondary contributions, but far from unimportant and close to final implementation, it is possible to highlight (iii) the creation and the public availability of annotated corpora, including a semantic annotation for reported speech verbs and (iv) the collaboration with the preparation of systems capable of automatically identifying quotations in Portuguese-written texts. [pt] TRADUCAO [pt] CORPUS [pt] DESCRICAO DO PORTUGUES [pt] VERBO DE ELOCUCAO [pt] LINGUISTICA COMPUTACIONAL [en] TRANSLATION [en] CORPORA [en] PORTUGUESE DESCRIPTION [en] COMPUTATIONAL LINGUISTICS
5	[en] DESCRIPTION AND FORMALIZATION OF COMPOUND WORD IN BRAZILIAN PORTUGUESE FOR AN ELECTRONIC DICTIONARY / [fr] DESCRIPTION ET FORMALISATION DE MOTS COMPOSÉS DU BRÉSILIEN EN VUE DE L´ÉLABORATION D´UN DICTIONNAIRE ÉLECTRONIQUE / [pt] DESCRIÇÃO E FORMALIZAÇÃO DE PALAVRAS COMPOSTAS DO PORTUGUÊS DO BRASIL PARA ELABORAÇÃO DE UM DICIONÁRIO ELETRÔNICO AUCIONE DAS DORES SMARSARO 10 September 2004 (has links) [pt] Neste trabalho estudam-se os nomes com a estrutura NdeN que podem ser descritos como nomes compostos por justaposição. São observadas 1.500 seqüências de palavras, com o objetivo de contribuir na descrição formal do léxico do português do Brasil e de definir os critérios de identificação de um nome composto com essa estrutura. O critério geral está baseado no conceito da nãocomposicionalidade semântica. Os testes são feitos a partir das propriedades sintáticas e semânticas que há na relação entre os elementos que constituem o grupo nominal, mostrando as distinções entre um grupo nominal livre e um grupo nominal composto. Entre as propriedades, podem ser destacadas: o bloqueio distribucional, a inseparabilidade, a inserção lexical, o apagamento de N2, a substituição de N2 e as variações em gênero e número. Essa descrição mostra-se útil na medida em que um conjunto de regras e critérios de delimitação de unidades lexicais foi definido, constituindo uma base para a incorporação de novos itens ao léxico. Por fim, as propriedades das entradas incorporadas receberam uma representação formal, resultando na criação de um dicionário eletrônico utilizável em processos eletrônicos. / [en] This paper is a study of the NofN structure nouns, which may be described as compound nouns by juxtaposition. 1500 word sequences are observed, aiming at contributing to the formal description of the Brazilian Portuguese lexicon, and defining the identification criteria of a compound noun with such a structure. The general criterion is based on the concept of semantic non- compositionality. The tests are made from the syntactic and semantic properties existing in the relationship between the elements that constitute the nominal group, showing the differences between a free nominal group and a compound nominal group. Among such properties, the following can be pointed out: distributional blockage, inseparability, lexical insertion, N2 erasing, N2 substitution, and gender and number variations. Such description proves to be useful in the sense that a set of lexical units delimitation rules and criteria has been defined, constituting a basis for the incorporation of new items to the lexicon. Finally, the incorporated entries` properties received a formal representation, which resulted in the creation of an electronic dictionary that can be used in electronic processes. / [fr] On étudie dans ce travail les noms formés par la structure NdeN qui caractérise un nom composé par juxtaposition. On a observé 1.500 séquences de mots, pour définir les critères d`identification d`un nom composé par cette structure. Le critère general est fondé sur le concept de la non compositionalité sémantique. Les tests ont été faits à partir des propriétés syntaxiques et sémantiques qu`il y a dans la relation existante entre les éléments qui constituent le groupe nominal, en démontrant les distinctions entre un groupe nominal libre et un groupe nominal composé. Parmi ces propriétés, on peut remarquer le bloquement distributionnel, l`inséparabilité, l`insertion lexical, l`effacement de N2, le remplacement de N2 et les variations en genre et en nombre. En examinant ces propriétés, on a pu observer qu`il y a des irrégularités dans la formation de ce procès. Cette description devient utile dans la mesure que cette reconnaissance peut être formulée et qu`un ensemble de règles et de critères de délimitation d`unités lexicales peut être defini, et que, par là, on peut aboutir à l`incorporation de nouveaux items lexicaux. Au bout, en tenant compte de la possibilité de formalisation, les mots composés peuvent être processés automatiquement dans les diccionnaires électroniques. [pt] LEXICO-GRAMATICA [en] LEXICON-GRAMMAR [fr] LEXICON-GRAMMAR [pt] LINGUISTICA COMPUTACIONAL [en] COMPUTATIONAL LINGUISTICS [fr] LINGUISTIQUE INFORMATIQUE [pt] DICIONARIO ELETRONICO [en] ELECTRONIC DICTIONARY [fr] DICTIONNAIRE ELECTRONIQUE
6	[en] BUILDING AND EVALUATING A GOLD-STANDARD TREEBANK / [pt] CONSTRUÇÃO E AVALIAÇÃO DE UM TREEBANK PADRÃO OURO ELVIS ALVES DE SOUZA 29 May 2023 (has links) [pt] Esta dissertação apresenta o processo de desenvolvimento do PetroGold, um corpus anotado com informação morfossintática – um treebank – padrão ouro para o domínio do petróleo. O desenvolvimento do recurso é abordado sob duas lentes: do lado linguístico, estudamos a literatura gramatical e tomamos decisões linguisticamente motivadas para garantir a qualidade da anotação do corpus; do lado computacional, avaliamos o recurso considerando a sua utilidade para o processamento de linguagem natural (PLN). Recursos como o PetroGold recebem relevância especial no contexto atual, em que o PLN estatístico tem se beneficiado de recursos padrão ouro de domínios específicos para alimentar o aprendizado automático. No entanto, o treebank é útil também para tarefas como a avaliação de sistemas de anotação baseados em regras e para os estudos linguísticos. O PetroGold foi anotado segundo as diretivas do projeto Universal Dependencies, tendo como pressupostos a ideia de que a anotação de um corpus é um processo interpretativo, por um lado, e utilizando o paradigma da linguística empírica, por outro. Além de descrever a anotação propriamente, aplicamos alguns métodos para encontrar erros na anotação de treebanks e apresentamos uma ferramenta criada especificamente para busca, edição e avaliação de corpora anotados. Por fim, avaliamos o impacto da revisão de cada uma das categorias linguísticas do treebank no aprendizado automático de um modelo alimentado pelo PetroGold e disponibilizamos publicamente a terceira versão do corpus, a qual, quando submetida à avaliação intrínseca de um modelo, alcança métricas até 2,55 por cento melhores que a versão anterior. / [en] This thesis reports on the development process of PetroGold, a goldstandard annotated corpus with morphosyntactic information – a treebank – for the oil and gas domain. The development of the resource is seen from two perspectives: on the linguistic side, we study the grammatical literature and make linguistically motivated decisions to ensure the quality of corpus annotation; on the computational side, we evaluate the resource considering its usefulness for natural language processing (NLP). Resources like PetroGold receive special importance in the current context, where statistical NLP has benefited from domain-specific gold-standard resources to train machine learning models. However, the treebank is also useful for tasks such as evaluating rule-based annotation systems and for linguistic studies. PetroGold was annotated according to the guidelines of the Universal Dependencies project, having as theoretical assumptions the idea that the annotation of a corpus is an interpretative process, on the one hand, and using the empirical linguistics paradigm, on the other. In addition to describing the annotation itself, we apply some methods to find errors in the annotation of treebanks and present a tool created specifically for searching, editing and evaluating annotated corpora. Finally, we evaluate the impact of revising each of the treebank linguistic categories on the automatic learning of a model powered by PetroGold and make the third version of the corpus publicly available, which, when performing an intrinsic evaluation for a model using the corpus, achieves metrics up to 2.55 perecent better than the previous version. [pt] LINGUISTICA COMPUTACIONAL [pt] ANOTACAO DE CORPUS [pt] TREEBANKS [pt] DESCRICAO DO PORTUGUES [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [en] COMPUTATIONAL LINGUISTICS [en] CORPUS ANNOTATION [en] TREEBANKS [en] PORTUGUESE DESCRIPTION [en] NATURAL LANGUAGE PROCESSING
7	[en] AUTOMATIC INFORMATION EXTRACTION: A DISTANT READING OF THE BRAZILIAN HISTORICAL-BIOGRAPHICAL DICTIONARY (DHBB) / [pt] EXTRAÇÃO AUTOMÁTICA DE INFORMAÇÕES: UMA LEITURA DISTANTE DO DICIONÁRIO HISTÓRICO-BIOGRÁFICO BRASILEIRO (DHBB SUEMI HIGUCHI 10 September 2021 (has links) [pt] A pesquisa aplica algumas técnicas de processamento de linguagem natural (PLN) ao domínio da história, tendo como objeto de investigação o Dicionário Histórico-Biográfico Brasileiro (DHBB), obra de estilo enciclopédico concebida pelo Centro de Pesquisa e Documentação de História Contemporânea do Brasil (CPDOC) da Fundação Getulio Vargas (FGV). O objetivo foi criar, a partir do DHBB, um corpus anotado para fins de extração automática de informações, relevante para as Humanidades Digitais, capaz de viabilizar ‘leituras distantes’ da política contemporânea brasileira. O processo completo passa pelas etapas de análise morfossintática do material, identificação de entidades relevantes ao domínio, inclusão de anotação no corpus, definição de relações semânticas de interesse para a pesquisa e mapeamento dos padrões léxico-sintáticos existentes nestas relações. Busca-se com estas etapas preparar os textos para a identificação de estruturas de interesse, isolando as informações relevantes e apresentando-as de forma estruturada. Para testar e avaliar um conjunto de padrões quanto à sua produtividade, foram selecionados como temas de interesse idade de entrada dos biografados na carreira política, formação acadêmica e vínculos familiares. O pressuposto é que utilizando padrões léxico-sintáticos é possível extrair informação de qualidade direcionada ao domínio da História, a partir de um corpus anotado do gênero enciclopédico. Na avaliação dos padrões para a extração do ano de nascimento dos biografados a medida-F foi de 99 por cento, para a extração de relações familiares a medida-F foi de 84% e para informações sobre formação acadêmica o índice de acertos alcançou 99,1 por cento. Essas extrações, por sua vez, permitiram uma leitura distante dos dados do DHBB que nos mostra i) queda da média de idade no que se refere à entrada dos políticos na carreira pública, que passam a se posicionar cada vez mais abaixo dos 40 anos, principalmente os nascidos a partir da década de 1960; ii) declínio acentuado na formação militar, sobretudo para as gerações pós 1920, demonstrando que o treinamento civil estava substituindo o militar enquanto caminho para atingir cargos políticos importantes; e iii) vínculos familiares na política como um fenômeno que se mantêm ao longo do tempo em índices bastante significativos, muitas vezes representando mais de 50 por cento do total de membros de determinadas categorias. As principais contribuições da tese são: criação de um corpus de gênero enciclopédico anotado e disponibilizado para estudos linguísticos e das humanidades; apresentação de metodologia baseada em uma filosofia de enriquecimento cíclico, em que à medida que se vai obtendo mais informações, elas são adicionadas ao próprio corpus melhorando a extração; e compilação de um conjunto de padrões passível de ser adaptado para quaisquer corpora contendo o mesmo tipo de anotações. / [en] The research applies some natural language processing techniques (NLP) to the domain of history, having as object of investigation the Brazilian Historical-Biographical Dictionary (DHBB), an encyclopedic style work conceived by the Centro de Pesquisa e Documentação de História Contemporânea do Brasil (CPDOC) of Fundação Getulio Vargas (FGV). The target is to create, from the DHBB, an annotated corpus for automatic information extraction s purpose, relevant to the Digital Humanities, enabling distant readings of Brazilian contemporary political history. The complete process goes through the morphosyntactic analysis of the material, identification of entities relevant to the domain, inclusion of semantic annotation in the corpus, definition of semantic relations of interest and mapping of lexical-syntactic patterns existing in these relations. These steps seek to prepare the texts for the identification of structures of interest, isolating the relevant information and presenting them in a structured way. To test and evaluate a set of textual patterns regarding their productivity in relation to DHBB, some specific topics were selected: age of the politician when entering public life, academic training and family ties. The assumption is that using lexical-syntactic patterns it is possible to extract high quality information from the domain of History, from an annotated corpus of the encyclopedic genre. In the evaluation of the patterns for extraction of the year of birth of the biographees, the F-measure was 99 per cent, for the extraction of family relationships, the F-measure was 84 per cent and for information on academic training, the correctness index reached 99.1 per cent. These extractions, in turn, allowed us to make a distant reading of the data in the DHBB that shows us i) a drop in the average age with regard to the entry of politicians into the public career, who start to position themselves more and more under 40 years of age, mainly those born from the 1960s; ii) sharp decline in military training, especially for the post-1920 generations, demonstrating that civilian training was replacing military training as a way to reach important political positions; and iii) family ties in politics as a phenomenon that remain over time at very significant rates, often representing more than 50 per cent of the total members of certain categories. The main contributions of the thesis are: creation of an encyclopedic genre corpus annotated and made available for linguistic and humanities studies; presentation of a methodology based on a philosophy of cyclic enrichment, in which, as more information is obtained, they are added to the corpus itself, improving extraction; and compilation of a set of productive patterns that can be adapted for any corpora containing the same type of annotations. [pt] LINGUISTICA COMPUTACIONAL [pt] LEITURA DISTANTE [pt] LINGUISTICA COM CORPUS [pt] HUMANIDADES DIGITAIS [pt] EXTRACAO DE INFORMACAO [en] COMPUTATIONAL LINGUISTICS [en] DISTANT READING [en] CORPUS LINGUISTICS [en] DIGITAL HUMANITIES [en] EXTRATION OF INFORMATION

1

Page generated in 0.043 seconds