MARTINS, Francimary Macedo. Compilação, anotação e análise linguístico-computacional de um corpus de textos literários dos séculos XIX e XX: corpus Coelho Neto. 2014. 210f. – Tese (Doutorado) – Universidade Federal do Ceará, Departamento de Letras Vernáculas, Programa de Pós-graduação em Linguística, Fortaleza (CE), 2014. / Submitted by Márcia Araújo (marcia_m_bezerra@yahoo.com.br) on 2015-06-03T16:50:56Z
No. of bitstreams: 1
2014_tese_fmmartins.pdf: 3122639 bytes, checksum: f251253305ab71e79ecfe59b00663f82 (MD5) / Approved for entry into archive by Márcia Araújo(marcia_m_bezerra@yahoo.com.br) on 2015-06-05T11:08:56Z (GMT) No. of bitstreams: 1
2014_tese_fmmartins.pdf: 3122639 bytes, checksum: f251253305ab71e79ecfe59b00663f82 (MD5) / Made available in DSpace on 2015-06-05T11:08:56Z (GMT). No. of bitstreams: 1
2014_tese_fmmartins.pdf: 3122639 bytes, checksum: f251253305ab71e79ecfe59b00663f82 (MD5)
Previous issue date: 2014 / This thesis is the compilation, morphosyntactic annotation and linguistic and computational analysis of a corpus of literary texts of 19th and 20th centuries: Corpus Coelho Netto (CCN), containing texts of the novels A Conquista and Turbilhão and short stories of the book Sertão. The work is in the Corpus Linguistics and Computational Linguistics interface (BERBER SARDINHA, 2000, 2003, 2004, 2005, 2009; BERBER SARDINHA; ALMEIDA, 2008; OLIVEIRA, 2009; BIDERMAN, 1998, 2001; ALUÍSIO; ALMEIDA, 2006; SHEPHERD, 2012; MACENERY AND WILSON, 2001; LEECH, 2004; ALVES; TAGNIN, 2012; ALENCAR, 2009, 2010a, 2010b, 2011a, 2011b, 2013a, 2013b). The CCN contains 53.080 (fifty-three thousand and eighty) tokens. The compilation consists of the steps selection, collection off texts and handling; in which cleaning, editing and updating of texts (ALUÍSIO; ALMEIDA, 2006), and then be submitted to the morphosyntactic annotation and linguistic-computational analysis, with the goal of obtaining data to show whether or not the "excessive" use of adjectives, verbs and adverbs in “–mente”, demonstrating the lexical diversity in Coelho Netto´s texts, noting if what the modernist critics said about the writer was correct. The annotation was performed by automatic tagger Aelius, AeliusHunPos model, free software in Python that uses the Natural Language Toolkit – NLTK library (BIRD; KLEIN; LOPER, 2009), in the pre-processing of texts, in the construction of morphosyntactic tagger and the automatic annotation of corpora with the help of human review (ALENCAR, 2010a, 2013a, 2013b), and it was trained in the Historical Corpus of Tycho Brahe Portuguese (CHPTB). The compilation and annotation CCN involves other actions such as revaluation the accuracy of this tagger in literary texts. The search results indicated that: AeliusHunpos demonstrated better performance than other texts already noted (97.9 %); AeliusHunPos model showed a far beyond performance by annotating corpora with AeliusMaxEnt model; and that, after selection and manual correction of 10% annotated corpora and generated gold standard files, it is suggested an improvement of the approximate 3% of errors by the tagger, in order to increase its accuracy. Regarding the analyzes performed with the CCN, it was found that: lexical diversity - about verbs, adjectives and adverbs in “–mente” considered exaggerated by critics to Coelho Netto unfounded, because his texts are rich, but when compared to the texts by Aluísio Azevedo and Camilo Castelo Branco, comparison of corpus, present vocabulary richness similar to CCN, as exposed in the results. / Esta tese é a compilação, anotação morfossintática e análise linguístico-computacional de um corpus de textos literários dos séc. XIX e XX: o Corpus Coelho Netto (CCN), contendo textos dos romances A Conquista e Turbilhão e contos do livro Sertão. O trabalho está na interface da Linguística de Corpus e da Linguística Computacional (BERBER SARDINHA, 2000, 2003, 2004, 2005, 2009; BERBER SARDINHA; ALMEIDA, 2008; OLIVEIRA, 2009; BIDERMAN, 1998, 2001; ALUÍSIO; ALMEIDA, 2006; SHEPHERD, 2012; MACENERY E WILSON, 2001; LEECH, 2004; ALVES; TAGNIN, 2012; ALENCAR, 2009, 2010a, 2010b, 2011a, 2011b, 2013a, 2013b). O CCN contém 53.080 (cinquenta e três mil e oitenta) tokens (pontuação e palavras). A compilação consiste nas etapas de seleção, coleta de textos e manipulação; nesta são realizadas a limpeza, edição e atualização dos textos (ALUÍSIO; ALMEIDA, 2006), para depois ser submetido à anotação morfossintática e análise linguístico-computacional, com o objetivo de obter dados que comprovem ou não o uso “excessivo” de adjetivos, de verbos e de advérbios em –mente, demonstrando a diversidade lexical nos textos de Coelho Netto, constatando se o que a crítica modernista dizia a respeito do escritor era procedente. A anotação morfossintática foi realizada pelo etiquetador automático Aelius, modelo AeliusHunPos, um software livre em Python que utiliza a biblioteca Natural Language Toolkit – NLTK (BIRD; KLEIN; LOPER, 2009), no pré-processamento de textos, na construção de etiquetador morfossintático e na anotação de corpora com auxílio de revisão humana (ALENCAR, 2010a, 2013a, 2013b), e que foi treinado no Corpus Histórico do Português Tycho Brahe (CHPTB). A compilação e anotação do CCN envolve outras ações como a reavaliação da acurácia desse etiquetador em textos literários. Os resultados da pesquisa revelaram que: o AeliusHunpos ao anotar os textos do CCN demonstrou maior acurácia que em outros textos já anotados, de 97,9%; que o modelo AeliusHunPos mostrou um desempenho muito além ao anotar os corpora que com o modelo AeliusMaxEnt; e que, após a seleção e correção manual dos 10% dos corpora anotados e gerados arquivos padrão gold, sugerimos um melhoramento dos aproximados 3% de erros cometidos pelo etiquetador, visando o aumento de sua acurácia. Quanto às analises realizadas com os dados obtidos no CCN constatamos que: a diversidade lexical, especificamente quanto a verbos, adjetivos e advérbios em –mente, declarada como exagerada pela crítica à Coelho Netto não procede, pois seus textos são ricos, mas quando comparados aos textos de Aluísio Azevedo e Camilo Castelo Branco, o Corpus de Comparação, apresentam riqueza vocabular similar ao CCN, como expostos nos resultados.
Identifer | oai:union.ndltd.org:IBICT/oai:www.repositorio.ufc.br:riufc/12576 |
Date | January 2014 |
Creators | Martins, Francimary Macedo |
Contributors | Araripe, Leonel Figueiredo de Alencar |
Publisher | www.teses.ufc.br |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis |
Source | reponame:Repositório Institucional da UFC, instname:Universidade Federal do Ceará, instacron:UFC |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0029 seconds