Spelling suggestions: "subject:"etiquetagem morfossintática"" "subject:"etiquetagem morfossintatica""
1 |
AstrolÃbio: um corpus de redaÃÃes escolares do Cearà anotado multidimensionalmente conforme a TEI P5 / AstrolÃbio: a corpus of school writings of Cearà multi-dimensionally annotated according to TEI P5Katiuscia de Moraes Andrade 18 February 2013 (has links)
CoordenaÃÃo de AperfeiÃoamento de Pessoal de NÃvel Superior / AstrolÃbio is a compiled corpus, with multidimensional annotation, and shared under Creative Commons Attribution-NonCommercial 3.0 Unported licence. It is a corpus, in Brazilian Portuguese, that uses advanced technologies to text processing and corpora annotation. AstrolÃbio has multidimensional annotation based on TEI P5 guidelines, that prescribes XML metalanguage. Through these guidelines, essential structures from the annotated documents were preserved, keeping the transcription as reliable as possible to the original. By using tag
<choice>, it enabled keep, in the same archive, linguistic variation phenomena, orthographic and punctuation errors, as the respectives corrected and normalized forms, and also makes possible the visualization of added and deleted terms. To automatize the integration of many levels of annotation, Astro was used, it is a software that works with several Python modules to Natural Language Processing (NLP), including Aelius and Enchant. To POS tagging, Aelius, a package that uses Natural Language Toolkit (NLTK) libraries, was utilized. From Aelius, AeliusHunPosMacMorpho was chosen, it is a tagger based on HunPos and trained by MAC-Morpho, a corpus composed of journalistic texts. The 9spell checking was made by Enchant, a large library with API (Application Programming Interface) in C and C++ languages. The tagger chosen from inside training corpus MacMorpho,. AstrolÃbio's texts were produced during text production workshops from the second edition of Rota das Especiarias project, realized on first semester of 2012, with public school students from Camocim, Barroquinha e Jijoca de Jericoacoara, cities located in CearÃ. Until this moment of AstrolÃbio's creation, concluded stages are texts selection, compilation and the first step of automatic annotation by Astro. AstrolÃbio corpus is already partially avaiable at Rota das Especiarias' website (www.rotadasespeciarias.art.br). Soon, the corpus will be submitted to University of Oxford Text Archive (OTA). As we observed from corpora scene of Portuguese, there's no corpus, in Brazilian Portuguese, with this level of annotation. / AstrolÃbio à um corpus compilado, anotado multidimensionalmente e disponibilizado eletronicamente sob a licenÃa Creative Commons Attribution-NonCommercial 3.0 Unported. Trata-se de um corpus, em PortuguÃs brasileiro, que emprega avanÃadas tecnologias para o processamento de texto e anotaÃÃo de corpora. AstrolÃbio possui anotaÃÃo multidimensional baseada na codificaÃÃo TEI P5, que prescreve o uso metalinguagem XML. Com o uso dessa codificaÃÃo, preservaram-se caracterÃsticas essenciais da estrutura e do conteÃdo dos documentos anotados, tornando a transcriÃÃo o mais fiel possÃvel ao original. Por meio do emprego da tag <choice>, foi possÃvel reunir, em um mesmo arquivo, fenÃmenos de variaÃÃo linguÃstica, erros ortogrÃficos e de pontuaÃÃo, bem como as respectivas formas corrigidas e normalizadas, alÃm de possibilitar a visualizaÃÃo de termos que foram acrescidos ou suprimidos. Para a integraÃÃo automÃtica dos vÃrios nÃveis de anotaÃÃo, utilizou-se o Astro, um software que utiliza diversos mÃdulos em Python para o Processamento da Linguagem Natural (PLN), como o Aelius e o Enchant. Na etiquetagem morfossintÃtica, utilizou-se o pacote Aelius, que, por sua vez, recorre à biblioteca Natural Language Toolkit (NLTK). O etiquetador escolhido, dentro do Aelius, foi o AeliusHunposMacMorpho, criado a partir do etiquetador Hunpos, treinado no corpus de textos jornalÃsticos MAC-Morpho. Efetivou-se a correÃÃo ortogrÃfica com o Enchant, uma vasta biblioteca com API (Application Programming Interface) em linguagem C e C++. Os textos que compÃem esse corpus foram produzidos durante as oficinas de produÃÃo textual da segunda ediÃÃo do projeto Rota das Especiarias, realizadas no primeiro semestre de 2012, com alunos de escolas pÃblicas das cidades cearenses de Camocim, Barroquinha e Jijoca de Jericoacoara. Atà o presente momento da construÃÃo do AstrolÃbio, encontram-se concluÃdas as etapas de seleÃÃo, escanerizaÃÃo, compilaÃÃo e a primeira fase de anotaÃÃo automÃtica dos textos por meio do Astro. O corpus AstrolÃbio jà se encontra parcialmente disponÃvel no sÃtio eletrÃnico Rota das Especiarias (www.rotadasespeciarias.art.br). Em breve, serà submetido ao repositÃrio eletrÃnico University of Oxford Text Archive (OTA). Pelo que se observou do panorama de corpora do PortuguÃs, inexiste um corpus, em PortuguÃs Brasileiro, com esse nÃvel de anotaÃÃo.
|
2 |
CompilaÃÃo, anotaÃÃo e anÃlise linguÃstico-computacional de um corpus de textos literÃrios dos sÃculos XIX e XX: corpus Coelho Neto / Compilation, annotation and linguistic and computational analysis of corpus Coelho Netto (CCN), a corpus of literary texts of 19th and 20th centuriesFrancimary MacÃdo Martins 06 June 2014 (has links)
nÃo hà / Esta tese à a compilaÃÃo, anotaÃÃo morfossintÃtica e anÃlise linguÃstico-computacional de um corpus de textos literÃrios dos sÃc. XIX e XX: o Corpus Coelho Netto (CCN), contendo textos dos romances A Conquista e TurbilhÃo e contos do livro SertÃo. O trabalho està na interface da LinguÃstica de Corpus e da LinguÃstica Computacional (BERBER SARDINHA, 2000, 2003, 2004, 2005, 2009; BERBER SARDINHA; ALMEIDA, 2008; OLIVEIRA, 2009; BIDERMAN, 1998, 2001; ALUÃSIO; ALMEIDA, 2006; SHEPHERD, 2012; MACENERY E WILSON, 2001; LEECH, 2004; ALVES; TAGNIN, 2012; ALENCAR, 2009, 2010a, 2010b, 2011a, 2011b, 2013a, 2013b). O CCN contÃm 53.080 (cinquenta e trÃs mil e oitenta) tokens (pontuaÃÃo e palavras). A compilaÃÃo consiste nas etapas de seleÃÃo, coleta de textos e manipulaÃÃo; nesta sÃo realizadas a limpeza, ediÃÃo e atualizaÃÃo dos textos (ALUÃSIO; ALMEIDA, 2006), para depois ser submetido à anotaÃÃo morfossintÃtica e anÃlise linguÃstico-computacional, com o objetivo de obter dados que comprovem ou nÃo o uso âexcessivoâ de adjetivos, de verbos e de advÃrbios em âmente, demonstrando a diversidade lexical nos textos de Coelho Netto, constatando se o que a crÃtica modernista dizia a respeito do escritor era procedente. A anotaÃÃo morfossintÃtica foi realizada pelo etiquetador automÃtico Aelius, modelo AeliusHunPos, um software livre em Python que utiliza a biblioteca Natural Language Toolkit â NLTK (BIRD; KLEIN; LOPER, 2009), no prÃ-processamento de textos, na construÃÃo de etiquetador morfossintÃtico e na anotaÃÃo de corpora com auxÃlio de revisÃo humana (ALENCAR, 2010a, 2013a, 2013b), e que foi treinado no Corpus HistÃrico do PortuguÃs Tycho Brahe (CHPTB). A compilaÃÃo e anotaÃÃo do CCN envolve outras aÃÃes como a reavaliaÃÃo da acurÃcia desse etiquetador em textos literÃrios. Os resultados da pesquisa revelaram que: o AeliusHunpos ao anotar os textos do CCN demonstrou maior acurÃcia que em outros textos jà anotados, de 97,9%; que o modelo AeliusHunPos mostrou um desempenho muito alÃm ao anotar os corpora que com o modelo AeliusMaxEnt; e que, apÃs a seleÃÃo e correÃÃo manual dos 10% dos corpora anotados e gerados arquivos padrÃo gold, sugerimos um melhoramento dos aproximados 3% de erros cometidos pelo etiquetador, visando o aumento de sua acurÃcia. Quanto Ãs analises realizadas com os dados obtidos no CCN constatamos que: a diversidade lexical, especificamente quanto a verbos, adjetivos e advÃrbios em âmente, declarada como exagerada pela crÃtica à Coelho Netto nÃo procede, pois seus textos sÃo ricos, mas quando comparados aos textos de AluÃsio Azevedo e Camilo Castelo Branco, o Corpus de ComparaÃÃo, apresentam riqueza vocabular similar ao CCN, como expostos nos resultados. / This thesis is the compilation, morphosyntactic annotation and linguistic and computational analysis of a corpus of literary texts of 19th and 20th centuries: Corpus Coelho Netto (CCN), containing texts of the novels A Conquista and TurbilhÃo and short stories of the book SertÃo. The work is in the Corpus Linguistics and Computational Linguistics interface (BERBER SARDINHA, 2000, 2003, 2004, 2005, 2009; BERBER SARDINHA; ALMEIDA, 2008; OLIVEIRA, 2009; BIDERMAN, 1998, 2001; ALUÃSIO; ALMEIDA, 2006; SHEPHERD, 2012; MACENERY AND WILSON, 2001; LEECH, 2004; ALVES; TAGNIN, 2012; ALENCAR, 2009, 2010a, 2010b, 2011a, 2011b, 2013a, 2013b). The CCN contains 53.080 (fifty-three thousand and eighty) tokens. The compilation consists of the steps selection, collection off texts and handling; in which cleaning, editing and updating of texts (ALUÃSIO; ALMEIDA, 2006), and then be submitted to the morphosyntactic annotation and linguistic-computational analysis, with the goal of obtaining data to show whether or not the "excessive" use of adjectives, verbs and adverbs in ââmenteâ, demonstrating the lexical diversity in Coelho NettoÂs texts, noting if what the modernist critics said about the writer was correct. The annotation was performed by automatic tagger Aelius, AeliusHunPos model, free software in Python that uses the Natural Language Toolkit â NLTK library (BIRD; KLEIN; LOPER, 2009), in the pre-processing of texts, in the construction of morphosyntactic tagger and the automatic annotation of corpora with the help of human review (ALENCAR, 2010a, 2013a, 2013b), and it was trained in the Historical Corpus of Tycho Brahe Portuguese (CHPTB). The compilation and annotation CCN involves other actions such as revaluation the accuracy of this tagger in literary texts. The search results indicated that: AeliusHunpos demonstrated better performance than other texts already noted (97.9 %); AeliusHunPos model showed a far beyond performance by annotating corpora with AeliusMaxEnt model; and that, after selection and manual correction of 10% annotated corpora and generated gold standard files, it is suggested an improvement of the approximate 3% of errors by the tagger, in order to increase its accuracy. Regarding the analyzes performed with the CCN, it was found that: lexical diversity - about verbs, adjectives and adverbs in ââmenteâ considered exaggerated by critics to Coelho Netto unfounded, because his texts are rich, but when compared to the texts by AluÃsio Azevedo and Camilo Castelo Branco, comparison of corpus, present vocabulary richness similar to CCN, as exposed in the results.
|
Page generated in 0.0624 seconds