Return to search

AstrolÃbio: um corpus de redaÃÃes escolares do Cearà anotado multidimensionalmente conforme a TEI P5 / AstrolÃbio: a corpus of school writings of Cearà multi-dimensionally annotated according to TEI P5

CoordenaÃÃo de AperfeiÃoamento de Pessoal de NÃvel Superior / AstrolÃbio is a compiled corpus, with multidimensional annotation, and shared under Creative Commons Attribution-NonCommercial 3.0 Unported licence. It is a corpus, in Brazilian Portuguese, that uses advanced technologies to text processing and corpora annotation. AstrolÃbio has multidimensional annotation based on TEI P5 guidelines, that prescribes XML metalanguage. Through these guidelines, essential structures from the annotated documents were preserved, keeping the transcription as reliable as possible to the original. By using tag
<choice>, it enabled keep, in the same archive, linguistic variation phenomena, orthographic and punctuation errors, as the respectives corrected and normalized forms, and also makes possible the visualization of added and deleted terms. To automatize the integration of many levels of annotation, Astro was used, it is a software that works with several Python modules to Natural Language Processing (NLP), including Aelius and Enchant. To POS tagging, Aelius, a package that uses Natural Language Toolkit (NLTK) libraries, was utilized. From Aelius, AeliusHunPosMacMorpho was chosen, it is a tagger based on HunPos and trained by MAC-Morpho, a corpus composed of journalistic texts. The 9spell checking was made by Enchant, a large library with API (Application Programming Interface) in C and C++ languages. The tagger chosen from inside training corpus MacMorpho,. AstrolÃbio's texts were produced during text production workshops from the second edition of Rota das Especiarias project, realized on first semester of 2012, with public school students from Camocim, Barroquinha e Jijoca de Jericoacoara, cities located in CearÃ. Until this moment of AstrolÃbio's creation, concluded stages are texts selection, compilation and the first step of automatic annotation by Astro. AstrolÃbio corpus is already partially avaiable at Rota das Especiarias' website (www.rotadasespeciarias.art.br). Soon, the corpus will be submitted to University of Oxford Text Archive (OTA). As we observed from corpora scene of Portuguese, there's no corpus, in Brazilian Portuguese, with this level of annotation. / AstrolÃbio à um corpus compilado, anotado multidimensionalmente e disponibilizado eletronicamente sob a licenÃa Creative Commons Attribution-NonCommercial 3.0 Unported. Trata-se de um corpus, em PortuguÃs brasileiro, que emprega avanÃadas tecnologias para o processamento de texto e anotaÃÃo de corpora. AstrolÃbio possui anotaÃÃo multidimensional baseada na codificaÃÃo TEI P5, que prescreve o uso metalinguagem XML. Com o uso dessa codificaÃÃo, preservaram-se caracterÃsticas essenciais da estrutura e do conteÃdo dos documentos anotados, tornando a transcriÃÃo o mais fiel possÃvel ao original. Por meio do emprego da tag <choice>, foi possÃvel reunir, em um mesmo arquivo, fenÃmenos de variaÃÃo linguÃstica, erros ortogrÃficos e de pontuaÃÃo, bem como as respectivas formas corrigidas e normalizadas, alÃm de possibilitar a visualizaÃÃo de termos que foram acrescidos ou suprimidos. Para a integraÃÃo automÃtica dos vÃrios nÃveis de anotaÃÃo, utilizou-se o Astro, um software que utiliza diversos mÃdulos em Python para o Processamento da Linguagem Natural (PLN), como o Aelius e o Enchant. Na etiquetagem morfossintÃtica, utilizou-se o pacote Aelius, que, por sua vez, recorre à biblioteca Natural Language Toolkit (NLTK). O etiquetador escolhido, dentro do Aelius, foi o AeliusHunposMacMorpho, criado a partir do etiquetador Hunpos, treinado no corpus de textos jornalÃsticos MAC-Morpho. Efetivou-se a correÃÃo ortogrÃfica com o Enchant, uma vasta biblioteca com API (Application Programming Interface) em linguagem C e C++. Os textos que compÃem esse corpus foram produzidos durante as oficinas de produÃÃo textual da segunda ediÃÃo do projeto Rota das Especiarias, realizadas no primeiro semestre de 2012, com alunos de escolas pÃblicas das cidades cearenses de Camocim, Barroquinha e Jijoca de Jericoacoara. Atà o presente momento da construÃÃo do AstrolÃbio, encontram-se concluÃdas as etapas de seleÃÃo, escanerizaÃÃo, compilaÃÃo e a primeira fase de anotaÃÃo automÃtica dos textos por meio do Astro. O corpus AstrolÃbio jà se encontra parcialmente disponÃvel no sÃtio eletrÃnico Rota das Especiarias (www.rotadasespeciarias.art.br). Em breve, serà submetido ao repositÃrio eletrÃnico University of Oxford Text Archive (OTA). Pelo que se observou do panorama de corpora do PortuguÃs, inexiste um corpus, em PortuguÃs Brasileiro, com esse nÃvel de anotaÃÃo.

Identiferoai:union.ndltd.org:IBICT/oai:www.teses.ufc.br:7934
Date18 February 2013
CreatorsKatiuscia de Moraes Andrade
ContributorsLeonel Figueiredo de Alencar Araripe, Rosemeire Selma Monteiro, VlÃdia CÃlia Monteiro Pinheiro
PublisherUniversidade Federal do CearÃ, Programa de PÃs-GraduaÃÃo em LingÃÃstica, UFC, BR
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguageEnglish
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Formatapplication/pdf
Sourcereponame:Biblioteca Digital de Teses e Dissertações da UFC, instname:Universidade Federal do Ceará, instacron:UFC
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.002 seconds