Spelling suggestions: "subject:"computacional linguistics"" "subject:"omputacional linguistics""
1 |
Avaliação automática da qualidade de escrita de resumos científicos em inglês / Automatic evaluation of the quality of English abstractsGenoves Junior, Luiz Carlos 01 June 2007 (has links)
Problemas com a escrita podem afetar o desempenho de profissionais de maneira marcante, principalmente no caso de cientistas e acadêmicos que precisam escrever com proficiência e desembaraço não somente na língua materna, mas principalmente em inglês. Durante os últimos anos, ferramentas de suporte à escrita, algumas com enfoque em textos científicos, como o AMADEUS e o SciPo foram desenvolvidas e têm auxiliado pesquisadores na divulgação de suas pesquisas. Entretanto, a criação dessas ferramentas é baseada em córpus, sendo muito custosa, pois implica em selecionar textos bem escritos, além de segmentá-los de acordo com sua estrutura esquemática. Nesse mestrado estudamos, avaliamos e implementamos métodos de detecção automática da estrutura esquemática e de avaliação automática da qualidade de escrita de resumos científicos em inglês. Investigamos o uso de tais métodos para possibilitar o desenvolvimento de dois tipos de ferramentas: de detecção de bons resumos e de crítica. Nossa abordagem é baseada em córpus e em aprendizado de máquina supervisionado. Desenvolvemos um detector automático da estrutura esquemática, que chamamos de AZEA, com taxa de acerto de 80,4% eKappa de 0,73, superiores ao estado da arte (acerto de 73%, Kappa de 0,65). Experimentamos várias combinações de algoritmos, atributos e diferentes seções de um artigo científicos. Utilizamos o AZEA na implementação de duas dimensões de uma rubrica para o gênero científico, composta de 7 dimensões, e construímos e disponibilizamos uma ferramenta de crítica da estrutura de um resumo. Um detector de erros de uso de artigo também foi desenvolvido, com precisão é de 83,7% (Kappa de 0,63) para a tarefa de decidir entre omitir ou não um artigo, com enfoque no feedback ao usuário e como parte da implementação da dimensão de erros gramaticais da rubrica. Na tarefa de detectar bons resumos, utilizamos métodos usados com sucesso na avaliação automática da qualidade de escrita de redações com as implementações da rubrica e realizamos experimentos iniciais, ainda com resultados fracos, próximos à baseline. Embora não tenhamos construído um bom avaliador automático da qualidade de escrita, acreditamos que este trabalho indica direções para atingir esta meta, e forneça algumas das ferramentas necessárias / Poor writing may have serious implications for a professional\'s career. This is even more serious in the case of scientists and academics whose job requires fluency and proficiency in their mother tongue as well as in English. This is why a number of writing tools have been developed in order to assist researchers to promote their work. Here, we are particularly interested in tools, such as AMADEUS and SciPo, which focus on scientific writing. AMADEUS and SciPo are corpus-based tools and hence they rely on corpus compilation which is by no means an easy task. In addition to the dificult task of selecting well-written texts, it also requires segmenting these texts according to their schematic structure. The present dissertation aims to investigate, evaluate and implement some methods to automatically detect the schematic structure of English abstracts and to automatically evaluate their quality. These methods have been examined with a view to enabling the development of two types of tools, namely: detection of well-written abstracts and a critique tool. For automatically detecting schematic structures, we have developed a tool, named AZEA, which adopts a corpus-based, supervised machine learning approach. AZEA reaches 80.4% accuracy and Kappa of 0.73, which is above the highest rates reported in the literature so far (73% accuracy and Kappa of 0.65). We have tested a number of different combinations of algorithms, features and different paper sections. AZEA has been used to implement two out of seven dimensions of a rubric for analyzing scientific papers. A critique tool for evaluating the structure of abstracts has also been developed and made available. In addition, our work also includes the development of a classifier for identifying errors related to English article usage. This classifier reaches 83.7% accuracy (Kappa de 0.63) in the task of deciding whether or not a given English noun phrase requires an article. If implemented in the dimension of grammatical errors of the above mentioned rubric, it can be used to give users feedback on their errors. As regards the task of detecting well-written abstracts, we have resorted to methods which have been successfully adopted to evaluate quality of essays and some preliminary tests have been carried out. However, our results are not yet satisfactory since they are not much above the baseline. Despite this drawback, we believe this study proves relevant since in addition to offering some of the necessary tools, it provides some fundamental guidelines towards the automatic evaluation of the quality of texts
|
2 |
Avaliação automática da qualidade de escrita de resumos científicos em inglês / Automatic evaluation of the quality of English abstractsLuiz Carlos Genoves Junior 01 June 2007 (has links)
Problemas com a escrita podem afetar o desempenho de profissionais de maneira marcante, principalmente no caso de cientistas e acadêmicos que precisam escrever com proficiência e desembaraço não somente na língua materna, mas principalmente em inglês. Durante os últimos anos, ferramentas de suporte à escrita, algumas com enfoque em textos científicos, como o AMADEUS e o SciPo foram desenvolvidas e têm auxiliado pesquisadores na divulgação de suas pesquisas. Entretanto, a criação dessas ferramentas é baseada em córpus, sendo muito custosa, pois implica em selecionar textos bem escritos, além de segmentá-los de acordo com sua estrutura esquemática. Nesse mestrado estudamos, avaliamos e implementamos métodos de detecção automática da estrutura esquemática e de avaliação automática da qualidade de escrita de resumos científicos em inglês. Investigamos o uso de tais métodos para possibilitar o desenvolvimento de dois tipos de ferramentas: de detecção de bons resumos e de crítica. Nossa abordagem é baseada em córpus e em aprendizado de máquina supervisionado. Desenvolvemos um detector automático da estrutura esquemática, que chamamos de AZEA, com taxa de acerto de 80,4% eKappa de 0,73, superiores ao estado da arte (acerto de 73%, Kappa de 0,65). Experimentamos várias combinações de algoritmos, atributos e diferentes seções de um artigo científicos. Utilizamos o AZEA na implementação de duas dimensões de uma rubrica para o gênero científico, composta de 7 dimensões, e construímos e disponibilizamos uma ferramenta de crítica da estrutura de um resumo. Um detector de erros de uso de artigo também foi desenvolvido, com precisão é de 83,7% (Kappa de 0,63) para a tarefa de decidir entre omitir ou não um artigo, com enfoque no feedback ao usuário e como parte da implementação da dimensão de erros gramaticais da rubrica. Na tarefa de detectar bons resumos, utilizamos métodos usados com sucesso na avaliação automática da qualidade de escrita de redações com as implementações da rubrica e realizamos experimentos iniciais, ainda com resultados fracos, próximos à baseline. Embora não tenhamos construído um bom avaliador automático da qualidade de escrita, acreditamos que este trabalho indica direções para atingir esta meta, e forneça algumas das ferramentas necessárias / Poor writing may have serious implications for a professional\'s career. This is even more serious in the case of scientists and academics whose job requires fluency and proficiency in their mother tongue as well as in English. This is why a number of writing tools have been developed in order to assist researchers to promote their work. Here, we are particularly interested in tools, such as AMADEUS and SciPo, which focus on scientific writing. AMADEUS and SciPo are corpus-based tools and hence they rely on corpus compilation which is by no means an easy task. In addition to the dificult task of selecting well-written texts, it also requires segmenting these texts according to their schematic structure. The present dissertation aims to investigate, evaluate and implement some methods to automatically detect the schematic structure of English abstracts and to automatically evaluate their quality. These methods have been examined with a view to enabling the development of two types of tools, namely: detection of well-written abstracts and a critique tool. For automatically detecting schematic structures, we have developed a tool, named AZEA, which adopts a corpus-based, supervised machine learning approach. AZEA reaches 80.4% accuracy and Kappa of 0.73, which is above the highest rates reported in the literature so far (73% accuracy and Kappa of 0.65). We have tested a number of different combinations of algorithms, features and different paper sections. AZEA has been used to implement two out of seven dimensions of a rubric for analyzing scientific papers. A critique tool for evaluating the structure of abstracts has also been developed and made available. In addition, our work also includes the development of a classifier for identifying errors related to English article usage. This classifier reaches 83.7% accuracy (Kappa de 0.63) in the task of deciding whether or not a given English noun phrase requires an article. If implemented in the dimension of grammatical errors of the above mentioned rubric, it can be used to give users feedback on their errors. As regards the task of detecting well-written abstracts, we have resorted to methods which have been successfully adopted to evaluate quality of essays and some preliminary tests have been carried out. However, our results are not yet satisfactory since they are not much above the baseline. Despite this drawback, we believe this study proves relevant since in addition to offering some of the necessary tools, it provides some fundamental guidelines towards the automatic evaluation of the quality of texts
|
3 |
Astrolábio: um corpus de redações escolares do Ceará anotado multidimensionalmente conforme a TEI P5 / Astrolábio: a corpus of school writings of Ceará multi-dimensionally annotated according to TEI P5Andrade, Katiuscia de Morais January 2013 (has links)
ANDRADE, Katiuscia de Morais. Astrolábio: um corpus de redações escolares do Ceará anotado multidimensionalmente conforme a TEI P5. 2013. 135f. – Dissertação (Mestrado) – Universidade Federal do Ceará, Departamento de Letras Vernáculas, Programa de Pós-graduação em Linguística, Fortaleza (CE), 2013 / Submitted by Márcia Araújo (marcia_m_bezerra@yahoo.com.br) on 2014-06-04T13:31:29Z
No. of bitstreams: 1
2013_dis_kmandrade.pdf: 3700205 bytes, checksum: 63ef4f0adb210b61d3433153f3b807f3 (MD5) / Approved for entry into archive by Márcia Araújo(marcia_m_bezerra@yahoo.com.br) on 2014-06-04T18:32:21Z (GMT) No. of bitstreams: 1
2013_dis_kmandrade.pdf: 3700205 bytes, checksum: 63ef4f0adb210b61d3433153f3b807f3 (MD5) / Made available in DSpace on 2014-06-04T18:32:21Z (GMT). No. of bitstreams: 1
2013_dis_kmandrade.pdf: 3700205 bytes, checksum: 63ef4f0adb210b61d3433153f3b807f3 (MD5)
Previous issue date: 2013 / Astrolábio is a compiled corpus, with multidimensional annotation, and shared under Creative Commons Attribution-NonCommercial 3.0 Unported licence. It is a corpus, in Brazilian Portuguese, that uses advanced technologies to text processing and corpora annotation. Astrolábio has multidimensional annotation based on TEI P5 guidelines, that prescribes XML metalanguage. Through these guidelines, essential structures from the annotated documents were preserved, keeping the transcription as reliable as possible to the original. By using tag , it enabled keep, in the same archive, linguistic variation phenomena, orthographic and punctuation errors, as the respectives corrected and normalized forms, and also makes possible the visualization of added and deleted terms. To automatize the integration of many levels of annotation, Astro was used, it is a software that works with several Python modules to Natural Language Processing (NLP), including Aelius and Enchant. To POS tagging, Aelius, a package that uses Natural Language Toolkit (NLTK) libraries, was utilized. From Aelius, AeliusHunPosMacMorpho was chosen, it is a tagger based on HunPos and trained by MAC-Morpho, a corpus composed of journalistic texts. The 9spell checking was made by Enchant, a large library with API (Application Programming Interface) in C and C++ languages. The tagger chosen from inside training corpus MacMorpho,. Astrolábio's texts were produced during text production workshops from the second edition of Rota das Especiarias project, realized on first semester of 2012, with public school students from Camocim, Barroquinha e Jijoca de Jericoacoara, cities located in Ceará. Until this moment of Astrolábio's creation, concluded stages are texts selection, compilation and the first step of automatic annotation by Astro. Astrolábio corpus is already partially avaiable at Rota das Especiarias' website (www.rotadasespeciarias.art.br). Soon, the corpus will be submitted to University of Oxford Text Archive (OTA). As we observed from corpora scene of Portuguese, there's no corpus, in Brazilian Portuguese, with this level of annotation. / Astrolábio é um corpus compilado, anotado multidimensionalmente e disponibilizado eletronicamente sob a licença Creative Commons Attribution-NonCommercial 3.0 Unported. Trata-se de um corpus, em Português brasileiro, que emprega avançadas tecnologias para o processamento de texto e anotação de corpora. Astrolábio possui anotação multidimensional baseada na codificação TEI P5, que prescreve o uso metalinguagem XML. Com o uso dessa codificação, preservaram-se características essenciais da estrutura e do conteúdo dos documentos anotados, tornando a transcrição o mais fiel possível ao original. Por meio do emprego da tag , foi possível reunir, em um mesmo arquivo, fenômenos de variação linguística, erros ortográficos e de pontuação, bem como as respectivas formas corrigidas e normalizadas, além de possibilitar a visualização de termos que foram acrescidos ou suprimidos. Para a integração automática dos vários níveis de anotação, utilizou-se o Astro, um software que utiliza diversos módulos em Python para o Processamento da Linguagem Natural (PLN), como o Aelius e o Enchant. Na etiquetagem morfossintática, utilizou-se o pacote Aelius, que, por sua vez, recorre à biblioteca Natural Language Toolkit (NLTK). O etiquetador escolhido, dentro do Aelius, foi o AeliusHunposMacMorpho, criado a partir do etiquetador Hunpos, treinado no corpus de textos jornalísticos MAC-Morpho. Efetivou-se a correção ortográfica com o Enchant, uma vasta biblioteca com API (Application Programming Interface) em linguagem C e C++. Os textos que compõem esse corpus foram produzidos durante as oficinas de produção textual da segunda edição do projeto Rota das Especiarias, realizadas no primeiro semestre de 2012, com alunos de escolas públicas das cidades cearenses de Camocim, Barroquinha e Jijoca de Jericoacoara. Até o presente momento da construção do Astrolábio, encontram-se concluídas as etapas de seleção, escanerização, compilação e a primeira fase de anotação automática dos textos por meio do Astro. O corpus Astrolábio já se encontra parcialmente disponível no sítio eletrônico Rota das Especiarias (www.rotadasespeciarias.art.br). Em breve, será submetido ao repositório eletrônico University of Oxford Text Archive (OTA). Pelo que se observou do panorama de corpora do Português, inexiste um corpus, em Português Brasileiro, com esse nível de anotação.
|
Page generated in 0.0881 seconds