Return to search

Complexidade semântica e habilidade de decodificação: um modelo quantitativo da compreensão de textos denotativos em língua portuguesa baseado na teoria da informação

Submitted by JACIARA CRISTINA ALMEIDA DO AMARAL (jaciaramaral@ufpa.br) on 2018-05-10T16:55:39Z
No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
dissert2018 pos correçao.pdf: 2158463 bytes, checksum: 2eb69be3fdfd585c0c97da1f25a2d9e2 (MD5) / Approved for entry into archive by JACIARA CRISTINA ALMEIDA DO AMARAL (jaciaramaral@ufpa.br) on 2018-05-10T16:56:30Z (GMT) No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
dissert2018 pos correçao.pdf: 2158463 bytes, checksum: 2eb69be3fdfd585c0c97da1f25a2d9e2 (MD5) / Made available in DSpace on 2018-05-10T16:56:30Z (GMT). No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
dissert2018 pos correçao.pdf: 2158463 bytes, checksum: 2eb69be3fdfd585c0c97da1f25a2d9e2 (MD5)
Previous issue date: 2018-02-26 / Com base em princípios da neurociência cognitiva e da teoria da informação, com ênfase no trabalho de Claude Shannon, realizou-se uma análise estatística de 33.101 palavras a partir da coleta de textos científicos da Biblioteca Digital Brasileira de Teses e Dissertações e da Biblioteca Digital da USP, mediante a utilização da linguagem de programação C# e do Microsoft Visual Studio 2012 enquanto complemento do código, incluindo o SQL Server Management Studio 2012 para o gerenciamento do banco de dados, em prol do desenvolvimento do programa de processamento de informação intitulado de CalcuLetra, com o objetivo de mensurar a dificuldade de compreensão textual em Língua Portuguesa. A partir das premissas de que o aprendizado dos significados das letras, palavras e outros símbolos favorece o desenvolvimento do sistema nervoso central de humanos; que o comportamento metacognitivo do leitor permite a resposta a estímulos advindos do processo de leitura; e que as palavras de maior ocorrência no banco representam as mais conhecidas pelos seus autores, o algoritmo determina, assim, o grau de familiaridade das palavras conforme os parâmetros matemáticos e estatísticos do banco. Ao comparar textos não literários ou denotativos com os valores probabilísticos encontrados, revela-se quão compreensivo é o texto inserido no programa, considerando leitores neurotípicos e que o conteúdo possua os devidos elementos de coesão textual, conforme as regras gramaticais da língua. Nossos resultados revelam grupos de palavras que causam a incompreensão ou facilitam a leitura. Adicionalmente, mostramos lacunas de vocabulário e na utilização do dicionário.
Apesar dos resultados preliminares, este estudo foi mais uma prova de conceito para o método empregado e demonstrou seu potencial para futuras pesquisas.
A metodologia do modelo de quantificação pode ser adaptada a outras línguas, e espera-se que a pesquisa possa contribuir em prol da elaboração de diagnóstico objetivo de transtornos do comportamento (ex. dislexia), mediante classificação quantitativa da incompreensão escrita; e ter a sua aplicabilidade enquanto instrumento auxiliar na análise de exames dissertativos de vestibulares, do Enem e de concursos públicos, cuja avaliação é ainda de forma subjetiva. / Based on the principles of cognitive neuroscience and information theory, with emphasis on the work of Claude Shannon, a statistical analysis of 33,101 words was done from the collection of scientific texts of the Brazilian Digital Library Of Thesis And Dissertation and the Digital Library of USP, using the C # programming language and Microsoft Visual Studio 2012 as a code complement, including SQL Server Management Studio 2012 for database management, for the development of the information processing program titled CalcuLetra, with the purpose of measuring the difficulty of textual comprehension in Portuguese Language. From the premises that the learning of the meanings of letters, words and other symbols provides the development of the central nervous system of humans; that the reader's metacognitive behavior allows the response to stimuli coming from the reading process; And that the words of greatest occurrence in the bank represent those best known by their authors, the algorithm thus determines the degree of familiarity of the words according to the mathematical and statistical parameters of the bank. Therefore, when comparing non-literary or denotative texts with the probabilistic values found, it shows how comprehensible is the text inserted in the program, considering neurotypical readers and that its content has the necessary elements of textual cohesion, according to the grammatical rules of the language. Our results reveal groups of words that cause misunderstanding or make reading easier. Additionally, we show gaps in vocabulary and dictionary usage. Despite the preliminary findings, this study was more a proof of concept for the method employed, and demonstrated its potential for future research. The quantification model’s methodology presented in the present study can be adapted to other languages, and we hope it contributes to the development of objective evaluation of behavioral disorders (e.g., dyslexia), by quantitative classification of written incomprehension; and helps in the analysis of dissertations of vestibular, ENEM and other public examinations, whose evaluation is still of a subjective form.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.ufpa.br:2011/9832
Date26 February 2018
CreatorsRIBEIRO, Louise Bogéa
ContributorsSILVA FILHO, Manoel da, RODRIGUES, Anderson Raiol
PublisherUniversidade Federal do Pará, Programa de Pós-Graduação em Neurociências e Biologia Celular, UFPA, Brasil, Instituto de Ciências Biológicas
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguageEnglish
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Source1 CD-ROM, reponame:Repositório Institucional da UFPA, instname:Universidade Federal do Pará, instacron:UFPA
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0023 seconds