31 |
Aspectos semânticos na representação de textos para classificação automática / Semantic aspects in the representation of texts for automatic classificationSinoara, Roberta Akemi 24 May 2018 (has links)
Dada a grande quantidade e diversidade de dados textuais sendo criados diariamente, as aplicações do processo de Mineração de Textos são inúmeras e variadas. Nesse processo, a qualidade da solução final depende, em parte, do modelo de representação de textos adotado. Por se tratar de textos em língua natural, relações sintáticas e semânticas influenciam o seu significado. No entanto, modelos tradicionais de representação de textos se limitam às palavras, não sendo possível diferenciar documentos que possuem o mesmo vocabulário, mas que apresentam visões diferentes sobre um mesmo assunto. Nesse contexto, este trabalho foi motivado pela diversidade das aplicações da tarefa de classificação automática de textos, pelo potencial das representações no modelo espaço-vetorial e pela lacuna referente ao tratamento da semântica inerente aos dados em língua natural. O seu desenvolvimento teve o propósito geral de avançar as pesquisas da área de Mineração de Textos em relação à incorporação de aspectos semânticos na representação de coleções de documentos. Um mapeamento sistemático da literatura da área foi realizado e os problemas de classificação foram categorizados em relação à complexidade semântica envolvida. Aspectos semânticos foram abordados com a proposta, bem como o desenvolvimento e a avaliação de sete modelos de representação de textos: (i) gBoED, modelo que incorpora a semântica obtida por meio de conhecimento do domínio; (ii) Uni-based, modelo que incorpora a semântica por meio da desambiguação lexical de sentidos e hiperônimos de conceitos; (iii) SR-based Terms e SR-based Sentences, modelos que incorporam a semântica por meio de anotações de papéis semânticos; (iv) NASARIdocs, Babel2Vec e NASARI+Babel2Vec, modelos que incorporam a semântica por meio de desambiguação lexical de sentidos e embeddings de palavras e conceitos. Representações de coleções de documentos geradas com os modelos propostos e outros da literatura foram analisadas e avaliadas na classificação automática de textos, considerando datasets de diferentes níveis de complexidade semântica. As propostas gBoED, Uni-based, SR-based Terms e SR-based Sentences apresentam atributos mais expressivos e possibilitam uma melhor interpretação da representação dos documentos. Já as propostas NASARIdocs, Babel2Vec e NASARI+Babel2Vec incorporam, de maneira latente, a semântica obtida de embeddings geradas a partir de uma grande quantidade de documentos externos. Essa propriedade tem um impacto positivo na performance de classificação. / Text Mining applications are numerous and varied since a huge amount of textual data are created daily. The quality of the final solution of a Text Mining process depends, among other factors, on the adopted text representation model. Despite the fact that syntactic and semantic relations influence natural language meaning, traditional text representation models are limited to words. The use of such models does not allow the differentiation of documents that use the same vocabulary but present different ideas about the same subject. The motivation of this work relies on the diversity of text classification applications, the potential of vector space model representations and the challenge of dealing with text semantics. Having the general purpose of advance the field of semantic representation of documents, we first conducted a systematic mapping study of semantics-concerned Text Mining studies and we categorized classification problems according to their semantic complexity. Then, we approached semantic aspects of texts through the proposal, analysis, and evaluation of seven text representation models: (i) gBoED, which incorporates text semantics by the use of domain expressions; (ii) Uni-based, which takes advantage of word sense disambiguation and hypernym relations; (iii) SR-based Terms and SR-based Sentences, which make use of semantic role labels; (iv) NASARIdocs, Babel2Vec and NASARI+Babel2Vec, which take advantage of word sense disambiguation and embeddings of words and senses.We analyzed the expressiveness and interpretability of the proposed text representation models and evaluated their classification performance against different literature models. While the proposed models gBoED, Uni-based, SR-based Terms and SR-based Sentences have improved expressiveness, the proposals NASARIdocs, Babel2Vec and NASARI+Babel2Vec are latently enriched by the embeddings semantics, obtained from the large training corpus. This property has a positive impact on text classification performance.
|
32 |
Aspectos semânticos na representação de textos para classificação automática / Semantic aspects in the representation of texts for automatic classificationRoberta Akemi Sinoara 24 May 2018 (has links)
Dada a grande quantidade e diversidade de dados textuais sendo criados diariamente, as aplicações do processo de Mineração de Textos são inúmeras e variadas. Nesse processo, a qualidade da solução final depende, em parte, do modelo de representação de textos adotado. Por se tratar de textos em língua natural, relações sintáticas e semânticas influenciam o seu significado. No entanto, modelos tradicionais de representação de textos se limitam às palavras, não sendo possível diferenciar documentos que possuem o mesmo vocabulário, mas que apresentam visões diferentes sobre um mesmo assunto. Nesse contexto, este trabalho foi motivado pela diversidade das aplicações da tarefa de classificação automática de textos, pelo potencial das representações no modelo espaço-vetorial e pela lacuna referente ao tratamento da semântica inerente aos dados em língua natural. O seu desenvolvimento teve o propósito geral de avançar as pesquisas da área de Mineração de Textos em relação à incorporação de aspectos semânticos na representação de coleções de documentos. Um mapeamento sistemático da literatura da área foi realizado e os problemas de classificação foram categorizados em relação à complexidade semântica envolvida. Aspectos semânticos foram abordados com a proposta, bem como o desenvolvimento e a avaliação de sete modelos de representação de textos: (i) gBoED, modelo que incorpora a semântica obtida por meio de conhecimento do domínio; (ii) Uni-based, modelo que incorpora a semântica por meio da desambiguação lexical de sentidos e hiperônimos de conceitos; (iii) SR-based Terms e SR-based Sentences, modelos que incorporam a semântica por meio de anotações de papéis semânticos; (iv) NASARIdocs, Babel2Vec e NASARI+Babel2Vec, modelos que incorporam a semântica por meio de desambiguação lexical de sentidos e embeddings de palavras e conceitos. Representações de coleções de documentos geradas com os modelos propostos e outros da literatura foram analisadas e avaliadas na classificação automática de textos, considerando datasets de diferentes níveis de complexidade semântica. As propostas gBoED, Uni-based, SR-based Terms e SR-based Sentences apresentam atributos mais expressivos e possibilitam uma melhor interpretação da representação dos documentos. Já as propostas NASARIdocs, Babel2Vec e NASARI+Babel2Vec incorporam, de maneira latente, a semântica obtida de embeddings geradas a partir de uma grande quantidade de documentos externos. Essa propriedade tem um impacto positivo na performance de classificação. / Text Mining applications are numerous and varied since a huge amount of textual data are created daily. The quality of the final solution of a Text Mining process depends, among other factors, on the adopted text representation model. Despite the fact that syntactic and semantic relations influence natural language meaning, traditional text representation models are limited to words. The use of such models does not allow the differentiation of documents that use the same vocabulary but present different ideas about the same subject. The motivation of this work relies on the diversity of text classification applications, the potential of vector space model representations and the challenge of dealing with text semantics. Having the general purpose of advance the field of semantic representation of documents, we first conducted a systematic mapping study of semantics-concerned Text Mining studies and we categorized classification problems according to their semantic complexity. Then, we approached semantic aspects of texts through the proposal, analysis, and evaluation of seven text representation models: (i) gBoED, which incorporates text semantics by the use of domain expressions; (ii) Uni-based, which takes advantage of word sense disambiguation and hypernym relations; (iii) SR-based Terms and SR-based Sentences, which make use of semantic role labels; (iv) NASARIdocs, Babel2Vec and NASARI+Babel2Vec, which take advantage of word sense disambiguation and embeddings of words and senses.We analyzed the expressiveness and interpretability of the proposed text representation models and evaluated their classification performance against different literature models. While the proposed models gBoED, Uni-based, SR-based Terms and SR-based Sentences have improved expressiveness, the proposals NASARIdocs, Babel2Vec and NASARI+Babel2Vec are latently enriched by the embeddings semantics, obtained from the large training corpus. This property has a positive impact on text classification performance.
|
33 |
"Uma abordagem para pré-processamento de dados textuais em algoritmos de aprendizado"Martins, Claudia Aparecida 25 November 2003 (has links)
A representação atributo-valor de documentos usada no processo de mineração de textos é uma estrutura adequada à maioria das tarefas de classificação e agrupamento de documentos. No contexto de algoritmos de aprendizado de máquina, a representação atributo-valor de documentos freqüentemente utiliza a abordagem bag-of-words. Essa abordagem é caracterizada pela alta dimensionalidade na representação dos dados, pois toda palavra presente no documento pode ser um possível atributo. Deve ser considerado, portanto, que uma boa representação de documentos tem uma influência fundamental no desempenho dos algoritmos de aprendizado (supervisionado ou não supervisionado). Como uma das principais contribuições deste trabalho, é apresentada uma ferramenta para pré-processamento que eficientemente decompõe textos em palavras usando a abordagem bag-of-words, bem como o uso de métodos para reduzir a dimensionalidade da representação gerada. Essa ferramenta transforma os documentos em um formato acessível à maioria dos algoritmos de aprendizado, nos quais os dados são descritos como um vetor de dimensão fixa. A ferramenta computacional implementada, entre as diversas funcionalidades, reduz a dimensionalidade da representação de documentos com o objetivo de obter um melhor desempenho dos algoritmos de aprendizado de máquina utilizados. A escolha do algoritmo de aprendizado a ser utilizado, supervisionado e não supervisionado, é dependente do problema em questão. Algoritmos de aprendizado supervisionado podem ser aplicados a documentos rotulados, enquanto algoritmos de aprendizado não supervisionado são freqüentemente aplicados a dados não rotulados. No caso do aprendizado não supervisionado, para avaliar se um dado cluster corresponde a um certo conceito, neste trabalho é utilizada uma abordagem usando algoritmos de aprendizado indutivo para auxiliar na interpretação dos clusters. Nesta abordagem o interesse consiste em compreender como o sistema representa e raciocina sobre o conhecimento adquirido. Essa compreensão é necessária tanto para o usuário aceitar a solução gerada pelo sistema quanto para analisar o raciocínio utilizado.
|
34 |
Modelo algorítmico para la clasificación de documentos de carácter judicial en lenguaje portugués según su contenidoPinto Valdiviezo, Luis Alejandro 18 August 2015 (has links)
En los últimos años la generación de información virtual ha aumentado
considerablemente. Parte de esa información se encuentra almacenada en bases de
datos de instituciones públicas y privadas. Sin embargo, no toda la información
almacenada de forma electrónica tiene una estructura definida, tal es el caso de los
documentos donde encontramos secuencias de palabras no estructuradas, los cuales
según estudios representan el 80% de la información de las empresas.
La tarea de clasificar automáticamente documentos tiene como motivo principal brindar
una herramienta de mejora en la gestión de la información, la cual es considerada como
condición indispensable para el éxito de cualquiera empresa.
Ante esto, en el propósito del proyecto se propone la obtención de un modelo algorítmico
para la clasificación automática de documentos de carácter judicial en lenguaje portugués
según su contenido con el fin de automatizar las labores manuales involucradas en el
proceso, y con ello disminuir los recursos implicados en la tarea de clasificación. La
colección de documentos será brindada por una empresa en Brasil encargada de la
clasificación manual de intimaciones a través de especialistas, llamados procuradores.
Las intimaciones son documentos que son enviados desde los tribunales hacia las
procuradurías durante un proceso de juicio. / Tesis
|
35 |
Análisis de la organización matemática relacionada a las concepciones de fracción que se presenta en el texto escolar matemática quinto grado de educación primaria.Carrillo Yalán, Milagros Edith 21 September 2012 (has links)
El punto de partida de esta investigación ha sido la gran dificultad que muestran los
alumnos en la compresión de las fracciones. Esta dificultad, presente tanto en su
enseñanza como en su aprendizaje, se observa principalmente en los niveles
básicos de educación. Para identificar uno de los posibles factores que influyen en
tal problema se analizó la organización matemática (OM) relacionada con las
concepciones de fracción presentes en el texto escolar Matemática Quinto grado de
Educación Primaria, el cual tiene la relevancia de ser distribuido por el Ministerio de
Educación del Perú a todas las escuelas públicas del país. El mencionado texto, en
la parte correspondiente al tema de fracciones, enfatiza en la concepción de parte–
todo utilizando, principalmente, la técnica del doble conteo de las partes. Por tanto,
el análisis se fundamenta en el estudio de las OM vinculadas a las concepciones de
fracción en el marco de la Teoría Antropológica de lo Didáctico (TAD).
La TAD asume que el saber matemático se construye como respuesta a situaciones
problemáticas y surge como producto de un proceso de estudio. Esta teoría supone
que toda actividad humana, regularmente realizada, puede describirse como un
modelo único que se resume con la palabra praxeología. Esta palabra se deriva de
los términos praxis y logos. El término praxis hace referencia al saber hacer, es
decir, a los tipos de problemas o tareas que se estudian y a las técnicas que se
construyen para solucionarlos; el término logos, se identifica con el saber e incluye
las descripciones y explicaciones que nos permiten entender las técnicas, esto es, el
discurso tecnológico y la teoría que justifica a la tecnología (Bosch, Espinoza y
Gascón, 2003).
La presente investigación se ha estructurado de la siguiente manera: En el capitulo1,
se presenta el problema de investigación, la presentación de la problemática, los
antecedentes, la justificación del estudio, la formulación del problema y los objetivos
de la investigación.
En el capítulo 2, se presenta la diferencia entre las terminologías fracción, números
fraccionarios y números racionales. En el capítulo 3, se presenta un estudio de la
génesis de las fracciones, es decir el desenvolvimiento histórico. En el capítulo 4, se presenta el marco teórico, las organizaciones matemáticas (OM)
y las concepciones de fracción.
En el capítulo 5, se presenta la metodología de la investigación; la selección del
texto escolar Matemática Quinto grado de Educación Primaria; se explica su
relevancia y los criterios para el análisis del texto escolar en base a los objetivos
propuestos; el análisis por secciones de la unidad 4 “la división de un todo en partes
iguales” del citado libro escolar y se presentan los resultados obtenidos.
Finalmente en el capítulo 6 se presenta las consideraciones finales y las sugerencias
para futuras investigaciones. / Tesis
|
36 |
A leitura e a produção de textos: desempenhos de alunos do ensino fundamental e as manifestações de seus professoresRizzardo, Juliana Cristina Corbanezi [UNESP] 05 September 2008 (has links) (PDF)
Made available in DSpace on 2014-06-11T19:22:18Z (GMT). No. of bitstreams: 0
Previous issue date: 2008-09-05Bitstream added on 2014-06-13T20:28:17Z : No. of bitstreams: 1
rizzardo_jcc_me_rcla.pdf: 483309 bytes, checksum: f8522aa6d0dbe113437ef7b47ad6f49e (MD5) / Universidade Estadual Paulista (UNESP) / Esta pesquisa focaliza o desempenho de alunos do Ensino Fundamental, em leitura e produção de textos, e a visão dos professores sobre a leitura e a escrita. O interesse pelo tema surgiu da necessidade de respostas às indagações geradas, durante o exercício do magistério, e da falta de intimidade dos alunos com a língua materna, mais especificamente com a leitura e a escrita de textos. São examinados os desempenhos das crianças em compreensão de leitura e em produção escrita de texto narrativo e observadas as manifestações dos professores com o intuito de verificar concepções e práticas realizadas com leitura e escrita de textos. Participaram desta pesquisa 108 crianças de 1ª a 4ª séries do Ensino Fundamental de uma escola pública do interior paulista e 14 professores desta mesma instituição. Os dados foram analisados e comparados à luz do referencial teórico que embasou esta pesquisa. Os resultados revelaram dificuldades tanto dos alunos em se apropriar da leitura e da escrita quanto dos professores em falar sobre sua prática e em criar situações de aprendizagem para que os alunos possam construir seus conhecimentos. / The focus of this research is to verify the performance of Elementary School students in reading and production of written texts, analyzing the vision of teachers about the action of reading and writing as well. The interest in this came of the need for answers to the questions that were generated during our teaching career about the lack of intimacy of students with their mother tongue, more specifically, with reading and writing texts. The performances of the children in understanding of reading and written production of text narrative and observed the manifestations of the professors with intention are examined to verify practical conceptions and carried through with reading and writing of texts. Series of Basic Ensino of a public school of the São Paulo interior and 14 professors of this had participated of this research 108 children of 1ª 4ª same institution. The data had been analyzed and compared with the light of the theoretical referencial that based this research. The results had in such a way disclosed difficulties of the pupils in if appropriating of the reading and the writing, how much to the one of the professors in speaking on practical its and creating learning situations so that the pupils can construct its knowledge.
|
37 |
L'impact des émojis sur la perception affective des messages texteLanglois, Olivier 16 September 2019 (has links)
Ce projet de recherche s’intéresse aux émojis. De nos jours, les téléphones intelligents ont changé notre façon de communiquer en utilisant tantôt la communication orale, tantôt les messages écrits ou les images, i.e. les émojis. Par le biais d’une méthodologie quantitative, en l’occurrence un sondage électronique suivi des quelques questions ouvertes, la présente thèse de maîtrise se penche sur le rôle et l’impact des émojis dans la réception de messages texte. Afin de procurer un nouveau regard sur l’influence des émojis dans la communication iconique, nous avons mesuré le confort des participants vis-à-vis six mises en situation provenant de contextes amoureux, amical et professionnel. Nos résultats indiquent que les émojis peuvent influencer la perception des messages texte et que le contexte de la communication joue un rôle important dans l’acceptabilité de ces images numériques.
|
38 |
Compreensão leitora e atenção seletiva: um estudo com alunos do ensino médioFonseca, Luísa Mocelin January 2013 (has links)
Made available in DSpace on 2013-08-07T19:03:19Z (GMT). No. of bitstreams: 1
000446022-Texto+Completo-0.pdf: 1265104 bytes, checksum: 3d831b166c1ff629b8338a1f3f5c0018 (MD5)
Previous issue date: 2013 / The theme of this work, developed in the field of Psycholinguistics, is the relationship between reading comprehension and selective attention. The relevance of the research is the search for understanding - that besides educational, is social - of the national framework the students’ low reading comprehension levels, having been chosen the selective attention as an element of possible interference Thus, this research aims to identify the levels of reading comprehension and selective attention of 61 high school students from a public school located in Rio Grande do Sul state, in order to examine the correlation between these levels. The students’ reading comprehension level was verified by the Cloze procedure, while for the selective attention, we administered the AC Test. The results pointed to a moderate correlation between reading comprehension and selective attention. Based on the results, it is suggested to do same verification of the present study with a more heterogeneous sample in relation to age and educational level separately. / O tema deste trabalho é a relação entre compreensão leitora e atenção seletiva, inserindo-se na área da Psicolinguística. A relevância da pesquisa está na busca de entendimento – que, além de educacional, é social – do quadro nacional de baixa compreensão em leitura dos estudantes, tendo sido escolhida a atenção seletiva como um elemento de possível interferência. Assim, a pesquisa objetiva identificar os níveis de compreensão leitora e de atenção seletiva de 61 alunos do 3º ano do Ensino Médio de uma escola pública do estado do Rio Grande do Sul para, então, verificar a correlação existente entre tais níveis. A compreensão leitora dos sujeitos foi verificada através do procedimento Cloze, enquanto que, para avaliar a atenção seletiva, aplicou-se o Teste AC. Os resultados apontaram para uma correlação moderada entre a compreensão leitora e atenção seletiva. Com base nos resultados, cabe sugerir fazer a mesma verificação do presente estudo com outros grupos comparativos no que diz respeito à idade e ao nível escolar, separadamente.
|
39 |
Consciência linguística no emprego de tempos verbais e compreensão leitoraSantos, Thaís Vargas dos January 2013 (has links)
Made available in DSpace on 2013-08-07T19:03:19Z (GMT). No. of bitstreams: 1
000446283-Texto+Completo-0.pdf: 2263790 bytes, checksum: add1e851a427c79727d602eea405cf15 (MD5)
Previous issue date: 2013 / The study aims to evaluate the performance of students in the 6th grade of elementary school on the use of verb tenses, the level of linguistic awareness in this task and reading comprehension scores. To achieve this goal, three survey instruments were applied: a) investigative instrument to the use of tenses and linguistic awareness, b) reading comprehension instrument, and c) characterizing instrument of the research’s subjects. Theoretically and methodologically, constitute the axis of this research reading comprehension, linguistic awareness and the use of verb tenses. The appliance situation involves the use of survey instruments in two different formats: one answered in a written format and the other answered as an interview format. The subjects who answer the first format constitute group 1, while subjects who respond the second format constitute group 2.The results achieved by group 1 show that: these subjects have good performance in the use of verb tenses; they demonstrate linguistic consciousness, although not plenary to perform this task; they have low performance in reading comprehension. The performance of group 2 is good on the use of the verb tenses, on linguistics awareness and on reading comprehension. Considering the correlations between the topics use of verb tenses, linguistic awareness and reading comprehension, the results achieved by group 1 show a lower correlation than the results achieved by group 2. This research provides recommendations for teaching reading in school. / O estudo tem como objetivo verificar o desempenho de alunos da 6ª série do Ensino Fundamental no emprego dos tempos verbais, o nível de consciência linguística na realização dessa tarefa e os escores de compreensão leitora. Considera-se, para isso, os dados obtidos na aplicação de três instrumentos de pesquisa: a) instrumento de investigação do emprego dos tempos verbais e consciência linguística; b) instrumento de investigação da compreensão leitora; e c) instrumento de caracterização dos sujeitos da pesquisa. Teórica e metodologicamente, constituem-se em eixos fundamentais da pesquisa a compreensão leitora, a consciência linguística e o emprego dos tempos verbais. A situação de aplicação envolve o uso de instrumentos de pesquisa em dois formatos diferentes: um respondido por escrito individualmente e outro em formato de entrevista. Os sujeitos que respondem ao primeiro formato constituem o grupo 1, enquanto os sujeitos que respondem ao segundo formato constituem o grupo 2.Os resultados alcançados pelo grupo 1 revelam: que os sujeitos têm bom desempenho no emprego dos tempos verbais; que demonstram ter consciência linguística, apesar de não ser plena, para a realização dessa tarefa; que apresentam baixo desempenho na compreensão leitora. O desempenho do grupo 2 é bom no emprego dos tempos verbais, na consciência linguística e na compreensão leitora. Em relação às correlações entre as variáveis emprego dos tempos verbais, consciência linguística e compreensão leitora, os dados do grupo 1 apresentam um índice menor de correlação, do que os dados do grupo 2. Esses resultados permitem recomendações para o ensino da leitura na escola.
|
40 |
A emergência de enunciados temporais em textos jornalísticos /Rocha, Suzana Aparecida Dias de Oliveira January 1998 (has links)
Dissertação (Mestrado) - Universidade Federal de Santa Catarina, Centro de Comunicação e Expressão. / Made available in DSpace on 2012-10-17T06:55:38Z (GMT). No. of bitstreams: 0Bitstream added on 2016-01-09T00:41:22Z : No. of bitstreams: 1
142449.pdf: 720219 bytes, checksum: 3d486d4157bc67ab75f204222452a50f (MD5)
|
Page generated in 0.0506 seconds