591 |
Áreas de cuadriláteros convexos : análisis de dos textos oficiales para VI ciclo de educación básica regular haciendo uso de los elementos del EOSCondori Alarcón, Cecilio 08 March 2016 (has links)
El presente trabajo de investigación tiene como objetivo analizar el significado institucional
pretendido en torno a áreas de cuadriláteros convexos en el VI ciclo de Educación Básica
Regular del Perú. Para realizar este análisis, se consideró como marco teórico el Enfoque
Ontosemiótico de la Cognición e Instrucción Matemática (EOS), el cual nos brinda las
herramientas necesarias para describir los significados de referencia y elaborar el significado
pretendido a través de sus elementos: lenguaje, situaciones, conceptos, proposiciones,
procedimientos y argumentos; y se analizaron dos libros de texto usados para la preparación o
desarrollo del curso de matemática. Luego, se elaboraron configuraciones epistémicas para
diferentes campos de problemas de áreas de cuadriláteros atendiendo la propuesta de
Freudenthal, los cuales han sido ejemplificados por Corberán y Marmolejo. La metodología
empleada es de tipo cualitativo, descriptivo e interpretativo, la cual nos sirve de apoyo para
analizar las tareas que se encuentran en los textos de educación secundaria. Los resultados del
análisis de los textos matemáticos nos han permitido construir y fijar el significado de referencia
para, luego, analizar el significado pretendido y, finalmente, otorgar una valoración de
idoneidad epistémica a las tareas sobre áreas de cuadriláteros convexos contenidos en los textos
de secundaria analizados. / The present research work has as objective to analyze the institutional meaning sought around
areas of convex quadrilaterals in the VI cycle of Regular Basic Education of Peru. To carry out
this analysis, it is considered as theoretical framework the Ontosemiotic Approach of the
awareness and Mathematical Instruction (EOS), which offers us the necessary instruments to
describe the reference meanings and to elaborate the meaning expected through their elements:
language, situations, concepts, propositions, procedures and arguments. Two text books were
analyzed, which were used for the preparation or development of mathematics course. Then
epistemic configurations were elaborated for different fields of problems of areas of
quadrilaterals assisting the proposal of Freudenthal, which have been exemplified by Corberán
and Marmolejo. The used methodology is of qualitative, descriptive and interpretive type,
which serves us as support to analyze the tasks that are in the texts of high school. After the
results of analyzing the mathematical texts has allowed us to build and set the reference
meaning, then to analyze the sought meaning and finally to give an assessment of epistemic
suitability to the tasks about areas of convex quadrilaterals contents in the analyzed secondary
texts.
|
592 |
Fenómenos asociados a la noción de fracción presentes en un texto de matemática de sexto grado de educación primariaGonzales Paucar, Gissela Cristina 09 August 2017 (has links)
En nuestro trabajo, se realizó una investigación que describe y analiza un texto de sexto grado
de educación primaria, el cual es distribuido de forma gratuita por el Ministerio de Educación
del Perú. Nuestro interés en particular es saber cómo se presenta el tema de fracciones
desarrollado en el texto desde la teoría de la EMR y analizar cómo se abordan los fenómenos
que se le asocian tales como parte todo, medida, razón, cociente y operador. Cabe señalar que
la teoría de la EMR tiene su propia metodología, que es la fenomenología. Inicialmente,
consideraremos como parte del primer capítulo el motivo para realizar esta investigación acerca
de la fracción, plantear el problema de investigación y plantear los objetivos. En el segundo
capítulo, describimos la teoría que usaremos, que es la EMR. En el tercer capítulo, definimos
los conceptos acerca de fracciones propuestos por dos investigaciones que consideramos las
más adecuadas con respecto a la fracción. En el cuarto capítulo, se encontrarán descritos los
criterios considerados para analizar el texto. Finalmente, en el quinto capítulo, se procederá a
analizar el texto para así poder concluir, con respecto a nuestros objetivos y mostrar evidencia
de la presencia de los fenómenos que se le asocian a la fracción como lo sugieren los
investigadores y finalmente plantear algunas recomendaciones para futuras investigaciones. / In this Project some research was conducted to describe and analyze a sixth grade textbook of
primary school, which was distributed for free by the Ministry of Education of Peru. Our main
interest is to know how the topic related to fractions is presented in that textbook taking the
EMR theory into account, and also, to know how to present phenomena such as the whole part
function, measurement, ratio, quotient and operator. It should be said that the EMR theory has
its own methodology, which is called phenomenology. At the beginning, we consider part of
the first chapter the reason to carry out this research. We also describe in detail the investigation
conducted into fractions, the approach to the problem is shown and, aims are outlined. In the
second chapter, we describe the theory we will use, which is EMR. In the third chapter, we
define the concept of fractions proposed by two investigations and which we regard as the most
suitable when it comes to fractions. In the fourth chapter, the criteria we use to analyze the
textbook can be found. Finally, in the fifth chapter, the whole text is examined in order to reach
conclusions regarding our aims and, this way, show evidence of the presence of phenomena
associated with fractions as specialists suggest and, finally we make recommendations for
future research.
|
593 |
[en] TEXT CATEGORIZATION: CASE STUDY: PATENT S APPLICATION DOCUMENTS IN PORTUGUESE / [pt] CATEGORIZAÇÃO DE TEXTOS: ESTUDO DE CASO: DOCUMENTOS DE PEDIDOS DE PATENTE NO IDIOMA PORTUGUÊSNEIDE DE OLIVEIRA GOMES 08 January 2015 (has links)
[pt] Atualmente os categorizadores de textos construídos por técnicas de
aprendizagem de máquina têm alcançado bons resultados, tornando viável a
categorização automática de textos. A proposição desse estudo foi a definição de
vários modelos direcionados à categorização de pedidos de patente, no idioma
português. Para esse ambiente foi proposto um comitê composto de 6 (seis)
modelos, onde foram usadas várias técnicas. A base de dados foi constituída de
1157 (hum mil cento e cinquenta e sete) resumos de pedidos de patente,
depositados no INPI, por depositantes nacionais, distribuídos em várias
categorias. Dentre os vários modelos propostos para a etapa de processamento da
categorização de textos, destacamos o desenvolvido para o Método 01, ou seja, o
k-Nearest-Neighbor (k-NN), modelo também usado no ambiente de patentes, para
o idioma inglês. Para os outros modelos, foram selecionados métodos que não os
tradicionais para ambiente de patentes. Para quatro modelos, optou-se por
algoritmos, onde as categorias são representadas por vetores centróides. Para um
dos modelos, foi explorada a técnica do High Order Bit junto com o algoritmo k-
NN, sendo o k todos os documentos de treinamento. Para a etapa de préprocessamento
foram implementadas duas técnicas: os algoritmos de stemização
de Porter; e o StemmerPortuguese; ambos com modificações do original. Foram
também utilizados na etapa do pré-processamento: a retirada de stopwords; e o
tratamento dos termos compostos. Para a etapa de indexação foi utilizada
principalmente a técnica de pesagem dos termos intitulada: frequência de termos
modificada versus frequência de documentos inversa TF -IDF . Para as medidas
de similaridade ou medidas de distância destacamos: cosseno; Jaccard; DICE;
Medida de Similaridade; HOB. Para a obtenção dos resultados foram usadas as
técnicas de predição da relevância e do rank. Dos métodos implementados nesse
trabalho, destacamos o k-NN tradicional, o qual apresentou bons resultados
embora demande muito tempo computacional. / [en] Nowadays, the text s categorizers constructed based on learning techniques,
had obtained good results and the automatic text categorization became viable.
The purpose of this study was the definition of various models directed to text
categorization of patent s application in Portuguese language. For this
environment was proposed a committee composed of 6 (six) models, where were
used various techniques. The text base was constituted of 1157 (one thousand one
hundred fifty seven) abstracts of patent s applications, deposited in INPI, by
national applicants, distributed in various categories. Among the various models
proposed for the step of text categorization s processing, we emphasized the one
devellopped for the 01 Method, the k-Nearest-Neighbor (k-NN), model also used
in the English language patent s categorization environment. For the others
models were selected methods, that are not traditional in the English language
patent s environment. For four models, there were chosen for the algorithms,
centroid vectors representing the categories. For one of the models, was explored
the High Order Bit technique together with the k-NN algorithm, being the k all the
training documents. For the pre-processing step, there were implemented two
techniques: the Porter s stemization algorithm; and the StemmerPortuguese
algorithm; both with modifications of the original. There were also used in the
pre-processing step: the removal of the stopwards; and the treatment of the
compound terms. For the indexing step there was used specially the modified
documents term frequency versus documents term inverse frequency TF-IDF .
For the similarity or distance measures there were used: cosine; Jaccard; DICE;
Similarity Measure; HOB. For the results, there were used the relevance and the
rank technique. Among the methods implemented in this work it was emphasized
the traditional k-NN, which had obtained good results, although demands much
computational time.
|
594 |
[en] SQLLOMINING: FINDING LEARNING OBJECTS USING MACHINE LEARNING METHODS / [pt] SQLLOMINING: OBTENÇÃO DE OBJETOS DE APRENDIZAGEM UTILIZANDO TÉCNICAS DE APRENDIZADO DE MÁQUINASUSANA ROSICH SOARES VELLOSO 04 December 2007 (has links)
[pt] Objetos de Aprendizagem ou Learning Objects (LOs) são
porções de
material didático tais como textos que podem ser
reutilizados na composição de
outros objetos maiores (aulas ou cursos). Um dos problemas
da reutilização de
LOs é descobri-los em seus contextos ou documentos texto
originais tais como
livros, e artigos. Visando a obtenção de LOs, este
trabalho apresenta um
processo que parte da extração, tratamento e carga de uma
base de dados
textual e em seguida, baseando-se em técnicas de
aprendizado de máquina,
uma combinação de EM (Expectation-Maximization) e um
classificador
Bayesiano, classifica-se os textos extraídos. Tal processo
foi implementado em
um sistema chamado SQLLOMining, que usa SQL como linguagem
de
programação e técnicas de mineração de texto na busca de
LOs. / [en] Learning Objects (LOs) are pieces of instructional
material like traditional
texts that can be reused in the composition of more
complex objects like classes
or courses. There are some difficulties in the process of
LO reutilization. One of
them is to find pieces of documents that can be used like
LOs. In this work we
present a process that, in search for LOs, starts by
extracting, transforming and
loading a text database and then continue clustering these
texts, using a machine
learning methods that combines EM (Expectation-
Maximization) and a Bayesian
classifier. We implemented that process in a system called
SQLLOMining that
uses the SQL language and text mining methods in the
search for LOs.
|
595 |
Sensibilização de futuros professores para a docência em Educação a Distância no ensino da leitura de textos digitais em língua francesa: o Moodle como espaço de formação inicial / Enticing future teachers to teach digital text reading in the French language through Distance Education: Moodle as an initial instruction spaceSantos, Valkiria 09 April 2015 (has links)
A relação do homem com o tempo, o espaço e as tecnologias de informação e comunicação mediadas pela Internet resultaram em adequações, mudanças e inovações no cenário educacional. No que se refere à modalidade de ensino Educação a Distância, a crescente demanda e oferta de cursos traz como questão central a reflexão e a discussão sobre a formação de professores especializados, em língua materna e estrangeira, com saberes e habilidades necessários para atuar nesse contexto. Em se tratando dessa modalidade aplicada ao ensino da leitura em língua estrangeira, no caso desta pesquisa, em francês, nossos objetivos foram o de discutir, primeiramente, o ensino da leitura de textos digitais (hipertextos e multimodais) em língua francesa; em seguida, discutir e verificar quais os conhecimentos e habilidades necessários para que o professor em formação possa atuar em ambientes virtuais de aprendizagem e, num terceiro momento, promover a sensibilização dos futuros professores de francês para a docência em EaD no ensino da leitura de textos digitais em língua francesa por meio de atividades elaboradas pelos alunos participantes da pesquisa atuando no papel de professor. O contexto de produção dos dados ocorreu no curso Leitura e Avaliação em francês, realizado na Plataforma Moodle, oferecido aos alunos da disciplina Atividades de Estágio: Francês, Licenciatura em Letras/Francês, da Universidade de São Paulo. Adotamos como metodologia de pesquisa a pesquisa-ação por permitir ao pesquisador intervenção direta com os participantes, por meio de interações em diversas atividades desenvolvidas no curso. O corpus de nossa pesquisa é constituído por questionários respondidos pelos participantes, interações nos fóruns de discussão e a análise das atividades de leitura de textos digitais em francês elaboradas pelos participantes, ao final do curso. O referencial teórico que orientou a análise e discussão dos dados apoiou-se nos conceitos de textos digitais - hipertextos e textos multimodais - (LÉVY, 1993, 1999; XAVIER, 2005; MARCUSCHI, 2007; LACELLE; LEBRUN, 2012; DIONÍSIO; VASCONCELOS; SOUZA, 2014); sobre leitura (GIASSON, 1990; PIETRARÓIA, 1997, 2001; PIETRARÓIA; ALBUQUERQUE-COSTA, 2014) procurando também considerar as implicações cognitivas da leitura de textos digitais. No que se refere à formação de professores para a docência em EaD baseamo-nos em KENSKI (2003); KOELHER; MISHRA (2009); MAYRINK; ALBUQUERQUE-COSTA (2013), bem como os pressupostos conceituais sobre mediação (FEUERSTEIN, 1994 apud SOUZA; DEPRESBITERIS; MACHADO, 2004) fluência digital (TAROUCO, 2013) e modalidade comunicacional interativa (SILVA, 2012). Os resultados mostraram que a sensibilização para a docência em EaD e para o ensino da leitura de textos digitais pressupõe a necessidade de programas de formação consistentes e contínuos, viabilizados com a inclusão de disciplinas regulares no currículo do curso de Licenciatura que contemplem a apropriação das TIC de modo crítico e reflexivo, proporcionando ao professor em formação vivenciar de modo prático o uso das tecnologias no processo de ensino e aprendizagem, além da preparação para a atuação em Educação a Distância como um dos espaços para a atuação docente além da sala de aula tradicional. / The relation of men with time, space and information and communication technologies mediated through the Internet has generated adjustments, changes and innovations on the educational sphere. On the subject of Distance Education, the growing demand and offer of courses brings forth as a central matter the reflection and discussion about the education of specialized teachers of native and foreign languages with the necessary knowledge and abilities to work on this context. To address this modality applied to the teaching of reading in a foreign language in the case of this research, French our objectives were first to discuss the teaching of digital text reading (hypertexts and multimodal texts) in French; followed by the discussion and examination of which abilities and knowledge are necessary for the teacher in training to work on digital learning environments; and third, to entice future French teachers to lecture about digital text reading in French through Distance Education with activities developed by students that took part on the research acting as teachers. The data production took place on the Moodle Platform course \"Leitura e Avaliação em Francês\" (Reading and Evaluation in French), offered to students of the discipline \"Atividades de Estágio: Francês\" (Internship Activities: French), Licentiate in Languages/French of University of São Paulo. We adopted as research methodology the action research because it provides to the researcher direct intervention with the participants through interactions in many activities developed during the course. Our research corpus is formed by questionnaires answered by participants, interactions on discussion forums and analysis of digital text reading activities in French developed by participants at the end of the course. The theoretical references that guided the data analysis and discussion were based on digital text concepts - hypertexts and multimodal texts - (LÉVY, 1993, 1999; XAVIER, 2005; MARCUSCHI, 2007; LACELLE; LEBRUN, 2012; DIONÍSIO; VASCONCELOS; SOUZA, 2014); reading concepts (GIASSON, 1990; PIETRARÓIA, 1997, 2001; PIETRARÓIA; ALBUQUERQUE-COSTA, 2014), and the cognitive implications of digital text reading was also considered. When referring to the training of teachers for teaching through Distance Education, we used as a base KENSKI (2003); KOELHER; MISHRA (2009); MAYRINK; ALBUQUERQUE-COSTA( 2013), as well as conceptual presupposition about mediation (FEUERSTEIN, 1994 apud SOUZA; DEPRESBITERIS; MACHADO, 2004); digital fluency (TAROUCO, 2013); and interactive communication modality (SILVA, 2012). The results revealed that to entice teaching through Distance Education and teaching digital text reading, it is implied the necessity of consistent and successive training programs, obtained through the inclusion of regular disciplines on the Licentiate course curriculum that approach the appropriation of ITC critically and reflexively, providing to the teacher in training a practical experience of the use of technologies on the process of teaching and learning, as well as the preparation for working with Distance Education as one of the teacher\'s work environment that goes beyond the traditional classroom.
|
596 |
A concepção de humano no pensamento maia do período colonial (meados do século XVI a meados do XVII) / The idea of human for the Maya during the Colonial period (mid-sixteenth to mid-seventeenth century)Carvalho, Joyce Pinto Almeida 10 February 2014 (has links)
O objetivo central da presente dissertação é analisar a concepção de humano para os maias segundo suas histórias e cosmogonias produzidas no período colonial. Portanto, buscamos os atributos e qualidades do humano maia. Para tal fim, fazemos uma análise também dos predicados dos outros seres que habitam o cosmos maia (deuses, entes sobre-humanos e animais), para compará-los aos humanos e, assim, aproximar-nos dos atributos especificamente humanos para os maias. A análise é feita através de 3 histórias e cosmogonias maias: o Popol Vuh, o Memorial de Sololá e o Chilam Balam de Chumayel. Através dos três relatos nos foi possível perceber que para os maias não existe uma linha rígida que separa humanos e não-humanos, sendo que essas duas categorias de seres que habitam o cosmos convivem, compartilham de algumas características, e tem, cada qual, seu papel na manutenção do universo. Ou seja, humanos e não-humanos possuem papéis sociais, estão envoltos numa mesma sociedade, o que pode apontar para uma visão maia da noção de pessoa bastante diferente da visão ocidental, aproximando-se da visão que possuem os indígenas da América Amazônica / The purpose of this dissertation is to analyze the idea of human for the Maya, according to their histories and cosmogonies produced during the Colonial period. Seeking the attributes and qualities of the Mayan human, we also analyze the predicates of other beings that inhabit the Mayan cosmos (gods, animals, non-humans entities) so that, by comparison, we can approach the specifically human attributes. The investigation is done through three Mayan histories and cosmogonies: the Popol Vuh, the Memorial de Solalá and the Chilam Balam of Chumayel. Throughout the three documents it was possible to notice that, for the Maya, there isnt a rigid line separating humans from non-humans, and these two categories of beings that live in the cosmos share characteristics in common, having, each of them, its part in the maintenance of the universe. That is, humans and non-humans each possess a social role, and are bound together in the same society; which could point to a Mayan perspective on the notion of human that is very distinct from the western approach, and similar to the Amazonian societies
|
597 |
Análise de sentimentos em textos curtos provenientes de redes sociais / Sentiment analysis in short texts from social networksSilva, Nadia Felix Felipe da 22 February 2016 (has links)
A análise de sentimentos é um campo de estudo com recente popularização devido ao crescimento da Internet e do conteúdo que é gerado por seus usuários, principalmente nas redes sociais, nas quais as pessoas publicam suas opiniões em uma linguagem coloquial e em muitos casos utilizando de artifícios gráficos para tornar ainda mais sucintos seus diálogos. Esse cenário é observado no Twitter, uma ferramenta de comunicação que pode facilmente ser usada como fonte de informação para várias ferramentas automáticas de inferência de sentimentos. Esforços de pesquisas têm sido direcionados para tratar o problema de análise de sentimentos em redes sociais sob o ponto de vista de um problema de classificação, com pouco consenso sobre qual é o classificador com melhor poder preditivo, bem como qual é a configuração fornecida pela engenharia de atributos que melhor representa os textos. Outro problema é que em um cenário supervisionado, para a etapa de treinamento do modelo de classificação, é imprescindível se dispor de exemplos rotulados, uma tarefa árdua e que demanda esforço humano em grande parte das aplicações. Esta tese tem por objetivo investigar o uso de agregadores de classificadores (classifier ensembles), explorando a diversidade e a potencialidade de várias abordagens supervisionadas quando estas atuam em conjunto, além de um estudo detalhado da fase que antecede a escolha do classificador, a qual é conhecida como engenharia de atributos. Além destes aspectos, um estudo mostrando que o aprendizado não supervisionado pode fornecer restrições complementares úteis para melhorar a capacidade de generalização de classificadores de sentimento é realizado, fornecendo evidências de que ganhos já observados em outras áreas do conhecimento também podem ser obtidos no domínio em questão. A partir dos promissores resultados experimentais obtidos no cenário de aprendizado supervisionado, alavancados pelo uso de técnicas não supervisionadas, um algoritmo existente, denominado de C3E (Consensus between Classification and Clustering Ensembles) foi adaptado e estendido para o cenário semissupervisionado. Este algoritmo refina a classificação de sentimentos a partir de informações adicionais providas pelo agrupamento em um procedimento de autotreinamento (self-training). Tal abordagem apresenta resultados promissores e competitivos com abordagens que representam o estado da arte em outros domínios. / Sentiment analysis is a field of study that shows recent popularization due to the growth of Internet and the content that is generated by its users. More recently, social networks have emerged, where people post their opinions in colloquial and compact language. This is what happens in Twitter, a communication tool that can easily be used as a source of information for various automatic tools of sentiment inference. Research efforts have been directed to deal with the problem of sentiment analysis in social networks from the point of view of a classification problem, where there is no consensus about what is the best classifier, and what is the best configuration provided by the feature engineering process. Another problem is that in a supervised setting, for the training stage of the classification model, we need labeled examples, which are hard to get in the most of applications. The objective of this thesis is to investigate the use of classifier ensembles, exploring the diversity and the potential of various supervised approaches when these work together, as well as to provide a study about the phase that precedes the choice of the classifier, which is known as feature engineering. In addition to these aspects, a study showing that unsupervised learning techniques can provide useful and additional constraints to improve the ability of generalization of the classifiers is also carried out. Based on the promising results got in supervised learning settings, an existing algorithm called C3E (Consensus between Classification and Clustering Ensembles) was adapted and extended for the semi-supervised setting. This algorithm refines the sentiment classification from additional information provided by clusters of data, in a self-training procedure. This approach shows promising results when compared with state of the art algorithms.
|
598 |
António Feijó e Camilo Pessanha: interlocuções poéticas em traduções / António Feijó and Camilo Pessanha: poetic interlocutions in translationsRomano, Fernanda Maria 12 April 2013 (has links)
A proposta desta tese é fazer uma leitura do Cancioneiro Chinês, obra que contém poemas chineses traduzidos por António Feijó da versão francesa de Judith Gautier, e das Elegias Chinesas traduzidas por Camilo Pessanha a partir dos originais. Nosso objetivo é identificar, nos procedimentos desses autores presentes em suas reimaginações, os diferentes deslocamentos culturais, linguísticos e poéticos que se estabelecem no trânsito entre a poesia Oriental e a poesia Ocidental. Para tanto, buscamos, em teóricos da tradução, sinólogos e tradutores de poesia chinesa, reflexões e conceitos que alicercem este nosso estudo. / The purpose of this thesis is to interpret a reading of Cancioneiro Chinês, a work that contains Chinese poems translated by António Feijo from Judith Gautiers French version and of Elegias Chinesas, translated by Camilo Pessanha from the original texts. Our objective is to identify, from the procedures of these authors present in their re-imaginations, the different cultural linguistics and poetics deslocation which establish the exchange between Oriental and Occidental poetry. Therefore, we search, from the scholars of translation, sinologists and translators of Chinese poetry, reflections and concepts that form the fundamentals of this study.
|
599 |
Um data warehouse de publicações científicas: indexação automática da dimensão tópicos de pesquisa dos data marts / A Data warehouse for scientific publications: automatic indexing of the research topic dimension for using in data martsKanashiro, Augusto 04 May 2007 (has links)
Este trabalho de mestrado insere-se no contexto do projeto de uma Ferramenta Inteligente de Apoio à Pesquisa (FIP), sendo desenvolvida no Laboratório de Inteligência Computacional do ICMC-USP. A ferramenta foi proposta para recuperar, organizar e minerar grandes conjuntos de documentos científicos (na área de computação). Nesse contexto, faz-se necessário um repositório de artigos para a FIP. Ou seja, um Data Warehouse que armazene e integre todas as informações extraídas dos documentos recuperados de diferentes páginas pessoais, institucionais e de repositórios de artigos da Web. Para suportar o processamento analítico on-line (OLAP) das informações e facilitar a ?mineração? desses dados é importante que os dados estejam armazenados apropriadamente. Dessa forma, o trabalho de mestrado teve como objetivo principal projetar um Data Warehouse (DW) para a ferramenta FIP e, adicionalmente, realizar experimentos com técnicas de mineração e Aprendizado de Máquina para automatizar o processo de indexação das informações e documentos armazenados no data warehouse (descoberta de tópicos). Para as consultas multidimensionais foram construídos data marts de forma a permitir aos pesquisadores avaliar tendências e a evolução de tópicos de pesquisa / This dissertation is related to the project of an Intelligent Tool for Research Supporting (FIP), being developed at the Laboratory of Computational Intelligence at ICMC-USP. The tool was proposed to retrieve, organize, and mining large sets of scientific documents in the field of computer science. In this context, a repository of articles becomes necessary, i.e., a Data Warehouse that integrates and stores all extracted information from retrieved documents from different personal and institutional web pages, and from article repositories. Data appropriatelly stored is decisive for supporting online analytical processing (OLAP), and ?data mining? processes. Thus, the main goal of this MSc research was design the FIP Data Warehouse (DW). Additionally, we carried out experiments with Data Mining and Machine Learning techniques in order to automatize the process of indexing of information and documents stored in the data warehouse (Topic Detection). Data marts for multidimensional queries were designed in order to facilitate researchers evaluation of research topics trend and evolution
|
600 |
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos / An incremental space for visual mining of dynamic document collectionsPinho, Roberto Dantas de 05 June 2009 (has links)
Representações visuais têm sido adotadas na exploração de conjuntos de documentos, auxiliando a extração de conhecimento sem que seja necessária a análise individual de milhares de textos. Mapas de documentos, em particular, apresentam documentos individualmente representados espalhados em um espaço visual, refletindo suas relações de similaridade ou conexões. A construção destes mapas de documentos inclui, entre outras tarefas, o posicionamento dos textos e a identificação automática de áreas temáticas. Um desafio é a visualização de conjuntos dinâmicos de documentos. Na visualização de informação, é comum que alterações no conjunto de dados tenham um forte impacto na organização do espaço visual, dificultando a manutenção, por parte do usuário, de um mapa mental que o auxilie na interpretação dos dados apresentados e no acompanhamento das mudanças sofridas pelo conjunto de dados. Esta tese introduz um algoritmo para a construção dinâmica de mapas de documentos, capaz de manter uma disposição coerente à medida que elementos são adicionados ou removidos. O processo, inerentemente incremental e de baixa complexidade, utiliza um espaço bidimensional dividido em células, análogo a um tabuleiro de xadrez. Resultados consistentes foram alcançados em comparação com técnicas não incrementais de projeção de dados multidimensionais, tendo sido a técnica aplicada também em outros domínios, além de conjuntos de documentos. A visualização resultante não está sujeita a problemas de oclusão. A identificação de áreas temáticas é alcançada com técnicas de extração de regras de associação representativas para a identificação automática de tópicos. A combinação da extração de tópicos com a projeção incremental de dados em um processo integrado de mineração visual de textos compõe um espaço visual em que tópicos e áreas de interesse são destacados e atualizados à medida que o conjunto de dados é modificado / Visual representations are often adopted to explore document collections, assisting in knowledge extraction, and avoiding the thorough analysis of thousands of documents. Document maps present individual documents in visual spaces in such a way that their placement reflects similarity relations or connections between them. Building these maps requires, among other tasks, placing each document and identifying interesting areas or subsets. A current challenge is to visualize dynamic data sets. In Information Visualization, adding and removing data elements can strongly impact the underlying visual space. That can prevent a user from preserving a mental map that could assist her/him on understanding the content of a growing collection of documents or tracking changes on the underlying data set. This thesis presents a novel algorithm to create dynamic document maps, capable of maintaining a coherent disposition of elements, even for completely renewed sets. The process is inherently incremental, has low complexity and places elements on a 2D grid, analogous to a chess board. Consistent results were obtained as compared to (non-incremental) multidimensional scaling solutions, even when applied to visualizing domains other than document collections. Moreover, the corresponding visualization is not susceptible to occlusion. To assist users in indentifying interesting subsets, a topic extraction technique based on association rule mining was also developed. Together, they create a visual space where topics and interesting subsets are highlighted and constantly updated as the data set changes
|
Page generated in 0.1198 seconds