Spelling suggestions: "subject:"mineração visual dde dados"" "subject:"mineração visual dee dados""
1 |
"Análise visual em processos de redução de dimensionalidade para mineração em sistemas de bases de dados"Razente, Humberto Luiz 21 May 2004 (has links)
O grande volume de dados coletados pelas empresas nas últimas décadas tornou-se uma fonte de informações valiosas, permitindo às empresas obter maior competitividade. Entretanto, a análise desses dados - a transformação deles em informações úteis - tornou-se uma tarefa difícil. Em muitos casos, além desses dados existirem em grande número de itens, eles são compostos por um grande número de dimensões (ou atributos), dificultando a sua compreensão. Nesses dados, uma eliminação de atributos correlacionados poderia diminuir a complexidade de diversas técnicas de análise existentes. Embora a existência de correlações entre atributos possa ser encontrada por diversas técnicas estatísticas, essas correlações também podem ser observadas visualmente. Este trabalho apresenta a técnica Visualização por Blocos Verticais - BV que permite a sobreposição de diferentes mapeamentos de um mesmo conjunto de dados de alta dimensão, tornando possível a observação visual das correlações existentes entre os atributos. A técnica Visualização por Blocos Horizontais - BH, também apresentada neste trabalho, permite a sobreposição de mapeamentos de eventos orientados por um atributo separador, permitindo observar a evolução dos objetos como um todo. Ambas as técnicas utilizam o algoritmo FastMap para realizar a redução de dimensionalidade dos dados para um espaço euclidiano tridimensional para viabilizar sua visualização em um ambiente interativo e intuitivo.
|
2 |
"Análise visual em processos de redução de dimensionalidade para mineração em sistemas de bases de dados"Humberto Luiz Razente 21 May 2004 (has links)
O grande volume de dados coletados pelas empresas nas últimas décadas tornou-se uma fonte de informações valiosas, permitindo às empresas obter maior competitividade. Entretanto, a análise desses dados - a transformação deles em informações úteis - tornou-se uma tarefa difícil. Em muitos casos, além desses dados existirem em grande número de itens, eles são compostos por um grande número de dimensões (ou atributos), dificultando a sua compreensão. Nesses dados, uma eliminação de atributos correlacionados poderia diminuir a complexidade de diversas técnicas de análise existentes. Embora a existência de correlações entre atributos possa ser encontrada por diversas técnicas estatísticas, essas correlações também podem ser observadas visualmente. Este trabalho apresenta a técnica Visualização por Blocos Verticais - BV que permite a sobreposição de diferentes mapeamentos de um mesmo conjunto de dados de alta dimensão, tornando possível a observação visual das correlações existentes entre os atributos. A técnica Visualização por Blocos Horizontais - BH, também apresentada neste trabalho, permite a sobreposição de mapeamentos de eventos orientados por um atributo separador, permitindo observar a evolução dos objetos como um todo. Ambas as técnicas utilizam o algoritmo FastMap para realizar a redução de dimensionalidade dos dados para um espaço euclidiano tridimensional para viabilizar sua visualização em um ambiente interativo e intuitivo.
|
3 |
Integrando projeções multidimensionais à analise visual de redes sociais / Integrating multidimensional projections into visual analysis of social networksAndery, Gabriel de Faria 13 September 2010 (has links)
Há várias décadas, pesquisadores em ciências sociais buscam formas gráficas para expressar as relações humanas na sociedade. O advento do computador e, mais recentemente, da internet, possibilitou o surgimento de um campo que tem despertado a atenção de estudiosos das áreas de visualização de informação e de ciências sociais, o da visualização de redes sociais. Esse campo tem o potencial de revelar e explorar padrões que podem beneficiar um número muito grande de aplicações e indivíduos em áreas tais como comércio, segurança em geral, redes de conhecimento e pesquisa de mercado. Grande parte dos algoritmos de visualização de redes sociais são baseados em grafos, destacando relacionamentos entre indivíduos e grupos de indivíduos, mas dando pouca atenção aos seus demais atributos. Assim, este trabalho apresenta um conjunto de soluções para representar e explorar visualmente redes sociais levando em consideração tais atributos. A primeira solução faz uso de redes heterogêneas, onde tanto indivíduos quanto comunidades são representados no grafo; a segunda solução utiliza técnicas de visualização baseadas em projeção multidimensional, que promovem o posicionamento dos dados no plano de acordo com algum critério de similaridade baseado em atributo; e a última solução coordena múltiplas visões para focar rapidamente em regiões de interesse. Os resultados indicam que as soluções proveem um poder de representação e identificação de conceitos não facilmente detectados por formas convencionais de visualização e exploração de grafos, com indícios fornecidos através dos estudos de caso e da realização de avaliações com usuários. Este trabalho fornece um estudo das áreas de visualização em grafos para a análise de redes sociais bem como uma implementação das soluções de integração da visualização em redes com as projeções multidimensionais / For decades, social sciences researchers have searched for graphical forms to express human social relationships. The development of computer science and more recently of the Internet has given rise to a new field of research for visualization and social sciences professionals, that of social network visualization. This field can potentially offer new opportunities in reveal new patterns that can benefit a large number of applications and individuals in fields such as commerce, security, knowledge networks and marketing. A large part of social network visualization algorithms and systems relies on graph representations, highlighting relationships amongst individuals and groups of individuals, but mostly neglecting the other available attributes of individuals. Thus, this work presents a set of tools to represent and explore social networks visually, taking into consideration the attributes of the nodes. The first technique employs heterogeneous networks, where both individuals and communities are represented in the graph; the second solution uses visualization techniques based on multidimensional projection, which promote the placement of data in the plane according to some similarity criterion based on attribute; still another proposed technique coordinates multiple views in order to speed up focus in regions of interest in the data sets. The results indicate that the solutions promote high degree of representation power and that concept identification not easily obtained via other methods is possible; the evidence comes from case studies as well as a user evaluation. This work includes a study in the area of graph visualization for social network analysis as well as a system implementing the proposed solutions, that integrate network visualization and multidimensional projections to extract patterns from social networks
|
4 |
Integrando projeções multidimensionais à analise visual de redes sociais / Integrating multidimensional projections into visual analysis of social networksGabriel de Faria Andery 13 September 2010 (has links)
Há várias décadas, pesquisadores em ciências sociais buscam formas gráficas para expressar as relações humanas na sociedade. O advento do computador e, mais recentemente, da internet, possibilitou o surgimento de um campo que tem despertado a atenção de estudiosos das áreas de visualização de informação e de ciências sociais, o da visualização de redes sociais. Esse campo tem o potencial de revelar e explorar padrões que podem beneficiar um número muito grande de aplicações e indivíduos em áreas tais como comércio, segurança em geral, redes de conhecimento e pesquisa de mercado. Grande parte dos algoritmos de visualização de redes sociais são baseados em grafos, destacando relacionamentos entre indivíduos e grupos de indivíduos, mas dando pouca atenção aos seus demais atributos. Assim, este trabalho apresenta um conjunto de soluções para representar e explorar visualmente redes sociais levando em consideração tais atributos. A primeira solução faz uso de redes heterogêneas, onde tanto indivíduos quanto comunidades são representados no grafo; a segunda solução utiliza técnicas de visualização baseadas em projeção multidimensional, que promovem o posicionamento dos dados no plano de acordo com algum critério de similaridade baseado em atributo; e a última solução coordena múltiplas visões para focar rapidamente em regiões de interesse. Os resultados indicam que as soluções proveem um poder de representação e identificação de conceitos não facilmente detectados por formas convencionais de visualização e exploração de grafos, com indícios fornecidos através dos estudos de caso e da realização de avaliações com usuários. Este trabalho fornece um estudo das áreas de visualização em grafos para a análise de redes sociais bem como uma implementação das soluções de integração da visualização em redes com as projeções multidimensionais / For decades, social sciences researchers have searched for graphical forms to express human social relationships. The development of computer science and more recently of the Internet has given rise to a new field of research for visualization and social sciences professionals, that of social network visualization. This field can potentially offer new opportunities in reveal new patterns that can benefit a large number of applications and individuals in fields such as commerce, security, knowledge networks and marketing. A large part of social network visualization algorithms and systems relies on graph representations, highlighting relationships amongst individuals and groups of individuals, but mostly neglecting the other available attributes of individuals. Thus, this work presents a set of tools to represent and explore social networks visually, taking into consideration the attributes of the nodes. The first technique employs heterogeneous networks, where both individuals and communities are represented in the graph; the second solution uses visualization techniques based on multidimensional projection, which promote the placement of data in the plane according to some similarity criterion based on attribute; still another proposed technique coordinates multiple views in order to speed up focus in regions of interest in the data sets. The results indicate that the solutions promote high degree of representation power and that concept identification not easily obtained via other methods is possible; the evidence comes from case studies as well as a user evaluation. This work includes a study in the area of graph visualization for social network analysis as well as a system implementing the proposed solutions, that integrate network visualization and multidimensional projections to extract patterns from social networks
|
5 |
Mapeamento de dados multi-dimensionais - integrando mineração e visualização / Multidimensional data mapping - integrating mining and visualizationPaulovich, Fernando Vieira 07 October 2008 (has links)
As técnicas de projeção ou posicionamento de pontos no plano, que servem para mapear dados multi-dimensionais em espaços visuais, sempre despertaram grande interesse da comunidade de visualização e análise de dados por representarem uma forma útil de exploração baseada em relações de similaridade e correlação. Apesar disso, muitos problemas ainda são encontrados em tais técnicas, limitando suas aplicações. Em especial, as técnicas de projeção multi-dimensional de maior qualidade têm custo computacional proibitivo para grandes conjuntos de dados. Adicionalmente, problemas referentes à escalabilidade visual, isto é, à capacidade da metáfora visual empregada de representar dados de forma compacta e amigável, são recorrentes. Esta tese trata o problema da projeção multi-dimensional de vários pontos de vista, propondo técnicas que resolvem, até certo ponto, cada um dos problemas verificados. Também é fato que a complexidade e o tamanho dos conjuntos de dados indicam que a visualização deve trabalhar em conjunto com técnicas de mineração, tanto embutidas no processo de mapeamento, como por meio de ferramentas auxiliares de interpretação. Nesta tese incorporamos alguns aspectos de mineração integrados ao processo de visualização multi-dimensional, principalmente na aplicação de projeções para visualização de coleções de documentos, propondo uma estratégia de extração de tópicos. Como suporte ao desenvolvimento e teste dessas técnicas, foram criados diferentes sistemas de software. O principal inclui as técnicas desenvolvidas e muitas das técnicas clássicas de projeção, podendo ser usado para exploração de conjuntos de dados multi-dimensionais em geral, com funcionalidade adicional para mapeamento de coleções de documentos. Como principal contribuição desta tese propomos um entendimento mais profundo dos problemas encontrados nas técnicas de projeção vigentes e o desenvolvimento de técnicas de projeção (ou mapeamento) que são rápidas, tratam adequadamente a formação visual de grupos de dados altamente similares, separam satisfatoriamente esses grupos no layout, e permitem a exploração dos dados em vários níveis de detalhe / Projection or point placement techniques, useful for mapping multidimensional data into visual spaces, have always risen interest in the visualization and data analysis communities because they can support data exploration based on similarity or correlation relations. Regardless of that interest, various problems arise when dealing with such techniques, impairing their widespread application. In particularly the projections that yield highest quality layouts have prohibitive computational cost for large data sets. Additionally, there are issues regarding visual scalability, i.e., the capability of visually fit the individual points in the exploration space as the data set grows large. This thesis treats the problems of projections from various perspectives, presenting novel techniques that solve, to certain extent, several of the verified problems. It is also a fact that size and complexity of data sets suggest the integration of data mining capabilities into the visualization pipeline, both during the mapping process and as a tools to extract additional information after the data have been layed out. This thesis also add some aspects of mining to the multidimensional visualization process, mainly for the particular application of analysis of document collections, proposing and implementing an approach for topic extraction. As supporting tools for testing these techniques and comparing them to existing ones different software systems were written. The main one includes the techniques developed here as well as several of the classical projection and dimensional reduction techniques, and can be used for exploring various kinds of data sets, with addition functionality to support the mapping of document collections. This thesis contributes to the understanding of the projection or mapping problem and develops new techniques that are fast, treat adequately the visual formation of groups of highly related data items, separate those groups properly and allow exploration of data in various levels of detail
|
6 |
Visualização de operações de junção em sistemas de bases de dados para mineração de dados. / Visualization of join operations in DBMS for data mining.Barioni, Maria Camila Nardini 13 June 2002 (has links)
Nas últimas décadas, a capacidade das empresas de gerar e coletar informações aumentou rapidamente. Essa explosão no volume de dados gerou a necessidade do desenvolvimento de novas técnicas e ferramentas que pudessem, além de processar essa enorme quantidade de dados, permitir sua análise para a descoberta de informações úteis, de maneira inteligente e automática. Isso fez surgir um proeminente campo de pesquisa para a extração de informação em bases de dados denominado Knowledge Discovery in Databases KDD, no geral técnicas de mineração de dados DM têm um papel preponderante. A obtenção de bons resultados na etapa de mineração de dados depende fortemente de quão adequadamente o preparo dos dados é realizado. Sendo assim, a etapa de extração de conhecimento (DM) no processo de KDD, é normalmente precedida de uma etapa de pré-processamento, onde os dados que porventura devam ser submetidos à etapa de DM são integrados em uma única relação. Um problema importante enfrentado nessa etapa é que, na maioria das vezes, o usuário ainda não tem uma idéia muito precisa dos dados que devem ser extraídos. Levando em consideração a grande habilidade de exploração da mente humana, este trabalho propõe uma técnica de visualização de dados armazenados em múltiplas relações de uma base de dados relacional, com o intuito de auxiliar o usuário na preparação dos dados a serem minerados. Esta técnica permite que a etapa de DM seja aplicada sobre múltiplas relações simultaneamente, trazendo as operações de junção para serem parte desta etapa. De uma maneira geral, a adoção de junções em ferramentas de DM não é prática, devido ao alto custo computacional associado às operações de junção. Entretanto, os resultados obtidos nas avaliações de desempenho da técnica proposta neste trabalho mostraram que ela reduz esse custo significativamente, tornando possível a exploração visual de múltiplas relações de uma maneira interativa. / In the last decades the capacity of information generation and accumulation increased quickly. With the explosive growth in the volume of data, new techniques and tools are being sought to process it and to automatically discover useful information from it, leading to techniques known as Knowledge Discovery in Databases KDD where, in general, data mining DM techniques play an important role. The results of applying data mining techniques on datasets are highly dependent on proper data preparation. Therefore, in traditional DM processes, data goes through a pre-processing step that results in just one table that is submitted to mining. An important problem faced during this step is that, most of the times, the analyst doesnt have a clear idea of what portions of data should be mined. This work reckons the strong ability of human beings to interpret data represented in graphical format, to develop a technique to visualize data from multiple tables, helping human analysts when preparing data to DM. This technique allows the data mining process to be applied over multiple relations at once, bringing the join operations to become part of this process. In general, the use of multiple tables in DM tools is not practical, due to the high computational cost required to explore them. Experimental evaluation of the proposed technique shows that it reduces this cost significantly, turning it possible to visually explore data from multiple tables in an interactive way.
|
7 |
Mapeamento de dados multi-dimensionais - integrando mineração e visualização / Multidimensional data mapping - integrating mining and visualizationFernando Vieira Paulovich 07 October 2008 (has links)
As técnicas de projeção ou posicionamento de pontos no plano, que servem para mapear dados multi-dimensionais em espaços visuais, sempre despertaram grande interesse da comunidade de visualização e análise de dados por representarem uma forma útil de exploração baseada em relações de similaridade e correlação. Apesar disso, muitos problemas ainda são encontrados em tais técnicas, limitando suas aplicações. Em especial, as técnicas de projeção multi-dimensional de maior qualidade têm custo computacional proibitivo para grandes conjuntos de dados. Adicionalmente, problemas referentes à escalabilidade visual, isto é, à capacidade da metáfora visual empregada de representar dados de forma compacta e amigável, são recorrentes. Esta tese trata o problema da projeção multi-dimensional de vários pontos de vista, propondo técnicas que resolvem, até certo ponto, cada um dos problemas verificados. Também é fato que a complexidade e o tamanho dos conjuntos de dados indicam que a visualização deve trabalhar em conjunto com técnicas de mineração, tanto embutidas no processo de mapeamento, como por meio de ferramentas auxiliares de interpretação. Nesta tese incorporamos alguns aspectos de mineração integrados ao processo de visualização multi-dimensional, principalmente na aplicação de projeções para visualização de coleções de documentos, propondo uma estratégia de extração de tópicos. Como suporte ao desenvolvimento e teste dessas técnicas, foram criados diferentes sistemas de software. O principal inclui as técnicas desenvolvidas e muitas das técnicas clássicas de projeção, podendo ser usado para exploração de conjuntos de dados multi-dimensionais em geral, com funcionalidade adicional para mapeamento de coleções de documentos. Como principal contribuição desta tese propomos um entendimento mais profundo dos problemas encontrados nas técnicas de projeção vigentes e o desenvolvimento de técnicas de projeção (ou mapeamento) que são rápidas, tratam adequadamente a formação visual de grupos de dados altamente similares, separam satisfatoriamente esses grupos no layout, e permitem a exploração dos dados em vários níveis de detalhe / Projection or point placement techniques, useful for mapping multidimensional data into visual spaces, have always risen interest in the visualization and data analysis communities because they can support data exploration based on similarity or correlation relations. Regardless of that interest, various problems arise when dealing with such techniques, impairing their widespread application. In particularly the projections that yield highest quality layouts have prohibitive computational cost for large data sets. Additionally, there are issues regarding visual scalability, i.e., the capability of visually fit the individual points in the exploration space as the data set grows large. This thesis treats the problems of projections from various perspectives, presenting novel techniques that solve, to certain extent, several of the verified problems. It is also a fact that size and complexity of data sets suggest the integration of data mining capabilities into the visualization pipeline, both during the mapping process and as a tools to extract additional information after the data have been layed out. This thesis also add some aspects of mining to the multidimensional visualization process, mainly for the particular application of analysis of document collections, proposing and implementing an approach for topic extraction. As supporting tools for testing these techniques and comparing them to existing ones different software systems were written. The main one includes the techniques developed here as well as several of the classical projection and dimensional reduction techniques, and can be used for exploring various kinds of data sets, with addition functionality to support the mapping of document collections. This thesis contributes to the understanding of the projection or mapping problem and develops new techniques that are fast, treat adequately the visual formation of groups of highly related data items, separate those groups properly and allow exploration of data in various levels of detail
|
8 |
Visualização de operações de junção em sistemas de bases de dados para mineração de dados. / Visualization of join operations in DBMS for data mining.Maria Camila Nardini Barioni 13 June 2002 (has links)
Nas últimas décadas, a capacidade das empresas de gerar e coletar informações aumentou rapidamente. Essa explosão no volume de dados gerou a necessidade do desenvolvimento de novas técnicas e ferramentas que pudessem, além de processar essa enorme quantidade de dados, permitir sua análise para a descoberta de informações úteis, de maneira inteligente e automática. Isso fez surgir um proeminente campo de pesquisa para a extração de informação em bases de dados denominado Knowledge Discovery in Databases KDD, no geral técnicas de mineração de dados DM têm um papel preponderante. A obtenção de bons resultados na etapa de mineração de dados depende fortemente de quão adequadamente o preparo dos dados é realizado. Sendo assim, a etapa de extração de conhecimento (DM) no processo de KDD, é normalmente precedida de uma etapa de pré-processamento, onde os dados que porventura devam ser submetidos à etapa de DM são integrados em uma única relação. Um problema importante enfrentado nessa etapa é que, na maioria das vezes, o usuário ainda não tem uma idéia muito precisa dos dados que devem ser extraídos. Levando em consideração a grande habilidade de exploração da mente humana, este trabalho propõe uma técnica de visualização de dados armazenados em múltiplas relações de uma base de dados relacional, com o intuito de auxiliar o usuário na preparação dos dados a serem minerados. Esta técnica permite que a etapa de DM seja aplicada sobre múltiplas relações simultaneamente, trazendo as operações de junção para serem parte desta etapa. De uma maneira geral, a adoção de junções em ferramentas de DM não é prática, devido ao alto custo computacional associado às operações de junção. Entretanto, os resultados obtidos nas avaliações de desempenho da técnica proposta neste trabalho mostraram que ela reduz esse custo significativamente, tornando possível a exploração visual de múltiplas relações de uma maneira interativa. / In the last decades the capacity of information generation and accumulation increased quickly. With the explosive growth in the volume of data, new techniques and tools are being sought to process it and to automatically discover useful information from it, leading to techniques known as Knowledge Discovery in Databases KDD where, in general, data mining DM techniques play an important role. The results of applying data mining techniques on datasets are highly dependent on proper data preparation. Therefore, in traditional DM processes, data goes through a pre-processing step that results in just one table that is submitted to mining. An important problem faced during this step is that, most of the times, the analyst doesnt have a clear idea of what portions of data should be mined. This work reckons the strong ability of human beings to interpret data represented in graphical format, to develop a technique to visualize data from multiple tables, helping human analysts when preparing data to DM. This technique allows the data mining process to be applied over multiple relations at once, bringing the join operations to become part of this process. In general, the use of multiple tables in DM tools is not practical, due to the high computational cost required to explore them. Experimental evaluation of the proposed technique shows that it reduces this cost significantly, turning it possible to visually explore data from multiple tables in an interactive way.
|
9 |
Visualização como suporte à extração e exploração de regras de associação / Vusualization as support to the extraction and exploration of association rulesYamamoto, Claudio Haruo 17 April 2009 (has links)
Desde a definção do problema de obtenção de regras de associação, vários algoritmos eficientes foram introduzidos para tratá-lo. Entretanto, ainda hoje o problema apresenta várias dificuldades práticas para os mineradores, como a determinação de limiares adequados de suporte mínimo e confiança mínima, a manipulação de grandes conjuntos de regras, e a compreensão de regras (especialmente aquelas contendo muitos itens). Para tratar estes problemas, pesquisadores têm investigado a aplicação de técnicas interativas, sumarização (de conjuntos de regras) e representações visuais. Entretanto, nenhuma abordagem na qual os usuários podem entender e controlar o processo por meio da interação com o algoritmo analítico ao longo de sua execução foi introduzida. Neste trabalho, é introduzida uma abordagem interativa para extração e exploração de regras de associação que insere o usuário no processo por meio de: execução interativa do Apriori ; seleção interativa de itemsets freqüentes; extração de regras baseada em itemsets e orientada por agrupamentos de itemsets similares; e exploração de regras aos pares. Para validar a abordagem, foram realizados diversos estudos, apoiados pelo Sistema \'I IND.2\' E, com o objetivo de: comparar a abordagem interativa, sob diversos aspectos, com uma abordagem convencional de obtenção de regras de associação; avaliar o efeito de variar alguns parâmetros do processo nos resultados finais; e mostrar a aplicação dos recursos oferecidos em situações reais e com usuários reais. Os resultados indicam que a abordagem apresentada é adequada, tanto em cenários exploratórios quanto em cenários em que há um direcionamento inicial para o processo, à execução de certas tarefas de extração de regras de associação, pois: provém recursos capazes de evitar execuções inteiras do algoritmo antes que os resultados sejam analisados; gera conjuntos de regras mais compactos; preserva a cobertura de itemsets; favorece a reformulação de tarefas ou a formulação de novas tarefas; e provê meios para comparação visual de regras, aumentando o poder de análise do minerador / Since the definition of the association rule mining problem, many efficient algorithms have been introduced to deal with it. However, the problem still presents many practical difficulties to the miners, such as the determination of suitable minimum support and minimum confidence thresholds, manipulation of large rule sets, and comprehension of rules (specially those containing many items). In order to deal with these problems, researchers have been investigating the application of interactive techniques, sumarization (of rule sets) and visual representations. Nonetheless, no approach in which users can understand and control the process through interaction with the analytical algorithm along its execution has been introduced. We introduce an interactive approach to extract and explore association rules that inserts the user into the process through: interactive execution of the Apriori ; interactive selection of frequent itemsets; itemset-based and cluster-oriented extraction of rules; and pairwise exploration of rules. To validate the approach, several studies have been conducted, supported by the \'I IND.2\' E System, aiming at: comparing the interactive approach, under several aspects, with a conventional approach to obtain association rules; evaluate the effect of different execution parameters in the final results; and illustrate its application in real situations and with real users. Results of these studies indicate that the approach is adequate, both in exploratory scenarios and in scenarios in which there is an initial guidance for the process, to the execution of certain association rule extraction tasks, because: it provides resources to avoid complete algorithm executions before results are analyzed; generates more compact rule sets for exploration; preserves rule diversity; favors the reformulation of tasks; and provides support for rule comparison, enhancing analysis capability for miners
|
10 |
Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos / An incremental space for visual mining of dynamic document collectionsPinho, Roberto Dantas de 05 June 2009 (has links)
Representações visuais têm sido adotadas na exploração de conjuntos de documentos, auxiliando a extração de conhecimento sem que seja necessária a análise individual de milhares de textos. Mapas de documentos, em particular, apresentam documentos individualmente representados espalhados em um espaço visual, refletindo suas relações de similaridade ou conexões. A construção destes mapas de documentos inclui, entre outras tarefas, o posicionamento dos textos e a identificação automática de áreas temáticas. Um desafio é a visualização de conjuntos dinâmicos de documentos. Na visualização de informação, é comum que alterações no conjunto de dados tenham um forte impacto na organização do espaço visual, dificultando a manutenção, por parte do usuário, de um mapa mental que o auxilie na interpretação dos dados apresentados e no acompanhamento das mudanças sofridas pelo conjunto de dados. Esta tese introduz um algoritmo para a construção dinâmica de mapas de documentos, capaz de manter uma disposição coerente à medida que elementos são adicionados ou removidos. O processo, inerentemente incremental e de baixa complexidade, utiliza um espaço bidimensional dividido em células, análogo a um tabuleiro de xadrez. Resultados consistentes foram alcançados em comparação com técnicas não incrementais de projeção de dados multidimensionais, tendo sido a técnica aplicada também em outros domínios, além de conjuntos de documentos. A visualização resultante não está sujeita a problemas de oclusão. A identificação de áreas temáticas é alcançada com técnicas de extração de regras de associação representativas para a identificação automática de tópicos. A combinação da extração de tópicos com a projeção incremental de dados em um processo integrado de mineração visual de textos compõe um espaço visual em que tópicos e áreas de interesse são destacados e atualizados à medida que o conjunto de dados é modificado / Visual representations are often adopted to explore document collections, assisting in knowledge extraction, and avoiding the thorough analysis of thousands of documents. Document maps present individual documents in visual spaces in such a way that their placement reflects similarity relations or connections between them. Building these maps requires, among other tasks, placing each document and identifying interesting areas or subsets. A current challenge is to visualize dynamic data sets. In Information Visualization, adding and removing data elements can strongly impact the underlying visual space. That can prevent a user from preserving a mental map that could assist her/him on understanding the content of a growing collection of documents or tracking changes on the underlying data set. This thesis presents a novel algorithm to create dynamic document maps, capable of maintaining a coherent disposition of elements, even for completely renewed sets. The process is inherently incremental, has low complexity and places elements on a 2D grid, analogous to a chess board. Consistent results were obtained as compared to (non-incremental) multidimensional scaling solutions, even when applied to visualizing domains other than document collections. Moreover, the corresponding visualization is not susceptible to occlusion. To assist users in indentifying interesting subsets, a topic extraction technique based on association rule mining was also developed. Together, they create a visual space where topics and interesting subsets are highlighted and constantly updated as the data set changes
|
Page generated in 0.0806 seconds