• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 25
  • 19
  • 2
  • 2
  • 1
  • 1
  • 1
  • Tagged with
  • 56
  • 56
  • 32
  • 28
  • 26
  • 20
  • 18
  • 17
  • 14
  • 11
  • 8
  • 8
  • 7
  • 6
  • 6
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
31

Data mining of geospatial data: combining visual and automatic methods

Demšar, Urška January 2006 (has links)
<p>Most of the largest databases currently available have a strong geospatial component and contain potentially useful information which might be of value. The discipline concerned with extracting this information and knowledge is data mining. Knowledge discovery is performed by applying automatic algorithms which recognise patterns in the data.</p><p>Classical data mining algorithms assume that data are independently generated and identically distributed. Geospatial data are multidimensional, spatially autocorrelated and heterogeneous. These properties make classical data mining algorithms inappropriate for geospatial data, as their basic assumptions cease to be valid. Extracting knowledge from geospatial data therefore requires special approaches. One way to do that is to use visual data mining, where the data is presented in visual form for a human to perform the pattern recognition. When visual mining is applied to geospatial data, it is part of the discipline called exploratory geovisualisation.</p><p>Both automatic and visual data mining have their respective advantages. Computers can treat large amounts of data much faster than humans, while humans are able to recognise objects and visually explore data much more effectively than computers. A combination of visual and automatic data mining draws together human cognitive skills and computer efficiency and permits faster and more efficient knowledge discovery.</p><p>This thesis investigates if a combination of visual and automatic data mining is useful for exploration of geospatial data. Three case studies illustrate three different combinations of methods. Hierarchical clustering is combined with visual data mining for exploration of geographical metadata in the first case study. The second case study presents an attempt to explore an environmental dataset by a combination of visual mining and a Self-Organising Map. Spatial pre-processing and visual data mining methods were used in the third case study for emergency response data.</p><p>Contemporary system design methods involve user participation at all stages. These methods originated in the field of Human-Computer Interaction, but have been adapted for the geovisualisation issues related to spatial problem solving. Attention to user-centred design was present in all three case studies, but the principles were fully followed only for the third case study, where a usability assessment was performed using a combination of a formal evaluation and exploratory usability.</p>
32

Everyday mining : Exploring sequences in event-based data / Utforskning av sekvenser i händelsebaserade data

Vrotsou, Katerina January 2010 (has links)
Event-based data are encountered daily in many disciplines and are used for various purposes. They are collections of ordered sequences of events where each event has a start time and a duration. Examples of such data include medical records, internet surfing records, transaction records, industrial process or system control records, and activity diary data. This thesis is concerned with the exploration of event-based data, and in particular the identification and analysis of sequences within them. Sequences are interesting in this context since they enable the understanding of the evolving character of event data records over time. They can reveal trends, relationships and similarities across the data, allow for comparisons to be made within and between the records, and can also help predict forthcoming events.The presented work has researched methods for identifying and exploring such event-sequences which are based on modern visualization, interaction and data mining techniques. An interactive visualization environment that facilitates analysis and exploration of event-based data has been designed and developed, which permits a user to freely explore different aspects of this data and visually identify interesting features and trends. Visual data mining methods have been developed within this environment, that facilitate the automatic identification and exploration of interesting sequences as patterns. The first method makes use of a sequence mining algorithm that identifies sequences of events as patterns, in an iterative fashion, according to certain user-defined constraints. The resulting patterns can then be displayed and interactively explored by the user.The second method has been inspired by web-mining algorithms and the use of graph similarity. A tree-inspired visual exploration environment has been developed that allows a user to systematically and interactively explore interesting event-sequences.Having identified interesting sequences as patterns it becomes interesting to further explore how these are incorporated across the data and classify the records based on the similarities in the way these sequences are manifested within them. In the final method developed in this work, a set of similarity metrics has been identified for characterizing event-sequences, which are then used within a clustering algorithm in order to find similarly behavinggroups. The resulting clusters, as well as attributes of the clusteringparameters and data records, are displayed in a set of linked views allowing the user to interactively explore relationships within these. The research has been focused on the exploration of activity diary data for the study of individuals' time-use and has resulted in a powerful research tool facilitating understanding and thorough analysis of the complexity of everyday life.
33

Uma abordagem visual para apoio ao aprendizado multi-instâncias / A visual approach for support to multi-instances learning

Sonia Castelo Quispe 14 August 2015 (has links)
Aprendizado múltipla instância (MIL) é um paradigma de aprendizado de máquina que tem o objetivo de classificar um conjunto (bags) de objetos (instâncias), atribuindo rótulos só para os bags. Em MIL apenas os rótulos dos bags estão disponíveis para treinamento, enquanto os rótulos das instâncias são desconhecidos. Este problema é frequentemente abordado através da seleção de uma instância para representar cada bag, transformando um problema MIL em um problema de aprendizado supervisionado padrão. No entanto, não se conhecem abordagens que apoiem o usuário na realização desse processo. Neste trabalho, propomos uma visualização baseada em árvore multi-escala chamada MILTree que ajuda os usuários na realização de tarefas relacionadas com MIL, e também dois novos métodos de seleção de instâncias, chamados MILTree-SI e MILTree-Med, para melhorar os modelos MIL. MILTree é um layout de árvore de dois níveis, sendo que o primeiro projeta os bags, e o segundo nível projeta as instâncias pertencentes a cada bag, permitindo que o usuário explore e analise os dados multi-instância de uma forma intuitiva. Já os métodos de seleção de instãncias objetivam definir uma instância protótipo para cada bag, etapa crucial para a obtenção de uma alta precisão na classificação de dados multi-instância. Ambos os métodos utilizam o layout MILTree para atualizar visualmente as instâncias protótipo, e são capazes de lidar com conjuntos de dados binários e multi-classe. Para realizar a classificação dos bags, usamos um classificador SVM (Support Vector Machine). Além disso, com o apoio do layout MILTree também pode-se atualizar os modelos de classificação, alterando o conjunto de treinamento, a fim de obter uma melhor classificação. Os resultados experimentais validam a eficácia da nossa abordagem, mostrando que a mineração visual através da MILTree pode ajudar os usuários em cenários de classificação multi-instância. / Multiple-instance learning (MIL) is a paradigm of machine learning that aims at classifying a set (bags) of objects (instances), assigning labels only to the bags. In MIL, only the labels of bags are available for training while the labels of instances in bags are unknown. This problem is often addressed by selecting an instance to represent each bag, transforming a MIL problem into a standard supervised learning. However, there is no user support to assess this process. In this work, we propose a multi-scale tree-based visualization called MILTree that supports users in tasks related to MIL, and also two new instance selection methods called MILTree-SI and MILTree-Med to improve MIL models. MILTree is a two-level tree layout, where the first level projects bags, and the second level projects the instances belonging to each bag, allowing the user to understand the data multi-instance in an intuitive way. The developed selection methods define instance prototypes of each bag, which is important to achieve high accuracy in multi-instance classification. Both methods use the MILTree layout to visually update instance prototypes and can handle binary and multiple-class datasets. In order to classify the bags we use a SVM classifier. Moreover, with support of MILTree layout one can also update the classification model by changing the training set in order to obtain a better classifier. Experimental results validate the effectiveness of our approach, showing that visual mining by MILTree can help the users in MIL classification scenarios.
34

Mapeamento de dados multi-dimensionais - integrando mineração e visualização / Multidimensional data mapping - integrating mining and visualization

Fernando Vieira Paulovich 07 October 2008 (has links)
As técnicas de projeção ou posicionamento de pontos no plano, que servem para mapear dados multi-dimensionais em espaços visuais, sempre despertaram grande interesse da comunidade de visualização e análise de dados por representarem uma forma útil de exploração baseada em relações de similaridade e correlação. Apesar disso, muitos problemas ainda são encontrados em tais técnicas, limitando suas aplicações. Em especial, as técnicas de projeção multi-dimensional de maior qualidade têm custo computacional proibitivo para grandes conjuntos de dados. Adicionalmente, problemas referentes à escalabilidade visual, isto é, à capacidade da metáfora visual empregada de representar dados de forma compacta e amigável, são recorrentes. Esta tese trata o problema da projeção multi-dimensional de vários pontos de vista, propondo técnicas que resolvem, até certo ponto, cada um dos problemas verificados. Também é fato que a complexidade e o tamanho dos conjuntos de dados indicam que a visualização deve trabalhar em conjunto com técnicas de mineração, tanto embutidas no processo de mapeamento, como por meio de ferramentas auxiliares de interpretação. Nesta tese incorporamos alguns aspectos de mineração integrados ao processo de visualização multi-dimensional, principalmente na aplicação de projeções para visualização de coleções de documentos, propondo uma estratégia de extração de tópicos. Como suporte ao desenvolvimento e teste dessas técnicas, foram criados diferentes sistemas de software. O principal inclui as técnicas desenvolvidas e muitas das técnicas clássicas de projeção, podendo ser usado para exploração de conjuntos de dados multi-dimensionais em geral, com funcionalidade adicional para mapeamento de coleções de documentos. Como principal contribuição desta tese propomos um entendimento mais profundo dos problemas encontrados nas técnicas de projeção vigentes e o desenvolvimento de técnicas de projeção (ou mapeamento) que são rápidas, tratam adequadamente a formação visual de grupos de dados altamente similares, separam satisfatoriamente esses grupos no layout, e permitem a exploração dos dados em vários níveis de detalhe / Projection or point placement techniques, useful for mapping multidimensional data into visual spaces, have always risen interest in the visualization and data analysis communities because they can support data exploration based on similarity or correlation relations. Regardless of that interest, various problems arise when dealing with such techniques, impairing their widespread application. In particularly the projections that yield highest quality layouts have prohibitive computational cost for large data sets. Additionally, there are issues regarding visual scalability, i.e., the capability of visually fit the individual points in the exploration space as the data set grows large. This thesis treats the problems of projections from various perspectives, presenting novel techniques that solve, to certain extent, several of the verified problems. It is also a fact that size and complexity of data sets suggest the integration of data mining capabilities into the visualization pipeline, both during the mapping process and as a tools to extract additional information after the data have been layed out. This thesis also add some aspects of mining to the multidimensional visualization process, mainly for the particular application of analysis of document collections, proposing and implementing an approach for topic extraction. As supporting tools for testing these techniques and comparing them to existing ones different software systems were written. The main one includes the techniques developed here as well as several of the classical projection and dimensional reduction techniques, and can be used for exploring various kinds of data sets, with addition functionality to support the mapping of document collections. This thesis contributes to the understanding of the projection or mapping problem and develops new techniques that are fast, treat adequately the visual formation of groups of highly related data items, separate those groups properly and allow exploration of data in various levels of detail
35

Visualização de operações de junção em sistemas de bases de dados para mineração de dados. / Visualization of join operations in DBMS for data mining.

Maria Camila Nardini Barioni 13 June 2002 (has links)
Nas últimas décadas, a capacidade das empresas de gerar e coletar informações aumentou rapidamente. Essa explosão no volume de dados gerou a necessidade do desenvolvimento de novas técnicas e ferramentas que pudessem, além de processar essa enorme quantidade de dados, permitir sua análise para a descoberta de informações úteis, de maneira inteligente e automática. Isso fez surgir um proeminente campo de pesquisa para a extração de informação em bases de dados denominado Knowledge Discovery in Databases – KDD, no geral técnicas de mineração de dados – DM – têm um papel preponderante. A obtenção de bons resultados na etapa de mineração de dados depende fortemente de quão adequadamente o preparo dos dados é realizado. Sendo assim, a etapa de extração de conhecimento (DM) no processo de KDD, é normalmente precedida de uma etapa de pré-processamento, onde os dados que porventura devam ser submetidos à etapa de DM são integrados em uma única relação. Um problema importante enfrentado nessa etapa é que, na maioria das vezes, o usuário ainda não tem uma idéia muito precisa dos dados que devem ser extraídos. Levando em consideração a grande habilidade de exploração da mente humana, este trabalho propõe uma técnica de visualização de dados armazenados em múltiplas relações de uma base de dados relacional, com o intuito de auxiliar o usuário na preparação dos dados a serem minerados. Esta técnica permite que a etapa de DM seja aplicada sobre múltiplas relações simultaneamente, trazendo as operações de junção para serem parte desta etapa. De uma maneira geral, a adoção de junções em ferramentas de DM não é prática, devido ao alto custo computacional associado às operações de junção. Entretanto, os resultados obtidos nas avaliações de desempenho da técnica proposta neste trabalho mostraram que ela reduz esse custo significativamente, tornando possível a exploração visual de múltiplas relações de uma maneira interativa. / In the last decades the capacity of information generation and accumulation increased quickly. With the explosive growth in the volume of data, new techniques and tools are being sought to process it and to automatically discover useful information from it, leading to techniques known as Knowledge Discovery in Databases – KDD – where, in general, data mining – DM – techniques play an important role. The results of applying data mining techniques on datasets are highly dependent on proper data preparation. Therefore, in traditional DM processes, data goes through a pre-processing step that results in just one table that is submitted to mining. An important problem faced during this step is that, most of the times, the analyst doesn’t have a clear idea of what portions of data should be mined. This work reckons the strong ability of human beings to interpret data represented in graphical format, to develop a technique to visualize data from multiple tables, helping human analysts when preparing data to DM. This technique allows the data mining process to be applied over multiple relations at once, bringing the join operations to become part of this process. In general, the use of multiple tables in DM tools is not practical, due to the high computational cost required to explore them. Experimental evaluation of the proposed technique shows that it reduces this cost significantly, turning it possible to visually explore data from multiple tables in an interactive way.
36

Design espacial-perceptivo: uma nova compreensão para representações visuais interativas / Spatial-perceptual design: a new comprehension for interactive visual representations

José Fernando Rodrigues Junior 17 July 2007 (has links)
Esta tese apresenta um arcabouço teórico para auxiliar o estudo e o projeto de técnicas de visualização interativa de dados. Tais técnicas, tradicionalmente, têm sido projetadas baseando-se na experiência dos analistas desenvolvedores. Muitos trabalhos, todavia, têm procurado desenvolver um espaço de compreensão coerente para explicar como as visualizações são compostas e para permitir a predição de novas abordagens para técnicas de visualização. No entanto, propostas precursoras apresentam inadequações, não sendo capazes nem de fomentar novas sistematizações nem de explicar a concepção das técnicas mais recentes encontradas na literatura. Numa etapa inicial, esta tese revê conceitos em visualização, percepção e cognição procurando explicar como a análise visual de dados funciona. A revisão destes trabalhos é sintetizada em um processo de expressividade visual que correlaciona estímulos pré-atentivos, percepção visual analítica e interpretação cognitiva. Em seguida, após uma extensa revisão de trabalhos relacionados, a discussão prossegue definindo um plano de teorização da constituição dos métodos de representação visual de dados. Este plano impulsiona o desenvolvimento de uma sistematização inicial na forma de uma taxonomia capaz de caracterizar os constituintes pré-atentivos das visualizações. Esta caracterização é orientada à percepção visual analítica, que é parte do processo de expressividade visual. Desta maneira, em uma abordagem orientada a percepções visuais, as técnicas de visualização são classificadas de acordo com um conjunto limitado de características comuns e de processos de espacialização de dados. O próximo passo da discussão prossegue para a construção de um espaço de design com dimensões de posição, forma e cor. O espaço proposto, denominado Espaço de Design Espacial- Perceptivo, considera a possibilidade de múltiplos ciclos de espacialização de dados e também técnicas de interação. Baseando-se no espaço de design introduzido, a tese apresenta um modelo para a definição de parâmetros para o design de visualizações. Este modelo, que é um primeiro resultado da aplicação dos conceitos apresentados, prevê uma ferramenta para a definição, apresentação automática e avaliação empírica de representações visuais de dados. O trabalho é encerrado com a descrição de dois sistemas completos para a visualização de grafos e de dados multi variados. Assim, na última parte do texto, os sistemas GMine e VisTree são formalmente apresentados e analisados como estudos de caso à luz da teoria desenvolvida na tese / This thesis presents a theoretical framework to assist the study and the design of interactive data visualization techniques. Traditionally, visualization techniques have been designed based on analysts? experience. Many works, though, have sought to develop a coherent comprehension space to explain how visualizations are composed and to allow the prediction of new approaches for visualization techniques. However, precursor proposals present inadequacies and have not been able neither to furnish new systematizations nor to explain late techniques found in literature. In an initial step, this thesis reviews concepts on visualization, perception and cognition aiming at explaining how visual data analyses work. The revision of these works is synthesized in a process of visual expressivity that interrelates pre-attentive stimuli, analytical visual perception and cognitive interpretation. Then, after an extensive revision of related works, the discussion proceeds by structuring a plan for theorizing the constitution of methods for data visual representation. This plan furnishes the development of an initial systematization in the form of a taxonomy that characterizes the pre-attentive constituents of visualizations. This characterization considers visual analytical perceptions, which are part of the processes of visual expressivity. Like so, in a perceptions oriented approach, visualization techniques are classified according to a limited set of common characteristics and to data spatialization processes. The next step in the discussion proceeds to the construction of a space with dimensions position, shape and color. The proposed space is named Spatial/Perceptual Design Space, it considers the possibility of multiple cycles of data spatialization and also interaction techniques. Based on the design space just introduced, this thesis presents a model for the definition of parameters for visualization design. This model, which is a first result of the application of the presented concepts, foresees a tool for the definition, automatic presentation and empirical evaluation of visual data representations. The work is finished with the description of two complete systems for the visualization of graphs and multivariate data. Hence, in the last part of the text, systems GMine and VisTree are formally presented and analyzed as study cases under the light of the theory introduced in the thesis
37

Projeção multidimensional aplicada a visualização de resultados de busca textual / Multidimensional projection applied to textual search results visualization

Erick Mauricio Gómez Nieto 30 August 2012 (has links)
Usuários da Internet estão muito familiarizados que resultados de uma consulta sejam exibidos como uma lista ordenada de snippets. Cada snippet possui conteúdo textual que mostra um resumo do documento referido (ou página web) e um link para o mesmo. Esta representação tem muitas vantagens como, por exemplo, proporcionar uma navegação fácil e simples de interpretar. No entanto, qualquer usuário que usa motores de busca poderia reportar possivelmente alguma experiência de decepção com este modelo. Todavia, ela tem limitações em situações particulares, como o não fornecimento de uma visão geral da coleção de documentos recuperados. Além disso, dependendo da natureza da consulta - por exemplo, pode ser muito geral, ou ambígua, ou mal expressa - a informação desejada pode ser mal classificada, ou os resultados podem contemplar temas variados. Várias tarefas de busca seriam mais fáceis se fosse devolvida aos usuários uma visão geral dos documentos organizados de modo a refletir a forma como são relacionados, em relação ao conteúdo. Propomos uma técnica de visualização para exibir os resultados de consultas web que visa superar tais limitações. Ela combina a capacidade de preservação de vizinhança das projeções multidimensionais com a conhecida representação baseada em snippets. Essa visualização emprega uma projeção multidimensional para derivar layouts bidimensionais dos resultados da pesquisa, que preservam as relações de similaridade de texto, ou vizinhança. A similaridade é calculada mediante a aplicação da similaridade do cosseno sobre uma representação bag-of-words vetorial de coleções construídas a partir dos snippets. Se os snippets são exibidos diretamente de acordo com o layout derivado, eles se sobrepõem consideravelmente, produzindo uma visualização pobre. Nós superamos esse problema definindo uma energia funcional que considera tanto a sobreposição entre os snippets e a preservação da estrutura de vizinhanças como foi dada no layout da projeção. Minimizando esta energia funcional é fornecida uma representação bidimensional com preservação das vizinhanças dos snippets textuais com sobreposição mínima. A visualização transmite tanto uma visão global dos resultados da consulta como os agrupamentos visuais que refletem documentos relacionados, como é ilustrado em vários dos exemplos apresentados / Internet users are very familiar with the results of a search query displayed as a ranked list of snippets. Each textual snippet shows a content summary of the referred document (or web page) and a link to it. This display has many advantages, e.g., it affords easy navigation and is straightforward to interpret. Nonetheless, any user of search engines could possibly report some experience of disappointment with this metaphor. Indeed, it has limitations in particular situations, as it fails to provide an overview of the document collection retrieved. Moreover, depending on the nature of the query - e.g., it may be too general, or ambiguous, or ill expressed - the desired information may be poorly ranked, or results may contemplate varied topics. Several search tasks would be easier if users were shown an overview of the returned documents, organized so as to reflect how related they are, content-wise. We propose a visualization technique to display the results of web queries aimed at overcoming such limitations. It combines the neighborhood preservation capability of multidimensional projections with the familiar snippet-based representation by employing a multidimensional projection to derive two-dimensional layouts of the query search results that preserve text similarity relations, or neighborhoods. Similarity is computed by applying the cosine similarity over a bag-of-words vector representation of collection built from the snippets. If the snippets are displayed directly according to the derived layout they will overlap considerably, producing a poor visualization. We overcome this problem by defining an energy functional that considers both the overlapping amongst snippets and the preservation of the neighborhood structure as given in vii the projected layout. Minimizing this energy functional provides a neighborhood preserving two-dimensional arrangement of the textual snippets with minimum overlap. The resulting visualization conveys both a global view of the query results and visual groupings that reflect related results, as illustrated in several examples shown
38

Visualização como suporte à extração e exploração de regras de associação / Vusualization as support to the extraction and exploration of association rules

Yamamoto, Claudio Haruo 17 April 2009 (has links)
Desde a definção do problema de obtenção de regras de associação, vários algoritmos eficientes foram introduzidos para tratá-lo. Entretanto, ainda hoje o problema apresenta várias dificuldades práticas para os mineradores, como a determinação de limiares adequados de suporte mínimo e confiança mínima, a manipulação de grandes conjuntos de regras, e a compreensão de regras (especialmente aquelas contendo muitos itens). Para tratar estes problemas, pesquisadores têm investigado a aplicação de técnicas interativas, sumarização (de conjuntos de regras) e representações visuais. Entretanto, nenhuma abordagem na qual os usuários podem entender e controlar o processo por meio da interação com o algoritmo analítico ao longo de sua execução foi introduzida. Neste trabalho, é introduzida uma abordagem interativa para extração e exploração de regras de associação que insere o usuário no processo por meio de: execução interativa do Apriori ; seleção interativa de itemsets freqüentes; extração de regras baseada em itemsets e orientada por agrupamentos de itemsets similares; e exploração de regras aos pares. Para validar a abordagem, foram realizados diversos estudos, apoiados pelo Sistema \'I IND.2\' E, com o objetivo de: comparar a abordagem interativa, sob diversos aspectos, com uma abordagem convencional de obtenção de regras de associação; avaliar o efeito de variar alguns parâmetros do processo nos resultados finais; e mostrar a aplicação dos recursos oferecidos em situações reais e com usuários reais. Os resultados indicam que a abordagem apresentada é adequada, tanto em cenários exploratórios quanto em cenários em que há um direcionamento inicial para o processo, à execução de certas tarefas de extração de regras de associação, pois: provém recursos capazes de evitar execuções inteiras do algoritmo antes que os resultados sejam analisados; gera conjuntos de regras mais compactos; preserva a cobertura de itemsets; favorece a reformulação de tarefas ou a formulação de novas tarefas; e provê meios para comparação visual de regras, aumentando o poder de análise do minerador / Since the definition of the association rule mining problem, many efficient algorithms have been introduced to deal with it. However, the problem still presents many practical difficulties to the miners, such as the determination of suitable minimum support and minimum confidence thresholds, manipulation of large rule sets, and comprehension of rules (specially those containing many items). In order to deal with these problems, researchers have been investigating the application of interactive techniques, sumarization (of rule sets) and visual representations. Nonetheless, no approach in which users can understand and control the process through interaction with the analytical algorithm along its execution has been introduced. We introduce an interactive approach to extract and explore association rules that inserts the user into the process through: interactive execution of the Apriori ; interactive selection of frequent itemsets; itemset-based and cluster-oriented extraction of rules; and pairwise exploration of rules. To validate the approach, several studies have been conducted, supported by the \'I IND.2\' E System, aiming at: comparing the interactive approach, under several aspects, with a conventional approach to obtain association rules; evaluate the effect of different execution parameters in the final results; and illustrate its application in real situations and with real users. Results of these studies indicate that the approach is adequate, both in exploratory scenarios and in scenarios in which there is an initial guidance for the process, to the execution of certain association rule extraction tasks, because: it provides resources to avoid complete algorithm executions before results are analyzed; generates more compact rule sets for exploration; preserves rule diversity; favors the reformulation of tasks; and provides support for rule comparison, enhancing analysis capability for miners
39

Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos / An incremental space for visual mining of dynamic document collections

Pinho, Roberto Dantas de 05 June 2009 (has links)
Representações visuais têm sido adotadas na exploração de conjuntos de documentos, auxiliando a extração de conhecimento sem que seja necessária a análise individual de milhares de textos. Mapas de documentos, em particular, apresentam documentos individualmente representados espalhados em um espaço visual, refletindo suas relações de similaridade ou conexões. A construção destes mapas de documentos inclui, entre outras tarefas, o posicionamento dos textos e a identificação automática de áreas temáticas. Um desafio é a visualização de conjuntos dinâmicos de documentos. Na visualização de informação, é comum que alterações no conjunto de dados tenham um forte impacto na organização do espaço visual, dificultando a manutenção, por parte do usuário, de um mapa mental que o auxilie na interpretação dos dados apresentados e no acompanhamento das mudanças sofridas pelo conjunto de dados. Esta tese introduz um algoritmo para a construção dinâmica de mapas de documentos, capaz de manter uma disposição coerente à medida que elementos são adicionados ou removidos. O processo, inerentemente incremental e de baixa complexidade, utiliza um espaço bidimensional dividido em células, análogo a um tabuleiro de xadrez. Resultados consistentes foram alcançados em comparação com técnicas não incrementais de projeção de dados multidimensionais, tendo sido a técnica aplicada também em outros domínios, além de conjuntos de documentos. A visualização resultante não está sujeita a problemas de oclusão. A identificação de áreas temáticas é alcançada com técnicas de extração de regras de associação representativas para a identificação automática de tópicos. A combinação da extração de tópicos com a projeção incremental de dados em um processo integrado de mineração visual de textos compõe um espaço visual em que tópicos e áreas de interesse são destacados e atualizados à medida que o conjunto de dados é modificado / Visual representations are often adopted to explore document collections, assisting in knowledge extraction, and avoiding the thorough analysis of thousands of documents. Document maps present individual documents in visual spaces in such a way that their placement reflects similarity relations or connections between them. Building these maps requires, among other tasks, placing each document and identifying interesting areas or subsets. A current challenge is to visualize dynamic data sets. In Information Visualization, adding and removing data elements can strongly impact the underlying visual space. That can prevent a user from preserving a mental map that could assist her/him on understanding the content of a growing collection of documents or tracking changes on the underlying data set. This thesis presents a novel algorithm to create dynamic document maps, capable of maintaining a coherent disposition of elements, even for completely renewed sets. The process is inherently incremental, has low complexity and places elements on a 2D grid, analogous to a chess board. Consistent results were obtained as compared to (non-incremental) multidimensional scaling solutions, even when applied to visualizing domains other than document collections. Moreover, the corresponding visualization is not susceptible to occlusion. To assist users in indentifying interesting subsets, a topic extraction technique based on association rule mining was also developed. Together, they create a visual space where topics and interesting subsets are highlighted and constantly updated as the data set changes
40

"Visualizações temporais em uma plataforma de software extensível e adaptável" / "Temporal visualizations in an extensible and adaptable software platform"

Shimabukuro, Milton Hirokazu 05 July 2004 (has links)
Repositórios com volumes de dados cada vez maiores foram viabilizados pelo desenvolvimento tecnológico, criando importantes fontes de informação em diversas áreas da atividade humana. Esses repositórios freqüentemente incluem informação sobre o comportamento temporal e o posicionamento espacial dos itens neles representados, os quais são extremamente relevantes para a análise dos dados. O processo de descoberta de conhecimento a partir de grandes volumes de dados tem sido objeto de estudo em diversas disciplinas, dentre elas a Visualização de Informação, cujas técnicas podem apoiar diversas etapas desse processo. Esta tese versa sobre o uso da Visualização Exploratória em conjuntos de dados com atributos temporais e espaciais, empregando a estratégia de múltiplas visualizações coordenadas para apoiar o tratamento de dados em estágios iniciais de processos de descoberta de conhecimento. São propostas duas novas representações visuais temporais – denominadas ‘Variação Temporal Uni-escala’ e ‘Variação Temporal Multi-escala’ – para apoiar a análise exploratória de dados temporais. Adicionalmente, é proposto um modelo de arquitetura de software – AdaptaVis, que permite a integração dessas e outras representações visuais em uma plataforma de visualização de informação flexível, extensível e adaptável às necessidades de diferentes usuários, tarefas e domínios de aplicação – a plataforma InfoVis. Sessões de uso realizadas com dados e usuários reais dos domínios de Climatologia e Negócios permitiram validar empiricamente as representações visuais e o modelo. O modelo AdaptaVis e a plataforma InfoVis estabelecem bases para a continuidade de diversas pesquisas em Visualização de Informação, particularmente o estudo de aspectos relacionados ao uso coordenado de múltiplas visualizações, à modelagem do processo de coordenação, e à integração entre múltiplas técnicas visuais e analíticas. / Data repositories with ever increasing volumes have been made possible by the evolution in data collection technologies, creating important sources of information in several fields of human activity. Such data repositories often include information about both the temporal behavior and the spatial positioning of data items that will be relevant in future data analysis tasks. The process of discovering knowledge embedded in great volumes of data is a topic of study in several disciplines, including Information Visualization, which offers a range of techniques to support different stages of a discovery process. This thesis addresses the application of Exploratory Visualization techniques on datasets with temporal and spatial attributes, using the strategy of coordinating multiple data views, to assist data treatment on early stages of knowledge discovery processes. Two temporal visual representations are proposed – ‘Uni-scale Temporal Behavior’ and ‘Multi-scale Temporal Behavior’ – that support the exploratory analysis of temporal data. Moreover, a software architecture model is introduced – AdaptaVis, that allows the integration of these and other visualization techniques into a flexible, extensible and adaptable information visualization platform – called InfoVis – that may be tailored to meet the requirements of different users, tasks and application domains. Sessions conducted with real data and users from the Climatology and Business application domains allowed an empirical validation of both the visual representations and the model. The AdaptaVis model and the InfoVis platform establish the basis for further research on issues related to the coordinated use of multiple data views, the modeling of the coordination process and the integration amongst multiple visual and analytical techniques.

Page generated in 0.0596 seconds