Spelling suggestions: "subject:"dados multidimensional""
1 |
Explanatory visualization of multidimensional prejections / Visualização explanatória de projeções multidimensionaisMartins, Rafael Messias 11 March 2016 (has links)
Visual analytics tools play an important role in the scenario of big data solutions, combining data analysis and interactive visualization techniques in effective ways to support the incremental exploration of large data collections from a wide range of domains. One particular challenge for visual analytics is the analysis of multidimensional datasets, which consist of many observations, each being described by a large number of dimensions, or attributes. Finding and understanding data-related patterns present in such spaces, such as trends, correlations, groups of related observations, and outliers, is hard. Dimensionality reduction methods, or projections, can be used to construct low (two or three) dimensional representations of high-dimensional datasets. The resulting representation can then be used as a proxy for the visual interpretation of the high-dimensional space to efficiently and effectively support the above-mentioned data analysis tasks. Projections have important advantages over other visualization techniques for multidimensional data, such as visual scalability, high degree of robustness to noise and low computational complexity. However, a major obstacle to the effective practical usage of projections relates to their difficult interpretation. Two main types of interpretation challenges for projections are studied in this thesis. First, while projection techniques aim to preserve the so-called structure of the original dataset in the final produced layout, and effectively achieve the proxy effect mentioned earlier, they may introduce a certain amount of errors that influence the interpretation of their results. However, it is hard to convey to users where such errors occur in the projection, how large they are, and which specific data-interpretation aspects they affect. Secondly, interpreting the visual patterns that appear in the projection space is far from trivial, beyond the projections ability to show groups of similar observations. In particular, it is hard to explain these patterns in terms of the meaning of the original data dimensions. In this thesis we focus on the design and development of novel visual explanatory techniques to address the two interpretation challenges of multidimensional projections outlined above. We propose several methods to quantify, classify, and visually represent several types of projection errors, and how their explicit depiction helps interpreting data patterns. Next we show how projections can be visually explained in terms of the highdimensional data attributes, both in a global and a local way. Our proposals are designed to be easily added, and used with, any projection technique, and in any application context using such techniques. Their added value is demonstrated by presenting several exploration scenarios involving various types of multidimensional datasets, ranging from measurements, scientific simulations, software quality metrics, software system structure, and networks. / Ferramentas de análise visual desempenham um papel importante no cenário de soluções para grandes volumes de dados (big data), combinando análise de dados e técnicas interativas de visualização de forma eficaz para apoiar a exploração incremental de coleções de dados em diversos domínios. Um desafio importante em análise visual é a exploração de conjuntos de dados multidimensionais, que consistem em muitas observações, sendo cada uma descrita por um grande número de dimensões, ou atributos. Encontrar e compreender os padrões presentes em tais espaços, tais como tendências, correlações, grupos de observações relacionadas e valores extremos, é difícil. Técnicas de redução de dimensionalidade ou projeções são utilizadas para construir, a partir de conjuntos de dados multidimensionais, representações de duas ou três dimensões que podem então ser utilizadas com substitutas do espaço original para sua interpretação visual, apoiando de forma eficiente as tarefas de análise de dados acima mencionadas. Projeções apresentam vantagens importantes sobre outras técnicas de visualização para dados multidimensionais, tais como escalabilidade visual, resistência a ruídos e baixa complexidade computacional. No entanto, um grande obstáculo para o uso prático de projeções vem da sua difícil interpretação. Dois principais tipos de desafios de interpretação de projeções são estudados nesta tese. Em primeiro lugar, mesmo que as técnicas de projeção tenham como objetivo preservar, na representação final, a estrutura do conjunto de dados original, elas podem introduzir uma certa quantidade de erros que influenciam a interpretação dos seus resultados. No entanto, é difícil transmitir aos usuários onde tais erros ocorrem na projeção, quão severos eles são e que aspectos específicos da interpretação dos dados eles afetam. Em segundo lugar, interpretar os padrões visuais que aparecem em uma projeção, além da percepção de grupos de observações semelhantes, está longe de ser trivial. Em particular, é difícil explicar tais padrões em termos do significado das dimensões dos dados originais. O trabalho desenvolvido nesta tese concentra-se no projeto e desenvolvimento de novas técnicas visuais explicativas para lidar com os dois desafios de interpretação de projeções multidimensionais descritos acima. São propostos alguns métodos para quantificar, classificar e representar visualmente diversos tipos de erros de projeção, e é descrito como essas representações explícitas ajudam na interpretação dos padrões dos dados. Além disso, também são propostas técnicas visuais para explicar projeções em termos dos atributos dos dados multidimensionais, tanto de forma global quanto local. As propostas apresentadas foram concebidas para serem facilmente incorporadas e usadas com qualquer técnica de projeção e em qualquer contexto de aplicação. As contribuições são demonstradas pela apresentação de vários cenários de exploração, envolvendo vários tipos de conjuntos de dados multidimensionais, desde medições e simulações científicas até métricas de qualidade de software, estruturas de sistema de software e redes.
|
2 |
Mapas auto - organizáveis de kohonen(SOM) aplicados na avaliação dos parâmetros da qualidade da água / Self - organizing maps of Kohonen (SOM) applied in the evaluation of parameters of water qualityAffonso, Gustavo Souza 16 August 2011 (has links)
A atual crescente necessidade de análise de coleções de dados cada vez mais complexas e extensas, nas diversas áreas da investigação científica, tem permitido o desenvolvimento de novas ferramentas para a melhoria da percepção de informações que nem sempre são explícitas e visíveis. Estudos de ferramentas matemáticas que propiciem o destaque de algumas destas informações, ou que inteligentemente reconheçam padrões associados aos diferentes conjuntos de dados, têm demonstrado resultados promissores. No entanto, o sucesso da escolha da metodologia apropriada para a análise dos dados, está vinculado a vários fatores como: a tecnologia disponível para a prospecção destes dados, a adequada coleta e seleção das amostras, e principalmente, a capacidade do pesquisador em interagir com a nova tecnologia de exploração. No presente projeto, é proposta uma metodologia de análise multidimensional dos dados de unidades de gerenciamento de recursos hídricos UGRHIs, localizadas no estado de São Paulo, por meio das redes neurais SOM (Mapas Auto-Organizáveis). Estes mapas são utilizados para estudar e visualizar possíveis correlações entre as diversas variáveis deste banco de dados relativas à análise de compostos inorgânicos e parâmetros físico químicos referentes à qualidade da água nestas unidades. / The current increasingly need for data analysis on larger and more complex data collections, in many different areas of scientific research, has induced the development of new tools for the perception improvement of information that not always is explicit and visible at first. Studies of mathematical tools which could enable the highlight of some of this information, or should intelligently recognize patterns associated with these different data collection, have been showing promising results. However, the success of the choice of the appropriate analysis method is associated with several factors: the available technology for this data exploration, the correct gathering and selection of samples, and mainly, the researcher ability to interact with the new exploration technology. In this project we propose a methodology for analyzing multidimensional data from Water Resources Management Units (WRMUs), which are located in São Paulo state, through Self - Organizing Maps (SOM) neural networks. These maps are used to study and visualize possible correlations between the different variables existent in this database, which are derived from analysis of inorganic and physical - chemical parameters related to WRMUs water quality
|
3 |
Mapas auto - organizáveis de kohonen(SOM) aplicados na avaliação dos parâmetros da qualidade da água / Self - organizing maps of Kohonen (SOM) applied in the evaluation of parameters of water qualityGustavo Souza Affonso 16 August 2011 (has links)
A atual crescente necessidade de análise de coleções de dados cada vez mais complexas e extensas, nas diversas áreas da investigação científica, tem permitido o desenvolvimento de novas ferramentas para a melhoria da percepção de informações que nem sempre são explícitas e visíveis. Estudos de ferramentas matemáticas que propiciem o destaque de algumas destas informações, ou que inteligentemente reconheçam padrões associados aos diferentes conjuntos de dados, têm demonstrado resultados promissores. No entanto, o sucesso da escolha da metodologia apropriada para a análise dos dados, está vinculado a vários fatores como: a tecnologia disponível para a prospecção destes dados, a adequada coleta e seleção das amostras, e principalmente, a capacidade do pesquisador em interagir com a nova tecnologia de exploração. No presente projeto, é proposta uma metodologia de análise multidimensional dos dados de unidades de gerenciamento de recursos hídricos UGRHIs, localizadas no estado de São Paulo, por meio das redes neurais SOM (Mapas Auto-Organizáveis). Estes mapas são utilizados para estudar e visualizar possíveis correlações entre as diversas variáveis deste banco de dados relativas à análise de compostos inorgânicos e parâmetros físico químicos referentes à qualidade da água nestas unidades. / The current increasingly need for data analysis on larger and more complex data collections, in many different areas of scientific research, has induced the development of new tools for the perception improvement of information that not always is explicit and visible at first. Studies of mathematical tools which could enable the highlight of some of this information, or should intelligently recognize patterns associated with these different data collection, have been showing promising results. However, the success of the choice of the appropriate analysis method is associated with several factors: the available technology for this data exploration, the correct gathering and selection of samples, and mainly, the researcher ability to interact with the new exploration technology. In this project we propose a methodology for analyzing multidimensional data from Water Resources Management Units (WRMUs), which are located in São Paulo state, through Self - Organizing Maps (SOM) neural networks. These maps are used to study and visualize possible correlations between the different variables existent in this database, which are derived from analysis of inorganic and physical - chemical parameters related to WRMUs water quality
|
4 |
Visualizing multidimensional data similarities: improvements and applications / Visualizando similaridades em dados multidimensionais: melhorias e aplicaçõesSilva, Renato Rodrigues Oliveira da 05 December 2016 (has links)
Multidimensional datasetsare increasingly more prominent and important in data science and many application domains. Such datasets typically consist of a large set of observations, or data points, each which is described by several measurements, or dimensions. During the design of techniques and tools to process such datasets, a key component is to gather insights into their structure and patterns, a goal which is targeted by multidimensional visualization methods. Structures and patterns of high-dimensional data can be described, at a core level, by the notion of similarity of observations. Hence, to visualize such patterns, we need effective and efficient ways to depict similarity relations between a large number of observations, each having a potentially large number of dimensions. Within the realm of multidimensional visualization methods, two classes of techniques exist projections and similarity trees which effectively capture similarity patterns and also scale well to the number of observations and dimensions of the data. However, while such techniques show similarity patterns, understanding and interpreting these patterns in terms of the original data dimensions is still hard. This thesis addresses the development of visual explanatory techniques for the easy interpretation of similarity patterns present in multidimensional projections and similarity trees, by several contributions. First, we proposemethodsthat make the computation of similarity treesefficient for large datasets, and also allow their visual explanation on a multiscale, or several levels of detail. We also propose ways to construct simplified representations of similarity trees, thereby extending their visual scalability even further. Secondly, we propose methods for the visual explanation of multidimensional projections in terms of automatically detected groups of related observations which are also automatically annotated in terms of their similarity in the high-dimensional data space. We show next how these explanatory mechanismscan be adapted to handle both static and time-dependent multidimensional datasets. Our proposed techniques are designed to be easy to use, work nearly automatically, handle any typesof quantitativemultidimensional datasets and multidimensional projection techniques, and are demonstrated on a variety of real-world large datasets obtained from image collections, text archives, scientific measurements, and software engineeering. / Conjuntos de dados multidimensionais são cada vez mais proeminentes e importantes em data science e muitos domínios de aplicação. Esses conjuntos de dados são tipicamente constituídos de um grande número de observações, ou objetos, cada qual descrito por várias medidas, ou dimensões. Durante o projeto de técnicas e ferramentas para processar tais dados, um dos focos principais é prover meios para análise e levantamento de hipóteses a partir das principais estruturas e padrões. Esse objetivo é perseguido por métodos de visualização multidimensional. Estruturas e padrões em dados multidimensionais podem ser descritos, em linhas gerais, pela noção de similaridade das observações. Portanto, para visualizar esses padrões, precisamos de meios efetivos e eficientes para retratar relações de similaridade dentre um grande número de observações, que potencialmente possuem um grande número de dimensões cada. No contexto dos métodos de visualização multidimensional, existem duas categorias de técnicas projeções e árvores de similaridade que efetivamente capturam padrões de similaridade e oferecem boa escalabilidade, tanto para o número de observações e quanto de dimensões. No entanto, embora essas técnicas exibam padrões de similaridade, o entendimento e interpretação desses padrões, em termos das dimensões originais dos dados, ainda é difícil. O trabalho desenvolvido nessa tese visa o desenvolvimento de técnicas explicativas para a fácil interpretação de padrões de similaridade presentes em projeções multidimensionais e árvores de similaridade. Primeiro, propomos métodos que possibilitam a computação eficiente de árvores de similaridade para grandes conjuntos de dados, e também a sua explicação visual em multiescala, ou seja, em vários níveis de detalhe. Também propomos modos de construir representações simplificadas de árvores de similaridade, e desse modo estender ainda mais a sua escalabilidade visual. Segundo, propomos métodos para explicar visualmente projeções multidimensionais em termos de grupos de observações relacionadas, detectadas e anotadas automaticamente para explicitar aspectos de sua similaridade no espaço de alta dimensionalidade. Mostramos em seguida como esses mecanismos explicativos podem ser adaptados para lidar com dados de natureza estática e dependentes no tempo. Nossas técnicas sã construídas visando fácil utilização, funcionamento semi automático, aplicação em quaisquer tipos de dados multidimensionais quantitativos e quaisquer técnicas de projeção multidimensional. Demonstramos a sua utilização em uma variedade de conjuntos de dados reais, obtidos a partir de coleções de imagens, arquivos textuais, medições científicas e de engenharia de software.
|
5 |
Uma abordagem de visualização híbrida para apoiar a exploração de conjuntos de dados / A hybrid visualization approach to support the exploration of data setsSilva, Lenon Fachiano 22 January 2018 (has links)
Submitted by Lenon Fachiano (lenon_fachiano@hotmail.com) on 2018-05-09T17:37:15Z
No. of bitstreams: 1
abntex2-LenonFachiano.pdf: 5626662 bytes, checksum: e8f64d248c338cf11e9e65b08961374f (MD5) / Approved for entry into archive by Elza Mitiko Sato null (elzasato@ibilce.unesp.br) on 2018-05-09T17:50:40Z (GMT) No. of bitstreams: 1
silva_lf_me_sjrp_int.pdf: 5626662 bytes, checksum: e8f64d248c338cf11e9e65b08961374f (MD5) / Made available in DSpace on 2018-05-09T17:50:40Z (GMT). No. of bitstreams: 1
silva_lf_me_sjrp_int.pdf: 5626662 bytes, checksum: e8f64d248c338cf11e9e65b08961374f (MD5)
Previous issue date: 2018-01-22 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / Técnicas de visualização têm sido largamente utilizadas na exploração de conjuntos de dados. Uma estratégia comum é empregar diferentes técnicas para facilitar a investigação, permitindo que o usuário tenha diferentes perspectivas de um mesmo conjunto de dados. Nessas situações, um mecanismo de coordenação auxilia o usuário na troca de contexto entre diferentes visões. Adicionalmente, uma estratégia adotada por algumas abordagens é a de combinar diferentes técnicas de visualização em uma única visão, criando uma visualização híbrida. Este trabalho apresenta o desenvolvimento de uma abordagem de visualização híbrida que utiliza uma técnica de visualização para destacar o relacionamento entre instâncias com outra técnica de visualização para destacar o relacionamento entre atributos. Como resultado, foi obtida uma metodologia de combinação de técnicas que apoia o processo de exploração de conjuntos de dados multidimensionais e auxilia no entendimento do espaço de característica, permitindo a detecção de fronteiras compartilhadas entre agrupamentos e a resolução de problemas de rotulação. / Visualization Techniques have been widely used in the exploration of datasets. A common strategy is to employ different techniques to facilitate research, allowing the user to have different perspectives from the same dataset. In these situations, a coordination mechanism helps the user in the exchange of context between different visions. In addition, a strategy adopted by some approaches is to combine different visualizations into a single view, creating a hybrid visualization. This paper shows the development of a hybrid visualization approach that uses a visualization technique to highlight the relationship between instances with another to highlight the relationship between attributes. This approach supports the process of exploring multidimensional datasets and assists in understanding the featuring space, allowing the detection of shared boundaries between groupings and the resolution of labeling problems. As a result, a methodology combining techniques was developed that supports the process of exploring multidimensional data sets and helps in understanding the characteristic space, allowing the detection of shared boundaries between groupings and the resolution of labeling problems.
|
6 |
Visualizing multidimensional data similarities: improvements and applications / Visualizando similaridades em dados multidimensionais: melhorias e aplicaçõesRenato Rodrigues Oliveira da Silva 05 December 2016 (has links)
Multidimensional datasetsare increasingly more prominent and important in data science and many application domains. Such datasets typically consist of a large set of observations, or data points, each which is described by several measurements, or dimensions. During the design of techniques and tools to process such datasets, a key component is to gather insights into their structure and patterns, a goal which is targeted by multidimensional visualization methods. Structures and patterns of high-dimensional data can be described, at a core level, by the notion of similarity of observations. Hence, to visualize such patterns, we need effective and efficient ways to depict similarity relations between a large number of observations, each having a potentially large number of dimensions. Within the realm of multidimensional visualization methods, two classes of techniques exist projections and similarity trees which effectively capture similarity patterns and also scale well to the number of observations and dimensions of the data. However, while such techniques show similarity patterns, understanding and interpreting these patterns in terms of the original data dimensions is still hard. This thesis addresses the development of visual explanatory techniques for the easy interpretation of similarity patterns present in multidimensional projections and similarity trees, by several contributions. First, we proposemethodsthat make the computation of similarity treesefficient for large datasets, and also allow their visual explanation on a multiscale, or several levels of detail. We also propose ways to construct simplified representations of similarity trees, thereby extending their visual scalability even further. Secondly, we propose methods for the visual explanation of multidimensional projections in terms of automatically detected groups of related observations which are also automatically annotated in terms of their similarity in the high-dimensional data space. We show next how these explanatory mechanismscan be adapted to handle both static and time-dependent multidimensional datasets. Our proposed techniques are designed to be easy to use, work nearly automatically, handle any typesof quantitativemultidimensional datasets and multidimensional projection techniques, and are demonstrated on a variety of real-world large datasets obtained from image collections, text archives, scientific measurements, and software engineeering. / Conjuntos de dados multidimensionais são cada vez mais proeminentes e importantes em data science e muitos domínios de aplicação. Esses conjuntos de dados são tipicamente constituídos de um grande número de observações, ou objetos, cada qual descrito por várias medidas, ou dimensões. Durante o projeto de técnicas e ferramentas para processar tais dados, um dos focos principais é prover meios para análise e levantamento de hipóteses a partir das principais estruturas e padrões. Esse objetivo é perseguido por métodos de visualização multidimensional. Estruturas e padrões em dados multidimensionais podem ser descritos, em linhas gerais, pela noção de similaridade das observações. Portanto, para visualizar esses padrões, precisamos de meios efetivos e eficientes para retratar relações de similaridade dentre um grande número de observações, que potencialmente possuem um grande número de dimensões cada. No contexto dos métodos de visualização multidimensional, existem duas categorias de técnicas projeções e árvores de similaridade que efetivamente capturam padrões de similaridade e oferecem boa escalabilidade, tanto para o número de observações e quanto de dimensões. No entanto, embora essas técnicas exibam padrões de similaridade, o entendimento e interpretação desses padrões, em termos das dimensões originais dos dados, ainda é difícil. O trabalho desenvolvido nessa tese visa o desenvolvimento de técnicas explicativas para a fácil interpretação de padrões de similaridade presentes em projeções multidimensionais e árvores de similaridade. Primeiro, propomos métodos que possibilitam a computação eficiente de árvores de similaridade para grandes conjuntos de dados, e também a sua explicação visual em multiescala, ou seja, em vários níveis de detalhe. Também propomos modos de construir representações simplificadas de árvores de similaridade, e desse modo estender ainda mais a sua escalabilidade visual. Segundo, propomos métodos para explicar visualmente projeções multidimensionais em termos de grupos de observações relacionadas, detectadas e anotadas automaticamente para explicitar aspectos de sua similaridade no espaço de alta dimensionalidade. Mostramos em seguida como esses mecanismos explicativos podem ser adaptados para lidar com dados de natureza estática e dependentes no tempo. Nossas técnicas sã construídas visando fácil utilização, funcionamento semi automático, aplicação em quaisquer tipos de dados multidimensionais quantitativos e quaisquer técnicas de projeção multidimensional. Demonstramos a sua utilização em uma variedade de conjuntos de dados reais, obtidos a partir de coleções de imagens, arquivos textuais, medições científicas e de engenharia de software.
|
7 |
Explanatory visualization of multidimensional prejections / Visualização explanatória de projeções multidimensionaisRafael Messias Martins 11 March 2016 (has links)
Visual analytics tools play an important role in the scenario of big data solutions, combining data analysis and interactive visualization techniques in effective ways to support the incremental exploration of large data collections from a wide range of domains. One particular challenge for visual analytics is the analysis of multidimensional datasets, which consist of many observations, each being described by a large number of dimensions, or attributes. Finding and understanding data-related patterns present in such spaces, such as trends, correlations, groups of related observations, and outliers, is hard. Dimensionality reduction methods, or projections, can be used to construct low (two or three) dimensional representations of high-dimensional datasets. The resulting representation can then be used as a proxy for the visual interpretation of the high-dimensional space to efficiently and effectively support the above-mentioned data analysis tasks. Projections have important advantages over other visualization techniques for multidimensional data, such as visual scalability, high degree of robustness to noise and low computational complexity. However, a major obstacle to the effective practical usage of projections relates to their difficult interpretation. Two main types of interpretation challenges for projections are studied in this thesis. First, while projection techniques aim to preserve the so-called structure of the original dataset in the final produced layout, and effectively achieve the proxy effect mentioned earlier, they may introduce a certain amount of errors that influence the interpretation of their results. However, it is hard to convey to users where such errors occur in the projection, how large they are, and which specific data-interpretation aspects they affect. Secondly, interpreting the visual patterns that appear in the projection space is far from trivial, beyond the projections ability to show groups of similar observations. In particular, it is hard to explain these patterns in terms of the meaning of the original data dimensions. In this thesis we focus on the design and development of novel visual explanatory techniques to address the two interpretation challenges of multidimensional projections outlined above. We propose several methods to quantify, classify, and visually represent several types of projection errors, and how their explicit depiction helps interpreting data patterns. Next we show how projections can be visually explained in terms of the highdimensional data attributes, both in a global and a local way. Our proposals are designed to be easily added, and used with, any projection technique, and in any application context using such techniques. Their added value is demonstrated by presenting several exploration scenarios involving various types of multidimensional datasets, ranging from measurements, scientific simulations, software quality metrics, software system structure, and networks. / Ferramentas de análise visual desempenham um papel importante no cenário de soluções para grandes volumes de dados (big data), combinando análise de dados e técnicas interativas de visualização de forma eficaz para apoiar a exploração incremental de coleções de dados em diversos domínios. Um desafio importante em análise visual é a exploração de conjuntos de dados multidimensionais, que consistem em muitas observações, sendo cada uma descrita por um grande número de dimensões, ou atributos. Encontrar e compreender os padrões presentes em tais espaços, tais como tendências, correlações, grupos de observações relacionadas e valores extremos, é difícil. Técnicas de redução de dimensionalidade ou projeções são utilizadas para construir, a partir de conjuntos de dados multidimensionais, representações de duas ou três dimensões que podem então ser utilizadas com substitutas do espaço original para sua interpretação visual, apoiando de forma eficiente as tarefas de análise de dados acima mencionadas. Projeções apresentam vantagens importantes sobre outras técnicas de visualização para dados multidimensionais, tais como escalabilidade visual, resistência a ruídos e baixa complexidade computacional. No entanto, um grande obstáculo para o uso prático de projeções vem da sua difícil interpretação. Dois principais tipos de desafios de interpretação de projeções são estudados nesta tese. Em primeiro lugar, mesmo que as técnicas de projeção tenham como objetivo preservar, na representação final, a estrutura do conjunto de dados original, elas podem introduzir uma certa quantidade de erros que influenciam a interpretação dos seus resultados. No entanto, é difícil transmitir aos usuários onde tais erros ocorrem na projeção, quão severos eles são e que aspectos específicos da interpretação dos dados eles afetam. Em segundo lugar, interpretar os padrões visuais que aparecem em uma projeção, além da percepção de grupos de observações semelhantes, está longe de ser trivial. Em particular, é difícil explicar tais padrões em termos do significado das dimensões dos dados originais. O trabalho desenvolvido nesta tese concentra-se no projeto e desenvolvimento de novas técnicas visuais explicativas para lidar com os dois desafios de interpretação de projeções multidimensionais descritos acima. São propostos alguns métodos para quantificar, classificar e representar visualmente diversos tipos de erros de projeção, e é descrito como essas representações explícitas ajudam na interpretação dos padrões dos dados. Além disso, também são propostas técnicas visuais para explicar projeções em termos dos atributos dos dados multidimensionais, tanto de forma global quanto local. As propostas apresentadas foram concebidas para serem facilmente incorporadas e usadas com qualquer técnica de projeção e em qualquer contexto de aplicação. As contribuições são demonstradas pela apresentação de vários cenários de exploração, envolvendo vários tipos de conjuntos de dados multidimensionais, desde medições e simulações científicas até métricas de qualidade de software, estruturas de sistema de software e redes.
|
8 |
Seleção de características apoiada por mineração visual de dados / Feature selection supported by visual data miningBotelho, Glenda Michele 17 February 2011 (has links)
Devido ao crescimento do volume de imagens e, consequentemente, da grande quantidade e complexidade das características que as representam, surge a necessidade de selecionar características mais relevantes que minimizam os problemas causados pela alta dimensionalidade e correlação e que melhoram a eficiência e a eficácia das atividades que utilizarão o conjunto de dados. Existem diversos métodos tradicionais de seleção que se baseiam em análises estatísticas dos dados ou em redes neurais artificiais. Este trabalho propõe a inclusão de técnicas de mineração visual de dados, particularmente, projeção de dados multidimensionais, para apoiar o processo de seleção. Projeção de dados busca mapear dados de um espaço m-dimensional em um espaço p-dimensional, p < m e geralmente igual a 2 ou 3, preservando ao máximo as relações de distância existentes entre os dados. Tradicionalmente, cada imagem é representada por um ponto e pontos projetados próximos uns aos outros indicam agrupamentos de imagens que compartilham as mesmas propriedades. No entanto, este trabalho propõe a projeção de características. Dessa forma, ao selecionarmos apenas algumas amostras de cada agrupamento da projeção, teremos um subconjunto de características, configurando um processo de seleção. A qualidade dos subconjuntos de características selecionados é avaliada comparando-se as projeções obtidas para estes subconjuntos com a projeção obtida com conjunto original de dados. Isto é feito quantitativamente, por meio da medida de silhueta, e qualitativamente, pela observação visual da projeção. Além da seleção apoiada por projeção, este trabalho propõe um aprimoramento no seletor de características baseado no cálculo de saliências de uma rede neural Multilayer Perceptron. Esta alteração, que visa selecionar características mais discriminantes e reduzir a quantidade de cálculos para se obter as saliências, utiliza informações provenientes dos agrupamentos de características, de forma a alterar a topologia da rede neural em que se baseia o seletor. Os resultados mostraram que a seleção de características baseada em projeção obtém subconjuntos capazes de gerar novas projeções com qualidade visual satisfatória. Em relação ao seletor por saliência proposto, este também gera subconjuntos responsáveis por altas taxas de classificação de imagens e por novas projeções com bons valores de silhueta / Due to the ever growing amount of digital images and, consequently, the quantity and complexity of your features, there has been a need to select the most relevant features so that not only problems caused by high dimensional data sets, correlated features can be minimized, and also the efficiency of the tasks that may employ such features can be enhanced. Many feature selection methods are based on statistical analysis or neural network approaches. This work proposes the addition of visual data mining techniques, particularly multidimensional data projection approaches, to aid the feature selection process. Multidimensional data projection seeks to map a m-dimensional data space onto a p-dimensional space, so that p < m, usually 2 or 3, while preserving distance relationship among data instances. Traditionally, each image is represented by a point, and points projected close to each other indicate clusters of images which share a common properties. However, this work proposes the projection of features. Hence, if we select only a few samples of each cluster of features from the projection, we will end up with a subset of features, revealing a feature selection process. The quality of the feature subset may be assessed by comparing such projections with those obtained with the original data set. This can be achieved either quantitatively, by means of silhouette measures, or qualitatively, by means of visual inspection of the projection. As well as the projection based feature selection, this work proposes an enhancement in the Multilayer Perceptron salience based feature selector. This enhancement, whose aim is to perfect the selection of more discriminant features at the expenses of less computing power, employs information from feature clusters, so as to change the topology of the neural network on which the selector is based. Results have shown that projection-based feature selection produces subsets capable of generating new data projections of satisfactory visual quality. As for the proposed salience-based selector, new subsets with high image classification rates and good silhouette measures have been reported
|
9 |
Seleção de características apoiada por mineração visual de dados / Feature selection supported by visual data miningGlenda Michele Botelho 17 February 2011 (has links)
Devido ao crescimento do volume de imagens e, consequentemente, da grande quantidade e complexidade das características que as representam, surge a necessidade de selecionar características mais relevantes que minimizam os problemas causados pela alta dimensionalidade e correlação e que melhoram a eficiência e a eficácia das atividades que utilizarão o conjunto de dados. Existem diversos métodos tradicionais de seleção que se baseiam em análises estatísticas dos dados ou em redes neurais artificiais. Este trabalho propõe a inclusão de técnicas de mineração visual de dados, particularmente, projeção de dados multidimensionais, para apoiar o processo de seleção. Projeção de dados busca mapear dados de um espaço m-dimensional em um espaço p-dimensional, p < m e geralmente igual a 2 ou 3, preservando ao máximo as relações de distância existentes entre os dados. Tradicionalmente, cada imagem é representada por um ponto e pontos projetados próximos uns aos outros indicam agrupamentos de imagens que compartilham as mesmas propriedades. No entanto, este trabalho propõe a projeção de características. Dessa forma, ao selecionarmos apenas algumas amostras de cada agrupamento da projeção, teremos um subconjunto de características, configurando um processo de seleção. A qualidade dos subconjuntos de características selecionados é avaliada comparando-se as projeções obtidas para estes subconjuntos com a projeção obtida com conjunto original de dados. Isto é feito quantitativamente, por meio da medida de silhueta, e qualitativamente, pela observação visual da projeção. Além da seleção apoiada por projeção, este trabalho propõe um aprimoramento no seletor de características baseado no cálculo de saliências de uma rede neural Multilayer Perceptron. Esta alteração, que visa selecionar características mais discriminantes e reduzir a quantidade de cálculos para se obter as saliências, utiliza informações provenientes dos agrupamentos de características, de forma a alterar a topologia da rede neural em que se baseia o seletor. Os resultados mostraram que a seleção de características baseada em projeção obtém subconjuntos capazes de gerar novas projeções com qualidade visual satisfatória. Em relação ao seletor por saliência proposto, este também gera subconjuntos responsáveis por altas taxas de classificação de imagens e por novas projeções com bons valores de silhueta / Due to the ever growing amount of digital images and, consequently, the quantity and complexity of your features, there has been a need to select the most relevant features so that not only problems caused by high dimensional data sets, correlated features can be minimized, and also the efficiency of the tasks that may employ such features can be enhanced. Many feature selection methods are based on statistical analysis or neural network approaches. This work proposes the addition of visual data mining techniques, particularly multidimensional data projection approaches, to aid the feature selection process. Multidimensional data projection seeks to map a m-dimensional data space onto a p-dimensional space, so that p < m, usually 2 or 3, while preserving distance relationship among data instances. Traditionally, each image is represented by a point, and points projected close to each other indicate clusters of images which share a common properties. However, this work proposes the projection of features. Hence, if we select only a few samples of each cluster of features from the projection, we will end up with a subset of features, revealing a feature selection process. The quality of the feature subset may be assessed by comparing such projections with those obtained with the original data set. This can be achieved either quantitatively, by means of silhouette measures, or qualitatively, by means of visual inspection of the projection. As well as the projection based feature selection, this work proposes an enhancement in the Multilayer Perceptron salience based feature selector. This enhancement, whose aim is to perfect the selection of more discriminant features at the expenses of less computing power, employs information from feature clusters, so as to change the topology of the neural network on which the selector is based. Results have shown that projection-based feature selection produces subsets capable of generating new data projections of satisfactory visual quality. As for the proposed salience-based selector, new subsets with high image classification rates and good silhouette measures have been reported
|
10 |
Técnicas de projeção para identificação de grupos e comparação de dados multidimensionais usando diferentes medidas de similaridade / Projection techniques for group identification and multidimensional data comparison by using different similarity measuresJoia Filho, Paulo 14 October 2015 (has links)
Técnicas de projeção desempenham papel importante na análise e exploração de dados multidimensionais, já que permitem visualizar informações muitas vezes ocultas na alta dimensão. Esta tese explora o potencial destas técnicas para resolver problemas relacionados à: 1) identificação de agrupamentos e 2) busca por similaridade em dados multidimensionais. Para identificação de agrupamentos foi desenvolvida uma técnica de projeção local e interativa que, além de projetar dados com ótima preservação de distâncias, permite que o usuário modifique o layout da projeção, agrupando um número reduzido de amostras representativas no espaço visual, de acordo com suas características. Os mapeamentos produzidos tendem a seguir o layout das amostras organizadas pelo usuário, facilitando a organização dos dados e identificação de agrupamentos. Contudo, nem sempre é possível selecionar ou agrupar amostras com base em suas características visuais de forma confiável, principalmente quando os dados não são rotulados. Para estas situações, um novo método para identificação de agrupamentos baseado em projeção foi proposto, o qual opera no espaço visual, garantindo que os grupos obtidos não fiquem fragmentados durante a visualização. Além disso, é orientado por um mecanismo de amostragem determinístico, apto a identificar instâncias que representam bem o conjunto de dados como um todo e capaz de operar mesmo em conjuntos de dados desbalanceados. Para o segundo problema: busca por similaridade em dados multidimensionais, uma família de métricas baseada em classes foi construída para projetar os dados, com o objetivo de minimizar a dissimilaridade entre pares de objetos pertencentes à mesma classe e, ao mesmo tempo, maximizá-la para objetos pertencentes a classes distintas. As métricas classes-específicas são avaliadas no contexto de recuperação de imagens com base em conteúdo. Com o intuito de aumentar a precisão da família de métricas classes-específicas, outra técnica foi desenvolvida, a qual emprega a teoria dos conjuntos fuzzy para estimar um valor de incerteza que é transferido para a métrica, aumentando sua precisão. Os resultados confirmam a efetividade das técnicas desenvolvidas, as quais representam significativa contribuição na tarefa de identificação de grupos e busca por similaridade em dados multidimensionais. / Projection techniques play an important role in multidimensional data analysis and exploration, since they allow to visualize information frequently hidden in high-dimensional spaces. This thesis explores the potential of those techniques to solve problems related to: 1) clustering and 2) similarity search in multidimensional data. For clustering data, a local and interactive projection technique capable of projecting data with effective preservation of distances was developed. This one allows the user to manipulate a reduced number of representative samples in the visual space so as to better organize them. The final mappings tend to follow the layout of the samples organized by the user, therefore, the user can interactively steer the projection. This makes it easy to organize and group large data sets. However, it is not always possible to select or group samples visually, in a reliable manner, mainly when handling unlabeled data. For these cases, a new clustering method based on multidimensional projection was proposed, which operates in the visual space, ensuring that clusters are not fragmented during the visualization. Moreover, it is driven by a deterministic sampling mechanism, able to identify instances that are good representatives for the whole data set. The proposed method is versatile and robust when dealing with unbalanced data sets. For the second problem: similarity search in multidimensional data, we build a family of class-specific metrics to project data. Such metrics were tailored to minimize the dissimilarity measure among objects from the same class and, simultaneously to maximize the dissimilarity among objects in distinct classes. The class-specific metrics are assessed in the context of content-based image retrieval. With the aim of increasing the precision of the class-specific metrics, another technique was developed. This one, uses the fuzzy set theory to estimate a degree of uncertainty, which is embedded in the metric, increasing its precision. The results confirm the effectiveness of the developed techniques, which represent significant contributions for clustering and similarity search in multidimensional data.
|
Page generated in 0.1238 seconds