Explanatory visualization of multidimensional prejections / Visualização explanatória de projeções multidimensionais

Visual analytics tools play an important role in the scenario of big data solutions, combining data analysis and interactive visualization techniques in effective ways to support the incremental exploration of large data collections from a wide range of domains. One particular challenge for visual analytics is the analysis of multidimensional datasets, which consist of many observations, each being described by a large number of dimensions, or attributes. Finding and understanding data-related patterns present in such spaces, such as trends, correlations, groups of related observations, and outliers, is hard. Dimensionality reduction methods, or projections, can be used to construct low (two or three) dimensional representations of high-dimensional datasets. The resulting representation can then be used as a proxy for the visual interpretation of the high-dimensional space to efficiently and effectively support the above-mentioned data analysis tasks. Projections have important advantages over other visualization techniques for multidimensional data, such as visual scalability, high degree of robustness to noise and low computational complexity. However, a major obstacle to the effective practical usage of projections relates to their difficult interpretation. Two main types of interpretation challenges for projections are studied in this thesis. First, while projection techniques aim to preserve the so-called structure of the original dataset in the final produced layout, and effectively achieve the proxy effect mentioned earlier, they may introduce a certain amount of errors that influence the interpretation of their results. However, it is hard to convey to users where such errors occur in the projection, how large they are, and which specific data-interpretation aspects they affect. Secondly, interpreting the visual patterns that appear in the projection space is far from trivial, beyond the projections ability to show groups of similar observations. In particular, it is hard to explain these patterns in terms of the meaning of the original data dimensions. In this thesis we focus on the design and development of novel visual explanatory techniques to address the two interpretation challenges of multidimensional projections outlined above. We propose several methods to quantify, classify, and visually represent several types of projection errors, and how their explicit depiction helps interpreting data patterns. Next we show how projections can be visually explained in terms of the highdimensional data attributes, both in a global and a local way. Our proposals are designed to be easily added, and used with, any projection technique, and in any application context using such techniques. Their added value is demonstrated by presenting several exploration scenarios involving various types of multidimensional datasets, ranging from measurements, scientific simulations, software quality metrics, software system structure, and networks. / Ferramentas de análise visual desempenham um papel importante no cenário de soluções para grandes volumes de dados (big data), combinando análise de dados e técnicas interativas de visualização de forma eficaz para apoiar a exploração incremental de coleções de dados em diversos domínios. Um desafio importante em análise visual é a exploração de conjuntos de dados multidimensionais, que consistem em muitas observações, sendo cada uma descrita por um grande número de dimensões, ou atributos. Encontrar e compreender os padrões presentes em tais espaços, tais como tendências, correlações, grupos de observações relacionadas e valores extremos, é difícil. Técnicas de redução de dimensionalidade ou projeções são utilizadas para construir, a partir de conjuntos de dados multidimensionais, representações de duas ou três dimensões que podem então ser utilizadas com substitutas do espaço original para sua interpretação visual, apoiando de forma eficiente as tarefas de análise de dados acima mencionadas. Projeções apresentam vantagens importantes sobre outras técnicas de visualização para dados multidimensionais, tais como escalabilidade visual, resistência a ruídos e baixa complexidade computacional. No entanto, um grande obstáculo para o uso prático de projeções vem da sua difícil interpretação. Dois principais tipos de desafios de interpretação de projeções são estudados nesta tese. Em primeiro lugar, mesmo que as técnicas de projeção tenham como objetivo preservar, na representação final, a estrutura do conjunto de dados original, elas podem introduzir uma certa quantidade de erros que influenciam a interpretação dos seus resultados. No entanto, é difícil transmitir aos usuários onde tais erros ocorrem na projeção, quão severos eles são e que aspectos específicos da interpretação dos dados eles afetam. Em segundo lugar, interpretar os padrões visuais que aparecem em uma projeção, além da percepção de grupos de observações semelhantes, está longe de ser trivial. Em particular, é difícil explicar tais padrões em termos do significado das dimensões dos dados originais. O trabalho desenvolvido nesta tese concentra-se no projeto e desenvolvimento de novas técnicas visuais explicativas para lidar com os dois desafios de interpretação de projeções multidimensionais descritos acima. São propostos alguns métodos para quantificar, classificar e representar visualmente diversos tipos de erros de projeção, e é descrito como essas representações explícitas ajudam na interpretação dos padrões dos dados. Além disso, também são propostas técnicas visuais para explicar projeções em termos dos atributos dos dados multidimensionais, tanto de forma global quanto local. As propostas apresentadas foram concebidas para serem facilmente incorporadas e usadas com qualquer técnica de projeção e em qualquer contexto de aplicação. As contribuições são demonstradas pela apresentação de vários cenários de exploração, envolvendo vários tipos de conjuntos de dados multidimensionais, desde medições e simulações científicas até métricas de qualidade de software, estruturas de sistema de software e redes.

Identiferoai:union.ndltd.org:IBICT/oai:teses.usp.br:tde-30092016-133421
Date11 March 2016
CreatorsRafael Messias Martins
ContributorsRosane Minghim, Alexandru Cristian Telea, Michael Biehl, Luis Gustavo Nonato, Manuel Menezes de Oliveira Neto, Anderson de Rezende Rocha, Alexandru Cristian Telea
PublisherUniversidade de São Paulo, Ciências da Computação e Matemática Computacional, USP, BR
Source SetsIBICT Brazilian ETDs
LanguageEnglish
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis
Sourcereponame:Biblioteca Digital de Teses e Dissertações da USP, instname:Universidade de São Paulo, instacron:USP
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0063 seconds