Return to search

Medidas em grafos para apoiar a avaliação da qualidade de projeções multidimensionais / Graph-based measures to assist user assessment of multimensional projections

Projeções Multidimensionais são úteis para gerar visualizações adequadas para apoiar a análise exploratória de uma grande variedade de dados complexos e de alta dimensionalidade. Tarefas de análise visual de dados têm se beneficiado de projeções para explorar dados textuais, de imagens, de sensores, entre outros. Porém, diferentes técnicas de projeção e diferentes parametrizações de uma mesma técnica produzem resultados distintos para um mesmo conjunto de dados, pois as técnicas adotam estratégias distintas para representar os dados originais em um espaço cuja dimensionalidade permite sua visualização. Atualmente, ainda há poucos recursos para avaliar a qualidade dessas projeções e, em geral, as soluções existentes avaliam propriedades específicas, demandando grande esforço do analista para uma avaliação mais abrangente. Neste trabalho, introduzimos um arcabouço para computar medidas de avaliação de projeções com enfoque em análise de vizinhanças e de agrupamentos. Para elaborar este arcabouço, foi realizado um estudo de percepção para entender melhor como os usuários observam as projeções e foi conduzida uma investigação de representações dos dados capazes de favorecer a identificação de vizinhanças e de agrupamentos. Os padrões identificados no estudo de percepção auxiliaram a validar a representação dos dados, em que foi proposto um modelo de grafo, chamado de Extended Minimum Spanning Tree (EMST), capaz de capturar características condizentes com as observações dos participantes no estudo. O grafo EMST também foi validado por meio de dois estudos comparativos de identificação de vizinhanças e de agrupamentos. Com base neste arcabouço foram propostas cinco medidas de qualidade de projeções multidimensionais, duas delas para avaliar características relacionadas à separação visual das classes, e outras três para avaliar a preservação de propriedades do espaço original, especificamente a separação das classes, as vizinhanças e os agrupamentos. As medidas são ilustradas por meio de sua aplicação a conjuntos de dados artificiais, favorecendo a sua interpretação, bem como a conjuntos de dados reais, evidenciando a sua potencial utilidade em cenários reais. Também é apresentada uma comparação das novas medidas de preservação de vizinhanças com medidas similares descritas na literatura, permitindo identificar diferenças e semelhanças entre elas. / Multidimensional projections are valuable tools to generate visualizations that support exploratory analysis of a wide variety of complex high-dimensional data. Many examples are found in the literature of visual data analysis tasks that employ projections to explore, for instance, text, image, network and sensor data. Nonetheless, dierent projection techniques applied to a particular data set, or even alternative parameterizations of a single technique, can produce very distinct outcomes, as techniques adopt different strategies to reduce data dimensionality. Few resources are available to support assessing projection quality and, in general, existing solutions focus on specific properties. Thus, a broader assessment typically requires considerable human effort. In this work we introduce a framework to compute projection evaluation measures that focus on neighborhoods and clusters. To elaborate this framework we conducted (i) an experimental study to better understand how users perceive projections and (ii) an investigation of possible data representations capable of favoring the identification of neighborhoods and clusters. The observations resulting from the experimental study have been considered to propose and validate a novel graph data model, called Extended Minimum Spanning Tree (EMST), which captures data properties shown to be consistent with the observations by the participants in the study. The EMST graph has been validated by means of two comparative studies conducted to identify neighborhoods and clusters in multidimensional data. Under this framework, five novel measures of projection quality are introduced, two of them to assess properties related to the visual separation of classes, and three to assess the preservation of data properties in the original space, in particular the preservation of class separation, the preservation of neighborhoods and the preservation of groups. The quality measures have been applied to projections of synthetic data sets, favoring their understanding and interpretation, and also to projections of real data sets, illustrating their potential applicability in real scenarios. The newly introduced neighborhood preservation measures are also compared with existing methods in order to illustrate their differences and similarities.

Identiferoai:union.ndltd.org:usp.br/oai:teses.usp.br:tde-19032015-163258
Date13 October 2014
CreatorsMotta, Robson Carlos da
ContributorsLopes, Alneu de Andrade, Oliveira, Maria Cristina Ferreira de
PublisherBiblioteca Digitais de Teses e Dissertações da USP
Source SetsUniversidade de São Paulo
LanguagePortuguese
Detected LanguagePortuguese
TypeTese de Doutorado
Formatapplication/pdf
RightsLiberar o conteúdo para acesso público.

Page generated in 0.0024 seconds