Spelling suggestions: "subject:"data visualization"" "subject:"mata visualization""
281 |
I/O Aware Power ShiftingSavoie, Lee, Lowenthal, David K., Supinski, Bronis R. de, Islam, Tanzima, Mohror, Kathryn, Rountree, Barry, Schulz, Martin 05 1900 (has links)
Power limits on future high-performance computing (HPC) systems will constrain applications. However, HPC applications do not consume constant power over their lifetimes. Thus, applications assigned a fixed power bound may be forced to slow down during high-power computation phases, but may not consume their full power allocation during low-power I/O phases. This paper explores algorithms that leverage application semantics-phase frequency, duration and power needs-to shift unused power from applications in I/O phases to applications in computation phases, thus improving system-wide performance. We design novel techniques that include explicit staggering of applications to improve power shifting. Compared to executing without power shifting, our algorithms can improve average performance by up to 8% or improve performance of a single, high-priority application by up to 32%.
|
282 |
[en] CREATIVITY, DESIGN THINKING AND VISUAL THINKING AND ITS RELATION WITH THE UNIVERSE OF INFOGRAPHICS AND DATA VISUALIZATION / [pt] CRIATIVIDADE, DESIGN THINKING E VISUAL THINKING E SUA RELAÇÃO COM O UNIVERSO DA INFOGRAFIA E DA VISUALIZAÇÃO DE DADOSCARLA CRISTINA DA COSTA TEIXEIRA 11 May 2015 (has links)
[pt] A tese discute a relação existente entre a criatividade e o design thinking e o universo da infografia e da visualização de dados, com destaque para a criação de um método de construção de infográficos a partir dos estudos empreendidos nas referidas áreas, baseados em bibliografia compatível e atual. Através principalmente da lógica do visual thinking, é elaborado um método de construção de infográficos. Além disso, o próprio infográfico aparece como possível ferramenta de pensamento visual dentro do design thinking, otimizando as possibilidades desse processo. A infografia e a visualização de dados disponibilizam um novo e vasto campo de trabalho para o designer em parceria com outros profissionais. No entanto, existe uma carência de métodos de construção e desenvolvimento de infográficos. O método de construção proposto pela tese para preencher essa lacuna identificada, até pela minha própria prática profissional de ensino, poderá ser aplicado tanto por designers já atuantes no mercado quanto ensinado a estudantes de Design ou Comunicação. / [en] The thesis discusses the relationship between creativity and design thinking and the universe of infographics and data visualization, proposing a method of construction of infographics from studies in these areas, based on current and compatible bibliography. The method of development of infographics follows the logic that belongs to visual thinking. In addition, the infographics itself appears as a possible tool for visual thinking within the design thinking, optimizing the possibilities of this process. Infographics and data visualization provide a vast new field of work for the designer in partnership with other professionals. However, there is a lack of methods for building and developing infographics. The method of construction proposed by the thesis to fill this gap identified, including my own experience as a professor in this area, can be applied both by designers who are already in the market as can be taught to students of Design and Communication.
|
283 |
Triangular similarity metric learning : A siamese architecture approach / Apprentissage métrique de similarité triangulaire : Une approche d'architecture siamoisZheng, Lilei 10 May 2016 (has links)
Dans de nombreux problèmes d’apprentissage automatique et de reconnaissance des formes, il y a toujours un besoin de fonctions métriques appropriées pour mesurer la distance ou la similarité entre des données. La fonction métrique est une fonction qui définit une distance ou une similarité entre chaque paire d’éléments d’un ensemble de données. Dans cette thèse, nous proposons une nouvelle methode, Triangular Similarity Metric Learning (TSML), pour spécifier une fonction métrique de données automatiquement. Le système TSML proposée repose une architecture Siamese qui se compose de deux sous-systèmes identiques partageant le même ensemble de paramètres. Chaque sous-système traite un seul échantillon de données et donc le système entier reçoit une paire de données en entrée. Le système TSML comprend une fonction de coût qui définit la relation entre chaque paire de données et une fonction de projection permettant l’apprentissage des formes de haut niveau. Pour la fonction de coût, nous proposons d’abord la similarité triangulaire (Triangular Similarity), une nouvelle similarité métrique qui équivaut à la similarité cosinus. Sur la base d’une version simplifiée de la similarité triangulaire, nous proposons la fonction triangulaire (the triangular loss) afin d’effectuer l’apprentissage de métrique, en augmentant la similarité entre deux vecteurs dans la même classe et en diminuant la similarité entre deux vecteurs de classes différentes. Par rapport aux autres distances ou similarités, la fonction triangulaire et sa fonction gradient nous offrent naturellement une interprétation géométrique intuitive et intéressante qui explicite l’objectif d’apprentissage de métrique. En ce qui concerne la fonction de projection, nous présentons trois fonctions différentes: une projection linéaire qui est réalisée par une matrice simple, une projection non-linéaire qui est réalisée par Multi-layer Perceptrons (MLP) et une projection non-linéaire profonde qui est réalisée par Convolutional Neural Networks (CNN). Avec ces fonctions de projection, nous proposons trois systèmes de TSML pour plusieurs applications: la vérification par paires, l’identification d’objet, la réduction de la dimensionnalité et la visualisation de données. Pour chaque application, nous présentons des expérimentations détaillées sur des ensembles de données de référence afin de démontrer l’efficacité de notre systèmes de TSML. / In many machine learning and pattern recognition tasks, there is always a need for appropriate metric functions to measure pairwise distance or similarity between data, where a metric function is a function that defines a distance or similarity between each pair of elements of a set. In this thesis, we propose Triangular Similarity Metric Learning (TSML) for automatically specifying a metric from data. A TSML system is loaded in a siamese architecture which consists of two identical sub-systems sharing the same set of parameters. Each sub-system processes a single data sample and thus the whole system receives a pair of data as the input. The TSML system includes a cost function parameterizing the pairwise relationship between data and a mapping function allowing the system to learn high-level features from the training data. In terms of the cost function, we first propose the Triangular Similarity, a novel similarity metric which is equivalent to the well-known Cosine Similarity in measuring a data pair. Based on a simplified version of the Triangular Similarity, we further develop the triangular loss function in order to perform metric learning, i.e. to increase the similarity between two vectors in the same class and to decrease the similarity between two vectors of different classes. Compared with other distance or similarity metrics, the triangular loss and its gradient naturally offer us an intuitive and interesting geometrical interpretation of the metric learning objective. In terms of the mapping function, we introduce three different options: a linear mapping realized by a simple transformation matrix, a nonlinear mapping realized by Multi-layer Perceptrons (MLP) and a deep nonlinear mapping realized by Convolutional Neural Networks (CNN). With these mapping functions, we present three different TSML systems for various applications, namely, pairwise verification, object identification, dimensionality reduction and data visualization. For each application, we carry out extensive experiments on popular benchmarks and datasets to demonstrate the effectiveness of the proposed systems.
|
284 |
Capitalisation pérenne de connaissances industrielles : Vers des méthodes de conception incrémentales et itératives centrées sur l’activité / Sustainable capilization of industrial knowledge : Towards incremental and iterative activity-centric design methodsToure, Carine 19 October 2017 (has links)
Dans ce travail de recherche, nous nous intéressons à la question de la pérennité de l’usage des systèmes de gestion des connaissances (SGC) dans les entreprises. Les SGC sont ces environnements informatiques qui sont mis en place dans les entreprises pour mutualiser et construire l’expertise commune grâce aux collaborateurs. Le constat montre que, malgré la rigueur employée par les entreprises pour la mise en œuvre de ces SGC, le risque d’échec des initiatives de gestion des connaissances, notamment lié à l’acceptation de ces environnements par les utilisateurs professionnels ainsi qu’à leur usage continu et durable, reste d’actualité. La persistance et l’ampleur de ce constat dans les entreprises a motivé notre intérêt d’apporter une contribution à cette question générale de recherche. Comme propositions de réponse à cette problématique, nous avons donc 1) dégagé à partir de l’état de l’art, quatre facettes qui sont requises pour favoriser l’usage pérenne d’une plateforme gérant la connaissance ; 2) proposé un modèle théorique de régulation mixte qui unifie des outils de stimulation pour l’autorégulation et des outils soutenant l’accompagnement au changement et qui permet la mise en œuvre continue des différents facteurs stimulants l’usage pérenne des SGC ; 3) proposé une méthodologie de conception, adaptée à ce modèle et basée sur les concepts Agile, qui intègre une méthode d’évaluation mixte de la satisfaction et de l’usage effectif ainsi que des outils d’IHM pour l’exécution des différentes itérations de notre méthodologie ; 4) implémenté la méthodologie en contexte réel, à la Société du Canal de Provence, ce qui nous a permis de tester sa faisabilité et de proposer des ajustements/recommandations génériques aux concepteurs pour son application en contexte. L’outil résultant de notre implémentation a reçu un accueil positif par les utilisateurs en termes de satisfaction et d’usages. / In this research, we are interested in the question of sustainability of the use of knowledge management systems (KMS) in companies. KMS are those IT environments that are set up in companies to share and build common expertise through collaborators. Findings show that, despite the rigor employed by companies in the implementation of these KMS, the risk of knowledge management initiatives being unsuccessful, particularly related to the acceptance and continuous use of these environments by users remains prevalent. The persistence of this fact in companies has motivated our interest to contribute to this general research question. As contributions to this problem, we have 1) identified from the state of the art, four facets that are required to promote the perennial use of a platform managing knowledge; 2) proposed a theoretical model of mixed regulation that unifies tools for self-regulation and tools to support change, and allows the continuous implementation of the various factors that stimulate the sustainable use of CMS; 3) proposed a design methodology, adapted to this model and based on the Agile concepts, which incorporates a mixed evaluation methodology of satisfaction and effective use as well as CHI tools for the completion of different iterations of our methodology; 4) implemented the methodology in real context at the Société du Canal de Provence, which allowed us to test its feasibility and propose generic adjustments / recommendations to designers for its application in context. The tool resulting from our implementation was positively received by the users in terms of satisfaction and usages.
|
285 |
Visual exploration to support the identification of relevant attributes in time-varying multivariate data / Visualização como apoio à identificação de atributos relevantes em dados multidimensionais variantes no tempoVargas, Aurea Rossy Soriano 19 March 2018 (has links)
Ionospheric scintillation is a rapid variation in the amplitude and/or phase of radio signals traveling through the ionosphere. This spatial and time-varying phenomenon is of interest because its occurrence may affect the reception quality of satellite signals. Specialized receivers at strategic regions can track multiple variables related to the phenomenon, generating a database of historical observations on the regional behavior of ionospheric scintillation. The analysis of such data is very challenging, since it consists of time-varying measurements of many variables which are heterogeneous in nature and with possibly many missing values, recorded over extensive time periods. There is a need to introduce alternative intuitive strategies that contribute to experts acquiring further knowledge from the ionospheric scintillation data. Such challenges motivated a study on the applicability of visualization techniques to support tasks of identification of relevant attributes in the study of the behavior of phenomena described by multiple time-varying variables, of which the ionospheric scintillation is a good example. In particular, this thesis introduces a visual analytics framework, named TV-MV Analytics, that supports exploratory tasks on time-varying multivariate data and was developed following the requirements of experts on ionospheric scintillation from the Faculty of Science and Technology of UNESP at Presidente Prudente, Brazil. TV-MV Analytics provides an interactive visual exploration loop to analysts inspecting the behavior of multiple variables at different temporal scales, through temporal representations associated with clustering and multidimensional projection techniques. Analysts can also assess how different feature sub-spaces contribute to characterizing a certain behavior, where they may direct the analysis process and include their domain knowledge in the exploratory analysis. We also illustrate the application of TV-MV Analytics on multivariate time-varying data sets from three alternative application domains. Experimental results indicate the proposed solutions show good potential on assisting time-varying multivariate data mining tasks, since it reduces the effort required from experts to gain deeper insight into the historical behavior of the variables describing a phenomenon or domain. / A cintilação ionosférica é uma variação rápida na amplitude e/ou na fase dos sinais de rádio que viajam através da ionosfera. Este fenômeno espacial e variante no tempo é de grande interesse, pois pode afetar a qualidade de recepção dos sinais de satélite. Receptores especializados em regiões estratégicas podem rastrear múltiplas variáveis relacionadas ao fenômeno, gerando um banco de dados de observações históricas sobre o comportamento regional da cintilação. O estudo do comportamento da cintilação é desafiador, uma vez que requer a análise extensiva de dados multivariados e variantes no tempo, coletados por longos períodos. Medições são registradas continuamente, e são de natureza heterogênea, compreendendo múltiplas variáveis de diferentes categorias e possivelmente com muitos valores faltantes. Portanto, existe a necessidade de introduzir estratégias alternativas, eficientes e intuitivas, que contribuam para a adquisição de conhecimento, a partir dos dados, por especialistas que estudam a cintilação ionosférica. Tais desafios motivaram o estudo da aplicabilidade de técnicas de visualização para apoiar tarefas de identificação de atributos relevantes no estudo do comportamento de fenômenos ou domínios que envolvem múltiplas variáveis, como a cintilação. Em particular, esta tese introduz um arcabouço visual, o qual foi denominado TV-MV Analytics, que apoia tarefas de análise exploratória sobre dados multivariados e variáveis no tempo, inspirado em requisitos de especialistas no estudo da cintilação, vinculados à Faculdade de Ciências e Tecnologia da UNESP de Presidente Prudente, Brasil. O TV-MV Analytics fornece aos analistas um ciclo de interativo de exploração que apoia a inspeção do comportamento temporal de múltiplas variáveis, em diferentes escalas temporais, por meio de representações visuais temporais associadas a técnicas de agrupamento e de projeção multidimensional. Também permite avaliar como diferentes sub-espaços de atributos caracterizam um determinado comportamento, podendo direcionar o processo de análise e inserir seu conhecimento do domínio no processo de análise exploratória. As funcionalidades do TV-MV Analytics também são ilustradas em dados variantes no tempo oriundos de outros três domínios de aplicação. Os resultados experimentais indicaram que as soluções propostas têm bom potencial em tarefas de mineração de dados multivariados e variantes no tempo, uma vez que reduz o esforço e contribui para os especialistas obterem informações detalhadas sobre o comportamento histórico das variáveis que descrevem um determinado fenômeno ou domínio.
|
286 |
Um estudo sobre o papel de medidas de similaridade em visualização de coleções de documentos / A study on the role of similarity measures in visual text analyticsSalazar, Frizzi Alejandra San Roman 27 September 2012 (has links)
Técnicas de visualização de informação, tais como as que utilizam posicionamento de pontos baseado na similaridade do conteúdo, são utilizadas para criar representações visuais de dados que evidenciem certos padrões. Essas técnicas são sensíveis à qualidade dos dados, a qual, por sua vez, depende de uma etapa de pré-processamento muito influente. Esta etapa envolve a limpeza do texto e, em alguns casos, a detecção de termos e seus pesos, bem como a definição de uma função de (dis)similaridade. Poucos são os estudos realizados sobre como esses cálculos de (dis)similaridade afetam a qualidade das representações visuais geradas para dados textuais. Este trabalho apresenta um estudo sobre o papel das diferentes medidas de (dis)similaridade entre pares de textos na geração de mapas visuais. Nos concentramos principalmente em dois tipos de funções de distância, aquelas computadas a partir da representação vetorial do texto (Vector Space Model (VSM)) e em medidas de comparação direta de strings textuais. Comparamos o efeito na geração de mapas visuais com técnicas de posicionamento de pontos, utilizando as duas abordagens. Para isso, foram utilizadas medidas objetivas para comparar a qualidade visual dos mapas, tais como Neighborhood Hit (NH) e Coeficiente de Silhueta (CS). Descobrimos que ambas as abordagens têm pontos a favor, mas de forma geral, o VSM apresentou melhores resultados quanto à discriminação de classes. Porém, a VSM convencional não é incremental, ou seja, novas adições à coleção forçam o recálculo do espaço de dados e das dissimilaridades anteriormente computadas. Nesse sentido, um novo modelo incremental baseado no VSM (Incremental Vector Space Model (iVSM)) foi considerado em nossos estudos comparativos. O iVSM apresentou os melhores resultados quantitativos e qualitativos em diversas configurações testadas. Os resultados da avaliação são apresentados e recomendações sobre a aplicação de diferentes medidas de similaridade de texto em tarefas de análise visual, são oferecidas / Information visualization techniques, such as similarity based point placement, are used for generating of visual data representation that evidence some patterns. These techniques are sensitive to data quality, which depends of a very influential preprocessing step. This step involves cleaning the text and in some cases, detecting terms and their weights, as well as definiting a (dis)similarity function. There are few studies on how these (dis)similarity calculations aect the quality of visual representations for textual data. This work presents a study on the role of the various (dis)similarity measures in generating visual maps. We focus primarily on two types of distance functions, those based on vector representations of the text (Vector Space Model (VSM)) and measures obtained from direct comparison of text strings, comparing the effect on the visual maps obtained with point placement techniques with the two approaches. For this, objective measures were employed to compare the visual quality of the generated maps, such as the Neighborhood Hit and Silhouette Coefficient. We found that both approaches have strengths, but in general, the VSM showed better results as far as class discrimination is concerned. However, the conventional VSM is not incremental, i.e., new additions to the collection force the recalculation of the data space and dissimilarities previously computed. Thus, a new model based on incremental VSM (Incremental Vector Space Model (iVSM)) has been also considered in our comparative studies. iVSM showed the best quantitative and qualitative results in several of the configurations considered. The evaluation results are presented and recommendations on the application of different similarity measures for text analysis tasks visually are provided
|
287 |
Vis-Scholar: uma metodologia de visualização e análise de dados na educaçãoCosta, Jean Carlos Araújo 01 March 2016 (has links)
Submitted by Silvana Teresinha Dornelles Studzinski (sstudzinski) on 2016-05-25T12:28:08Z
No. of bitstreams: 1
Jean Carlos Araújo Costa_.pdf: 1155126 bytes, checksum: 15210c31e7d20bb22cb98f8732173d6d (MD5) / Made available in DSpace on 2016-05-25T12:28:09Z (GMT). No. of bitstreams: 1
Jean Carlos Araújo Costa_.pdf: 1155126 bytes, checksum: 15210c31e7d20bb22cb98f8732173d6d (MD5)
Previous issue date: 2016-03-01 / Nenhuma / Técnicas de visualização de dados podem auxiliar nas mais diversas áreas de atuação humana, em especial na compreensão de dados e informações de diferentes fenômenos que se quer estudar. Quanto mais variáveis estão relacionadas com esse fenômeno, mais desafiador se torna seu tratamento e representação visual. Pensando em educação no Brasil e suas bases de dados abertas, bem como em bases de dados acadêmicas existentes nas instituições, o uso de técnicas matemáticas para correlacionar conjuntos de dados e métodos de visualização para apresentar essas correlações, disponíveis em uma ferramenta de fácil acesso e operação, podem tornar públicas informações sobre a qualidade da educação de determinada região, estado, município e instituição de ensino. Outro benefício pode ser a indicação de fatores que antes eram ignorados, como alvos de investimento e ainda ajudar na elaboração de políticas públicas, nacionais ou regionais, que tornem a educação mais eficiente, abrangente e inclusiva. Iniciativas de organizações não governamentais e algumas vinculadas ao governo brasileiro tem elaborado ferramentas de filtragem de informações e divulgação de dados sobre qualidade e investimento de recursos na educação. O governo brasileiro usa índices de desempenho para avaliar suas Instituições de Ensino Superior. O Conceito Preliminar de Curso é um desses. Este trabalho apresenta uma solução, visando elaborar uma metodologia de visualização de dados através de uma aplicação web, com tecnologias open source, utilizando o método de análise de componentes principais (ACP) como técnica matemática de correlação de variáveis, e distribuindo resultados sobre um mapa com a utilização da API do Google Maps, porém, tendo como foco, a busca do nível de influência de diferentes fatores, inclusive de alguns não ligados diretamente à educação, na performance de instituições de ensino e no rendimento acadêmico de alunos, tendo como estudo de caso, a análise de um índice de desempenho na educação superior. / Data visualization techniques can help in several areas of human activity, especially in understanding data and information from different phenomena to be studied. The more variables are related to this phenomenon, the more challenging it becomes their treatment and visual representation. Thinking about education in Brazil and its open databases, as well as in existing academic databases in institutions, using mathematical techniques to correlate data sets and visualization methods to present these correlations available in an easy tool access and operation may disclose information on the quality of education in a region, state, county and educational institution. Another benefit coud be the indication of factors that were ignored, as investment targets and also help in the development of public policies, national or regional, that make more efficient, comprehensive and inclusive education. Initiatives of non-governmental organizations and some linked to the Brazilian government has prepared information filtering tools and dissemination of data on quality and investment of resources in education. Brazilian government uses performance indicators to assess their undergraduation institutions. Course Preliminar Concept (CPC) is one of those. This paper presents a solution to this profile, aiming to develop a data visualization methodology through a web application with open source technologies, using principal component analysis method (PCA) as mathematical technique of variable correlation, and distributing results on a map using the Google Maps API, however, focusing on the search for the level of influence of different factors, including some not directly related to education, performance of educational institutions and the academic performance of students, taking as a case study, the analysis of a performance index in undergraduation.
|
288 |
Vizualizace vícerozměrných statistických dat / Visualization of Multivariate Statistical DataMaroušek, Vít January 2011 (has links)
The thesis deals with the possibilities of visualization of multivariate statistical data. Since this is a very broad area the thesis is divided into four sections, two of which are theoretically and two practically oriented. The first section is devoted to theoretical aspects of data visualization. It contains information about the building blocks of graphs, and how the brain processes graphs in various stages of perception. The second section charts the available chart types that can be used to display data. Selected types of graphs for continuous and discontinuous multidimensional data are described in detail. The third section focuses on available software tools for creating graphs. The section describes several programs, with focus on STATISTICA, R and MS Excel. The knowledge gained in previous chapters was sufficient source of information to perform a graphical analysis of multidimensional continuous and discrete data and using advanced analytical methods in the last section. This analysis is performed separately on the data file with continuous variables and on a data file with discontinuous (categorical) variables.
|
289 |
Visual exploration to support the identification of relevant attributes in time-varying multivariate data / Visualização como apoio à identificação de atributos relevantes em dados multidimensionais variantes no tempoAurea Rossy Soriano Vargas 19 March 2018 (has links)
Ionospheric scintillation is a rapid variation in the amplitude and/or phase of radio signals traveling through the ionosphere. This spatial and time-varying phenomenon is of interest because its occurrence may affect the reception quality of satellite signals. Specialized receivers at strategic regions can track multiple variables related to the phenomenon, generating a database of historical observations on the regional behavior of ionospheric scintillation. The analysis of such data is very challenging, since it consists of time-varying measurements of many variables which are heterogeneous in nature and with possibly many missing values, recorded over extensive time periods. There is a need to introduce alternative intuitive strategies that contribute to experts acquiring further knowledge from the ionospheric scintillation data. Such challenges motivated a study on the applicability of visualization techniques to support tasks of identification of relevant attributes in the study of the behavior of phenomena described by multiple time-varying variables, of which the ionospheric scintillation is a good example. In particular, this thesis introduces a visual analytics framework, named TV-MV Analytics, that supports exploratory tasks on time-varying multivariate data and was developed following the requirements of experts on ionospheric scintillation from the Faculty of Science and Technology of UNESP at Presidente Prudente, Brazil. TV-MV Analytics provides an interactive visual exploration loop to analysts inspecting the behavior of multiple variables at different temporal scales, through temporal representations associated with clustering and multidimensional projection techniques. Analysts can also assess how different feature sub-spaces contribute to characterizing a certain behavior, where they may direct the analysis process and include their domain knowledge in the exploratory analysis. We also illustrate the application of TV-MV Analytics on multivariate time-varying data sets from three alternative application domains. Experimental results indicate the proposed solutions show good potential on assisting time-varying multivariate data mining tasks, since it reduces the effort required from experts to gain deeper insight into the historical behavior of the variables describing a phenomenon or domain. / A cintilação ionosférica é uma variação rápida na amplitude e/ou na fase dos sinais de rádio que viajam através da ionosfera. Este fenômeno espacial e variante no tempo é de grande interesse, pois pode afetar a qualidade de recepção dos sinais de satélite. Receptores especializados em regiões estratégicas podem rastrear múltiplas variáveis relacionadas ao fenômeno, gerando um banco de dados de observações históricas sobre o comportamento regional da cintilação. O estudo do comportamento da cintilação é desafiador, uma vez que requer a análise extensiva de dados multivariados e variantes no tempo, coletados por longos períodos. Medições são registradas continuamente, e são de natureza heterogênea, compreendendo múltiplas variáveis de diferentes categorias e possivelmente com muitos valores faltantes. Portanto, existe a necessidade de introduzir estratégias alternativas, eficientes e intuitivas, que contribuam para a adquisição de conhecimento, a partir dos dados, por especialistas que estudam a cintilação ionosférica. Tais desafios motivaram o estudo da aplicabilidade de técnicas de visualização para apoiar tarefas de identificação de atributos relevantes no estudo do comportamento de fenômenos ou domínios que envolvem múltiplas variáveis, como a cintilação. Em particular, esta tese introduz um arcabouço visual, o qual foi denominado TV-MV Analytics, que apoia tarefas de análise exploratória sobre dados multivariados e variáveis no tempo, inspirado em requisitos de especialistas no estudo da cintilação, vinculados à Faculdade de Ciências e Tecnologia da UNESP de Presidente Prudente, Brasil. O TV-MV Analytics fornece aos analistas um ciclo de interativo de exploração que apoia a inspeção do comportamento temporal de múltiplas variáveis, em diferentes escalas temporais, por meio de representações visuais temporais associadas a técnicas de agrupamento e de projeção multidimensional. Também permite avaliar como diferentes sub-espaços de atributos caracterizam um determinado comportamento, podendo direcionar o processo de análise e inserir seu conhecimento do domínio no processo de análise exploratória. As funcionalidades do TV-MV Analytics também são ilustradas em dados variantes no tempo oriundos de outros três domínios de aplicação. Os resultados experimentais indicaram que as soluções propostas têm bom potencial em tarefas de mineração de dados multivariados e variantes no tempo, uma vez que reduz o esforço e contribui para os especialistas obterem informações detalhadas sobre o comportamento histórico das variáveis que descrevem um determinado fenômeno ou domínio.
|
290 |
Um estudo sobre o papel de medidas de similaridade em visualização de coleções de documentos / A study on the role of similarity measures in visual text analyticsFrizzi Alejandra San Roman Salazar 27 September 2012 (has links)
Técnicas de visualização de informação, tais como as que utilizam posicionamento de pontos baseado na similaridade do conteúdo, são utilizadas para criar representações visuais de dados que evidenciem certos padrões. Essas técnicas são sensíveis à qualidade dos dados, a qual, por sua vez, depende de uma etapa de pré-processamento muito influente. Esta etapa envolve a limpeza do texto e, em alguns casos, a detecção de termos e seus pesos, bem como a definição de uma função de (dis)similaridade. Poucos são os estudos realizados sobre como esses cálculos de (dis)similaridade afetam a qualidade das representações visuais geradas para dados textuais. Este trabalho apresenta um estudo sobre o papel das diferentes medidas de (dis)similaridade entre pares de textos na geração de mapas visuais. Nos concentramos principalmente em dois tipos de funções de distância, aquelas computadas a partir da representação vetorial do texto (Vector Space Model (VSM)) e em medidas de comparação direta de strings textuais. Comparamos o efeito na geração de mapas visuais com técnicas de posicionamento de pontos, utilizando as duas abordagens. Para isso, foram utilizadas medidas objetivas para comparar a qualidade visual dos mapas, tais como Neighborhood Hit (NH) e Coeficiente de Silhueta (CS). Descobrimos que ambas as abordagens têm pontos a favor, mas de forma geral, o VSM apresentou melhores resultados quanto à discriminação de classes. Porém, a VSM convencional não é incremental, ou seja, novas adições à coleção forçam o recálculo do espaço de dados e das dissimilaridades anteriormente computadas. Nesse sentido, um novo modelo incremental baseado no VSM (Incremental Vector Space Model (iVSM)) foi considerado em nossos estudos comparativos. O iVSM apresentou os melhores resultados quantitativos e qualitativos em diversas configurações testadas. Os resultados da avaliação são apresentados e recomendações sobre a aplicação de diferentes medidas de similaridade de texto em tarefas de análise visual, são oferecidas / Information visualization techniques, such as similarity based point placement, are used for generating of visual data representation that evidence some patterns. These techniques are sensitive to data quality, which depends of a very influential preprocessing step. This step involves cleaning the text and in some cases, detecting terms and their weights, as well as definiting a (dis)similarity function. There are few studies on how these (dis)similarity calculations aect the quality of visual representations for textual data. This work presents a study on the role of the various (dis)similarity measures in generating visual maps. We focus primarily on two types of distance functions, those based on vector representations of the text (Vector Space Model (VSM)) and measures obtained from direct comparison of text strings, comparing the effect on the visual maps obtained with point placement techniques with the two approaches. For this, objective measures were employed to compare the visual quality of the generated maps, such as the Neighborhood Hit and Silhouette Coefficient. We found that both approaches have strengths, but in general, the VSM showed better results as far as class discrimination is concerned. However, the conventional VSM is not incremental, i.e., new additions to the collection force the recalculation of the data space and dissimilarities previously computed. Thus, a new model based on incremental VSM (Incremental Vector Space Model (iVSM)) has been also considered in our comparative studies. iVSM showed the best quantitative and qualitative results in several of the configurations considered. The evaluation results are presented and recommendations on the application of different similarity measures for text analysis tasks visually are provided
|
Page generated in 0.1207 seconds