Global ETD Search

11	Uma abordagem de visualização híbrida para apoiar a exploração de conjuntos de dados / A hybrid visualization approach to support the exploration of data sets Silva, Lenon Fachiano 22 January 2018 (has links) Submitted by Lenon Fachiano (lenon_fachiano@hotmail.com) on 2018-05-09T17:37:15Z No. of bitstreams: 1 abntex2-LenonFachiano.pdf: 5626662 bytes, checksum: e8f64d248c338cf11e9e65b08961374f (MD5) / Approved for entry into archive by Elza Mitiko Sato null (elzasato@ibilce.unesp.br) on 2018-05-09T17:50:40Z (GMT) No. of bitstreams: 1 silva_lf_me_sjrp_int.pdf: 5626662 bytes, checksum: e8f64d248c338cf11e9e65b08961374f (MD5) / Made available in DSpace on 2018-05-09T17:50:40Z (GMT). No. of bitstreams: 1 silva_lf_me_sjrp_int.pdf: 5626662 bytes, checksum: e8f64d248c338cf11e9e65b08961374f (MD5) Previous issue date: 2018-01-22 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / Técnicas de visualização têm sido largamente utilizadas na exploração de conjuntos de dados. Uma estratégia comum é empregar diferentes técnicas para facilitar a investigação, permitindo que o usuário tenha diferentes perspectivas de um mesmo conjunto de dados. Nessas situações, um mecanismo de coordenação auxilia o usuário na troca de contexto entre diferentes visões. Adicionalmente, uma estratégia adotada por algumas abordagens é a de combinar diferentes técnicas de visualização em uma única visão, criando uma visualização híbrida. Este trabalho apresenta o desenvolvimento de uma abordagem de visualização híbrida que utiliza uma técnica de visualização para destacar o relacionamento entre instâncias com outra técnica de visualização para destacar o relacionamento entre atributos. Como resultado, foi obtida uma metodologia de combinação de técnicas que apoia o processo de exploração de conjuntos de dados multidimensionais e auxilia no entendimento do espaço de característica, permitindo a detecção de fronteiras compartilhadas entre agrupamentos e a resolução de problemas de rotulação. / Visualization Techniques have been widely used in the exploration of datasets. A common strategy is to employ different techniques to facilitate research, allowing the user to have different perspectives from the same dataset. In these situations, a coordination mechanism helps the user in the exchange of context between different visions. In addition, a strategy adopted by some approaches is to combine different visualizations into a single view, creating a hybrid visualization. This paper shows the development of a hybrid visualization approach that uses a visualization technique to highlight the relationship between instances with another to highlight the relationship between attributes. This approach supports the process of exploring multidimensional datasets and assists in understanding the featuring space, allowing the detection of shared boundaries between groupings and the resolution of labeling problems. As a result, a methodology combining techniques was developed that supports the process of exploring multidimensional data sets and helps in understanding the characteristic space, allowing the detection of shared boundaries between groupings and the resolution of labeling problems. Visualização de Informação Dados Multidimensionais Técnicas Híbridas Agregação Information visualization Multidimensional data Hybrid techniques Aggregation
12	Modélisation et exécution des applications d'analyse de données multi-dimentionnelles sur architectures distribuées. / Modelling and executing multidimensional data analysis applications over distributed architectures. Pan, Jie 13 December 2010 (has links) Des quantités de données colossalles sont générées quotidiennement. Traiter de grands volumes de données devient alors un véritable challenge pour les logiciels d'analyse des données multidimensionnelles. De plus, le temps de réponse exigé par les utilisateurs de ces logiciels devient de plus en plus court, voire intéractif. Pour répondre à cette demande, une approche basée sur le calcul parallèle est une solution. Les approches traditionnelles reposent sur des architectures performantes, mais coûteuses, comme les super-calculateurs. D'autres architectures à faible coût sont également disponibles, mais les méthodes développées sur ces architectures sont souvent bien moins efficaces. Dans cette thèse, nous utilisons un modèle de programmation parallèle issu du Cloud Computing, dénommé MapReduce, pour paralléliser le traitement des requêtes d'analyse de données multidimensionnelles afin de bénéficier de mécanismes de bonne scalabilité et de tolérance aux pannes. Dans ce travail, nous repensons les techniques existantes pour optimiser le traitement de requête d'analyse de données multidimensionnelles, y compris les étapes de pré-calcul, d'indexation, et de partitionnement de données. Nous avons aussi résumé le parallélisme de traitement de requêtes. Ensuite, nous avons étudié le modèle MapReduce en détail. Nous commençons par présenter le principe de MapReduce et celles du modèle étendu, MapCombineReduce. En particulier, nous analysons le coût de communication pour la procédure de MapReduce. Après avoir présenté le stockage de données qui fonctionne avec MapReduce, nous présentons les caractéristiques des applications de gestion de données appropriées pour le Cloud Computing et l'utilisation de MapReduce pour les applications d'analyse de données dans les travaux existants. Ensuite, nous nous concentrons sur la parallélisation des Multiple Group-by query, une requête typique utilisée dans l'exploration de données multidimensionnelles. Nous présentons la mise en oeuvre de l'implémentation initiale basée sur MapReduce et une optimisation basée sur MapCombineReduce. Selon les résultats expérimentaux, notre version optimisée montre un meilleur speed-up et une meilleure scalabilité que la version initiale. Nous donnons également une estimation formelle du temps d'exécution pour les deux implémentations. Afin d'optimiser davantage le traitement du Multiple Group-by query, une phase de restructuration de données est proposée pour optimiser les jobs individuels. Nous re-definissons l'organisation du stockage des données, et nous appliquons les techniques suivantes, le partitionnement des données, l'indexation inversée et la compression des données, au cours de la phase de restructuration des données. Nous redéfinissons les calculs effectués dans MapReduce et dans l'ordonnancement des tâches en utilisant cette nouvelle structure de données. En nous basant sur la mesure du temps d'exécution, nous pouvons donner une estimation formelle et ainsi déterminer les facteurs qui impactent les performances, telles que la sélectivité de requête, le nombre de mappers lancés sur un noeud, la distribution des données « hitting », la taille des résultats intermédiaires, les algorithmes de sérialisation adoptée, l'état du réseau, le fait d'utiliser ou non le combiner, ainsi que les méthodes adoptées pour le partitionnement de données. Nous donnons un modèle d'estimation des temps d'exécution et en particulier l'estimation des valeurs des paramètres différents pour les exécutions utilisant le partitionnement horizontal. Afin de soutenir la valeur-unique-wise-ordonnancement, qui est plus flexible, nous concevons une nouvelle structure de données compressées, qui fonctionne avec un partitionnement vertical. Cette approche permet l'agrégation sur une certaine valeur dans un processus continu. / Along with the development of hardware and software, more and more data is generated at a rate much faster than ever. Processing large volume of data is becoming a challenge for data analysis software. Additionally, short response time requirement is demanded by interactive operational data analysis tools. For addressing these issues, people look for solutions based on parallel computing. Traditional approaches rely on expensive high-performing hardware, like supercomputers. Another approach using commodity hardware has been less investigated. In this thesis, we are aiming to utilize commodity hardware to resolve these issues. We propose to utilize a parallel programming model issued from Cloud Computing, MapReduce, to parallelize multidimensional analytical query processing for benefit its good scalability and fault-tolerance mechanisms. In this work, we first revisit the existing techniques for optimizing multidimensional data analysis query, including pre-computing, indexing, data partitioning, and query processing parallelism. Then, we study the MapReduce model in detail. The basic idea of MapReduce and the extended MapCombineReduce model are presented. Especially, we analyse the communication cost of a MapReduce procedure. After presenting the data storage works with MapReduce, we discuss the features of data management applications suitable for Cloud Computing, and the utilization of MapReduce for data analysis applications in existing work. Next, we focus on the MapReduce-based parallelization for Multiple Group-by query, a typical query used in multidimensional data exploration. We present the MapReduce-based initial implementation and a MapCombineReduce-based optimization. According to the experimental results, our optimized version shows a better speed-up and a better scalability than the other version. We also give formal execution time estimation for both the initial implementation and the optimized one. In order to further optimize the processing of Multiple Group-by query processing, a data restructure phase is proposed to optimize individual job execution. We redesign the organization of data storage. We apply, data partitioning, inverted index and data compressing techniques, during data restructure phase. We redefine the MapReduce job's calculations, and job scheduling relying on the new data structure. Based on a measurement of execution time we give a formal estimation. We find performance impacting factors, including query selectivity, concurrently running mapper number on one node, hitting data distribution, intermediate output size, adopted serialization algorithms, network status, whether using combiner or not as well as the data partitioning methods. We give an estimation model for the query processing's execution time, and specifically estimated the values of various parameters for data horizontal partitioning-based query processing. In order to support more flexible distinct-value-wise job-scheduling, we design a new compressed data structure, which works with vertical partition. It allows the aggregations over one certain distinct value to be performed within one continuous process. MapReduce Analyse de données multidimentionnelles Optimisation de performance MapReduce Multidimensional data analysis Performance optimization
13	Visualizing multidimensional data similarities: improvements and applications / Visualizando similaridades em dados multidimensionais: melhorias e aplicações Renato Rodrigues Oliveira da Silva 05 December 2016 (has links) Multidimensional datasetsare increasingly more prominent and important in data science and many application domains. Such datasets typically consist of a large set of observations, or data points, each which is described by several measurements, or dimensions. During the design of techniques and tools to process such datasets, a key component is to gather insights into their structure and patterns, a goal which is targeted by multidimensional visualization methods. Structures and patterns of high-dimensional data can be described, at a core level, by the notion of similarity of observations. Hence, to visualize such patterns, we need effective and efficient ways to depict similarity relations between a large number of observations, each having a potentially large number of dimensions. Within the realm of multidimensional visualization methods, two classes of techniques exist projections and similarity trees which effectively capture similarity patterns and also scale well to the number of observations and dimensions of the data. However, while such techniques show similarity patterns, understanding and interpreting these patterns in terms of the original data dimensions is still hard. This thesis addresses the development of visual explanatory techniques for the easy interpretation of similarity patterns present in multidimensional projections and similarity trees, by several contributions. First, we proposemethodsthat make the computation of similarity treesefficient for large datasets, and also allow their visual explanation on a multiscale, or several levels of detail. We also propose ways to construct simplified representations of similarity trees, thereby extending their visual scalability even further. Secondly, we propose methods for the visual explanation of multidimensional projections in terms of automatically detected groups of related observations which are also automatically annotated in terms of their similarity in the high-dimensional data space. We show next how these explanatory mechanismscan be adapted to handle both static and time-dependent multidimensional datasets. Our proposed techniques are designed to be easy to use, work nearly automatically, handle any typesof quantitativemultidimensional datasets and multidimensional projection techniques, and are demonstrated on a variety of real-world large datasets obtained from image collections, text archives, scientific measurements, and software engineeering. / Conjuntos de dados multidimensionais são cada vez mais proeminentes e importantes em data science e muitos domínios de aplicação. Esses conjuntos de dados são tipicamente constituídos de um grande número de observações, ou objetos, cada qual descrito por várias medidas, ou dimensões. Durante o projeto de técnicas e ferramentas para processar tais dados, um dos focos principais é prover meios para análise e levantamento de hipóteses a partir das principais estruturas e padrões. Esse objetivo é perseguido por métodos de visualização multidimensional. Estruturas e padrões em dados multidimensionais podem ser descritos, em linhas gerais, pela noção de similaridade das observações. Portanto, para visualizar esses padrões, precisamos de meios efetivos e eficientes para retratar relações de similaridade dentre um grande número de observações, que potencialmente possuem um grande número de dimensões cada. No contexto dos métodos de visualização multidimensional, existem duas categorias de técnicas projeções e árvores de similaridade que efetivamente capturam padrões de similaridade e oferecem boa escalabilidade, tanto para o número de observações e quanto de dimensões. No entanto, embora essas técnicas exibam padrões de similaridade, o entendimento e interpretação desses padrões, em termos das dimensões originais dos dados, ainda é difícil. O trabalho desenvolvido nessa tese visa o desenvolvimento de técnicas explicativas para a fácil interpretação de padrões de similaridade presentes em projeções multidimensionais e árvores de similaridade. Primeiro, propomos métodos que possibilitam a computação eficiente de árvores de similaridade para grandes conjuntos de dados, e também a sua explicação visual em multiescala, ou seja, em vários níveis de detalhe. Também propomos modos de construir representações simplificadas de árvores de similaridade, e desse modo estender ainda mais a sua escalabilidade visual. Segundo, propomos métodos para explicar visualmente projeções multidimensionais em termos de grupos de observações relacionadas, detectadas e anotadas automaticamente para explicitar aspectos de sua similaridade no espaço de alta dimensionalidade. Mostramos em seguida como esses mecanismos explicativos podem ser adaptados para lidar com dados de natureza estática e dependentes no tempo. Nossas técnicas sã construídas visando fácil utilização, funcionamento semi automático, aplicação em quaisquer tipos de dados multidimensionais quantitativos e quaisquer técnicas de projeção multidimensional. Demonstramos a sua utilização em uma variedade de conjuntos de dados reais, obtidos a partir de coleções de imagens, arquivos textuais, medições científicas e de engenharia de software. Análise visual Computação gráfica Dados multidimensionais Visualização Computer graphics Multidimensional data Visual analytics Visualization
14	Explanatory visualization of multidimensional prejections / Visualização explanatória de projeções multidimensionais Rafael Messias Martins 11 March 2016 (has links) Visual analytics tools play an important role in the scenario of big data solutions, combining data analysis and interactive visualization techniques in effective ways to support the incremental exploration of large data collections from a wide range of domains. One particular challenge for visual analytics is the analysis of multidimensional datasets, which consist of many observations, each being described by a large number of dimensions, or attributes. Finding and understanding data-related patterns present in such spaces, such as trends, correlations, groups of related observations, and outliers, is hard. Dimensionality reduction methods, or projections, can be used to construct low (two or three) dimensional representations of high-dimensional datasets. The resulting representation can then be used as a proxy for the visual interpretation of the high-dimensional space to efficiently and effectively support the above-mentioned data analysis tasks. Projections have important advantages over other visualization techniques for multidimensional data, such as visual scalability, high degree of robustness to noise and low computational complexity. However, a major obstacle to the effective practical usage of projections relates to their difficult interpretation. Two main types of interpretation challenges for projections are studied in this thesis. First, while projection techniques aim to preserve the so-called structure of the original dataset in the final produced layout, and effectively achieve the proxy effect mentioned earlier, they may introduce a certain amount of errors that influence the interpretation of their results. However, it is hard to convey to users where such errors occur in the projection, how large they are, and which specific data-interpretation aspects they affect. Secondly, interpreting the visual patterns that appear in the projection space is far from trivial, beyond the projections ability to show groups of similar observations. In particular, it is hard to explain these patterns in terms of the meaning of the original data dimensions. In this thesis we focus on the design and development of novel visual explanatory techniques to address the two interpretation challenges of multidimensional projections outlined above. We propose several methods to quantify, classify, and visually represent several types of projection errors, and how their explicit depiction helps interpreting data patterns. Next we show how projections can be visually explained in terms of the highdimensional data attributes, both in a global and a local way. Our proposals are designed to be easily added, and used with, any projection technique, and in any application context using such techniques. Their added value is demonstrated by presenting several exploration scenarios involving various types of multidimensional datasets, ranging from measurements, scientific simulations, software quality metrics, software system structure, and networks. / Ferramentas de análise visual desempenham um papel importante no cenário de soluções para grandes volumes de dados (big data), combinando análise de dados e técnicas interativas de visualização de forma eficaz para apoiar a exploração incremental de coleções de dados em diversos domínios. Um desafio importante em análise visual é a exploração de conjuntos de dados multidimensionais, que consistem em muitas observações, sendo cada uma descrita por um grande número de dimensões, ou atributos. Encontrar e compreender os padrões presentes em tais espaços, tais como tendências, correlações, grupos de observações relacionadas e valores extremos, é difícil. Técnicas de redução de dimensionalidade ou projeções são utilizadas para construir, a partir de conjuntos de dados multidimensionais, representações de duas ou três dimensões que podem então ser utilizadas com substitutas do espaço original para sua interpretação visual, apoiando de forma eficiente as tarefas de análise de dados acima mencionadas. Projeções apresentam vantagens importantes sobre outras técnicas de visualização para dados multidimensionais, tais como escalabilidade visual, resistência a ruídos e baixa complexidade computacional. No entanto, um grande obstáculo para o uso prático de projeções vem da sua difícil interpretação. Dois principais tipos de desafios de interpretação de projeções são estudados nesta tese. Em primeiro lugar, mesmo que as técnicas de projeção tenham como objetivo preservar, na representação final, a estrutura do conjunto de dados original, elas podem introduzir uma certa quantidade de erros que influenciam a interpretação dos seus resultados. No entanto, é difícil transmitir aos usuários onde tais erros ocorrem na projeção, quão severos eles são e que aspectos específicos da interpretação dos dados eles afetam. Em segundo lugar, interpretar os padrões visuais que aparecem em uma projeção, além da percepção de grupos de observações semelhantes, está longe de ser trivial. Em particular, é difícil explicar tais padrões em termos do significado das dimensões dos dados originais. O trabalho desenvolvido nesta tese concentra-se no projeto e desenvolvimento de novas técnicas visuais explicativas para lidar com os dois desafios de interpretação de projeções multidimensionais descritos acima. São propostos alguns métodos para quantificar, classificar e representar visualmente diversos tipos de erros de projeção, e é descrito como essas representações explícitas ajudam na interpretação dos padrões dos dados. Além disso, também são propostas técnicas visuais para explicar projeções em termos dos atributos dos dados multidimensionais, tanto de forma global quanto local. As propostas apresentadas foram concebidas para serem facilmente incorporadas e usadas com qualquer técnica de projeção e em qualquer contexto de aplicação. As contribuições são demonstradas pela apresentação de vários cenários de exploração, envolvendo vários tipos de conjuntos de dados multidimensionais, desde medições e simulações científicas até métricas de qualidade de software, estruturas de sistema de software e redes. Análise visual Computação gráfica Dados multidimensionais Visualização Computer graphics Multidimensional data Visual analytics Visualization
15	Město pro byznys: Vícerozměrná statistická analýza a možné návrhy na zdokonalení projektu / Město pro byznys: Multi-dimensional statistical analysis and the possible suggestions on how to improve the project Krajča, Marek January 2014 (has links) The main objective of my diploma thesis is multidimensional data analysis. Analyzed data come from the comparative research Město pro byznys 2013 (Eng. translation: The city for business 2013). Another goal is to propose some changes that could improve the project. Used methods for multidimensional data analysis are exploratory analysis, principal component analysis, factor analysis and cluster analysis. Among others, for proposing some changes I use multi-criteria decision analysis.
16	Multidimenzionální analýza dat a zpracování analytického zobrazení / Multidimensional Data Analysis and Analytic View Processing Foltýnová, Veronika January 2018 (has links) This thesis deals with the analysis and display of multidimensional data. In the theoretical part, the issue of data mining, its tasks and techniques, and a brief explanation of the terms Business Intelligence and data warehouse are presented. The issue of databases is also described in this thesis. Subsequently, the options for displaying multidimensional data are described. At the end of the theoretical part is briefly explained the problems of optical networks and especially the terms Gigabit passive optical network and its frame, because the data from the frames of this network will be displayed by an application. In the practical part, you can find creating a source database and an application to create a OLAP cube and display multidimensional data. This application is based on the theoretical knowledge of multidimensional databases and OLAP technology.
17	Visual Exploration and Comparative Analytics of Multidimensional Data Sets Liu, Xiaotong 28 December 2016 (has links) No description available. Computer Science Computer Engineering
18	Query Support for Multi-Dimensional and Dynamic Databases Apaydin, Tan 29 September 2008 (has links) No description available. Computer Science Angular Similarity Bitmap Index Multidimensional data Large Scale Point and Range Queries Query Execution
19	High-dimensional Data in Scientific Visualization: Representation, Fusion and Difference Mohammed, Ayat Mohammed Naguib 14 July 2017 (has links) Visualization has proven to be an effective means for analyzing high-dimensional data, especially Multivariate Multidimensional (MVMD) scientific data. Scientific visualization deals with data that have natural spatial mapping such as maps, buildings interiors or even your physiological body parts, while information visualization involves abstract, non-spatial data. Visual analytics uses either visualization types to gain deep inferences about scientific data or information. In recent years, a variety of techniques have been developed combining statistical and visual analysis tools to represent data of different types in one view to enable data fusion. One vital feature of such visualization tools is the support for comparison: showing the differences between two or more objects. This feature is called visual differencing, or discrimination. Visual differencing is a common requirement across different research domains, helping analysts compare different objects in the data set or compare different attributes of the same object. From a visual analytic point of view, this research examines humans' predictable bias in interpreting visual-spatial, spatiotemporal information, and inference-making in scientific visualization. Practically, I examined different case studies from different domains such as land suitability in agriculture, spectrum sensing in software-defined radio networks, raster images in remote sensing, pattern recognition in point cloud, airflow distribution in aerodynamics, galaxy catalogs in astrophysics and protein membrane interaction in molecular dynamics. Each case required different computing power, ranging from personal computer to high performance cluster. Based on this experience across application domains, I propose a high-performance visualization paradigm for scientific visualization that supports three key features of scientific data analysis: representations, fusion, and visual discrimination. This paradigm is informed by practical work with multiple high-performance computing and visualization platforms from desktop displays to immersive CAVE displays. In order to evaluate the applicability of the proposed paradigm, I carried out two user studies. The first user study addressed the feature of data fusion with multivariate maps and the second one addressed visual differencing with three multi-view management techniques. The high-performance visualization paradigm and the results of these studies contribute to our knowledge of efficient MVMD designs and provides scientific visualization developers with a framework to mitigate the trade-offs of scalable visualization design such as the data mappings, computing power, and output modality. / Ph. D. Scientific Visualization Visual Discrimination perception High-performance visualization Paradigm
20	Seleção de características apoiada por mineração visual de dados / Feature selection supported by visual data mining Botelho, Glenda Michele 17 February 2011 (has links) Devido ao crescimento do volume de imagens e, consequentemente, da grande quantidade e complexidade das características que as representam, surge a necessidade de selecionar características mais relevantes que minimizam os problemas causados pela alta dimensionalidade e correlação e que melhoram a eficiência e a eficácia das atividades que utilizarão o conjunto de dados. Existem diversos métodos tradicionais de seleção que se baseiam em análises estatísticas dos dados ou em redes neurais artificiais. Este trabalho propõe a inclusão de técnicas de mineração visual de dados, particularmente, projeção de dados multidimensionais, para apoiar o processo de seleção. Projeção de dados busca mapear dados de um espaço m-dimensional em um espaço p-dimensional, p < m e geralmente igual a 2 ou 3, preservando ao máximo as relações de distância existentes entre os dados. Tradicionalmente, cada imagem é representada por um ponto e pontos projetados próximos uns aos outros indicam agrupamentos de imagens que compartilham as mesmas propriedades. No entanto, este trabalho propõe a projeção de características. Dessa forma, ao selecionarmos apenas algumas amostras de cada agrupamento da projeção, teremos um subconjunto de características, configurando um processo de seleção. A qualidade dos subconjuntos de características selecionados é avaliada comparando-se as projeções obtidas para estes subconjuntos com a projeção obtida com conjunto original de dados. Isto é feito quantitativamente, por meio da medida de silhueta, e qualitativamente, pela observação visual da projeção. Além da seleção apoiada por projeção, este trabalho propõe um aprimoramento no seletor de características baseado no cálculo de saliências de uma rede neural Multilayer Perceptron. Esta alteração, que visa selecionar características mais discriminantes e reduzir a quantidade de cálculos para se obter as saliências, utiliza informações provenientes dos agrupamentos de características, de forma a alterar a topologia da rede neural em que se baseia o seletor. Os resultados mostraram que a seleção de características baseada em projeção obtém subconjuntos capazes de gerar novas projeções com qualidade visual satisfatória. Em relação ao seletor por saliência proposto, este também gera subconjuntos responsáveis por altas taxas de classificação de imagens e por novas projeções com bons valores de silhueta / Due to the ever growing amount of digital images and, consequently, the quantity and complexity of your features, there has been a need to select the most relevant features so that not only problems caused by high dimensional data sets, correlated features can be minimized, and also the efficiency of the tasks that may employ such features can be enhanced. Many feature selection methods are based on statistical analysis or neural network approaches. This work proposes the addition of visual data mining techniques, particularly multidimensional data projection approaches, to aid the feature selection process. Multidimensional data projection seeks to map a m-dimensional data space onto a p-dimensional space, so that p < m, usually 2 or 3, while preserving distance relationship among data instances. Traditionally, each image is represented by a point, and points projected close to each other indicate clusters of images which share a common properties. However, this work proposes the projection of features. Hence, if we select only a few samples of each cluster of features from the projection, we will end up with a subset of features, revealing a feature selection process. The quality of the feature subset may be assessed by comparing such projections with those obtained with the original data set. This can be achieved either quantitatively, by means of silhouette measures, or qualitatively, by means of visual inspection of the projection. As well as the projection based feature selection, this work proposes an enhancement in the Multilayer Perceptron salience based feature selector. This enhancement, whose aim is to perfect the selection of more discriminant features at the expenses of less computing power, employs information from feature clusters, so as to change the topology of the neural network on which the selector is based. Results have shown that projection-based feature selection produces subsets capable of generating new data projections of satisfactory visual quality. As for the proposed salience-based selector, new subsets with high image classification rates and good silhouette measures have been reported Agrupamento Clustering Feature selection Multidimensional data projection Projeção de dados multidimensionais Salience selection Seleção de características Seleção por saliência Silhueta Siulhouette

Search results