Spelling suggestions: "subject:"redução dde dimensionalidade"" "subject:"redução dee dimensionalidade""
1 |
"Análise visual em processos de redução de dimensionalidade para mineração em sistemas de bases de dados"Razente, Humberto Luiz 21 May 2004 (has links)
O grande volume de dados coletados pelas empresas nas últimas décadas tornou-se uma fonte de informações valiosas, permitindo às empresas obter maior competitividade. Entretanto, a análise desses dados - a transformação deles em informações úteis - tornou-se uma tarefa difícil. Em muitos casos, além desses dados existirem em grande número de itens, eles são compostos por um grande número de dimensões (ou atributos), dificultando a sua compreensão. Nesses dados, uma eliminação de atributos correlacionados poderia diminuir a complexidade de diversas técnicas de análise existentes. Embora a existência de correlações entre atributos possa ser encontrada por diversas técnicas estatísticas, essas correlações também podem ser observadas visualmente. Este trabalho apresenta a técnica Visualização por Blocos Verticais - BV que permite a sobreposição de diferentes mapeamentos de um mesmo conjunto de dados de alta dimensão, tornando possível a observação visual das correlações existentes entre os atributos. A técnica Visualização por Blocos Horizontais - BH, também apresentada neste trabalho, permite a sobreposição de mapeamentos de eventos orientados por um atributo separador, permitindo observar a evolução dos objetos como um todo. Ambas as técnicas utilizam o algoritmo FastMap para realizar a redução de dimensionalidade dos dados para um espaço euclidiano tridimensional para viabilizar sua visualização em um ambiente interativo e intuitivo.
|
2 |
"Análise visual em processos de redução de dimensionalidade para mineração em sistemas de bases de dados"Humberto Luiz Razente 21 May 2004 (has links)
O grande volume de dados coletados pelas empresas nas últimas décadas tornou-se uma fonte de informações valiosas, permitindo às empresas obter maior competitividade. Entretanto, a análise desses dados - a transformação deles em informações úteis - tornou-se uma tarefa difícil. Em muitos casos, além desses dados existirem em grande número de itens, eles são compostos por um grande número de dimensões (ou atributos), dificultando a sua compreensão. Nesses dados, uma eliminação de atributos correlacionados poderia diminuir a complexidade de diversas técnicas de análise existentes. Embora a existência de correlações entre atributos possa ser encontrada por diversas técnicas estatísticas, essas correlações também podem ser observadas visualmente. Este trabalho apresenta a técnica Visualização por Blocos Verticais - BV que permite a sobreposição de diferentes mapeamentos de um mesmo conjunto de dados de alta dimensão, tornando possível a observação visual das correlações existentes entre os atributos. A técnica Visualização por Blocos Horizontais - BH, também apresentada neste trabalho, permite a sobreposição de mapeamentos de eventos orientados por um atributo separador, permitindo observar a evolução dos objetos como um todo. Ambas as técnicas utilizam o algoritmo FastMap para realizar a redução de dimensionalidade dos dados para um espaço euclidiano tridimensional para viabilizar sua visualização em um ambiente interativo e intuitivo.
|
3 |
Understanding interactive multidimensional projections / Compreendendo projeções multidimensionais interativasFadel, Samuel Gomes 14 October 2016 (has links)
The large amount of available data on a diverse range of human activities provides many opportunities for understanding, improving and revealing unknown patterns in them. Powerful automatic methods for extracting this knowledge from data are already available from machine learning and data mining. They, however, rely on the expertise of analysts to improve their results when those are not satisfactory. In this context, interactive multidimensional projections are a useful tool for the analysis of multidimensional data by revealing their underlying structure while allowing the user to manipulate the results to provide further insight into this structure. This manipulation, however, has received little attention regarding their influence on the mappings, as they can change the final layout in unpredictable ways. This is the main motivation for this research: understanding the effects caused by changes in these mappings. We approach this problem from two perspectives. First, the user perspective, we designed and developed visualizations that help reduce the trial and error in this process by providing the right piece of information for performing manipulations. Furthermore, these visualizations help explain the changes in the map caused by such manipulations. Second, we defined the effectiveness of manipulation in quantitative terms, then developed an experimental framework for assessing manipulations in multidimensional projections under this view. This framework is based on improving mappings using known evaluation measures for these techniques. Using the improvement of measures as different types of manipulations, we perform a series of experiments on five datasets, five measures, and four techniques. Our experimental results show that there are possible types of manipulations that can happen effectively, with some techniques being more susceptible to manipulations than others. / O grande volume de dados disponíveis em uma diversa gama de atividades humanas cria várias oportunidades para entendermos, melhorarmos e revelarmos padrões previamente desconhecidos em tais atividades. Métodos automáticos para extrair esses conhecimentos a partir de dados já existem em áreas como aprendizado de máquina e mineração de dados. Entretanto, eles dependem da perícia do analista para obter melhores resultados quando estes não são satisfatórios. Neste contexto, técnicas de projeção multidimensional interativas são uma ferramenta útil para a análise de dados multidimensionais, revelando sua estrutura subjacente ao mesmo tempo que permite ao analista manipular os resultados interativamente, estendendo o processo de exploração. Essa interação, entretanto, não foi estudada com profundidade com respeito à sua real influência nos mapeamentos, já que podem causar mudanças não esperadas no mapeamento final. Essa é a principal motivação desta pesquisa: entender os efeitos causados pelas mudanças em tais mapeamentos. Abordamos o problema de duas perspectivas. Primeiro, da perspectiva do usuário, desenvolvemos visualizações que ajudam a diminuir tentativas e erros neste processo provendo a informação necessária a cada passo da interação. Além disso, essas visualizações ajudam a explicar as mudanças causadas no mapeamento pela manipulação. A segunda perspectiva é a efetividade da manipulação. Definimos de forma quantitativa a efetividade da manipulação, e então desenvolvemos um arcabouço para avaliar manipulações sob a visão da efetividade. Este arcabouço é baseado em melhorias nos mapeamentos usando medidas de avaliação conhecidas para tais técnicas. Usando tais melhorias como diferentes formas de manipulação, realizamos uma série de experimentos em cinco bases de dados, cinco medidas e quatro técnicas. Nossos resultados experimentais nos dão evidências que existem certos tipos de manipulação que podem acontecer efetivamente, com algumas técnicas sendo mais suscetíveis a manipulações do que outras.
|
4 |
Robust algorithms for linear regression and locally linear embedding / Algoritmos robustos para regressão linear e locally linear embeddingRettes, Julio Alberto Sibaja January 2017 (has links)
RETTES, Julio Alberto Sibaja. Robust algorithms for linear regression and locally linear embedding. 2017. 105 f. Dissertação (Mestrado em Ciência da Computação)- Universidade Federal do Ceará, Fortaleza, 2017. / Submitted by Weslayne Nunes de Sales (weslaynesales@ufc.br) on 2017-03-30T13:15:27Z
No. of bitstreams: 1
2017_dis_rettesjas.pdf: 3569500 bytes, checksum: 46cedc2d9f96d0f58bcdfe3e0d975d78 (MD5) / Approved for entry into archive by Rocilda Sales (rocilda@ufc.br) on 2017-04-04T11:10:44Z (GMT) No. of bitstreams: 1
2017_dis_rettesjas.pdf: 3569500 bytes, checksum: 46cedc2d9f96d0f58bcdfe3e0d975d78 (MD5) / Made available in DSpace on 2017-04-04T11:10:44Z (GMT). No. of bitstreams: 1
2017_dis_rettesjas.pdf: 3569500 bytes, checksum: 46cedc2d9f96d0f58bcdfe3e0d975d78 (MD5)
Previous issue date: 2017 / Nowadays a very large quantity of data is flowing around our digital society. There is a growing interest in converting this large amount of data into valuable and useful information. Machine learning plays an essential role in the transformation of data into knowledge. However, the probability of outliers inside the data is too high to marginalize the importance of robust algorithms. To understand that, various models of outliers are studied. In this work, several robust estimators within the generalized linear model for regression framework are discussed and analyzed: namely, the M-Estimator, the S-Estimator, the MM-Estimator, the RANSAC and the Theil-Sen estimator. This choice is motivated by the necessity of examining algorithms with different working principles. In particular, the M-, S-, MM-Estimator are based on a modification of the least squares criterion, whereas the RANSAC is based on finding the smallest subset of points that guarantees a predefined model accuracy. The Theil Sen, on the other hand, uses the median of least square models to estimate. The performance of the estimators under a wide range of experimental conditions is compared and analyzed. In addition to the linear regression problem, the dimensionality reduction problem is considered. More specifically, the locally linear embedding, the principal component analysis and some robust approaches of them are treated. Motivated by giving some robustness to the LLE algorithm, the RALLE algorithm is proposed. Its main idea is to use different sizes of neighborhoods to construct the weights of the points; to achieve this, the RAPCA is executed in each set of neighbors and the risky points are discarded from the corresponding neighborhood. The performance of the LLE, the RLLE and the RALLE over some datasets is evaluated. / Na atualidade um grande volume de dados é produzido na nossa sociedade digital. Existe um crescente interesse em converter esses dados em informação útil e o aprendizado de máquinas tem um papel central nessa transformação de dados em conhecimento. Por outro lado, a probabilidade dos dados conterem outliers é muito alta para ignorar a importância dos algoritmos robustos. Para se familiarizar com isso, são estudados vários modelos de outliers. Neste trabalho, discutimos e analisamos vários estimadores robustos dentro do contexto dos modelos de regressão linear generalizados: são eles o M-Estimator, o S-Estimator, o MM-Estimator, o RANSAC e o Theil-Senestimator. A escolha dos estimadores é motivada pelo principio de explorar algoritmos com distintos conceitos de funcionamento. Em particular os estimadores M, S e MM são baseados na modificação do critério de minimização dos mínimos quadrados, enquanto que o RANSAC se fundamenta em achar o menor subconjunto que permita garantir uma acurácia predefinida ao modelo. Por outro lado o Theil-Sen usa a mediana de modelos obtidos usando mínimos quadradosno processo de estimação. O desempenho dos estimadores em uma ampla gama de condições experimentais é comparado e analisado. Além do problema de regressão linear, considera-se o problema de redução da dimensionalidade. Especificamente, são tratados o Locally Linear Embedding, o Principal ComponentAnalysis e outras abordagens robustas destes. É proposto um método denominado RALLE com a motivação de prover de robustez ao algoritmo de LLE. A ideia principal é usar vizinhanças de tamanhos variáveis para construir os pesos dos pontos; para fazer isto possível, o RAPCA é executado em cada grupo de vizinhos e os pontos sob risco são descartados da vizinhança correspondente. É feita uma avaliação do desempenho do LLE, do RLLE e do RALLE sobre algumas bases de dados.
|
5 |
Understanding interactive multidimensional projections / Compreendendo projeções multidimensionais interativasSamuel Gomes Fadel 14 October 2016 (has links)
The large amount of available data on a diverse range of human activities provides many opportunities for understanding, improving and revealing unknown patterns in them. Powerful automatic methods for extracting this knowledge from data are already available from machine learning and data mining. They, however, rely on the expertise of analysts to improve their results when those are not satisfactory. In this context, interactive multidimensional projections are a useful tool for the analysis of multidimensional data by revealing their underlying structure while allowing the user to manipulate the results to provide further insight into this structure. This manipulation, however, has received little attention regarding their influence on the mappings, as they can change the final layout in unpredictable ways. This is the main motivation for this research: understanding the effects caused by changes in these mappings. We approach this problem from two perspectives. First, the user perspective, we designed and developed visualizations that help reduce the trial and error in this process by providing the right piece of information for performing manipulations. Furthermore, these visualizations help explain the changes in the map caused by such manipulations. Second, we defined the effectiveness of manipulation in quantitative terms, then developed an experimental framework for assessing manipulations in multidimensional projections under this view. This framework is based on improving mappings using known evaluation measures for these techniques. Using the improvement of measures as different types of manipulations, we perform a series of experiments on five datasets, five measures, and four techniques. Our experimental results show that there are possible types of manipulations that can happen effectively, with some techniques being more susceptible to manipulations than others. / O grande volume de dados disponíveis em uma diversa gama de atividades humanas cria várias oportunidades para entendermos, melhorarmos e revelarmos padrões previamente desconhecidos em tais atividades. Métodos automáticos para extrair esses conhecimentos a partir de dados já existem em áreas como aprendizado de máquina e mineração de dados. Entretanto, eles dependem da perícia do analista para obter melhores resultados quando estes não são satisfatórios. Neste contexto, técnicas de projeção multidimensional interativas são uma ferramenta útil para a análise de dados multidimensionais, revelando sua estrutura subjacente ao mesmo tempo que permite ao analista manipular os resultados interativamente, estendendo o processo de exploração. Essa interação, entretanto, não foi estudada com profundidade com respeito à sua real influência nos mapeamentos, já que podem causar mudanças não esperadas no mapeamento final. Essa é a principal motivação desta pesquisa: entender os efeitos causados pelas mudanças em tais mapeamentos. Abordamos o problema de duas perspectivas. Primeiro, da perspectiva do usuário, desenvolvemos visualizações que ajudam a diminuir tentativas e erros neste processo provendo a informação necessária a cada passo da interação. Além disso, essas visualizações ajudam a explicar as mudanças causadas no mapeamento pela manipulação. A segunda perspectiva é a efetividade da manipulação. Definimos de forma quantitativa a efetividade da manipulação, e então desenvolvemos um arcabouço para avaliar manipulações sob a visão da efetividade. Este arcabouço é baseado em melhorias nos mapeamentos usando medidas de avaliação conhecidas para tais técnicas. Usando tais melhorias como diferentes formas de manipulação, realizamos uma série de experimentos em cinco bases de dados, cinco medidas e quatro técnicas. Nossos resultados experimentais nos dão evidências que existem certos tipos de manipulação que podem acontecer efetivamente, com algumas técnicas sendo mais suscetíveis a manipulações do que outras.
|
6 |
Extração de tópicos baseado em agrupamento de regras de associação / Topic extraction based on association rule clusteringSantos, Fabiano Fernandes dos 29 May 2015 (has links)
Uma representação estruturada dos documentos em um formato apropriado para a obtenção automática de conhecimento, sem que haja perda de informações relevantes em relação ao formato originalmente não-estruturado, é um dos passos mais importantes da mineração de textos, pois a qualidade dos resultados obtidos com as abordagens automáticas para obtenção de conhecimento de textos estão fortemente relacionados à qualidade dos atributos utilizados para representar a coleção de documentos. O Modelo de Espaço de Vetores (MEV) é um modelo tradicional para obter uma representação estruturada dos documentos. Neste modelo, cada documento é representado por um vetor de pesos correspondentes aos atributos do texto. O modelo bag-of-words é a abordagem de MEV mais utilizada devido a sua simplicidade e aplicabilidade. Entretanto, o modelo bag-of-words não trata a dependência entre termos e possui alta dimensionalidade. Diversos modelos para representação dos documentos foram propostos na literatura visando capturar a informação de relação entre termos, destacando-se os modelos baseados em frases ou termos compostos, o Modelo de Espaço de Vetores Generalizado (MEVG) e suas extensões, modelos de tópicos não-probabilísticos, como o Latent Semantic Analysis (LSA) ou o Non-negative Matrix Factorization (NMF), e modelos de tópicos probabilísticos, como o Latent Dirichlet Allocation (LDA) e suas extensões. A representação baseada em modelos de tópicos é uma das abordagens mais interessantes uma vez que elas fornece uma estrutura que descreve a coleção de documentos em uma forma que revela sua estrutura interna e as suas inter-relações. As abordagens de extração de tópicos também fornecem uma estratégia de redução da dimensionalidade visando a construção de novas dimensões que representam os principais tópicos ou assuntos identificados na coleção de documentos. Entretanto, a extração é eficiente de informações sobre as relações entre os termos para construção da representação de documentos ainda é um grande desafio de pesquisa. Os modelos para representação de documentos que exploram a correlação entre termos normalmente enfrentam um grande desafio para manter um bom equilíbrio entre (i) a quantidade de dimensões obtidas, (ii) o esforço computacional e (iii) a interpretabilidade das novas dimensões obtidas. Assim,é proposto neste trabalho o modelo para representação de documentos Latent Association Rule Cluster based Model (LARCM). Este é um modelo de extração de tópicos não-probabilístico que explora o agrupamento de regras de associação para construir uma representação da coleção de documentos com dimensionalidade reduzida tal que as novas dimensões são extraídas a partir das informações sobre as relações entre os termos. No modelo proposto, as regras de associação são extraídas para cada documento para obter termos correlacionados que formam expressões multi-palavras. Essas relações entre os termos formam o contexto local da relação entre termos. Em seguida, aplica-se um processo de agrupamento em todas as regras de associação para formar o contexto geral das relações entre os termos, e cada grupo de regras de associação obtido formará um tópico, ou seja, uma dimensão da representação. Também é proposto neste trabalho uma metodologia de avaliação que permite selecionar modelos que maximizam tanto os resultados na tarefa de classificação de textos quanto os resultados de interpretabilidade dos tópicos obtidos. O modelo LARCM foi comparado com o modelo LDA tradicional e o modelo LDA utilizando uma representação que inclui termos compostos (bag-of-related-words). Os resultados dos experimentos indicam que o modelo LARCM produz uma representação para os documentos que contribui significativamente para a melhora dos resultados na tarefa de classificação de textos, mantendo também uma boa interpretabilidade dos tópicos obtidos. O modelo LARCM também apresentou ótimo desempenho quando utilizado para extração de informação de contexto para aplicação em sistemas de recomendação sensíveis ao contexto. / A structured representation of documents in an appropriate format for the automatic knowledge extraction without loss of relevant information is one of the most important steps of text mining, since the quality of the results obtained with automatic approaches for the text knowledge extraction is strongly related to the quality of the selected attributes to represent the collection of documents. The Vector Space model (VSM) is a traditional structured representation of documents. In this model, each document is represented as a vector of weights that corresponds to the features of the document. The bag-of-words model is the most popular VSM approach because of its simplicity and general applicability. However, the bag-of-words model does not include dependencies of the terms and has a high dimensionality. Several models for document representation have been proposed in the literature in order to capture the dependence among the terms, especially models based on phrases or compound terms, the Generalized Vector Space Model (GVSM) and their extensions, non-probabilistic topic models as Latent Semantic Analysis (LSA) or Non-negative Matrix Factorization (NMF) and still probabilistic topic models as the Latent Dirichlet Allocation (LDA) and their extensions. The topic model representation is one of the most interesting approaches since it provides a structure that describes the collection of documents in a way that reveals their internal structure and their interrelationships. Also, this approach provides a dimensionality reduction strategy aiming to built new dimensions that represent the main topics or ideas of the document collection. However, the efficient extraction of information about the relations of terms for document representation is still a major research challenge nowadays. The document representation models that explore correlated terms usually face a great challenge of keeping a good balance among the (i) number of extracted features, (ii) the computational performance and (iii) the interpretability of new features. In this way, we proposed the Latent Association Rule Cluster based Model (LARCM). The LARCM is a non-probabilistic topic model that explores association rule clustering to build a document representation with low dimensionality in a way that each dimension is composed by information about the relations among the terms. In the proposed approach, the association rules are built for each document to extract the correlated terms that will compose the multi-word expressions. These relations among the terms are the local context of relations. Then, a clustering process is applied for all association rules to discover the general context of the relations, and each obtained cluster is an extracted topic or a dimension of the new document representation. This work also proposes in this work an evaluation methodology to select topic models that maximize the results in the text classification task as much as the interpretability of the obtained topics. The LARCM model was compared against both the traditional LDA model and the LDA model using a document representation that includes multi-word expressions (bag-of-related-words). The experimental results indicate that LARCM provides an document representation that improves the results in the text classification task and even retains a good interpretability of the extract topics. The LARCM model also achieved great results as a method to extract contextual information for context-aware recommender systems.
|
7 |
Mapeamento e visualização de dados em alta dimensão com mapas auto-organizados. / Mapping and visualization of high dimensional data with self-organized maps.Kitani, Edson Caoru 14 June 2013 (has links)
Os seres vivos têm uma impressionante capacidade de lidar com ambientes complexos com grandes quantidades de informações de forma muito autônoma. Isto os torna um modelo ideal para o desenvolvimento de sistemas artificiais bioinspirados. A rede neural artificial auto-organizada de Kohonen é um excelente exemplo de um sistema baseado nos modelos biológicos. Esta tese discutirá ilustrativamente o reconhecimento e a generalização de padrões em alta dimensão nos sistemas biológicos e como eles lidam com redução de dimensionalidade para otimizar o armazenamento e o acesso às informações memorizadas para fins de reconhecimento e categorização de padrões, mas apenas para contextualizar o tema com as propostas desta tese. As novas propostas desenvolvidas nesta tese são úteis para aplicações de extração não supervisionada de conhecimento a partir dos mapas auto-organizados. Trabalha-se sobre o modelo da Rede Neural de Kohonen, mas algumas das metodologias propostas também são aplicáveis com outras abordagens de redes neurais auto-organizadas. Será apresentada uma técnica de reconstrução visual dos neurônios do Mapa de Kohonen gerado pelo método híbrido PCA+SOM. Essa técnica é útil quando se trabalha com banco de dados de imagens. Propõe-se também um método para melhorar a representação dos dados do mapa SOM e discute-se o resultado do mapeamento SOM como uma generalização das informações do espaço de dados. Finalmente, apresenta-se um método de exploração de espaço de dados em alta dimensão de maneira auto-organizada, baseado no manifold dos dados, cuja proposta foi denominada Self Organizing Manifold Mapping (SOMM). São apresentados os resultados computacionais de ensaios realizados com cada uma das propostas acima e eles são avaliados as com métricas de qualidade conhecidas, além de uma nova métrica que está sendo proposta neste trabalho. / Living beings have an amazing capacity to deal with complex environments with large amounts of information autonomously. They are the perfect model for bioinspired artificial system development. The artificial neural network developed by Kohonen is an excellent example of a system based on biological models. In this thesis, we will discuss illustratively pattern recognition and pattern generalization in high dimensional data space by biological system. Then, a brief discussion of how they manage dimensionality reduction to optimize memory space and speed up information access in order to categorize and recognize patterns. The new proposals developed in this thesis are useful for applications of unsupervised knowledge extraction using self-organizing maps. The proposals use Kohonens model. However, any self-organizing neural network in general can also use the proposed techniques. It will be presented a visual reconstruction technique for Kohonens neurons, which was generated by hybrid method PCA+SOM. This technique is useful when working with images database. It is also proposed a method for improving the representation of SOMs map and discussing the result of the SOMs mapping as a generalization of the information data space. Finally, it is proposed a method for exploring high dimension data space in a self-organized way on the data manifold. This new proposal was called Self Organizing Manifold Mapping (SOMM). We present the results of computational experiments on each of the above proposals and evaluate the results using known quality metrics, as well as a new metric that is being proposed in this thesis.
|
8 |
Técnicas computacionais de apoio à classificação visual de imagens e outros dados / Computational techniques to support classification of images and other dataPaiva, José Gustavo de Souza 20 December 2012 (has links)
O processo automático de classificação de dados em geral, e em particular de classificação de imagens, é uma tarefa computacionalmente intensiva e variável em termos de precisão, sendo consideravelmente dependente da configuração do classificador e da representação dos dados utilizada. Muitos dos fatores que afetam uma adequada aplicação dos métodos de classificação ou categorização para imagens apontam para a necessidade de uma maior interferência do usuário no processo. Para isso são necessárias mais ferramentas de apoio às várias etapas do processo de classificação, tais como, mas não limitadas, a extração de características, a parametrização dos algoritmos de classificação e a escolha de instâncias de treinamento adequadas. Este doutorado apresenta uma metodologia para Classificação Visual de Imagens, baseada na inserção do usuário no processo de classificação automática através do uso de técnicas de visualização. A ideia é permitir que o usuário participe de todos os passos da classificação de determinada coleção, realizando ajustes e consequentemente melhorando os resultados de acordo com suas necessidades. Um estudo de diversas técnicas de visualização candidatas para a tarefa é apresentado, com destaque para as árvores de similaridade, sendo apresentadas melhorias do algoritmo de construção em termos de escalabilidade visual e de tempo de processamento. Adicionalmente, uma metodologia de redução de dimensionalidade visual semi-supervisionada é apresentada para apoiar, pela utilização de ferramentas visuais, a criação de espaços reduzidos que melhorem as características de segregação do conjunto original de características. A principal contribuição do trabalho é um sistema de classificação visual incremental que incorpora todos os passos da metodologia proposta, oferecendo ferramentas interativas e visuais que permitem a interferência do usuário na classificação de coleções incrementais com configuração de classes variável. Isso possibilita a utilização do conhecimento do ser humano na construção de classificadores que se adequem a diferentes necessidades dos usuários em diferentes cenários, produzindo resultados satisfatórios para coleções de dados diversas. O foco desta tese é em categorização de coleções de imagens, com exemplos também para conjuntos de dados textuais / Automatic data classification in general, and image classification in particular, are computationally intensive tasks with variable results concerning precision, being considerably dependent on the classifier´s configuration and data representation. Many of the factors that affect an adequate application of classification or categorization methods for images point to the need for more user interference in the process. To accomplish that, it is necessary to develop a larger set of supporting tools for the various stages of the classification set up, such as, but not limited to, feature extraction, parametrization of the classification algorithm and selection of adequate training instances. This doctoral Thesis presents a Visual Image Classification methodology based on the user´s insertion in the classification process through the use of visualization techniques. The idea is to allow the user to participate in all classification steps, adjusting several stages and consequently improving the results according to his or her needs. A study on several candidate visualization techniques is presented, with emphasis on similarity trees, and improvements of the tree construction algorithm, both in visual and time scalability, are shown. Additionally, a visual semi-supervised dimensionality reduction methodology was developed to support, through the use of visual tools, the creation of reduced spaces that improve segregation of the original feature space. The main contribution of this work is an incremental visual classification system incorporating all the steps of the proposed methodology, and providing interactive and visual tools that permit user controlled classification of an incremental collection with evolving class configuration. It allows the use of the human knowledge on the construction of classifiers that adapt to different user needs in different scenarios, producing satisfactory results for several data collections. The focus of this Thesis is image data sets, with examples also in classification of textual collections
|
9 |
Mapeamento e visualização de dados em alta dimensão com mapas auto-organizados. / Mapping and visualization of high dimensional data with self-organized maps.Edson Caoru Kitani 14 June 2013 (has links)
Os seres vivos têm uma impressionante capacidade de lidar com ambientes complexos com grandes quantidades de informações de forma muito autônoma. Isto os torna um modelo ideal para o desenvolvimento de sistemas artificiais bioinspirados. A rede neural artificial auto-organizada de Kohonen é um excelente exemplo de um sistema baseado nos modelos biológicos. Esta tese discutirá ilustrativamente o reconhecimento e a generalização de padrões em alta dimensão nos sistemas biológicos e como eles lidam com redução de dimensionalidade para otimizar o armazenamento e o acesso às informações memorizadas para fins de reconhecimento e categorização de padrões, mas apenas para contextualizar o tema com as propostas desta tese. As novas propostas desenvolvidas nesta tese são úteis para aplicações de extração não supervisionada de conhecimento a partir dos mapas auto-organizados. Trabalha-se sobre o modelo da Rede Neural de Kohonen, mas algumas das metodologias propostas também são aplicáveis com outras abordagens de redes neurais auto-organizadas. Será apresentada uma técnica de reconstrução visual dos neurônios do Mapa de Kohonen gerado pelo método híbrido PCA+SOM. Essa técnica é útil quando se trabalha com banco de dados de imagens. Propõe-se também um método para melhorar a representação dos dados do mapa SOM e discute-se o resultado do mapeamento SOM como uma generalização das informações do espaço de dados. Finalmente, apresenta-se um método de exploração de espaço de dados em alta dimensão de maneira auto-organizada, baseado no manifold dos dados, cuja proposta foi denominada Self Organizing Manifold Mapping (SOMM). São apresentados os resultados computacionais de ensaios realizados com cada uma das propostas acima e eles são avaliados as com métricas de qualidade conhecidas, além de uma nova métrica que está sendo proposta neste trabalho. / Living beings have an amazing capacity to deal with complex environments with large amounts of information autonomously. They are the perfect model for bioinspired artificial system development. The artificial neural network developed by Kohonen is an excellent example of a system based on biological models. In this thesis, we will discuss illustratively pattern recognition and pattern generalization in high dimensional data space by biological system. Then, a brief discussion of how they manage dimensionality reduction to optimize memory space and speed up information access in order to categorize and recognize patterns. The new proposals developed in this thesis are useful for applications of unsupervised knowledge extraction using self-organizing maps. The proposals use Kohonens model. However, any self-organizing neural network in general can also use the proposed techniques. It will be presented a visual reconstruction technique for Kohonens neurons, which was generated by hybrid method PCA+SOM. This technique is useful when working with images database. It is also proposed a method for improving the representation of SOMs map and discussing the result of the SOMs mapping as a generalization of the information data space. Finally, it is proposed a method for exploring high dimension data space in a self-organized way on the data manifold. This new proposal was called Self Organizing Manifold Mapping (SOMM). We present the results of computational experiments on each of the above proposals and evaluate the results using known quality metrics, as well as a new metric that is being proposed in this thesis.
|
10 |
Métodos de redução de dimensionalidade aplicados na seleção genômica para características de carcaça em suínos / Dimensionality reduction methods applied to genomic selection for carcass traits in pigsAzevedo, Camila Ferreira 26 July 2012 (has links)
Made available in DSpace on 2015-03-26T13:32:15Z (GMT). No. of bitstreams: 1
texto completo.pdf: 1216352 bytes, checksum: 3e5fbc09a6f684ddf7dbb4442657ce1f (MD5)
Previous issue date: 2012-07-26 / The main contribution of molecular genetics is the direct use of DNA information to identify genetically superior individuals. Under this approach, genome-wide selection (GWS) can be used with this purpose. GWS consists in analyzing of a large number of SNP markers widely distributed in the genome, and due to the fact that the number of markers is much larger than the number of genotyped individuals (high dimensionality) and also to the fact that such markers are highly correlated (multicollinearity). However, the use of methodologies that address the adversities is fundamental to the success of genome wide selection. In view of, the aim of this dissertation was to propose the application of Independent Component Regression (ICR), Principal Component Regression (PCR), Partial Least Squares (PLS) and Random Regression Best Linear Unbiased Predictor, whereas carcass traits in an F2 population of pigs originated from the cross of two males from the naturalized Brazilian breed Piau with 18 females of a commercial line (Large White × Landrace × Pietrain), developed at the University Federal of Viçosa. The specific objectives were, to estimate Genomic Breeding Value (GBV) for each individual and estimate the effects of SNP markers in order to compare methods. The results showed that ICR method is more efficient, since provided most accurate genomic breeding values estimates for most carcass traits. / A principal contribuição da genética molecular no melhoramento animal é a utilização direta das informações de DNA no processo de identificação de animais geneticamente superiores. Sob esse enfoque, a seleção genômica ampla (Genome Wide Selection GWS), a qual consiste na análise de um grande número de marcadores SNPs (Single Nucleotide Polymorphisms) amplamente distribuídos no genoma, foi idealizada. A utilização dessas informações é um desafio, uma vez que o número de marcadores é muito maior que o número de animais genotipados (alta dimensionalidade) e tais marcadores são altamente correlacionados (multicolinearidade). No entanto, o sucesso da seleção genômica ampla deve-se a escolha de metodologias que contemplem essas adversidades. Diante do exposto, o presente trabalho teve por objetivo propor a aplicação dos métodos de regressão via Componentes Independentes (Independent Component Regression ICR), regressão via componentes principais (Principal Component Regression PCR), regressão via Quadrados Mínimos Parciais (Partial Least Squares PLSR) e RR-BLUP, considerando características de carcaça em uma população F2 de suínos proveniente do cruzamento de dois varrões da raça naturalizada brasileira Piau com 18 fêmeas de linhagem comercial (Landrace × Large White × Pietrain), desenvolvida na Universidade Federal de Viçosa. Os objetivos específicos foram estimar Valores Genéticos Genômicos (Genomic Breeding Values GBV) para cada indivíduo avaliado e estimar efeitos de marcadores SNPs, visando a comparação dos métodos. Os resultados indicaram que o método ICR se mostrou mais eficiente, uma vez que este proporcionou maiores valores de acurácia na estimação do GBV para a maioria das características de carcaça.
|
Page generated in 0.0892 seconds