Classificação automatica e analise de dados por redes neurais auto-organizaveis

Orientador: Marcio Luiz de Andrade Netto / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-07-25T20:20:48Z (GMT). No. of bitstreams: 1
Costa_JoseAlfredoFerreira_D.pdf: 26064111 bytes, checksum: 45919f0230fa64ef69e0d07ea0363d6c (MD5)
Previous issue date: 1999 / Resumo: Esta tese apresenta extensões ao modelo básico de rede neural auto-organizável, a rede de Kohonen (SOM), viabilizando seu uso como ferramenta de análise de agrupamentos. O SOM define, via treinamento não supervisionado, um mapeamento de um espaço p-dimensional contínuo para um conjunto discreto de vetores referência, ou neurônios, geralmente dispostos na forma de uma matriz. Cada neurônio tem a mesma dimensão do espaço de entrada, p, e o objetivo principal do treinamento é reduzir imensionalidade ao mesmo tempo em que tenta-se preservar, ao máximo, a topologia do espaço de entrada. O algoritmo SL-SOM (Self-Labeling
SOM) foi desenvolvido com o objetivo de particionar e rotular automaticamente um SOM treinado, baseando-se no gradiente dos p componentes, cuja informação é apresentada na Umatrix. Usa-se algoritmos de processamento de imagem para segmentar a U-matrix e o resultado são regiões conectadas de neurônios codificados sob o mesmo rótulo. Tais regiões definem no espaço de atributos geometrias complexas e não paramétricas, possibilitando também a classificação de novas amostras. A extensão do SL-SOM tem por objetivo descobrir e representar subclasses. O TS-SLSOM (Tree-Structured Self-Labeling SOM) gera sub-redes para cada região rotulada de neurônios na forma de uma árvore dinâmica. Não se especifica a priori o número de sub-redes para uma dada rede, e os parâmetros de cada sub-rede são funções dos parâmetros da rede 'pai', e do subconjunto de dados que será usado para treiná-Ia. Sub-redes que não apresentam subpartições são excluídas, e o conjunto de dados referente àquela sub-rede fica representado
apenas pela região rotulada de neurônios na rede 'pai'. Arranjos de neurônios do SOM de dimensões elevadas não são usados na prática por que o objetivo principal do SOM na atualidade é a visualização dos dados. Com a automação da descoberta de conhecimento e relacionamentos entre dados descritas pelo SL-SOM e TSSL- SOM, pode-se usar um arranjo dimensão igualou menor que a dimensão do espaço de entrada, e fazer com que apenas os resultados finais sejam mostrados, na forma de subgrupos
de dados, o relacionamento entre os subgrupos, etc. A principal motivação para o uso do SOM p-dimensional é a manutenção da topologia que geralmente é perdida quando diminuímos a dimensionalidade via mapeamento de um espaço p-dimensional para um espaço de menor dimensão. Define-se o U-array como uma extensão da U-matrix e propõe-se métodos de análise baseados nos métodos de segmentação utilizados em redes de dimensão I ou 2. Comparações de resultados para vários conjuntos de dados são efetuados em relação ao SOM convencional, ou alguns de seus variantes, e por métodos estatísticos e heurísticos para descoberta de agrupamentos, sendo o principal deles, o método de misturas de densidades de probabilidades usando o algoritmo Expectation Maximization. As aplicações dos resultados desta tese são inúmeras. Pode-se aplicar técnicas de análise de dados em qualquer área do
conhecimento humano que possa coletar informações. Com a disponibilidade crescente de instrumentação eletrônica capacitando aplicações diversas adquirirem dados e armazená-los em computadores, ou mesmo a imensa massa de dados e informações não estruturadas na internet, ferramentas como as descritas nesta tese, com certeza, farão parte de softwares em um futuro não distante / Abstract: This thesis presents extensions to the most used self-organizing neural network model, the Kohonen network (SOM), enabling its usage as an effective tool for cluster analysis. The SOM network defines, via unsupervised learning, a mapping of a continuos p-dimensional space to a set of model vectors, or neurons, usually arranged as a 2-D array. Each neuron has the same
dimension of the input space, p, and the main objective is dimensionality reduction while trying to preserve as much as possible the topology of the input space. The SL-SOM (Self-Labeling SOM) algorithm was developed for automatically partitioning and labeling a trained SOM network. It uses information of the p component gradient (distances) which is presented in the U-matrix. By using image processing algorithms, the obtained results are labeled and connected regions of neurons. Each region defines, in the input space, complex and nonparametric geometries which approximately describe the shape of the clusters. Classification of new objects can be performed using the established regions and the nearest neighbor rule. An extension of the SL-SOM algorithm aims to enhance the clustering process, enabling to discover sub-clusters. The TS-SL-SOM (Tree-Structured Self-Labeling SOM) algorithm generates a child network for each labeled region of the root network, and so on. The process can be seen as generation of a dynamic tree, where each node is a whole network, and which is data-driven. It is not necessary to specify the number of sub-networks for a given network in a
given height of the tree. The parameters of the child network are functions of the parameters of the father network and of the subgroup of data used to train that network. A pruning strategy cuts sub-networks (leave nodes) which do not present further partitions. High dimension output SOM networks are not frequently used because the main application of SOM is visualization of data in a form of display. With the automation of knowledge discovery and data relations by the SL-SOM and TS-SL-SOM algorithms, we can use output dimensions higher than 2 and analyze only the final results, i.e., number of clusters and their components, relationships between groups, etc. The main advantage of using high dimension output SOMs is that topology preservation is usually lost when mapping a higher input space to a lower output space. The U-array is defined as an extension of the U-matrix and methods are proposed for its segmentation in a similar fashion of those presented in the SL-SOM algorithm. The thesis also presents results of the methods for synthetic and real data sets, and some comparisons with conventional clustering approachés, such as k-means and mixtures of probability density functions with the Expectation Maximization algorithm. Applications of the methods presented in this thesis are numerous. Virtually any area which possess data could be a candidate for using some kind of mapping and thus using any of these methods. With the increasingly availability of masses of data elsewhere, in applications ranging from business to scientific tasks, or even the immense mass of unstructured data available in the internet, and decreasingly cost of memory and computers, tools as the ones presented in this thesis will be important parts of softwares in a near future / Doutorado / Doutor em Engenharia Elétrica

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.unicamp.br:REPOSIP/260981
Date16 December 1999
CreatorsCosta, Jose Alfredo Ferreira
ContributorsUNIVERSIDADE ESTADUAL DE CAMPINAS, Andrade Netto, Marcio Luiz de, 1947-, Netto, Marcio Luiz de Andrade, Mascarenhas, Nelson Delfino d'Avila, Figueiredo, Mauricio Fernandes, Gomide, Fernando Antonio Campos, Zuben, Fernando Jose Von
Publisher[s.n.], Universidade Estadual de Campinas. Faculdade de Engenharia Elétrica e de Computação, Programa de Pós-Graduação em Engenharia Elétrica
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis
Format345p. : il., application/pdf
Sourcereponame:Repositório Institucional da Unicamp, instname:Universidade Estadual de Campinas, instacron:UNICAMP
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0026 seconds