Global ETD Search

101	Self-organization map in complex network / Mapas organizativos em redes complexas Pimenta, Mayra Mercedes Zegarra 25 June 2018 (has links) The Self-Organization Map (SOM) is an artificial neural network that was proposed as a tool for exploratory analysis in large dimensionality data sets, being used efficiently for data mining. One of the main topics of research in this area is related to data clustering applications. Several algorithms have been developed to perform clustering in data sets. However, the accuracy of these algorithms is data depending. This thesis is mainly dedicated to the investigation of the SOM from two different approaches: (i) data mining and (ii) complex networks. From the data mining point of view, we analyzed how the performance of the algorithm is related to the distribution of data properties. It was verified the accuracy of the algorithm based on the configuration of the parameters. Likewise, this thesis shows a comparative analysis between the SOM network and other clustering methods. The results revealed that in random configuration of parameters the SOM algorithm tends to improve its acuracy when the number of classes is small. It was also observed that when considering the default configurations of the adopted methods, the spectral approach usually outperformed the other clustering algorithms. Regarding the complex networks approach, we observed that the network structure has a fundamental influence of the algorithm accuracy. We evaluated the cases at short and middle learning time scales and three different datasets. Furthermore, we show how different topologies also affect the self-organization of the topographic map of SOM network. The self-organization of the network was studied through the partitioning of the map in groups or communities. It was used four topological measures to quantify the structure of the groups such as: modularity, number of elements per group, number of groups per map, size of the largest group in three network models. In small-world (SW) networks, the groups become denser as time increases. An opposite behavior is found in the assortative networks. Finally, we verified that if some perturbation is included in the system, like a rewiring in a SW network and the deactivation model, the system cannot be organized again. Our results enable a better understanding of SOM in terms of parameters and network structure. / Um Mapa Auto-organizativo (da sigla SOM, Self-organized map, em inglês) é uma rede neural artificial que foi proposta como uma ferramenta para análise exploratória em conjuntos de dados de grande dimensionalidade, sendo utilizada de forma eficiente na mineração de dados. Um dos principais tópicos de pesquisa nesta área está relacionado com as aplicações de agrupamento de dados. Vários algoritmos foram desenvolvidos para realizar agrupamento de dados, tendo cada um destes algoritmos uma acurácia específica para determinados tipos de dados. Esta tese tem por objetivo principal analisar a rede SOM a partir de duas abordagens diferentes: mineração de dados e redes complexas. Pela abordagem de mineração de dados, analisou-se como o desempenho do algoritmo está relacionado à distribuição ou características dos dados. Verificou-se a acurácia do algoritmo com base na configuração dos parâmetros. Da mesma forma, esta tese mostra uma análise comparativa entre a rede SOM e outros métodos de agrupamento. Os resultados revelaram que o uso de valores aleatórios nos parâmetros de configuração do algoritmo SOM tende a melhorar sua acurácia quando o número de classes é baixo. Observou-se também que, ao considerar as configurações padrão dos métodos adotados, a abordagem espectral usualmente superou os demais algoritmos de agrupamento. Pela abordagem de redes complexas, esta tese mostra que, se considerarmos outro tipo de topologia de rede, além do modelo regular geralmente utilizado, haverá um impacto na acurácia da rede. Esta tese mostra que o impacto na acurácia é geralmente observado em escalas de tempo de aprendizado curto e médio. Esse comportamento foi observado usando três conjuntos de dados diferentes. Além disso, esta tese mostra como diferentes topologias também afetam a auto-organização do mapa topográfico da rede SOM. A auto-organização da rede foi estudada por meio do particionamento do mapa em grupos ou comunidades. Foram utilizadas quatro medidas topológicas para quantificar a estrutura dos grupos em três modelos distintos de rede: modularidade, número de elementos por grupo, número de grupos por mapa, tamanho do maior grupo. Em redes de pequeno mundo, os grupos se tornam mais densos à medida que o tempo aumenta. Um comportamento oposto a isso é encontrado nas redes assortativas. Apesar da modularidade, tem um alto valor em ambos os casos. Algoritmos de agrupamento Clustering algorithm Complex networks Redes complexas Self-organization map SOM
102	A similarity-based approach to generate edge bundles / Uma abordagem baseada em similaridade para a construção de agrupamentos visuais de arestas Sikansi, Fábio Henrique Gomes 22 December 2016 (has links) Graphs have been successfully employed in avariety of problems and applications, being the object of study in modeling, analysis and construction of visual representations. While different approaches exist for graph visualization,most of them suffer from the severe clutter when the number of nodes or edges is large. Among the approaches that handle such problem, edge bundling techniques attained relative success on improving the quality of the visual representations by bending and aggregating edges in order to produce an organized layout. Despite this success, most of the exiting techniques create edge bundles based only on the visual space information, that is, there is no explicit connection between the edge bundling layout and the original data. There fore, these techniques generates less meaningful bundles and may lead users to misinterpret the data. This masters research presents a novel edge bundling technique based on the similarity relationships among vertices. We developed such technique based on two assumptions. First, it supports the hypothesis that edge bundling can better represent the data when there is an inherent connection between the proximity among the elements in the information space and the proximity between edges in the edge bundling layout. We address this question by presenting a similarity bundling framework, that considers the similarity between vertices when performing the edges bending. To guide the bundling, we create a similarity hierarchy, called backbone. This is based on a multilevel partition of the data, which groups edges of similar vertices. Second, we also support that a multiscale representation improves the visual and complexity scalability of bundling layouts. We present a multiscale edge bundling, which allows an overview plus detailed exploration, coarsening or revealing the bundling at different levelsof the same visualization. Our evaluation framework shows that our backbone produces a balanced hierarchy with a good representation of similarity relationships among vertices. Moreover, the edge bundling layout guided by the backbone reduces the visual clutter and surpass state-of-the-art techniques in displaying global and local edge patterns. / Grafos são empregados com sucesso em uma grande variedade de problemas e aplicações, sendo objeto de estudo na modelagem, análise e na construção de representações visuais. Embora existam diferentes formas para a visualização de grafos, a maioria delas sofrem pela desorganização do espaço visual quando o número de vértices ou arestas é alto. Entre as abordagens que lidam com este problema, as técnicas de agrupamentos visuais de arestas obtiveram sucesso na melhora da representação visual pelo encurvamento e agrupamento de arestas que aperfeiçoam a organização da representação. Apesar deste sucesso, a maioria das técniques criam grupos de arestas baseados apenas na informação do espaço visual, não existindo conexão explícita entre o desenho no espaço visual e o conjunto de dados original. Dessa forma, estas técnicas produzem agrupamentos de arestas com baixa significância e podem levar o usuário a uma interpretação incorreta da informação. Esta pesquisa de mestrado apresenta uma nova técnica de agrupamento visual de arestas baseado nas relações de similaridade entre os vértices. Nós desenvolvemos esta técnica com base em duas premissas. Primeiro, ela defende a hipótese que a representação por agrupamento de arestas pode representar melhor o conjunto de dados se existir uma conexão inerente entre a proximidade dos elementos no espaço de informação e a proximidade entre arestas no desenho de arestas agrupadas. Nós atendemos esta questão apresentando um arcabouço para o agrupamento de arestas baseado em similaridade, que considera a similaridade entre vértices para realizar o encurvamento das arestas. Para guiar este encurvamento, nós criamos uma estrutura de similaridade, denominada backbone. Esta estrutura é baseada em um particionamento multi-nível do conjunto de dados, que agrupa arestas de vértices similares. A segunda premissa, nós também defendemos que uma representação multiescala melhora a escalabilidade computacional e visual da representação visual de arestas agrupadas. Nós apresentamos um agrupamento visual multi-nível de arestas que permite uma exploração generalizada e detalhada, revelando detalhes em múltiplos níveis da visualização. Nosso processo de avaliação mostra que a construção do backbone produz uma hierarquia balanceada e com boa representação das relações de similaridade entre os vértices. Além disso, a visualização com arestas guiadas pelo backbone reduz a desordem visual e melhora as técnicas do estado-da-arte na identificação de padrões de arestas globais e locais. Agrupamento visual de arestas Edge bundling Graph visualization Information visualization Visualização de grafos Visualização de informação
103	Classificação e caracterização de tipos de minérios de cobre da Mina do Sossego - região de Carajás / Classification and characterization of copper ore types from Sossego Mine - Carajás region. Shimizu, Viviane Kotani 24 July 2012 (has links) Neste trabalho é apresentada a classificação de cerca de 110 amostras de minério da Mina do Sossego com base nas ferramentas de difração de raios X e análise estatística por agrupamento (cluster analysis). A comparação, baseada na posição e intensidade dos picos difratados, permitiu a distinção dos tipos de minérios, sendo que as diferenças entre os grupos referem-se às proporções dos principais minerais constituintes: quartzo, feldspato, actinolita, óxidos de ferro, mica e clorita. Observou-se forte correlação do agrupamento com a origem das amostras. Esta relação deve-se aos diferentes tipos e intensidades das alterações hidrotermais atuantes em cada corpo, que refletem na mineralogia e, consequentemente, nos difratogramas de raios X das amostras. Complementando o trabalho, foram conduzidos estudos de caracterização tecnológica em amostras compostas dos tipos identificados, os quais permitiram definir a composição mineralógica das amostras e outros parâmetros relevantes ao beneficiamento. Vários são os minerais de ganga: quartzo, plagioclásio, feldspato, anfibólio, magnetita, apatita, epídoto, clorita, escapolita, micas e calcita. A calcopirita é praticamente o único mineral de minério, e ocorre tanto na forma de microcristais inclusos nos minerais de ganga quanto como cristais maiores. Com exceção da pirita, os demais sulfetos (calcocita, siegenita e milerita) ocorrem como traços. As curvas de liberação da calcopirita demonstram que as amostras do corpo Sossego possuem maior grau de liberação do que as de Sequeirinho. A metodologia para classificação de amostras mostrou-se bastante eficiente, possibilitando a análise de grande número de amostras, de forma objetiva e com resultado satisfatório, tendo-se verificado não só distinções mineralógicas entre estes como também características distintas frente ao processo de concentração. / This work presents the classification of approximately 110 copper ore samples from Sossego Mine using cluster analysis and X-ray diffraction technique. The comparison based on the position and intensity of the diffracted peaks allowed the distinction the major ore types differentiated by the proportion of major minerals: quartz, feldspar, actinolite, iron oxides, mica and chlorite. There was a strong correlation between the grouping and the location of the samples in Sequeirinho and Sossego orebodies. This relationship is due to different types and intensities of hydrothermal alteration prevailing in each body, which reflect the mineralogy and thus the X-ray diffractograms of samples. In addition, technological characterization studies on composed samples from the defined ore types were carried out based in order to gather mineralogical composition and other relevant parameters for mineral processing. There are several gangue minerals, including: quartz, plagioclase, feldspar, amphibole, magnetite, apatite, epidote, chlorite, scapolite, mica and calcite. Chalcopyrite is essentially the only valuable mineral. It occurs both as microcrystals included in other minerals such as larger crystals. Excepting pyrite, other sulfides (chalcocite, millerite and siegenite) occur as traces. Chalcopyrite liberation curves indicate that samples from Sossego have higher liberation degree than those from Sequeirinho. The proposed method for classification of ore samples proved to be very efficient. It enables the analysis of large numbers of samples in a short time with a satisfactory result allowing distinctions of the ore types regarding to their mineralogical composition as well as parameters for mineral processing. Análise por agrupamento Caracterização tecnológica Cluster analysis Mina do Sossego Sossego mine Technological characterization
104	Análise genômica e funcional da Nodularia spumigena CENA596 formadora de florações em tanques de produção de camarões / Genomic and functional analysis of the bloom-forming Nodularia spumigena CENA596 in shrimp production ponds Popin, Rafael Vicentini 12 September 2017 (has links) Nodularia spumigena é uma espécie cianobacteriana conhecida como produtora da hepatotoxina nodularina. Essa cianotoxina é uma potente e irreversível inibidora de proteínas fosfatases da família serina/treonina (PP1 e PP2A) de células eucarióticas e é uma promotora tumoral e suspeita carcinogéna. Além da nodularina, a N. spumigena também é produtora de outros peptídeos não ribossômicos, tais como espumiginas, aeruginosinas e anabaenopeptinas. O primeiro relato de N. spumigena formadora de florações no Brasil ocorreu em 2011 em tanques de produção de camarões no Rio Grande, RS, e estimulou o interesse na obtenção de informações sobre o seu genoma e potencial biossíntético. Dessa forma, a objetivo deste estudo foi avaliar os aspectos genômicos e funcionais da linhagem Nodularia spumigena CENA596 isolada de um tanque de produção de camarões de Rio Grande. Para isso, uma cultura da linhagem N. spumigena CENA596 foi submetida a um tratamento com hipoclorito de sódio (2%) para eliminação de contaminantes e o DNA extraído das células tratadas foi sequenciado na plataforma MiSeq e analisado com ferramentas genômicas. O sequenciamento e a montagem do seu genoma originaram 291 sequências contíguas com percentual GC de 41,19 e tamanho total de 5.189.679 pb. A análise filogenética baseada na sequência do gene que codifica o 16S rRNA agrupou a linhagem CENA596 com outras de N. spumigena da Austrália e América do Norte. Na árvore filogenômica construída com as sequências concatenadas de 31 proteínas, a linhagem brasileira CENA596 agrupou-se com valor de reamostragem de 100% com a N. spumigena CCY9414 originária do mar Báltico. As análises comparativas entre os genomas dessas duas linhagens indicaram um grande número de genes compartilhados, os quais estão relacionados principalmente ao metabolismo primário das células. Por outro lado, foram encontrados genes específicos para cada uma delas que estão envolvidos em respostas celulares a estresses oxidativos, patógenos e antibióticos. A mineração do genoma da N. spumigena CENA596 revelou 13 agrupamentos gênicos hipoteticamente relacionados à síntese de metabólitos secundários, a maioria dos quais mostrou similaridade significativa com agrupamentos conhecidos. As análises químicas confirmaram a produção de duas variantes de nodularina, espumigina, namalida, aeruginosina e aminoácidos tipo micosporina, e uma variante de geosmina. A linhagem brasileira N. spumigena CENA596 mostrou-se capaz de produzir uma variedade significante de moléculas bioativas e seu genoma revelou-se ser consideravelmente conservado em relação ao genoma da linhagem CCY9414, a qual é conhecida por causar grandes florações tóxicas no Mar Báltico / Nodularia spumigena is a cyanobacterial species known as a producer of the hepatotoxin nodularin. This cyanotoxin is a potent and irreversible inhibitor of eukaryotic cell serine/threonine protein phosphatases (PP1 and PP2A) and is a tumor promoter and suspected carcinogen. In addition to nodularin, N. spumigena is also produces other non-ribosomal peptides, such as spumigins, aeruginosines and anabaenopeptins. The first report of bloom-forming N. spumigena in Brazil occurred in 2011 in shrimp production ponds, Rio Grande, RS, and stimulated interest in obtaining information on its genome and biosynthetic potential. Thus, the objective of this study was to evaluate the genomic and functional aspects of the strain N. spumigena CENA596 isolated from a shrimp production pond of the Rio Grande. For this, a culture of the strain N. spumigena CENA596 was submitted to a treatment with sodium hypochlorite (2%) to eliminate contaminants and the DNA extracted from treated cells was sequenced in a platform MiSeq and analyzed with genomic tools. Genome sequencing and assembly resulted in 291 contiguous sequences with GC percentage of 41.19 and total size of 5,187,679 bp. Phylogenetic analysis based on the gene sequence encoding the 16S rRNA grouped the strain CENA596 with other N. spumigena from Australia and North America. In the phylogenomic tree constructed with the concatenated sequences of 31 proteins, the Brazilian strain CENA596 grouped with a bootstrap value of 100% with the N. spumigena CCY9414 originating from the Baltic sea. Comparative analyses between the genomes of these two strains indicated a large number of shared genes, which are mainly related to the primary metabolism of the cells. Otherwise, genes specific for each of the two strains were identified as involved in cellular responses to oxidative stress, pathogens and antibiotics. Genome mining revealed 13 gene clusters hypothetically related to the synthesis of secondary metabolites, most of which showed significant similarity to known clusters. Chemical analyses confirmed the production of two variants of nodularin, spumigin, namalide, aeruginosin and mycosporine-like amino acid, and one variant of geosmin. The Brazilian strain N. spumigena CENA596 was able to produce a significant variety of bioactive molecules and its genome revealed to be considerably conserved in relation to the genome of the strain CCY9414, which is known to cause large toxic blooms in the Baltic Sea Agrupamento gênico Cianotoxinas Comparative genomics Cyanotoxins Espectrometria de massas Gene cluster Genoma Genome Genômica comparativa Mass spectrometry
105	Agrupamento de séries temporais em fluxos contínuos de dados / Time series clustering for data streams Pereira, Cássio Martini Martins 29 October 2013 (has links) Recentemente, a área de mineração de fluxos contínuos de dados ganhou importância, a qual visa extrair informação útil a partir de conjuntos massivos e contínuos de dados que evoluem com o tempo. Uma das técnicas que mais se destaca nessa área e a de agrupamento de dados, a qual busca estruturar grandes volumes de dados em hierarquias ou partições, tais que objetos mais similares estejam em um mesmo grupo. Diversos algoritmos foram propostos nesse contexto, porém a maioria concentrou-se no agrupamento de fluxos compostos por pontos em um espaço multidimensional. Poucos trabalhos voltaram-se para o agrupamento de séries temporais, as quais se caracterizam por serem coleções de observações coletadas sequencialmente no tempo. Técnicas atuais para agrupamento de séries temporais em fluxos contínuos apresentam uma limitação na escolha da medida de similaridade, a qual na maioria dos casos e baseada em uma simples correlação, como a de Pearson. Este trabalho mostra que até para modelos clássicos de séries temporais, como os de Box e Jenkins, a correlação de Pearson não é capaz de detectar similaridade, apesar das séries serem provenientes de um mesmo modelo matemático e com mesma parametrização. Essa limitação nas técnicas atuais motivou este trabalho a considerar os modelos geradores de séries temporais, ou seja, as equações que regem sua geração, por meio de diversas medidas descritivas, tais como a Autoinformação Mútua, o Expoente de Hurst e várias outras. A hipótese considerada e que, por meio do uso de medidas descritivas, pode-se obter uma melhor caracterização do modelo gerador de séries temporais e, consequentemente, um agrupamento de maior qualidade. Nesse sentido, foi realizada uma avaliação de diversas medidas descritivas, as quais foram usadas como entrada para um novo algoritmo de agrupamento baseado em árvores, denominado TS-Stream. Experimentos com bases sintéticas compostas por diversos modelos de séries temporais foram realizados, mostrando a superioridade de TS-Stream sobre ODAC, a técnica mais popular para esta tarefa encontrada na literatura. Experimentos com séries reais provenientes de preços de ações da NYSE e NASDAQ mostraram que o uso de TS-Stream na escolha de ações, por meio da criação de uma carteira de investimentos diversificada, pode aumentar os retornos das aplicações em várias ordens de grandeza, se comparado a estratégias baseadas somente no indicador econômico Moving Average Convergence Divergence / Recently, the data streams mining area has gained importance, which aims to extract useful information from massive and continuous data sources that evolve over time. One of the most popular techniques in this area is clustering, which aims to structure large volumes of data into hierarchies or partitions, such that similar objects are placed in the same group. Several algorithms were proposed in this context, however most of them focused on the clustering of streams composed of multidimensional points. Few studies have focused on clustering streaming time series, which are characterized by being collections of observations sampled sequentially along time. Current techniques for clustering streaming time series have a limitation in the choice of the similarity measure, as most are based on a simple correlation, such as Pearson. This thesis shows that even for classic time series models, such as those from Box and Jenkins, the Pearson correlation is not capable of detecting similarity, despite dealing with series originating from the same mathematical model and the same parametrization. This limitation in current techniques motivated this work to consider time series generating models, i.e., generating equations, through the use of several descriptive measures, such as Auto Mutual Information, the Hurst Exponent and several others. The hypothesis is that through the use of several descriptive measures, a better characterization of time series generating models can be achieved, which in turn will lead to better clustering quality. In that context, several descriptive measures were evaluated and then used as input to a new tree-based clustering algorithm, entitled TS-Stream. Experiments were conducted with synthetic data sets composed of various time series models, confirming the superiority of TS-Stream when compared to ODAC, the most successful technique in the literature for this task. Experiments with real-world time series from stock market data of the NYSE and NASDAQ showed that the use of TS-Stream in the selection of stocks, by the creation of a diversified portfolio, can increase the returns of the investment in several orders of magnitude when compared to trading strategies solely based on the Moving Average Convergence Divergence financial indicator Agrupamento Aprendizado de máquina Clustering Data streams Fluxos contínuos de dados Machine learning Séries temporais Time series
106	Desenvolvimento de operadores de agrupamento por similaridade em SGBD relacionais / Development of similarity group operators in Relational DBMS Laverde, Natan de Almeida 16 May 2018 (has links) O operador de agrupamento e as funções de agregação são as principais ferramentas utilizadas para sumarizar dados em um Sistema de Gerenciamento de Base de Dados Relacionais (SGBDR). O operador de agrupamento funciona criando partições nos dados utilizando comparações por identidade, e permite que sejam aplicadas funções de agregação que retornam um único valor representando o grupo como um todo. Entretanto, para dados métricos, agrupamento utilizando identidade tem pouca utilidade. Neste caso, adotar o conceito de similaridade é frequentemente uma abordagem mais promissora. A literatura apresenta alguns operadores que podem agrupar os dados utilizando similaridade. Todos eles utilizam um limiar de valor de distância para atribuir os elementos aos grupos. No entanto, estes operadores não obtêm resultados satisfatórios quando a distribuição dos dados apresenta variações significativas na densidade de objetos em diferentes regiões do espaço. Para alcançar melhores resultados nestas situações, propusemos um novo operador que atribui os grupos utilizando uma eleição envolvendo grupos já atribuídos. Também propusemos generalizações, para os operadores existentes e propostos, para trabalhar com uma quantidade de vizinhos mais próximos e aproximação dos vizinhos mais próximos ao invés de um limiar de distância. Para possibilitar a inclusão destes operadores em SGBDR, propusemos uma extensão à Structured Query Language (SQL) e novas funções de agregação. Implementamos estes operadores em nosso framework em C++ usando a biblioteca Arboretum. Para avaliar os métodos propostos, analisamos tanto qualidade dos resultados quanto tempo de execução, utilizando conjuntos de dados reais e sintéticos. Os operadores propostos alcançaram melhores resultados quanto à qualidade de resultados, e mantiveram os tempos de execução similares. Os operadores que utilizam aproximação aos vizinhos mais próximos produziram resultados de qualidade similar quando comparados aos operadores que utilizando os vizinhos mais próximos, podendo ser executados em menor tempo que estes. / The grouping operator and aggregation functions are the primary tools used to summarize data inside a Relational Database Management Systems (RDBMS). The grouping operator works creating partitions in data using identity comparisons, and allow applying aggregation functions that return a single value that represent the entire group. However, for metric data, grouping by identity is seldom useful. In this case, adopting the concept of the similarity is often a better approach. The literature presents few operators that can group data using similarity. All of them use a distance threshold value to assign the elements in groups. However, these operators do not achieve satisfactory results when the data distribution present a significant variation in the density of objects in different regions of the space. To achieve better results in these situations, we have proposed a novel operator that assign groups using an election involving already assigned groups. We also proposed generalizations to existing and proposed operators to work with an amount of nearest neighbors and approximate neighbors instead of a distance threshold. To support these operators in RDBMS, we propose an extension to Structured Query Language (SQL) and new aggregation functions. Our proposed algorithms can run the proposed and existing operators. We implemented these operators in our framework in C++ using Arboretum library. To evaluate the proposed methods, we assess both results quality and the execution time, using both real and synthetic datasets. The proposed operators achieved better results comparing the quality and maintained similar executing time. The operators that use the approximate nearest neighbors produced similar quality results comparing with the operators that use the exact neighbors and can execute faster than that. Agregação por similaridade Agrupamento por similaridade RDBMS SGBDR Similaridade Similarity Similarity aggregation Similarity group
107	Self-organization map in complex network / Mapas organizativos em redes complexas Mayra Mercedes Zegarra Pimenta 25 June 2018 (has links) The Self-Organization Map (SOM) is an artificial neural network that was proposed as a tool for exploratory analysis in large dimensionality data sets, being used efficiently for data mining. One of the main topics of research in this area is related to data clustering applications. Several algorithms have been developed to perform clustering in data sets. However, the accuracy of these algorithms is data depending. This thesis is mainly dedicated to the investigation of the SOM from two different approaches: (i) data mining and (ii) complex networks. From the data mining point of view, we analyzed how the performance of the algorithm is related to the distribution of data properties. It was verified the accuracy of the algorithm based on the configuration of the parameters. Likewise, this thesis shows a comparative analysis between the SOM network and other clustering methods. The results revealed that in random configuration of parameters the SOM algorithm tends to improve its acuracy when the number of classes is small. It was also observed that when considering the default configurations of the adopted methods, the spectral approach usually outperformed the other clustering algorithms. Regarding the complex networks approach, we observed that the network structure has a fundamental influence of the algorithm accuracy. We evaluated the cases at short and middle learning time scales and three different datasets. Furthermore, we show how different topologies also affect the self-organization of the topographic map of SOM network. The self-organization of the network was studied through the partitioning of the map in groups or communities. It was used four topological measures to quantify the structure of the groups such as: modularity, number of elements per group, number of groups per map, size of the largest group in three network models. In small-world (SW) networks, the groups become denser as time increases. An opposite behavior is found in the assortative networks. Finally, we verified that if some perturbation is included in the system, like a rewiring in a SW network and the deactivation model, the system cannot be organized again. Our results enable a better understanding of SOM in terms of parameters and network structure. / Um Mapa Auto-organizativo (da sigla SOM, Self-organized map, em inglês) é uma rede neural artificial que foi proposta como uma ferramenta para análise exploratória em conjuntos de dados de grande dimensionalidade, sendo utilizada de forma eficiente na mineração de dados. Um dos principais tópicos de pesquisa nesta área está relacionado com as aplicações de agrupamento de dados. Vários algoritmos foram desenvolvidos para realizar agrupamento de dados, tendo cada um destes algoritmos uma acurácia específica para determinados tipos de dados. Esta tese tem por objetivo principal analisar a rede SOM a partir de duas abordagens diferentes: mineração de dados e redes complexas. Pela abordagem de mineração de dados, analisou-se como o desempenho do algoritmo está relacionado à distribuição ou características dos dados. Verificou-se a acurácia do algoritmo com base na configuração dos parâmetros. Da mesma forma, esta tese mostra uma análise comparativa entre a rede SOM e outros métodos de agrupamento. Os resultados revelaram que o uso de valores aleatórios nos parâmetros de configuração do algoritmo SOM tende a melhorar sua acurácia quando o número de classes é baixo. Observou-se também que, ao considerar as configurações padrão dos métodos adotados, a abordagem espectral usualmente superou os demais algoritmos de agrupamento. Pela abordagem de redes complexas, esta tese mostra que, se considerarmos outro tipo de topologia de rede, além do modelo regular geralmente utilizado, haverá um impacto na acurácia da rede. Esta tese mostra que o impacto na acurácia é geralmente observado em escalas de tempo de aprendizado curto e médio. Esse comportamento foi observado usando três conjuntos de dados diferentes. Além disso, esta tese mostra como diferentes topologias também afetam a auto-organização do mapa topográfico da rede SOM. A auto-organização da rede foi estudada por meio do particionamento do mapa em grupos ou comunidades. Foram utilizadas quatro medidas topológicas para quantificar a estrutura dos grupos em três modelos distintos de rede: modularidade, número de elementos por grupo, número de grupos por mapa, tamanho do maior grupo. Em redes de pequeno mundo, os grupos se tornam mais densos à medida que o tempo aumenta. Um comportamento oposto a isso é encontrado nas redes assortativas. Apesar da modularidade, tem um alto valor em ambos os casos. Algoritmos de agrupamento Redes complexas SOM Clustering algorithm Complex networks Self-organization map
108	Dager: uma ferramenta computacional para agrupamentos em mineração de dados agrícolas georreferenciados / Dager: uma ferramenta computacional para agrupamentos em mineração de dados agrícolas georreferenciados Silva, Ronan Assumpção 17 August 2012 (has links) Made available in DSpace on 2017-07-21T14:19:38Z (GMT). No. of bitstreams: 1 Ronan Assumpcao.pdf: 1635695 bytes, checksum: 084afb104dd339cbac6751edc1408418 (MD5) Previous issue date: 2012-08-17 / Agriculture demands for various computing solutions, especially when refers to the Precision Agriculture (PA). Data Mining is one of the computing resources that can benefit the analysis of data from AP, which usually are georeferenced. However, there are limitations of algorithms and computational tools when it is need to group different characteristics also considering its geographical position. In this context, the aim of this work was to develop and implement algorithms that consider clustering and visualization of georeferenced attributes along with various attributes in the agricutural database. It was created a new computational tool for georeferenced agricultural data mining called Dager. The algorithms PAM, CLARA and CLARANS were implemented and, based on these two new algorithms, and GCLARA GCLARANS were developed and implemented in the tool. Besides the algorithms it was implemented a module for graphical visualization of clusters. For the experiments, a database obtained by Precision Farming and evaluation groups were employed statistical methods ANOVA and MANOVA. The result showed the mapping and visualization of regions within a field with similar characteristics, achieving the proposoal objectives. / A agricultura demanda de soluções computacionais diversas, especialmente quando refere-se ao segmento da Agricultura de Precisão (AP). A Mineração de Dados é um dos recursos computacionais que pode beneficiar a análise de dados de AP, os quais normalmente são georreferenciados. Porém, há limitação de algoritmos e ferramentas computacionais quando se tem necessidade de agrupar características diversas considerando também sua posição geográfica. Nesse contexto, o objetivo desta dissertação foi desenvolver e implementar algoritmos de agrupamentos e visualização que considerem atributos georreferenciados juntamente com atributos diversos em base de dados agrícolas. Para tanto, foi criada uma nova ferramenta computacional para mineração de dados agrícolas georreferenciados, denominada DAGER. Os algoritmos PAM, CLARA e CLARANS foram implementados e, com base nesses, dois novos algoritmos, GCLARA e GCLARANS foram desenvolvidos e implementados na ferramenta. Além dos algoritmos, foi implementado um módulo de visualização gráfica dos agrupamentos. Para a realização dos experimentos, foi utilizada uma base de dados agrícola obtida por processos de Agricultura de Precisão e para a avaliação dos grupos foram empregados os métodos estatísticos ANOVA e o MANOVA. O resultado apresenta o mapeamento e visualização de regiões dentro de uma lavoura com características semelhantes, atendendo aos objetivos propostos agrupamento dados georreferenciados agricultura de precisão clustering georeferenced data precision agriculture
109	Agrupamento de dados em fluxos contínuos com estimativa automática do número de grupos / Clustering data streams with automatic estimation of the number of cluster Silva, Jonathan de Andrade 04 March 2015 (has links) Técnicas de agrupamento de dados usualmente assumem que o conjunto de dados é de tamanho fixo e pode ser alocado na memória. Neste contexto, um desafio consiste em aplicar técnicas de agrupamento em bases de dados de tamanho ilimitado, com dados gerados continuamente e em ambientes dinâmicos. Dados gerados nessas condições originam o que se convencionou chamar de Fluxo Contínuo de Dados (FCD). Em aplicações de FCD, operações de acesso aos dados são restritas a apenas uma leitura ou a um pequeno número de acessos aos dados, com limitações de memória e de tempo de processamento. Além disso, a distribuição dos dados gerados por essas fontes pode ser não estacionária, ou seja, podem ocorrer mudanças ao longo do tempo, denominadas de mudanças de conceito. Nesse sentido, algumas técnicas de agrupamento em FCD foram propostas na literatura. Muitas dessas técnicas são baseadas no algoritmo das k-Médias. Uma das limitações do algoritmo das k-Médias consiste na definição prévia do número de grupos. Ao se assumir que o número de grupos é desconhecido a priori e que deveria ser estimado a partir dos dados, percorrer o grande espaço de soluções possíveis (tanto em relação ao número de grupos, k, quanto em relação às partições possíveis para um determinado k) torna desafiadora a tarefa de agrupamento de dados - ainda mais sob a limitação de tempo e armazenamento imposta em aplicações de FCD. Neste contexto, essa tese tem como principais contribuições: (i) adaptar algoritmos que têm sido usados com sucesso em aplicações de Fluxo Contínuo de Dados (FCD) nas quais k é conhecido para cenários em que se deseja estimar o número de grupos; (ii) propor novos algoritmos para agrupamento que estimem k automaticamente a partir do FCD; (iii) avaliar sistematicamente, e de maneira quantitativa, os algoritmos propostos de acordo com as características específicas dos cenários de FCD. Foram desenvolvidos 14 algoritmos de agrupamento para FCD capazes de estimar o número de grupos a partir dos dados. Tais algoritmos foram avaliados em seis bases de dados artificiais e duas bases de dados reais amplamente utilizada na literatura. Os algoritmos desenvolvidos podem auxiliar em diversas áreas da Mineração em FCD. Os algoritmos evolutivos desenvolvidos mostraram a melhor relação de custo-benefício entre eficiência computacional e qualidade das partições obtidas. / Several algorithms for clustering data streams based on k-Means have been proposed in the literature. However, most of them assume that the number of clusters, k, is known a priori by the user and can be kept fixed throughout the data analysis process. Besides the dificulty in choosing k, data stream clustering imposes several challenges to be dealt with, such as addressing non-stationary, unbounded data that arrives in an online fashion. In data stream applications, the dataset must be accessed in order and that can be read only once or a small number of times. In this context, the main contributions of this thesis are: (i) adapt algorithms that have been used successfully in data stream applications where k is known to be able to estimate the number of clusters from data; (ii) propose new algorithms for clustering to estimate k automatically from the data stream; (iii) evaluate the proposed algorithms according to diferent scenarios. Fourteen clustering data stream algorithms were developed which are able to estimate the number of clusters from data. They were evaluated in six artificial datasets and two real-world datasets widely used in the literature. The developed algorithms are useful for several data mining tasks. The developed evolutionary algorithms have shown the best trade-off between computational efficiency and data partition quality. Agrupamento de dados Algoritmos evolutivos Clustering Data stream Evolutionary algorithms Fluxo contínuo de dados
110	Extração de tópicos baseado em agrupamento de regras de associação / Topic extraction based on association rule clustering Santos, Fabiano Fernandes dos 29 May 2015 (has links) Uma representação estruturada dos documentos em um formato apropriado para a obtenção automática de conhecimento, sem que haja perda de informações relevantes em relação ao formato originalmente não-estruturado, é um dos passos mais importantes da mineração de textos, pois a qualidade dos resultados obtidos com as abordagens automáticas para obtenção de conhecimento de textos estão fortemente relacionados à qualidade dos atributos utilizados para representar a coleção de documentos. O Modelo de Espaço de Vetores (MEV) é um modelo tradicional para obter uma representação estruturada dos documentos. Neste modelo, cada documento é representado por um vetor de pesos correspondentes aos atributos do texto. O modelo bag-of-words é a abordagem de MEV mais utilizada devido a sua simplicidade e aplicabilidade. Entretanto, o modelo bag-of-words não trata a dependência entre termos e possui alta dimensionalidade. Diversos modelos para representação dos documentos foram propostos na literatura visando capturar a informação de relação entre termos, destacando-se os modelos baseados em frases ou termos compostos, o Modelo de Espaço de Vetores Generalizado (MEVG) e suas extensões, modelos de tópicos não-probabilísticos, como o Latent Semantic Analysis (LSA) ou o Non-negative Matrix Factorization (NMF), e modelos de tópicos probabilísticos, como o Latent Dirichlet Allocation (LDA) e suas extensões. A representação baseada em modelos de tópicos é uma das abordagens mais interessantes uma vez que elas fornece uma estrutura que descreve a coleção de documentos em uma forma que revela sua estrutura interna e as suas inter-relações. As abordagens de extração de tópicos também fornecem uma estratégia de redução da dimensionalidade visando a construção de novas dimensões que representam os principais tópicos ou assuntos identificados na coleção de documentos. Entretanto, a extração é eficiente de informações sobre as relações entre os termos para construção da representação de documentos ainda é um grande desafio de pesquisa. Os modelos para representação de documentos que exploram a correlação entre termos normalmente enfrentam um grande desafio para manter um bom equilíbrio entre (i) a quantidade de dimensões obtidas, (ii) o esforço computacional e (iii) a interpretabilidade das novas dimensões obtidas. Assim,é proposto neste trabalho o modelo para representação de documentos Latent Association Rule Cluster based Model (LARCM). Este é um modelo de extração de tópicos não-probabilístico que explora o agrupamento de regras de associação para construir uma representação da coleção de documentos com dimensionalidade reduzida tal que as novas dimensões são extraídas a partir das informações sobre as relações entre os termos. No modelo proposto, as regras de associação são extraídas para cada documento para obter termos correlacionados que formam expressões multi-palavras. Essas relações entre os termos formam o contexto local da relação entre termos. Em seguida, aplica-se um processo de agrupamento em todas as regras de associação para formar o contexto geral das relações entre os termos, e cada grupo de regras de associação obtido formará um tópico, ou seja, uma dimensão da representação. Também é proposto neste trabalho uma metodologia de avaliação que permite selecionar modelos que maximizam tanto os resultados na tarefa de classificação de textos quanto os resultados de interpretabilidade dos tópicos obtidos. O modelo LARCM foi comparado com o modelo LDA tradicional e o modelo LDA utilizando uma representação que inclui termos compostos (bag-of-related-words). Os resultados dos experimentos indicam que o modelo LARCM produz uma representação para os documentos que contribui significativamente para a melhora dos resultados na tarefa de classificação de textos, mantendo também uma boa interpretabilidade dos tópicos obtidos. O modelo LARCM também apresentou ótimo desempenho quando utilizado para extração de informação de contexto para aplicação em sistemas de recomendação sensíveis ao contexto. / A structured representation of documents in an appropriate format for the automatic knowledge extraction without loss of relevant information is one of the most important steps of text mining, since the quality of the results obtained with automatic approaches for the text knowledge extraction is strongly related to the quality of the selected attributes to represent the collection of documents. The Vector Space model (VSM) is a traditional structured representation of documents. In this model, each document is represented as a vector of weights that corresponds to the features of the document. The bag-of-words model is the most popular VSM approach because of its simplicity and general applicability. However, the bag-of-words model does not include dependencies of the terms and has a high dimensionality. Several models for document representation have been proposed in the literature in order to capture the dependence among the terms, especially models based on phrases or compound terms, the Generalized Vector Space Model (GVSM) and their extensions, non-probabilistic topic models as Latent Semantic Analysis (LSA) or Non-negative Matrix Factorization (NMF) and still probabilistic topic models as the Latent Dirichlet Allocation (LDA) and their extensions. The topic model representation is one of the most interesting approaches since it provides a structure that describes the collection of documents in a way that reveals their internal structure and their interrelationships. Also, this approach provides a dimensionality reduction strategy aiming to built new dimensions that represent the main topics or ideas of the document collection. However, the efficient extraction of information about the relations of terms for document representation is still a major research challenge nowadays. The document representation models that explore correlated terms usually face a great challenge of keeping a good balance among the (i) number of extracted features, (ii) the computational performance and (iii) the interpretability of new features. In this way, we proposed the Latent Association Rule Cluster based Model (LARCM). The LARCM is a non-probabilistic topic model that explores association rule clustering to build a document representation with low dimensionality in a way that each dimension is composed by information about the relations among the terms. In the proposed approach, the association rules are built for each document to extract the correlated terms that will compose the multi-word expressions. These relations among the terms are the local context of relations. Then, a clustering process is applied for all association rules to discover the general context of the relations, and each obtained cluster is an extracted topic or a dimension of the new document representation. This work also proposes in this work an evaluation methodology to select topic models that maximize the results in the text classification task as much as the interpretability of the obtained topics. The LARCM model was compared against both the traditional LDA model and the LDA model using a document representation that includes multi-word expressions (bag-of-related-words). The experimental results indicate that LARCM provides an document representation that improves the results in the text classification task and even retains a good interpretability of the extract topics. The LARCM model also achieved great results as a method to extract contextual information for context-aware recommender systems. Agrupamento de regras de associação Association rule clustering Dimensionality reduction Extração de tópicos Mineração de textos Redução de dimensionalidade Topic extraction

Search results