Spelling suggestions: "subject:"detecção dde comunidade"" "subject:"detecção dee comunidade""
11 |
Metaheurísticas para o problema de agrupamento de dados em grafo / Metaheuristics for the graph clustering problemMariá Cristina Vasconcelos Nascimento 26 February 2010 (has links)
O problema de agrupamento de dados em grafos consiste em encontrar clusters de nós em um dado grafo, ou seja, encontrar subgrafos com alta conectividade. Esse problema pode receber outras nomenclaturas, algumas delas são: problema de particionamento de grafos e problema de detecção de comunidades. Para modelar esse problema, existem diversas formulações matemáticas, cada qual com suas vantagens e desvantagens. A maioria dessas formulações tem como desvantagem a necessidade da definição prévia do número de grupos que se deseja obter. Entretanto, esse tipo de informação não está contida em dados para agrupamento, ou seja, em dados não rotulados. Esse foi um dos motivos da popularização nas últimas décadas da medida conhecida como modularidade, que tem sido maximizada para encontrar partições em grafos. Essa formulação, além de não exigir a definição prévia do número de clusters, se destaca pela qualidade das partições que ela fornece. Nesta Tese, metaheurísticas Greedy Randomized Search Procedures para dois modelos existentes para agrupamento em grafos foram propostas: uma para o problema de maximização da modularidade e a outra para o problema de maximização da similaridade intra-cluster. Os resultados obtidos por essas metaheurísticas foram melhores quando comparadas àqueles de outras heurísticas encontradas na literatura. Entretanto, o custo computacional foi alto, principalmente o da metaheurística para o modelo de maximização da modularidade. Com o passar dos anos, estudos revelaram que a formulação que maximiza a modularidade das partições possui algumas limitações. A fim de promover uma alternativa à altura do modelo de maximização da modularidade, esta Tese propõe novas formulações matemáticas de agrupamento em grafos com e sem pesos que visam encontrar partições cujos clusters apresentem alta conectividade. Além disso, as formulações propostas são capazes de prover partições sem a necessidade de definição prévia do número de clusters. Testes com centenas de grafos com pesos comprovaram a eficiência dos modelos propostos. Comparando as partições provenientes de todos os modelos estudados nesta Tese, foram observados melhores resultados em uma das novas formulações propostas, que encontrou partições bastante satisfatórias, superiores às outras existentes, até mesmo para a de maximização de modularidade. Os resultados apresentaram alta correlação com a classificação real dos dados simulados e reais, sendo esses últimos, em sua maioria, de origem biológica / Graph clustering aims at identifying highly connected groups or clusters of nodes of a graph. This problem can assume others nomenclatures, such as: graph partitioning problem and community detection problem. There are many mathematical formulations to model this problem, each one with advantages and disadvantages. Most of these formulations have the disadvantage of requiring the definition of the number of clusters in the final partition. Nevertheless, this type of information is not found in graphs for clustering, i.e., whose data are unlabeled. This is one of the reasons for the popularization in the last decades of the measure known as modularity, which is being maximized to find graph partitions. This formulation does not require the definition of the number of clusters of the partitions to be produced, and produces high quality partitions. In this Thesis, Greedy Randomized Search Procedures metaheuristics for two existing graph clustering mathematical formulations are proposed: one for the maximization of the partition modularity and the other for the maximization of the intra-cluster similarity. The results obtained by these proposed metaheuristics outperformed the results from other heuristics found in the literature. However, their computational cost was high, mainly for the metaheuristic for the maximization of modularity model. Along the years, researches revealed that the formulation that maximizes the modularity of the partitions has some limitations. In order to promote a good alternative for the maximization of the partition modularity model, this Thesis proposed new mathematical formulations for graph clustering for weighted and unweighted graphs, aiming at finding partitions with high connectivity clusters. Furthermore, the proposed formulations are able to provide partitions without a previous definition of the true number of clusters. Computational tests with hundreds of weighted graphs confirmed the efficiency of the proposed models. Comparing the partitions from all studied formulations in this Thesis, it was possible to observe that the proposed formulations presented better results, even better than the maximization of partition modularity. These results are characterized by satisfactory partitions with high correlation with the true classification for the simulated and real data (mostly biological)
|
12 |
Algoritmos de estimação de distribuição baseados em árvores filogenéticas / Estimation of distribution algorithms based on phylogenetic treesAntonio Helson Mineiro Soares 27 June 2014 (has links)
Algoritmos Evolutivos que utilizam modelos probabilísticos de distribuição dos valores das variáveis (para orientar o processo de busca da solução de problemas) são chamados Algoritmos de Estimação de Distribuição (AEDs). Esses algoritmos têm apresentado resultados relevantes para lidar com problemas relativamente complexos. O desempenho deles depende diretamente da qualidade dos modelos probabilísticos construídos que, por sua vez, dependem dos métodos de construção dos modelos. Os melhores modelos em geral são construídos por métodos computacionalmente complexos, resultando em AEDs que requerem tempo computacional alto, apesar de serem capazes de explorar menos pontos do espaço de busca para encontrar a solução de um problema. Este trabalho investiga modelos probabilísticos obtidos por algoritmos de reconstrução de filogenias, uma vez que alguns desses métodos podem produzir, de forma computacionalmente eficiente, modelos que representam bem as principais relações entre espécies (ou entre variáveis). Este trabalho propõe algumas estratégias para obter um melhor uso de modelos baseados em filogenia para o desenvolvimento de AEDs, dentre elas o emprego de um conjunto de filogenias em vez de apenas uma filogenia como modelo de correlação entre variáveis, a síntese das informações mais relevantes desse conjunto em uma estrutura de rede e a identificação de grupos de variáveis correlacionadas a partir de uma ou mais redes por meio de um algoritmo de detecção de comunidades. Utilizando esses avanços para a construção de modelos, foi desenvolvido uma nova técnica de busca, a Busca Exaustiva Composta, que possibilita encontrar a solução de problemas combinatórios de otimização de diferentes níveis de dificuldades. Além disso, foi proposta uma extensão do novo algoritmo para problemas multiobjetivos, que mostrou ser capaz de determinar a fronteira Pareto-ótima dos problemas combinatórios investigados. Por fim, o AED desenvolvido possibilitou obter um compromisso em termos de número de avaliações e tempo de computação, conseguindo resultados similares aos dos melhores algoritmos encontrados para cada um desses critérios de desempenho nos problemas testados. / Evolutionary Algorithms that use the distribution of values of variables as probabilistic models (to direct the search process of problem solving) are called Estimation of Distribution Algorithms (EDAs). These algorithms have presented relevant performance in handling relatively complex problems. The performance of such algorithms depends directly on the quality of probabilistic models constructed that, in turn, depend on the methods of model building. The best models are often constructed by computationally complex methods, resulting in AEDs that require high running time although they are able to explore less points in the search space to find the solution of a problem. This work investigates probabilistic models obtained by algorithms of phylogeny reconstruction since some of them can produce models in an efficient way representing the main relationships among species (or among variables). This work proposes some strategies for better use of phylogeny-based models in the development of EDAs, such as the employment of a set of phylogenies instead of only one phylogeny as a model of correlation among variables, the synthesis of the most relevant information from a set of phylogenies into a structure of network and the identification groups of correlated variables from one or more networks by an algorithm of community detection. Using those advances for model construction, a new search technique, called Composed Exhaustive Search, was developed in order to find solutions for combinatorial optimization problems with different levels of difficulty. In addition, an extension of the new algorithm for multi-objective problems was proposed, which was able to determine the Pareto-optimal front of the combinatorial problems investigated. Finally, the developed EDA makes possible to obtain a trade-off in terms of number of evaluations and running time, finding results that are similar to the ones achieved by the best algorithms found for each one of these performance criteria in the problems tested.
|
13 |
Detecção de comunidades em redes complexas utilizando estratégia multinível / Community detection in complex networks: a multilevel approachLeonardo Jesus Almeida 05 October 2009 (has links)
O grande volume de dados armazenados em meio digital dificulta a anáalise e extração de informações por um ser humano sem que seja utilizada alguma ferramenta computacional inteligente. A área de Aprendizado de Máquina (AM) estuda e desenvolve algoritmos para o processamento e obtenção automática de conhecimento em dados digitais. Tradicionalmente, os algoritmos de AM modelam os dados analisados com base na abordagem proposicional; entretanto, recentemente com a disponibilidade de conjuntos de dados relacionais novas abordagens têm sido estudadas, como a modelagem utilizando redes complexas. Redes complexas é uma área de pesquisa recente e ativa que têm atraíido a atenção de pesquisadores e tem sido aplicada em diversos domínios. Mais especificamente, o estudo de detecção de comunidades em redes complexas é o tema principal deste trabalho. Detectar comunidades consiste em buscar grupos de vértices densamente conectados entre si em uma rede. Detectar a melhor divisão em comunidades de uma rede é um problema NP-completo, o que requer que o desenvolvimento de soluções viáveis baseiem-se em heurísticas como, por exemplo, medidas de qualidade. Newman prop^os a medida de modularidade Q que tem se mostrado eficiiente na análise de comunidades em redes. Este trabalho apresenta o Algoritmo Multinível de Otimização de Modularidade (AMOM) que é baseado a na otimização da medida de modularidade e integrado na estratégia multinível. A estratégia multinível é composta de três fases: (i) sucessivas compactações da rede inicial com base em contrações de arestas e fus~oes de vértices, (ii) particionamento da rede reduzida utilizando Algoritmo de Otimização de Modularidade (AOM) modificado, e (iii) sucessivas descompactações das redes intermediárias até que se retorne a rede inicial. O principal atrativo da estratégia é viabilizar a utilização de algoritmos custosos no particionamento do grafo compactado, uma vez que neste grafo a quantidade de vértices e arestas é uma fração reduzida em relação ao grafo inicial. O trabalho também propõe dois novos métodos para refinamento dos particionamentos durante a fase de uncoasening. A fiim de avaliar a escalabilidade e eficiiência da metodologia proposta foram realizados experimentos empíricos em redes consideradas benchmark. Os resultados demonstram um significativo ganho de desempenho, mantendo bons resultados qualitativos / Human based analysis of large amount of data is a hard task when no intelligent computer aid is provided. In this context, Machine Learning (ML) algorithms are aimed at automatically processing and obtaining knowledge from data. In general, ML algorithms use a propositional representation of data such as an attribute-value table. However, this model is not suitable for relational information modeling, which can be better accomplished using graphs or networks. In this context, complex networks have been call attention of scientific community recently and many applications in different domains have been developed. In special, one of complex networks research trends is the community detection field which is the main focus of this work. Community detection is the problem of finding dense and disjoint connected groups of vertices in a network. The problem is a well know NP-complete task which requires heuristics approaches, like quality measures, to be addressed. Newman introduced a specific quality measure called modularity that proved to be useful for analysis communities in networks. This work presents a new algorithm, called Multilevel Modularity Optimization Algorithm, based on modularity measure optimization integrated in a multilevel graph partitioning strategy. The multilevel graph partitioning scheme consists of three phases: (i) reduction of the size (coarsen) of original graph by collapsing vertices and edges, (ii) partitioning the coarsened graph, and (iii) uncoarsen it to construct a partition for the original graph. The rationale behind this strategy is to apply a computationally expensive method in a coarsened graph, i.e., with a significantly reduced number of vertices and edges. In addition, it is proposed two new methods that uses modularity and clustering coefficient for partition refinement. Empirical evaluation on benchmarks networks using this approach demonstrate a significant speed up gain compared to the original modularity-based algorithm, keeping a good quality clusters partitioning
|
14 |
Técnica de agrupamento de dados baseada em redes complexas para o posicionamento de cluster heads em rede de sensores sem fio / A clustering technique based on community detection for deployment of cluster head nodesFerreira, Leonardo Nascimento 19 October 2012 (has links)
Redes de Sensores Sem Fio são um tipo especial de rede ad-hoc que são posicionadas em uma região para monitorar fenômenos físicos. Considerando que os sensores dessas redes são independentes e possuem um raio de cobertura pequeno, é comum a utilização de um grande número de sensores para monitorar uma área grande. Um problema nesses tipos de redes é garantir que o máximo de dados capturados por esses sensores sejam coletados e transmitidos até uma estação base para que possam ser analisados por usuários. Uma abordagem para resolver esse problema é por meio da utilização de sensores especiais chamados cluster heads. Esses sensores são posicionados estrategicamente para coletar a informação de um grupo de sensores e transmiti-la para a estação base. Assim surge a necessidade de agrupar esses sensores. Nesse trabalho é proposta uma técnica híbrida baseada no algoritmo de agrupamento de dados K-Médias e em detecção comunidades em redes complexas. Esse algoritmo, chamado de QK-Médias, tenta aproveitar as vantagens das duas abordagens em duas etapas. Primeiro a rede é quebrada em comunidades usando uma técnica de detecção de comunidades. Em seguida essas comunidades são quebradas em subcomunidades de tal forma que os cluster heads consigam gerenciar. Os resultados obtidos a partir do agrupamento de sensores utilizando o QK-Médias mostram que é possível diminuir o número de mensagens perdidas na rede utilizando menos cluster heads que algoritmos tradicionais de agrupamento em redes de sensores sem fio / Wireless Sensor Networks are a special kind of ad-hoc network that are deployed in a monitoring field in order to detect some physical phenomenon. Due to the low dependability of individual nodes and small radio coverage, it is common to use a large number of sensors. A common problem in this sort of network is to guarantee that the highst number of captured data was sucessfull broadcast to the base station. One approach to solve this problem use special sensors called cluster heads. These sensors are responsible for collecting data from a group of common sensors and broadcast it to a base station. Thus, it is necessary to cluster these sensors. Here we propose a hybrid clustering algorithm based on community detection in complex networks and traditional K-means clustering technique: the QK-Means algorithm. This new algorithm is composed by two steps. First, the network is broken into communities and then broken into subcommuinties that the cluster heads can deal with. Simulation results show that QK-Means can decrease the rate of lost messages in the network using less cluster heads than tradicional clustering algorithms
|
15 |
Redes com dinâmica espaço-temporal e aplicações computacionais / Networks with spatio temporal dynamics in computer sciencesQuiles, Marcos Gonçalves 24 March 2009 (has links)
Nas últimas décadas, testemunhou-se um crescente interesse no estudo de sistemas complexos. Tais sistemas são compostos por pelo menos dois componentes fundamentais: elementos dinâmicos individuais e uma estrutura de organização definindo a forma de interação entre estes. Devido a dinâmica de cada elemento e a complexidade de acoplamento, uma grande variedade de fenômenos espaço-temporais podem ser observados. Esta tese tem como objetivo principal explorar o uso da dinâmica espaço-temporal em redes visando a solução de alguns problemas computacionais. Com relação aos mecanismos dinâmicos, a sincronização entre osciladores acoplados, a caminhada aleatória-determinística e a competição entre elementos na rede foram considerados. Referente à parte estrutural da rede, tanto estruturas regulares baseadas em reticulados quanto redes com estruturas mais gerais, denominadas redes complexas, foram abordadas. Este estudo é concretizado com o desenvolvimento de modelos aplicados a dois domínios específicos. O primeiro refere-se à utilização de redes de osciladores acoplados para construção de modelos de atenção visual. Dentre as principais características desses modelos estão: a seleção baseada em objetos, a utilização da sincronização/ dessincronização entre osciladores neurais como forma de organização perceptual, a competição entre objetos para aquisição da atenção. Além disso, ao comparar com outros modelos de seleção de objetos baseados em redes osciladores, um número maior de atributos visuais é utilizado para definir a saliência dos objetos. O segundo domínio está relacionado ao desenvolvimento de modelos para detecção de comunidades em redes complexas. Os dois modelos desenvolvidos, um baseado em competição de partículas e outro baseado em sincronização de osciladores, apresentam alta precisão de detecção e ao mesmo tempo uma baixa complexidade computacional. Além disso, o modelo baseado em competição de partículas não só oferece uma nova técnica de detecção de comunidades, mas também apresenta uma abordagem alternativa para realização de aprendizado competitivo. Os estudos realizados nesta tese mostram que a abordagem unificada de dinâmica e estrutura é uma ferramenta promissora para resolver diversos problemas computacionais / In the last decades, an increasing interest in complex system study has been witnessed. Such systems have at least two integrated fundamental components: individual dynamical elements and an organizational structure which defines the form of interaction among those elements. Due to the dynamics of each element and the coupling complexity, various spatial-temporal phenomena can be observed. The main objective of this thesis is to explore spatial-temporal dynamics in networks for solving some computational problems. Regarding the dynamical mechanisms, the synchronization among coupled oscillators, deterministic-random walk and competition between dynamical elements are taken into consideration. Referring to the organizational structure, both regular network based on lattice and more general network, called complex networks, are studied. The study of coupled dynamical elements is concretized by developing computational models applied to two specific domains. The first refers to the using of coupled neural oscillators for visual attention. The main features of the developed models in this thesis are: object-based visual selection, realization of visual perceptual organization by using synchronization / desynchronization among neural oscillators, competition among objects to achieve attention. Moreover, in comparison to other object-based selection models, more visual attributes are employed to define salience of objects. The second domain is related to the development of computational models applied to community detection in complex networks. Two developed models, one based on particle competition and another based on synchronization of Integrate-Fire oscillators, present high detection rate and at the same time low computational complexity. Moreover, the model based on particle competition not only offers a new community detection technique, but also presents an alternative way to realize artificial competitive learning. The study realized in this thesis shows that the unified scheme of dynamics and structure is a powerful tool to solve various computational problems
|
16 |
Complex network component unfolding using a particle competition technique / Desdobramento de componentes de redes complexas utilizando uma técnica de competição de partículasUrio, Paulo Roberto 12 June 2017 (has links)
This work applies complex network theory to the problem of semi-supervised and unsupervised learning in networks that are representations of multivariate datasets. Complex networks allow the use of nonlinear dynamical systems to represent behaviors according to the connectivity patterns of networks. Inspired by behavior observed in nature, such as competition for limited resources, dynamical system models can be employed to uncover the organizational structure of a network. In this dissertation, we develop a technique for classifying data represented as interaction networks. As part of the technique, we model a dynamical system inspired by the biological dynamics of resource competition. So far, similar methods have focused on vertices as the resource of competition. We introduce edges as the resource of competition. In doing so, the connectivity pattern of a network might be used not only in the dynamical system simulation but in the learning task as well. / Este trabalho aplica a teoria de redes complexas para o estudo de uma técnica aplicada ao problema de aprendizado semissupervisionado e não-supervisionado em redes, especificamente, aquelas que representam conjuntos de dados multivariados. Redes complexas permitem o emprego de sistemas dinâmicos não-lineares que podem apresentar comportamentos de acordo com os padrões de conectividade de redes. Inspirado pelos comportamentos observados na natureza, tais como a competição por recursos limitados, sistema dinâmicos podem ser utilizados para revelar a estrutura da organização de uma rede. Nesta dissertação, desenvolve-se uma técnica aplicada ao problema de classificação de dados representados por redes de interação. Como parte da técnica, um sistema dinâmico inspirado na competição por recursos foi modelado. Métodos similares concentraram-se em vértices como o recurso da concorrência. Neste trabalho, introduziu-se arestas como o recurso-alvo da competição. Ao fazê-lo, utilizar-se-á o padrão de conectividade de uma rede tanto na simulação do sistema dinâmico, quanto na tarefa de aprendizado.
|
17 |
Segmentação de imagens baseada em redes complexas e superpixels: uma aplicação ao censo de aves / Image segmentation based on complex networks and superpixels: an application to birds censusBotelho, Glenda Michele 19 September 2014 (has links)
Uma das etapas mais importantes da análise de imagens e, que conta com uma enorme quantidade de aplicações, é a segmentação. No entanto, uma boa parte das técnicas tradicionais apresenta alto custo computacional, dificultando sua aplicação em imagens de alta resolução como, por exemplo, as imagens de ninhais de aves do Pantanal que também serão analisadas neste trabalho. Diante disso, é proposta uma nova abordagem de segmentação que combina algoritmos de detecção de comunidades, pertencentes à teoria das redes complexas, com técnicas de extração de superpixels. Tal abordagem é capaz de segmentar imagens de alta resolução mantendo o compromisso entre acurácia e tempo de processamento. Além disso, como as imagens de ninhais analisadas apresentam características peculiares que podem ser mais bem tratadas por técnicas de segmentação por textura, a técnica baseada em Markov Random Fields (MRF) é proposta, como um complemento à abordagem de segmentação inicial, para realizar a identificação final das aves. Por fim, devido à importância de avaliar quantitativamente a qualidade das segmentações obtidas, um nova métrica de avaliação baseada em ground-truth foi desenvolvida, sendo de grande importância para a área. Este trabalho contribuiu para o avanço do estado da arte das técnicas de segmentação de imagens de alta resolução, aprimorando e desenvolvendo métodos baseados na combinação de redes complexas com superpixels, os quais alcançaram resultados satisfatórios com baixo tempo de processamento. Além disso, uma importante contribuição referente ao censo demográfico de aves por meio da análise de imagens aéreas de ninhais foi viabilizada por meio da aplicação da técnica de segmentação MRF. / Segmentation is one of the most important steps in image analysis with a large range of applications. However, some traditional techniques exhibit high computational costs, hindering their application in high resolution images such as the images of birds nests from Pantanal, one of Brazilian most important wetlands. Therefore, we propose a new segmentation approach that combines community detection algorithms, originated from the theory of the complex networks, with superpixels extraction techniques. This approach is capable of segmenting high resolution images while maintaining the trade-off between accuracy and processing time. Moreover, as the nest images exhibit peculiar characteristics that can be better dealt with texture segmentation techniques, the Markov Random Fields (MRF) technique is proposed, as a complement to the initial approach, to perform the final identification of the birds. Finally, due to the importance of the quantitatively evaluation of the segmentation quality, a new evaluation metric based on ground-truth was developed, being of great importance to the segmentation field. This work contributed to the state of art of high resolution images segmentation techniques, improving and developing methods based on combination of complex networks and superpixels, which generated satisfactory results within low processing time. Moreover, an important contribution for the birds census by the analysis of aerial images of birds nests was made possible by application of the MRF technique.
|
18 |
Classificação e previsão de séries temporais através de redes complexas / Time series trend classification and forecasting using complex network analysisAnghinoni, Leandro 06 November 2018 (has links)
O estudo de séries temporais para a geração de conhecimento é uma área que vem crescendo em importância e complexidade ao longo da última década, à medida que a quantidade de dados armazenados cresce exponencialmente. Considerando este cenário, novas técnicas de mineração de dados têm sido constantemente desenvolvidas para lidar com esta situação. Neste trabalho é proposto o estudo de séries temporais baseado em suas características topológicas, observadas em uma rede complexa gerada com os dados da série temporal. Especificamente, o objetivo do modelo proposto é criar um algoritmo de detecção de tendências para séries temporais estocásticas baseado em detecção de comunidades e caminhadas nesta mesma rede. O modelo proposto apresenta algumas vantagens em relação à métodos tradicionais, como o número adaptativo de classes, com força mensurável, e uma melhor absorção de ruídos. Resultados experimentais em bases artificiais e reais mostram que o método proposto é capaz de classificar as séries temporais em padrões locais e globais, melhorando a previsibilidade das séries ao se utilizar métodos de aprendizado de máquina para a previsão das classes / Extracting knowledge from time series analysis has been growing in importance and complexity over the last decade as the amount of stored data has increased exponentially. Considering this scenario, new data mining techniques have continuously developed to deal with such a situation. In this work, we propose to study time series based on its topological characteristics, observed on a complex network generated from the time series data. Specifically, the aim of the proposed model is to create a trend detection algorithm for stochastic time series based on community detection and network metrics. The proposed model presents some advantages over traditional time series analysis, such as adaptive number of classes with measurable strength and better noise absorption. Experimental results on artificial and real datasets shows that the proposed method is able to classify the time series into local and global patterns, improving the predictability of the series when using machine-learning methods
|
19 |
Classificação e previsão de séries temporais através de redes complexas / Time series trend classification and forecasting using complex network analysisLeandro Anghinoni 06 November 2018 (has links)
O estudo de séries temporais para a geração de conhecimento é uma área que vem crescendo em importância e complexidade ao longo da última década, à medida que a quantidade de dados armazenados cresce exponencialmente. Considerando este cenário, novas técnicas de mineração de dados têm sido constantemente desenvolvidas para lidar com esta situação. Neste trabalho é proposto o estudo de séries temporais baseado em suas características topológicas, observadas em uma rede complexa gerada com os dados da série temporal. Especificamente, o objetivo do modelo proposto é criar um algoritmo de detecção de tendências para séries temporais estocásticas baseado em detecção de comunidades e caminhadas nesta mesma rede. O modelo proposto apresenta algumas vantagens em relação à métodos tradicionais, como o número adaptativo de classes, com força mensurável, e uma melhor absorção de ruídos. Resultados experimentais em bases artificiais e reais mostram que o método proposto é capaz de classificar as séries temporais em padrões locais e globais, melhorando a previsibilidade das séries ao se utilizar métodos de aprendizado de máquina para a previsão das classes / Extracting knowledge from time series analysis has been growing in importance and complexity over the last decade as the amount of stored data has increased exponentially. Considering this scenario, new data mining techniques have continuously developed to deal with such a situation. In this work, we propose to study time series based on its topological characteristics, observed on a complex network generated from the time series data. Specifically, the aim of the proposed model is to create a trend detection algorithm for stochastic time series based on community detection and network metrics. The proposed model presents some advantages over traditional time series analysis, such as adaptive number of classes with measurable strength and better noise absorption. Experimental results on artificial and real datasets shows that the proposed method is able to classify the time series into local and global patterns, improving the predictability of the series when using machine-learning methods
|
20 |
Time series data mining using complex networks / Mineração de dados em séries temporais usando redes complexasFerreira, Leonardo Nascimento 15 September 2017 (has links)
A time series is a time-ordered dataset. Due to its ubiquity, time series analysis is interesting for many scientific fields. Time series data mining is a research area that is intended to extract information from these time-related data. To achieve it, different models are used to describe series and search for patterns. One approach for modeling temporal data is by using complex networks. In this case, temporal data are mapped to a topological space that allows data exploration using network techniques. In this thesis, we present solutions for time series data mining tasks using complex networks. The primary goal was to evaluate the benefits of using network theory to extract information from temporal data. We focused on three mining tasks. (1) In the clustering task, we represented every time series by a vertex and we connected vertices that represent similar time series. We used community detection algorithms to cluster similar series. Results show that this approach presents better results than traditional clustering results. (2) In the classification task, we mapped every labeled time series in a database to a visibility graph. We performed classification by transforming an unlabeled time series to a visibility graph and comparing it to the labeled graphs using a distance function. The new label is the most frequent label in the k-nearest graphs. (3) In the periodicity detection task, we first transform a time series into a visibility graph. Local maxima in a time series are usually mapped to highly connected vertices that link two communities. We used the community structure to propose a periodicity detection algorithm in time series. This method is robust to noisy data and does not require parameters. With the methods and results presented in this thesis, we conclude that network science is beneficial to time series data mining. Moreover, this approach can provide better results than traditional methods. It is a new form of extracting information from time series and can be easily extended to other tasks. / Séries temporais são conjuntos de dados ordenados no tempo. Devido à ubiquidade desses dados, seu estudo é interessante para muitos campos da ciência. A mineração de dados temporais é uma área de pesquisa que tem como objetivo extrair informações desses dados relacionados no tempo. Para isso, modelos são usados para descrever as séries e buscar por padrões. Uma forma de modelar séries temporais é por meio de redes complexas. Nessa modelagem, um mapeamento é feito do espaço temporal para o espaço topológico, o que permite avaliar dados temporais usando técnicas de redes. Nesta tese, apresentamos soluções para tarefas de mineração de dados de séries temporais usando redes complexas. O objetivo principal foi avaliar os benefícios do uso da teoria de redes para extrair informações de dados temporais. Concentramo-nos em três tarefas de mineração. (1) Na tarefa de agrupamento, cada série temporal é representada por um vértice e as arestas são criadas entre as séries de acordo com sua similaridade. Os algoritmos de detecção de comunidades podem ser usados para agrupar séries semelhantes. Os resultados mostram que esta abordagem apresenta melhores resultados do que os resultados de agrupamento tradicional. (2) Na tarefa de classificação, cada série temporal rotulada em um banco de dados é mapeada para um gráfico de visibilidade. A classificação é realizada transformando uma série temporal não marcada em um gráfico de visibilidade e comparando-a com os gráficos rotulados usando uma função de distância. O novo rótulo é dado pelo rótulo mais frequente nos k grafos mais próximos. (3) Na tarefa de detecção de periodicidade, uma série temporal é primeiramente transformada em um gráfico de visibilidade. Máximos locais em uma série temporal geralmente são mapeados para vértices altamente conectados que ligam duas comunidades. O método proposto utiliza a estrutura de comunidades para realizar a detecção de períodos em séries temporais. Este método é robusto para dados ruidosos e não requer parâmetros. Com os métodos e resultados apresentados nesta tese, concluímos que a teoria da redes complexas é benéfica para a mineração de dados em séries temporais. Além disso, esta abordagem pode proporcionar melhores resultados do que os métodos tradicionais e é uma nova forma de extrair informações de séries temporais que pode ser facilmente estendida para outras tarefas.
|
Page generated in 0.0567 seconds