• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 68
  • 8
  • Tagged with
  • 77
  • 77
  • 63
  • 40
  • 15
  • 14
  • 14
  • 12
  • 10
  • 10
  • 10
  • 9
  • 9
  • 9
  • 8
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
21

Identificação de covers a partir de grandes bases de dados de músicas / Cover song identification using big data bases

Ferreira, Martha Dais 30 April 2014 (has links)
Acrescente capacidade de armazenamento introduziu novos desafios no contexto de exploração de grandes bases de dados de músicas. Esse trabalho consiste em investigar técnicas de comparação de músicas representadas por sinais polifônicos, com o objetivo de encontrar similaridades, permitindo a identificação de músicas cover em grandes bases de dados. Técnicas de extração de características a partir de sinais musicais foram estudas, como também métricas de comparação a partir das características obtidas. Os resultados mostraram que é possível encontrar um novo método de identificação de covers com um menor custo computacional do que os existentes, mantendo uma boa precisão / The growing capacity in storage and transmission of songs has introduced a new challenges in the context of large music data sets exploration. This work aims at investigating techniques for comparison of songs represented by polyphonic signals, towards identifying cover songs in large data sets. Techniques for music feature extraction were evaluated and compared. The results show that it is possible to develop new methods for cover identification with a lower computational cost when compared to existing solutions, while keeping the good precision
22

Adaptação de viés indutivo de algoritmos de agrupamento de fluxos de dados / Adapting the inductive bias of data-stream clustering algorithms

Albertini, Marcelo Keese 11 April 2012 (has links)
Diversas áreas de pesquisa são dedicadas à compreensão de fenômenos que exigem a coleta ininterrupta de sequências de amostras, denominadas fluxos de dados. Esses fenômenos frequentemente apresentam comportamento variável e são estudados por meio de indução não supervisionada baseada em agrupamento de dados. Atualmente, o processo de agrupamento tem exibido sérias limitações em sua aplicação a fluxos de dados, devido às exigências impostas pelas variações comportamentais e pelo modo de coleta de dados. Embora tem-se desenvolvido algoritmos eficientes para agrupar fluxos de dados, há a necessidade de estudos sobre a influência de variações comportamentais nos parâmetros de algoritmos (e.g., taxas de aprendizado e limiares de proximidade), as quais interferem diretamente na compreensão de fenômenos. Essa lacuna motivou esta tese, cujo objetivo foi a proposta de uma abordagem para a adaptação do viés indutivo de algoritmos de agrupamento de fluxos de dados de acordo com variações comportamentais dos fenômenos em estudo. Para cumprir esse objetivo projetou-se: i) uma abordagem baseada em uma nova arquitetura de rede neural artificial que permite avaliação de comportamento de fenômenos por meio da estimação de cadeias de Markov e entropia de Shannon; ii) uma abordagem para adaptar parâmetros de algoritmos de agrupamento tradicional de acordo com variações comportamentais em blocos sequenciais de dados; e iii) uma abordagem para adaptar parâmetros de agrupamento de acordo com a contínua avaliação da estabilidade de dados. Adicionalmente, apresenta-se nesta tese uma taxonomia de técnicas de detecção de variação comportamental de fenômenos e uma formalização para o problema de agrupamento de fluxos de dados / Several research fields have described phenomena that produce endless sequences of samples, referred to as data streams. These phenomena usually present behavior variation and are studied by means of unsupervised induction based on data clustering. In order to cope with the characteristics of data streams, researchers have designed clustering algorithms with low time and space complexity requirements. However, predefined and static parameters (thresholds, number of clusters and learning rates) found in current algorithms still limit the application of clustering to data streams. This limitation motivated this thesis, which proposes a continuous approach to evaluate behavior variations and adapt algorithm inductive bias by changing its parameters. The main contribution of this thesis is the proposal of three approaches to adapt induction bias: i) an approach based on the design of an adaptive artificial self-organizing neural network architecture that enables behavior evaluation by means of Markov chain and Shannon entropy estimations; ii) an approach to adapt traditional data clustering algorithms according to behavior variations in sequences of data chunks; and iii) an approach based on the proposed neural network architecture to continuously adapt parameters by means of the evaluation of data stability. Additionally, in order to analyze the essential characteristics of data streams, this thesis presents a formalization for the problem of data stream clustering and a taxonomy on approaches to detect behavior variations
23

Pre-processing approaches for collaborative filtering based on hierarchical clustering / Abordagens de pré-processamento para filtragem colaborativa baseada em agrupamento hierárquico

Fernando Soares de Aguiar Neto 19 October 2018 (has links)
Recommender Systems (RS) support users to find relevant content, such as movies, books, songs, and other products based on their preferences. Such preferences are gathered by analyzing past users interactions, however, data collected for this purpose are typically prone to sparsity and high dimensionality. Clustering-based techniques have been proposed to handle these problems effectively and efficiently by segmenting the data into a number of similar groups based on predefined characteristics. Although these techniques have gained increasing attention in the recommender systems community, they are usually bound to a particular recommender system and/or require critical parameters, such as the number of clusters. In this work, we present three variants of a general-purpose method to optimally extract users groups from a hierarchical clustering algorithm specifically targeting RS problems. The proposed extraction methods do not require critical parameters and can be applied prior to any recommendation system. Our experiments have shown promising recommendation results in the context of nine well-known public datasets from different domains. / Sistemas de Recomendação auxiliam usuários a encontrar conteúdo relevante, como filmes, livros, músicas entre outros produtos baseando-se em suas preferências. Tais preferências são obtidas ao analisar interações passadas dos usuários, no entanto, dados coletados com esse propósito tendem a tipicamente possuir alta dimensionalidade e esparsidade. Técnicas baseadas em agrupamento de dados têm sido propostas para lidar com esses problemas de foma eficiente e eficaz ao dividir os dados em grupos similares baseando-se em características pré-definidas. Ainda que essas técnicas tenham recebido atenção crescente na comunidade de sistemas de recomendação, tais técnicas são usualmente atreladas a um algoritmo de recomendação específico e/ou requerem parâmetros críticos, como número de grupos. Neste trabalho, apresentamos três variantes de um método de propósitvo geral de extração ótima de grupos em uma hierarquia, atacando especificamente problemas em Sistemas de Recomendação. Os métodos de extração propostos não requerem parâmetros críticos e podem ser aplicados antes de qualquer sistema de recomendação. Os experimentos mostraram resultados promissores no contexto de nove bases de dados públicas conhecidas em diferentes domínios.
24

Análise do número de grupos em bases de dados incompletas utilizando agrupamentos nebulosos e reamostragem Bootstrap / Analysis the number of clusters present in incomplete datasets using a combination of the fuzzy clustering and resampling bootstrapping

Milagre, Selma Terezinha 18 July 2008 (has links)
A técnica de agrupamento de dados é amplamente utilizada em análise exploratória, a qual é frequentemente necessária em diversas áreas de pesquisa tais como medicina, biologia e estatística, para avaliar potenciais hipóteses a serem utilizadas em estudos subseqüentes. Em bases de dados reais, a ocorrência de dados incompletos, nos quais os valores de um ou mais atributos do dado são desconhecidos, é bastante comum. Este trabalho apresenta um método capaz de identificar o número de grupos presentes em bases de dados incompletas, utilizando a combinação das técnicas de agrupamentos nebulosos e reamostragem bootstrap. A qualidade da classificação é baseada em medidas de comparação tradicionais como F1, Classificação Cruzada, Hubert e outras. Os estudos foram feitos em oito bases de dados. As quatro primeiras são bases de dados artificiais, a quinta e a sexta são a wine e íris. A sétima e oitava bases são formadas por uma coleção brasileira de 119 estirpes de Bradyrhizobium. Para avaliar toda informação sem introduzir estimativas, fez-se a modificação do algoritmo Fuzzy C-Means (FCM) utilizando-se um vetor de índices de atributos, os quais indicam onde o valor de um atributo é observado ou não, modificando-se ento, os cálculos do centro e distância ao centro. As simulações foram feitas de 2 até 8 grupos utilizando-se 100 sub-amostras. Os percentuais de valores faltando utilizados foram 2%, 5%, 10%, 20% e 30%. Os resultados deste trabalho demonstraram que nosso método é capaz de identificar participações relevantes, até em presença de altos índices de dados incompletos, sem a necessidade de se fazer nenhuma suposição sobre a base de dados. As medidas Hubert e índice randômico ajustado encontraram os melhores resultados experimentais. / Clustering in exploratory data analysis is often necessary in several areas of the survey such as medicine, biology and statistics, to evaluate potential hypotheses for subsequent studies. In real datasets the occurrence of incompleteness, where the values of some of the attributes are unknown, is very common. This work presents a method capable to identifying the number of clusters present in incomplete datasets, using a combination of the fuzzy clustering and resampling (bootstrapping). The quality of classification is based on the traditional measures, like F1, Cross-Classification, Hubert and others. The studies were made on eigth datasets. The first four are artificial datasets, the fifth and sixth are the wine and iris datasets. The seventh and eighth databases are composed of the brazilian collection of 119 Bradyrhizobium strains. To evaluate all information without introducing estimates, a modification of the Fuzzy C-Means (FCM) algorithm was developed using an index vector of attributes, which indicates whether an attribute value is observed or not, and changing the center and distance calculations. The simulations were made from 2 to 8 clusters using 100 sub-samples. The percentages of the missing values used were 2%, 5%, 10%, 20% and 30%. Even lacking data and with no special requirements of the database, the results of this work demonstrate that the proposed method is capable to identifying relevant partitions. The best experimental results were found using Hubert and corrected randomness measures.
25

Análise do número de grupos em bases de dados incompletas utilizando agrupamentos nebulosos e reamostragem Bootstrap / Analysis the number of clusters present in incomplete datasets using a combination of the fuzzy clustering and resampling bootstrapping

Selma Terezinha Milagre 18 July 2008 (has links)
A técnica de agrupamento de dados é amplamente utilizada em análise exploratória, a qual é frequentemente necessária em diversas áreas de pesquisa tais como medicina, biologia e estatística, para avaliar potenciais hipóteses a serem utilizadas em estudos subseqüentes. Em bases de dados reais, a ocorrência de dados incompletos, nos quais os valores de um ou mais atributos do dado são desconhecidos, é bastante comum. Este trabalho apresenta um método capaz de identificar o número de grupos presentes em bases de dados incompletas, utilizando a combinação das técnicas de agrupamentos nebulosos e reamostragem bootstrap. A qualidade da classificação é baseada em medidas de comparação tradicionais como F1, Classificação Cruzada, Hubert e outras. Os estudos foram feitos em oito bases de dados. As quatro primeiras são bases de dados artificiais, a quinta e a sexta são a wine e íris. A sétima e oitava bases são formadas por uma coleção brasileira de 119 estirpes de Bradyrhizobium. Para avaliar toda informação sem introduzir estimativas, fez-se a modificação do algoritmo Fuzzy C-Means (FCM) utilizando-se um vetor de índices de atributos, os quais indicam onde o valor de um atributo é observado ou não, modificando-se ento, os cálculos do centro e distância ao centro. As simulações foram feitas de 2 até 8 grupos utilizando-se 100 sub-amostras. Os percentuais de valores faltando utilizados foram 2%, 5%, 10%, 20% e 30%. Os resultados deste trabalho demonstraram que nosso método é capaz de identificar participações relevantes, até em presença de altos índices de dados incompletos, sem a necessidade de se fazer nenhuma suposição sobre a base de dados. As medidas Hubert e índice randômico ajustado encontraram os melhores resultados experimentais. / Clustering in exploratory data analysis is often necessary in several areas of the survey such as medicine, biology and statistics, to evaluate potential hypotheses for subsequent studies. In real datasets the occurrence of incompleteness, where the values of some of the attributes are unknown, is very common. This work presents a method capable to identifying the number of clusters present in incomplete datasets, using a combination of the fuzzy clustering and resampling (bootstrapping). The quality of classification is based on the traditional measures, like F1, Cross-Classification, Hubert and others. The studies were made on eigth datasets. The first four are artificial datasets, the fifth and sixth are the wine and iris datasets. The seventh and eighth databases are composed of the brazilian collection of 119 Bradyrhizobium strains. To evaluate all information without introducing estimates, a modification of the Fuzzy C-Means (FCM) algorithm was developed using an index vector of attributes, which indicates whether an attribute value is observed or not, and changing the center and distance calculations. The simulations were made from 2 to 8 clusters using 100 sub-samples. The percentages of the missing values used were 2%, 5%, 10%, 20% and 30%. Even lacking data and with no special requirements of the database, the results of this work demonstrate that the proposed method is capable to identifying relevant partitions. The best experimental results were found using Hubert and corrected randomness measures.
26

Técnicas de aprendizado não supervisionado baseadas no algoritmo da caminhada do turista / Unsupervised learning techniques based on the tourist walk algorithm

Porto Filho, Carlos Humberto 07 November 2017 (has links)
Nas últimas décadas, a quantidade de informações armazenadas no formato digital tem crescido de forma exponencial, levando à necessidade cada vez maior de produção de ferramentas computacionais que auxiliem na geração do conhecimento a partir desses dados. A área de Aprendizado de Máquina fornece diversas técnicas capazes de identificar padrões nesses conjuntos de dados. Dentro dessas técnicas, este trabalho destaca o Aprendizado de Máquina Não Supervisionado onde o objetivo é classificar as entidades em clusters (grupos) mutuamente exclusivos baseados na similaridade entre as instâncias. Os clusters não são pré-definidos e daí o elemento não supervisionado. Organizar esses dados em clusters que façam sentido é uma das maneiras mais fundamentais de entendimento e aprendizado. A análise de clusters é o estudo dos métodos para agrupamento e se divide entre hierárquico e particional. A classificação hierárquica é uma sequência encadeada de partições enquanto que na particional há somente uma partição. O interesse deste trabalho são as técnicas baseadas em uma caminhada determinística parcialmente auto repulsiva conhecida como caminhada do turista. Partindo da hipótese de que é possível utilizar a caminhada do turista como uma técnica de Aprendizado de Máquina Não Supervisionado, foi implementado um algoritmo hierárquico baseado na caminhada do turista proposto por Campiteli et al. (2006). Foi avaliado, através de diferentes conjuntos de imagens médicas, como essa técnica se compara com técnicas hierárquicas tradicionais. Também é proposto um novo algoritmo de Aprendizado de Máquina Não Supervisionado particional baseado na caminhada do turista, chamado de Tourist Walk Partitional Clustering (TWPC). Os resultados mostraram que a técnica hierárquica baseada na caminhada do turista é capaz de identificar clusters em conjuntos de imagens médicas através de uma árvore que não impõe uma estrutura binária, com um número menor de hierarquias e uma invariabilidade à escala dos dados, resultando em uma estrutura mais organizada. Mesmo que a árvore não seja diretamente baseada nas distâncias dos dados, mas em um ranking de vizinhos, ela ainda preserva uma correlação entre suas distâncias cofenéticas e as distâncias reais entre os dados. O método particional proposto TWPC foi capaz de encontrar, de forma eficiente, formas arbitrárias de clusters com variações inter-cluster e intra-cluster. Além disso o algoritmo tem como vantagens: ser determinístico; funcionar com interações locais, sem a necessidade de conhecimento a priori de todos os itens do conjunto; incorporar o conceito de ruído e outlier; e funcionar com um ranking de vizinhos, que pode ser construído através de qualquer medida. / In the last decades, the amount of data stored in digital format has grown exponentially, leading to the increasing need to produce computational tools that help generate knowledge from these data. The Machine Learning field provides several techniques capable of identifying patterns in these data sets. Within these techniques we highlight the Unsupervised Machine Learning where the objective is to classify the entities in mutually exclusive clusters based on the similarity between the instances. Clusters are not predefined and hence the unsupervised element. Organizing this data into clusters that make sense is one of the most fundamental ways of understanding and learning. Cluster analysis is the study of methods for clustering and is divided between hierarchical and partitional. A hierarchical clustering is a sequence of partitions whereas in the partitional clustering there is only one partition. Here we are interested in techniques based on a deterministic partially self-avoiding walk, known as tourist walk. Based on the hypothesis that it is possible to use the tourist walk as an unsupervised machine learning technique, we have implemented a hierarchical algorithm based on the tourist walk proposed by Campiteli et al. (2006). We evaluate this algorithm using different sets of medical images and compare it with traditional hierarchical techniques. We also propose a new algorithm for partitional clustering based on the tourist talk, called Tourist Walk Partitional Clustering (TWPC). The results showed that the hierarchical technique based on the tourist walk is able to identify clusters in sets of medical images through a tree that does not impose a binary structure, with a smaller number of hierarchies and is invariable to scale transformation, resulting in a more organized structure. Even though the tree is not directly based on the distances of the data but on a ranking of neighbors, it still preserves a correlation between its cophenetic distances and the actual distances between the data. The proposed partitional clustering method TWPC was able to find, in an efficient way, arbitrary shapes of clusters with inter-cluster and intra-cluster variations. In addition, the algorithm has the following advantages: it is deterministic; it operates based on local interactions, without the need for a priori knowledge of all the items in the set; it is capable of incorporate the concept of noise and outlier; and work with a ranking of neighbors, which can be built through any measure.
27

Técnicas de combinação para agrupamento centralizado e distribuído de dados / Ensemble techniques for centralized and distributed clustering

Naldi, Murilo Coelho 24 January 2011 (has links)
A grande quantidade de dados gerada em diversas áreas do conhecimento cria a necessidade do desenvolvimento de técnicas de mineração de dados cada vez mais eficientes e eficazes. Técnicas de agrupamento têm sido utilizadas com sucesso em várias áreas, especialmente naquelas em que não há conhecimento prévio sobre a organização dos dados. Contudo, a utilização de diferentes algoritmos de agrupamento, ou variações de um mesmo algoritmo, pode gerar uma ampla variedade de resultados. Tamanha variedade cria a necessidade de métodos para avaliar e selecionar bons resultados. Uma forma de avaliar esses resultados consiste em utilizar índices de validação de agrupamentos. Entretanto, uma grande diversidade de índices de validação foi proposta na literatura, o que torna a escolha de um único índice de validação uma tarefa penosa caso os desempenhos dos índices comparados sejam desconhecidos para a classe de problemas de interesse. Com a finalidade de obter um consenso entre resultados, é possível combinar um conjunto de agrupamentos ou índices de validação em uma única solução final. Combinações de agrupamentos (clustering ensembles) foram bem sucedidas em obter soluções robustas a variações no cenário de aplicação, o que faz do uso de comitês de agrupamentos uma alternativa interessante para encontrar soluções de qualidade razoável, segundo diferentes índices de validação. Adicionalmente, utilizar uma combinação de índices de validação pode tornar a avaliação de agrupamentos mais completa, uma vez que uma maioria dos índices combinados pode compensar o fraco desempenho do restante. Em alguns casos, não é possível lidar com um único conjunto de dados centralizado, por razões físicas ou questões de privacidade, o que gera a necessidade de distribuir o processo de mineração. Combinações de agrupamentos também podem ser estendidas para problemas de agrupamento de dados distribuídos, uma vez que informações sobre os dados, oriundas de diferentes fontes, podem ser combinadas em uma única solução global. O principal objetivo desse trabalho consiste em investigar técnicas de combinação de agrupamentos e de índices de validação aplicadas na seleção de agrupamentos para combinação e na mineração distribuída de dados. Adicionalmente, algoritmos evolutivos de agrupamento são estudados com a finalidade de selecionar soluções de qualidade dentre os resultados obtidos. As técnicas desenvolvidas possuem complexidade computacional reduzida e escalabilidade, o que permite sua aplicação em grandes conjuntos de dados ou cenários em que os dados encontram-se distribuídos / The large amount of data resulting from different areas of knowledge creates the need for development of data mining techniques increasingly efficient and effective. Clustering techniques have been successfully applied to several areas, especially when there is no prior knowledge about the data organization. Nevertheless, the use of different clustering algorithms, or variations of the same algorithm, can generate a wide variety of results, what raises the need to create methods to assess and select good results. One way to evaluate these results consists on using cluster validation indexes. However, a wide variety of validation indexes was proposed in the literature, which can make choosing a single index challenging if the performance of the compared indexes is unknown for the application scenario. In order to obtain a consensus among different options, a set of clustering results or validation indexes can be combined into a single final solution. Clustering ensembles successfully obtained results robust to variations in the application scenario, which makes them an attractive alternative to find solutions of reasonable quality, according to different validation indexes. Moreover, using a combination of validation indexes can promote a more powerful evaluation, as the majority of the combined indexes can compensate the poor performance of individual indexes. In some cases, it is not possible to work with a single centralized data set, for physical reasons or privacy concerns, which creates the need to distribute the mining process. Clustering ensembles can be extended to distributed data mining problems, since information about the data from distributed sources can be combined into a single global solution. The main objective of this research resides in investigating combination techniques for validation indexes and clustering results applied to clustering ensemble selection and distributed clustering. Additionally, evolutionary clustering algorithms are studied to select quality solutions among the obtained results. The techniques developed have scalability and reduced computational complexity, allowing their usage in large data sets or scenarios with distributed data
28

Estratégias de agrupamento de consumidores residenciais para o melhoramento de ações de eficiência energética.

SILVA, Harllan Andryê Bezerra. 29 August 2018 (has links)
Submitted by Lucienne Costa (lucienneferreira@ufcg.edu.br) on 2018-08-29T18:46:25Z No. of bitstreams: 1 HARLLAN ANDRYÊ BEZERRA SILVA – DISSERTAÇÃO (PPGCC) 2017.pdf: 2631344 bytes, checksum: beb0769167a696c9f8afd54cf5b99127 (MD5) / Made available in DSpace on 2018-08-29T18:46:25Z (GMT). No. of bitstreams: 1 HARLLAN ANDRYÊ BEZERRA SILVA – DISSERTAÇÃO (PPGCC) 2017.pdf: 2631344 bytes, checksum: beb0769167a696c9f8afd54cf5b99127 (MD5) Previous issue date: 2017-05-12 / O consumo de energia elétrica vem crescendo a cada dia. Precisamos utilizar a energia elétrica de forma consciente, pois os recursos naturais que são utilizados para a geração de energia podem acabar devido ao seu uso ineficiente. O crescimento populacional das últimas décadas, o aparecimento de mais aparelhos eletrônicos e eletrodomésticos geram um consumo excessivo de energia. Devido ao crescimento no consumo de energia elétrica é necessária a implantação de programas de eficiência energética, que se dá através da introdução de novas tecnologias, incentivo à mudança de hábito do próprio consumidor e uso racional de energia elétrica. O foco deste trabalho é no setor residencial, que é o segundo maior consumidor de energia elétrica no Brasil, e como há consumidores que compartilham características e padrões de carga semelhantes, isso possibilita o uso de agrupamento de dados. Pensando nisso é proposto o uso de agrupamento para auxiliar programas de eficiência energética na análise dos dados dos consumidores e na criação de grupos representativos de uma população. A criação de grupos ajuda a concessionária de energia a fornecer ofertas comerciais ou recomendações específicas para grupos específicos, diminuir a complexidade das análises que teriam que ser feitas em uma população e obter relacionamentos personalizados, mais eficazes e equitativos entre os fornecedores de energia e seus clientes. O agrupamento irá proporcionar a aplicação de soluções que ajudem o consumidor a utilizar energia elétrica de forma eficiente, a partir do momento em que ele recebe informações sobre seu consumo e como ele poderá utilizar essas informações, sabendo o que elas irão proporcionar como resultado. Este trabalho iniciou-se com a investigação de medidas de dissimilaridade para representar a semelhança entre perfis de consumo de energia elétrica (um dos fatores utilizados para os agrupamentos) e entre as três medidas utilizadas a distância Euclidiana se destacou com os melhores resultados nos experimentos feitos, seja variando a quantidade de observações das séries ou a base de dados. Após isso foram feitos agrupamentos utilizando 4 fatores extraídos da base de dados e assim criados 15 cenários de agrupamentos a partir da combinação desses fatores. Por meio dos resultados desses agrupamentos foi possível reduzir a quantidade de cenários por serem semelhantes e também escolher os cenários (fatores) mais relevantes a serem considerados quando se quer criar grupos de consumidores residenciais. / The consumption of electric energy has been increasing every day. We need to use electric power in a conscious way, because the natural resources that are used for the generation of energy can end up due to its inefficient use. The population growth of the last decades, the appearance of more electronic devices and appliances generate an excessive consumption of energy. Due to the growth in the consumption of electric energy, it is necessary to implement energy efficiency programs, which are carried out through the introduction of new technologies, an incentive to change the consumer’s habit and rational use of electric energy. The focus of this work is on the residential sector, which is the second largest consumer of electricity in Brazil, and since there are consumers who share similar characteristics and load patterns, this allows the use of data grouping. Thinking about that, the use of clustering to support energy efficiency programs in the analysis of consumer data and in the creation of representative groups of a population is proposed. Groups creation helps the utility to provide commercial offers or specific recommendations for specific groups, reduce the complexity of the analyzes that would have to be done in a population, and get personalized, more effective and equitable relationships between energy suppliers and their customers. The clustering will provide the application of solutions that help the consumer to use electricity efficiently, from the moment he receives information about his consumption and how he can use that information, knowing what they will provide as a result. This work began with the investigation of measures of dissimilarity to represent the similarity between profiles of electric energy consumption (one of the factors used for the clustering) and among the three measures used the Euclidean distance stood out with the best results in the experiments made, either by varying the number of observations of the series or the database. After that, clusters were made using 4 factors extracted from the database and thus 15 clustering scenarios were created from the combination of these factors. Through the results of these clustering it was possible to reduce the number of scenarios to be similar and also to choose the most relevant scenarios to consider when creating groups of residential consumers.
29

Abordagem heur?stica baseada em busca em vizinhan?a vari?vel para o agrupamento balanceado de dados pelo crit?rio da soma m?nima das dist?ncias quadr?ticas

Costa, Leandro Rochink 22 August 2016 (has links)
Submitted by Automa??o e Estat?stica (sst@bczm.ufrn.br) on 2017-02-13T19:22:38Z No. of bitstreams: 1 LeandroRochinkCosta_DISSERT.pdf: 1175831 bytes, checksum: 3fb21392f141799634d3dbee38317729 (MD5) / Approved for entry into archive by Arlan Eloi Leite Silva (eloihistoriador@yahoo.com.br) on 2017-02-14T18:08:27Z (GMT) No. of bitstreams: 1 LeandroRochinkCosta_DISSERT.pdf: 1175831 bytes, checksum: 3fb21392f141799634d3dbee38317729 (MD5) / Made available in DSpace on 2017-02-14T18:08:27Z (GMT). No. of bitstreams: 1 LeandroRochinkCosta_DISSERT.pdf: 1175831 bytes, checksum: 3fb21392f141799634d3dbee38317729 (MD5) Previous issue date: 2016-08-22 / Ap?s v?rios avan?os na tecnologia de capta??o e armazenamento de dados e do crescimento de aplica??es que prov?m novas informa??es, o n?mero de elementos informacionais dispon?veis ? enorme tanto em volume quanto em variedade. Com esse aumento na quantidade de informa??es, a necessidade de entend?-los e resumi-los se tornou cada vez mais urgente. O Agrupamento Balanceado de Dados, do ingl?s Balanced Clustering, visa encontrar grupos de entidades similares que possuam aproximadamente o mesmo tamanho. Neste trabalho, ? proposta uma nova abordagem heur?stica baseada na metaheur?stica Busca em Vizinhan?a Vari?vel, do ingl?s Variable Neighborhood Search (VNS), e na metodologia Menos ? mais, do ingl?s Less is more approach, para o problema de agrupamento de dados usando o crit?rio da soma m?nima das dist?ncias quadr?ticas com restri??o de balanceamento dos grupos. Os algoritmos encontrados na literatura n?o s?o escal?veis ao passo que aumentamos o tamanho do problema para al?m de 5000 elementos de acordo com experimentos realizados nesta pesquisa. Os experimentos computacionais mostram que o m?todo proposto supera o atual estado da arte neste problema. / After advances in collecting and storing data and the growth in applications that provide new information, the number of data elements available is huge in both volume and variety. With this increase in the quantity of information, the need to understand them and summarize them has become increasingly urgent. The Balanced Clustering seeks to find groups of similar entities that have approximately the same size. In this dissertation, we propose a new heuristic approach based on metaheuristic Variable Neighborhood Search (VNS) and methodology "Less is More Approach"(LIMA) to data clustering problem using the criterion of the minimum sum-of-squared distances applying balancing restriction for the groups. The algorithms found in the literature are not scalable, while the problem of increased size in addition to elements 5000 in accordance with experiments performed in this study. The computational experiments show that the proposed method outperforms the current state of the art for the problem.
30

Utiliza??o do problema das k-medianas como crit?rio para o agrupamento de dados semi-supervisionado

Randel, Rodrigo Alves 12 December 2016 (has links)
Submitted by Automa??o e Estat?stica (sst@bczm.ufrn.br) on 2017-04-03T19:47:15Z No. of bitstreams: 1 RodrigoAlvesRandel_DISSERT.pdf: 1482786 bytes, checksum: d296cc0bcb0193a4d23da06aacd37afc (MD5) / Approved for entry into archive by Arlan Eloi Leite Silva (eloihistoriador@yahoo.com.br) on 2017-04-06T20:17:18Z (GMT) No. of bitstreams: 1 RodrigoAlvesRandel_DISSERT.pdf: 1482786 bytes, checksum: d296cc0bcb0193a4d23da06aacd37afc (MD5) / Made available in DSpace on 2017-04-06T20:17:18Z (GMT). No. of bitstreams: 1 RodrigoAlvesRandel_DISSERT.pdf: 1482786 bytes, checksum: d296cc0bcb0193a4d23da06aacd37afc (MD5) Previous issue date: 2016-12-12 / Coordena??o de Aperfei?oamento de Pessoal de N?vel Superior (CAPES) / Agrupamento de dados ? uma poderosa ferramenta para an?lise autom?tica de dados. Essa t?cnica se prop?e a resolver o seguinte problema: dado um conjunto de entidades, encontrar subconjuntos, denominados clusters, que s?o homog?neos e/ou bem separados. O maior desafio do agrupamento de dados ? encontrar um crit?rio que apresente boa separa??o de dados em grupos homog?neos, e que estes agrupamentos possam trazer informa??es ?teis ao usu?rio. Para resolver este problema, ? sugerido que o usu?rio possa fornecer informa??es pr?vias a respeito do conjunto de dados que auxiliem/guiem o processo de agrupamento. Realizar o agrupamento de dados utilizando essas informa??es auxiliares ? denominado de agrupamento de dados semi-supervisionado (ADSS). Este trabalho explora o problema de ADSS utilizando um novo modelo: os dados s?o agrupados atrav?s da resolu??o do problemas das k-medianas. Resultados mostram que essa abordagem foi capaz de agrupar os dados de forma eficiente para problemas de ADSS em diversos dom?nios diferentes. / Clustering is a powerful tool for automated analysis of data. It addresses the following general problem: given a set of entities, find subsets, or clusters, which are homogeneous and/or well separated. The biggest challenge of data clustering is to find a criterion to present good separation of data into homogeneous groups, so that these groups bring useful information to the user. To solve this problem, it is suggested that the user can provide a priori information about the data set. Clustering under this assumption is called semi-supervised clustering. This work explores the semi-supervised clustering problem using a new model: the data is clustered by solving the k-medians problem. Results shows that this new approach was able to efficiently cluster the data in many different domains.

Page generated in 0.0678 seconds