221 |
Eletrocomunicação em Gymnotus carapo: definição de unidades linguísticas e sua relação com o papel de dominância / Electrocommunication in Gymnotus carapo: definition of linguistic units and its relationship with the dominance roleGuariento, Rafael Tuma 01 February 2019 (has links)
A habilidade que peixes elétricos possuem de se comunicar por meio de um campo elétrico auto-gerado tem atraído a atenção de diversas áreas do conhecimento por mais de 50 anos. Em particular, peixes elétricos pulsadores emitem um sinal que apresenta diversas similaridades com trens de pulsos de neurônios, tornando-se um modelo animal em neurociência. Com o aumento do poder computacional e com o desenvolvimento de novas ferramentas de aprendizagem de máquina, tornou-se possível investigar interações de dominância entre um par de peixes a nível de cada pulso emitido. Até onde se sabe, a codificação e transmissão de informação se dá por modulações nos intervalos entre pulsos. Assim, a comunicação entre peixes é um problema similar à comunicação entre um par de neurônios em áreas relacionadas do sistema nervoso central: a modulação da taxa de disparo de um neurônio é codificada a partir dos pulsos do outro. Neste trabalho investigamos interações sociais entre pares de Gymnotus carapo, uma espécie altamente territorial. Utilizando análise de séries temporais, técnicas de aprendizagem de máquina e teoria da informação, desenvolvemos uma metodologia para detectar padrões comunicativos nos pulsos emitidos pelos peixes. Além disso, observamos uma relação de causalidade na emissão de padrões: apenas um dos peixes modifica o comportamento futuro de seu coespecífico. A direção desse fluxo de informação parece ligada ao papel de dominância/submissão assumido pelo indivíduo. A partir da literatura sobre fisiologia de emissão de novos pulsos, levantamos novas hipóteses sobre o funcionamento dos sistemas neurais responsáveis pela modulação dos intervalos entre pulsos e sobre como estes sistemas podem ter sua sensibilidade modificada por hormônios secretados durante a disputa por dominância. / Weakly electric fishs ability to communicate through a self-generated electric field has attracted attention from several areas of knowledge for more than 50 years. Particularly, pulse-type electric fish emit signals that exhibits several similarities with neuronal spike trains, becoming a popular animal model in neuroscience. Due to the increase of computational power and the development of new machine learning tools, it is now possible to investigate dominance interactions between a pair of fish at the level of every single pulse. As far as we know, information is coded and transmitted by modulation of interval between pulses. Thus, communication between electric fishes presents several similarities with the communication between neurons from different regions on the central nervous system: the spike rate of one neuron is modulated by the pulses emitted by the other. Here we investigated the social interactions between pairs of Gymnotus carapo, a highly territorial species. Using time series analysis, machine learning techniques, and information theory, we developed a methodology to identify communicative patterns in the pulses emitted by the fish. In addition, we observed a causal relation on the pattern emission: only one of the fish modifies the future behavior of its conspecific. This flow of information seems to be related to the dominance/submission role assumed by each individual. From the literature on the physiology of the emission of new pulses, we developed new hypotheses about the functioning of the neural systems responsible for modulating the intervals between pulses and on how these systems can be modified by hormones secreted during a dominance contest.
|
222 |
Representações hierárquicas de vocábulos de línguas indígenas brasileiras: modelos baseados em mistura de Gaussianas / Hierarchical representations of words of brazilian indigenous languages: models based on Gaussian mixtureSepúlveda Torres, Lianet 08 December 2010 (has links)
Apesar da ampla diversidade de línguas indígenas no Brasil, poucas pesquisas estudam estas línguas e suas relações. Inúmeros esforços têm sido dedicados a procurar similaridades entre as palavras das línguas indígenas e classificá-las em famílias de línguas. Seguindo a classificação mais aceita das línguas indígenas do Brasil, esta pesquisa propõe comparar palavras de 10 línguas indígenas brasileiras. Para isso, considera-se que estas palavras são sinais de fala e estima-se a função de distribuição de probabilidade (PDF) de cada palavra, usando um modelo de mistura de gaussianas (GMM). A PDF foi considerada um modelo para representar as palavras. Os modelos foram comparados utilizando medidas de distância para construir estruturas hierárquicas que evidenciaram possíveis relações entre as palavras. Seguindo esta linha, a hipótese levantada nesta pesquisa é que as PDFs baseadas em GMM conseguem caracterizar as palavras das línguas indígenas, permitindo o emprego de medidas de distância entre elas para estabelecer relações entre as palavras, de forma que tais relações confirmem algumas das classificações. Os parâmetros do GMM foram calculados utilizando o algoritmo Maximização da Expectância (em inglês, Expectation Maximization (EM)). A divergência Kullback Leibler (KL) foi empregada para medir semelhança entre as PDFs. Esta divergência serve de base para estabelecer as estruturas hierárquicas que ilustram as relações entre os modelos. A estimativa da PDF, baseada em GMM foi testada com o auxílio de sinais simulados, sendo possível confirmar que os parâmetros obtidos são próximos dos originais. Foram implementadas várias medidas de distância para avaliar se a semelhança entre os modelos estavam determinadas pelos modelos e não pelas medidas adotadas neste estudo. Os resultados de todas as medidas foram similares, somente foi observada alguma diferença nos agrupamentos realizados pela distância C2, por isso foi proposta como complemento da divergência KL. Estes resultados sugerem que as relações entre os modelos dependem das suas características, não das métricas de distância selecionadas no estudo e que as PDFs baseadas em GMM, conseguem fazer uma caracterização adequada das palavras. Em geral, foram observados agrupamentos entre palavras que pertenciam a línguas de um mesmo tronco linguístico, assim como se observou uma tendência a incluir línguas isoladas nos agrupamentos dos troncos linguísticos. Palavras que pertenciam a determinada língua apresentaram um comportamento padrão, sendo identificadas por esse tipo de comportamento. Embora os resultados para as palavras das línguas indígenas sejam inconclusivos, considera-se que o estudo foi útil para aumentar o conhecimento destas 10 línguas estudadas, propondo novas linhas de pesquisas dedicadas à análise destas palavras. / Although there exists a large diversity of indigenous languages in Brazil, there are few researches on these languages and their relationships. Numerous efforts have been dedicated to search for similarities among words of indigenous languages to classify them into families. Following the most accepted classification of Brazilian indigenous languages, this research proposes to compare words of 10 Brazilian indigenous languages. The words of the indigenous languages are considered speech signals and the Probability Distribution Function (PDF) of each word was estimated using the Gaussian Mixture Models (GMM). This estimation was considered a model to represent each word. The models were compared using distance measures to construct hierarchical structures that illustrate possible relationships among words. The hypothesis in this research is that the estimation of the PDF, based on GMM can characterize the words of indigenous languages, allowing the use of distance measures between the PDFs to establish relationships among the words and confirm some of the classifications. The Expectation Maximization algorithm (EM) was implemented to estimate the parameters that describe the GMM. The Kullback Leibler (KL) divergence was used to measure similarities between two PDFs. This divergence is the basis to establish the hierarchical structures that show the relationships among the models. The PDF estimation, based on GMM was tested using simulated signals, allowing confirming the useful approximation of the original parameters. Several distance measures were implemented to prove that the similarities among the models depended on the model of each word, and not on the distance measure adopted in this study. The results of all measures were similar, however, as the clustering results of the C2 distances showed some differences from the other clusters, C2 distance was proposed to complement the KL divergence. The results suggest that the relationships between models depend on their characteristics, and not on the distance measures selected in this study, and the PDFs based on GMM can properly characterize the words. In general, relations among languages that belong to the same linguistic branch were illustrated, showing a tendency to include isolated languages in groups of languages that belong to the same linguistic branches. As the GMM of some language families presents a standard behavior, it allows identifying each family. Although the results of the words of indigenous languages are inconclusive, this study is considered very useful to increase the knowledge of these types of languages and to propose new research lines directed to analyze this type of signals.
|
223 |
Definição do campo das propriedades em aplicações de sistema de engenharia Kansei utilizando inputs de consumidores em lojas virtuais / Spanning the space of product properties in Kansei Engineering System applications using customer inputs obtained from virtual storesFerreira Junior, Lucelindo Dias 09 August 2016 (has links)
O envolvimento do consumidor é fundamental nas fases iniciais de projetos de produtos inovadores, para a coleta de informações sobre interesses e preferências orientadores do processo de geração de ideias e conceitos de novos produtos. Uma das formas de viabilizar este envolvimento é utilizando ferramentas do tipo Sistema de Engenharia Kansei. Esse tipo de ferramenta permite a tradução de inputs de grande volume de consumidores em configurações de produtos otimizados para auxiliar a equipe de projeto, no Processo de Desenvolvimento de Produtos. Há duas principais limitações nos Sistemas de Engenharia Kansei propostos na literatura. A primeira é a operacionalização do envolvimento do consumidor na etapa de definição do campo das propriedades, i.e., captação dos dados de entrada dos consumidores. A segunda é a continuidade do envolvimento, com a intenção de fornecer informações atualizadas à equipe de projetos de produtos. Este trabalho propõe e testa procedimento automático para apoiar a definição do campo das propriedades utilizando inputs indiretos de consumidores obtidos em lojas virtuais, empregando e adaptando métodos utilizados em aplicações de Sistemas de Engenharia Kansei e Sistemas de Recomendação Híbridos. O procedimento automático fornece como resultado principal uma lista de produtos e propriedades, obtidos da realidade, representativos do domínio Kansei para utilização nas etapas posteriores de um Sistema de Engenharia Kansei. O teste do procedimento automático demonstrou que a dissimilaridade presente no conjunto inicial de produtos determina o número máximo de produtos representativos do domínio; e, que o grupo de produtos e propriedades representativos do domínio, obtido da aplicação do procedimento automático, pode apresentar disparidade com relação a um grupo referencial obtido utilizando método de planejamento de experimentos, embora atenda aos critérios informados na literatura seminal de Engenharia Kansei. / The customer involvement is critical in the early stages of innovative projects, to collect information about guiding interests and preferences of the process of generating ideas and concepts of new products. One way to facilitate this involvement is using the type system of Kansei Engineering tools. This type of tool allows the translation of large volume of inputs of consumers in products optimized settings to assist the project team, the Product Development Process. There are two main limitations in Kansei Engineering Systems proposed in the literature. The first is the operationalization of consumer involvement in the step of defining the field of properties, i.e., capture the input data consumer. The second is the continued involvement with the intention to provide updated information to the team of product designs. This thesis proposes and tests automatic procedure to support the definition of the properties field using indirect inputs of consumers obtained in virtual stores, using and adapting methods used in applications of Kansei Engineering Systems and Hybrid Recommender Systems. The automatic procedure provides as main result a list of products and properties obtained from reality, representative of Kansei domain for use in the later stages of a Kansei Engineering System. The automatic test procedure showed that the dissimilarity present in the initial product set determines the maximum number of products representative of the field; and that the product group and representative properties of the domain obtained from the application of the automatic procedure can present disparity with respect to a reference group obtained using planning method of experiments, although meets the criteria given in the seminal literature Kansei Engineering.
|
224 |
Metaheurísticas para o problema de agrupamento de dados em grafo / Metaheuristics for the graph clustering problemNascimento, Mariá Cristina Vasconcelos 26 February 2010 (has links)
O problema de agrupamento de dados em grafos consiste em encontrar clusters de nós em um dado grafo, ou seja, encontrar subgrafos com alta conectividade. Esse problema pode receber outras nomenclaturas, algumas delas são: problema de particionamento de grafos e problema de detecção de comunidades. Para modelar esse problema, existem diversas formulações matemáticas, cada qual com suas vantagens e desvantagens. A maioria dessas formulações tem como desvantagem a necessidade da definição prévia do número de grupos que se deseja obter. Entretanto, esse tipo de informação não está contida em dados para agrupamento, ou seja, em dados não rotulados. Esse foi um dos motivos da popularização nas últimas décadas da medida conhecida como modularidade, que tem sido maximizada para encontrar partições em grafos. Essa formulação, além de não exigir a definição prévia do número de clusters, se destaca pela qualidade das partições que ela fornece. Nesta Tese, metaheurísticas Greedy Randomized Search Procedures para dois modelos existentes para agrupamento em grafos foram propostas: uma para o problema de maximização da modularidade e a outra para o problema de maximização da similaridade intra-cluster. Os resultados obtidos por essas metaheurísticas foram melhores quando comparadas àqueles de outras heurísticas encontradas na literatura. Entretanto, o custo computacional foi alto, principalmente o da metaheurística para o modelo de maximização da modularidade. Com o passar dos anos, estudos revelaram que a formulação que maximiza a modularidade das partições possui algumas limitações. A fim de promover uma alternativa à altura do modelo de maximização da modularidade, esta Tese propõe novas formulações matemáticas de agrupamento em grafos com e sem pesos que visam encontrar partições cujos clusters apresentem alta conectividade. Além disso, as formulações propostas são capazes de prover partições sem a necessidade de definição prévia do número de clusters. Testes com centenas de grafos com pesos comprovaram a eficiência dos modelos propostos. Comparando as partições provenientes de todos os modelos estudados nesta Tese, foram observados melhores resultados em uma das novas formulações propostas, que encontrou partições bastante satisfatórias, superiores às outras existentes, até mesmo para a de maximização de modularidade. Os resultados apresentaram alta correlação com a classificação real dos dados simulados e reais, sendo esses últimos, em sua maioria, de origem biológica / Graph clustering aims at identifying highly connected groups or clusters of nodes of a graph. This problem can assume others nomenclatures, such as: graph partitioning problem and community detection problem. There are many mathematical formulations to model this problem, each one with advantages and disadvantages. Most of these formulations have the disadvantage of requiring the definition of the number of clusters in the final partition. Nevertheless, this type of information is not found in graphs for clustering, i.e., whose data are unlabeled. This is one of the reasons for the popularization in the last decades of the measure known as modularity, which is being maximized to find graph partitions. This formulation does not require the definition of the number of clusters of the partitions to be produced, and produces high quality partitions. In this Thesis, Greedy Randomized Search Procedures metaheuristics for two existing graph clustering mathematical formulations are proposed: one for the maximization of the partition modularity and the other for the maximization of the intra-cluster similarity. The results obtained by these proposed metaheuristics outperformed the results from other heuristics found in the literature. However, their computational cost was high, mainly for the metaheuristic for the maximization of modularity model. Along the years, researches revealed that the formulation that maximizes the modularity of the partitions has some limitations. In order to promote a good alternative for the maximization of the partition modularity model, this Thesis proposed new mathematical formulations for graph clustering for weighted and unweighted graphs, aiming at finding partitions with high connectivity clusters. Furthermore, the proposed formulations are able to provide partitions without a previous definition of the true number of clusters. Computational tests with hundreds of weighted graphs confirmed the efficiency of the proposed models. Comparing the partitions from all studied formulations in this Thesis, it was possible to observe that the proposed formulations presented better results, even better than the maximization of partition modularity. These results are characterized by satisfactory partitions with high correlation with the true classification for the simulated and real data (mostly biological)
|
225 |
Agrupamento de dados fuzzy colaborativo / Collaborative fuzzy clusteringColetta, Luiz Fernando Sommaggio 19 May 2011 (has links)
Nas últimas décadas, as técnicas de mineração de dados têm desempenhado um importante papel em diversas áreas do conhecimento humano. Mais recentemente, essas ferramentas têm encontrado espaço em um novo e complexo domínio, nbo qual os dados a serem minerados estão fisicamente distribuídos. Nesse domínio, alguns algorithmos específicos para agrupamento de dados podem ser utilizados - em particular, algumas variantes do algoritmo amplamente Fuzzy C-Means (FCM), as quais têm sido investigadas sob o nome de agrupamento fuzzy colaborativo. Com o objetivo de superar algumas das limitações encontradas em dois desses algoritmos, cinco novos algoritmos foram desenvolvidos nesse trabalho. Esses algoritmos foram estudados em dois cenários específicos de aplicação que levam em conta duas suposições sobre os dados (i.e., se os dados são de uma mesma npopulação ou de diferentes populações). Na prática, tais suposições e a dificuldade em se definir alguns dos parâmetros (que possam ser requeridos), podemn orientar a escolha feita pelo usuário entre os algoitmos diponíveis. Nesse sentido, exemplos ilustrativos destacam as diferenças de desempenho entre os algoritmos estudados e desenvolvidos, permitindo derivar algumas conclusões que podem ser úteis ao aplicar agrupamento fuzzy colaborativo na prática. Análises de complexidade de tempo, espaço, e comunicação também foram realizadas / Data mining techniques have played in important role in several areas of human kwnowledge. More recently, these techniques have found space in a new and complex setting in which the data to be mined are physically distributed. In this setting algorithms for data clustering can be used, such as some variants of the widely used Fuzzy C-Means (FCM) algorithm that support clustering data ditributed across different sites. Those methods have been studied under different names, like collaborative and parallel fuzzy clustring. In this study, we offer some augmentation of the two FCM-based clustering algorithms used to cluster distributed data by arriving at some constructive ways of determining essential parameters of the algorithms (including the number of clusters) and forming a set systematically structured guidelines as to a selection of the specific algorithm dependeing upon a nature of the data environment and the assumption being made about the number of clusters. A thorough complexity analysis including space, time, and communication aspects is reported. A series of detailed numeric experiments is used to illustrate the main ideas discussed in the study
|
226 |
Agrupamento híbrido de dados utilizando algoritmos genéticos / Hybrid clustering techniques with genetic algorithmsNaldi, Murilo Coelho 16 October 2006 (has links)
Técnicas de Agrupamento vêm obtendo bons resultados quando utilizados em diversos problemas de análise de dados, como, por exemplo, a análise de dados de expressão gênica. Porém, uma mesma técnica de agrupamento utilizada em um mesmo conjunto de dados pode resultar em diferentes formas de agrupar esses dados, devido aos possíveis agrupamentos iniciais ou à utilização de diferentes valores para seus parâmetros livres. Assim, a obtenção de um bom agrupamento pode ser visto como um processo de otimização. Esse processo procura escolher bons agrupamentos iniciais e encontrar o melhor conjunto de valores para os parâmetros livres. Por serem métodos de busca global, Algoritmos Genéticos podem ser utilizados durante esse processo de otimização. O objetivo desse projeto de pesquisa é investigar a utilização de Técnicas de Agrupamento em conjunto com Algoritmos Genéticos para aprimorar a qualidade dos grupos encontrados por algoritmos de agrupamento, principalmente o k-médias. Esta investigação será realizada utilizando como aplicação a análise de dados de expressão gênica. Essa dissertação de mestrado apresenta uma revisão bibliográfica sobre os temas abordados no projeto, a descrição da metodologia utilizada, seu desenvolvimento e uma análise dos resultados obtidos. / Clustering techniques have been obtaining good results when used in several data analysis problems, like, for example, gene expression data analysis. However, the same clustering technique used for the same data set can result in different ways of clustering the data, due to the possible initial clustering or the use of different values for the free parameters. Thus, the obtainment of a good clustering can be seen as an optimization process. This process tries to obtain good clustering by selecting the best values for the free parameters. For being global search methods, Genetic Algorithms have been successfully used during the optimization process. The goal of this research project is to investigate the use of clustering techniques together with Genetic Algorithms to improve the quality of the clusters found by clustering algorithms, mainly the k-means. This investigation was carried out using as application the analysis of gene expression data, a Bioinformatics problem. This dissertation presents a bibliographic review of the issues covered in the project, the description of the methodology followed, its development and an analysis of the results obtained.
|
227 |
Detecção de faltas: uma abordagem baseada no comportamento de processos / Fault detection an approach based on process behaviorPereira, Cássio Martini Martins 25 March 2011 (has links)
A diminuição no custo de computadores pessoais tem favorecido a construção de sistemas computacionais complexos, tais como aglomerados e grades. Devido ao grande número de recursos existentes nesses sistemas, a probabilidade de que faltas ocorram é alta. Uma abordagem que auxilia a tornar sistemas mais robustos na presença de faltas é a detecção de sua ocorrência, a fim de que processos possam ser reiniciados em estados seguros, ou paralisados em estados que não ofereçam riscos. Abordagens comumente adotadas para detecção seguem, basicamente, três tipos de estratégias: as baseadas em mensagens de controle, em estatística e em aprendizado de máquina. No entanto, elas tipicamente não consideram o comportamento de processos ao longo do tempo. Observando essa limitação nas pesquisas relacionadas, este trabalho apresenta uma abordagem para medir a variação no comportamento de processos ao longo do tempo, a fim de que mudanças inesperadas sejam detectadas. Essas mudanças são consideradas, no contexto deste trabalho, como faltas, as quais representam transições indesejadas entre estados de um processo e podem levá-lo a processamento incorreto, fora de sua especificação. A proposta baseia-se na estimação de cadeias de Markov que representam estados visitados por um processo durante sua execução. Variações nessas cadeias são utilizadas para identificar faltas. A abordagem proposta é comparada à técnica de aprendizado de máquina Support Vector Machines, bem como à técnica estatística Auto-Regressive Integrated Moving Average. Essas técnicas foram escolhidas para comparação por estarem entre as mais empregadas na literatura. Experimentos realizados mostraram que a abordagem proposta possui, com erro \'alfa\' = 1%, um F-Measure maior do que duas vezes o alcançado pelas outras técnicas. Realizou-se também um estudo adicional de predição de faltas. Nesse sentido, foi proposta uma técnica preditiva baseada na reconstrução do comportamento observado do sistema. A avaliação da técnica mostrou que ela pode aumentar em até uma ordem de magnitude a disponibilidade (em horas) de um sistema / The cost reduction for personal computers has enabled the construction of complex computational systems, such as clusters and grids. Because of the large number of resources available on those systems, the probability that faults may occur is high. An approach that helps to make systems more robust in the presence of faults is their detection, in order to restart or stop processes in safe states. Commonly adopted approaches for detection basically follow one of three strategies: the one based on control messages, on statistics or on machine learning. However, they typically do not consider the behavior of processes over time. Observing this limitation in related researches, this work presents an approach to measure the level of variation in the behavior of processes over time, so that unexpected changes are detected. These changes are considered, in the context of this work, as faults, which represent undesired transitions between process states and may cause incorrect processing, outside the specification. The approach is based on the estimation of Markov Chains that represent states visited by a process during its execution. Variations in these chains are used to identify faults. The approach is compared to the machine learning technique Support Vector Machines, as well as to the statistical technique Auto-Regressive Integrated Moving Average. These techniques have been selected for comparison because they are among the ones most employed in the literature. Experiments conducted have shown that the proposed approach has, with error \'alpha\'= 1%, an F-Measure higher than twice the one achieved by the other techniques. A complementary study has also been conducted about fault prediction. In this sense, a predictive approach based on the reconstruction of system behavior was proposed. The evaluation of the technique showed that it can provide up to an order of magnitude greater availability of a system in terms of uptime hours
|
228 |
Agrupamento de dados complexos para apoiar consultas por similaridade com tratamento de restrições / Clustering complex data for processing constrained similarity queriesJessica Andressa de Souza 21 November 2018 (has links)
Devido aos avanços tecnológicos ocorridos nos últimos anos, houve um aumento na quantidade e complexidade de dados gerados. Assim, aprofundou-se a necessidade do desenvolvimento de estratégias eficientes que permitam o armazenamento, a recuperação e a representação resumida desses tipos de dados complexos. Dentre as estratégias exploradas pelos pesquisadores da área para atender a esses propósitos estão os Métodos de Acesso. Esses métodos têm como objetivo indexar os dados de maneira eficaz para reduzir o tempo de consulta. Além disso, eles têm sido aplicados para apoiar o processamento de técnicas de Mineração de Dados, como a Detecção de Agrupamentos. Dentre os métodos de acesso, as estruturas de indexação métrica são construídas usando apenas o critério baseado na distância entre os elementos do conjunto de dados em questão, i.e. operações de similaridade sobre as características intrínsecas dos dados. Desse modo, nem sempre os resultados correspondem ao contexto desejado pelo usuário. Este trabalho explorou o desenvolvimento de algoritmos que permitam aos métodos de acesso métrico processarem detecção de agrupamento de dados para auxiliar o processamento de consultas com maior carga semântica; visando contribuir no tratamento da questão da eficiência de abordagens que envolvam operações por similaridade (por exemplo, técnicas de mineração de dados e consultas por similaridade). Diante deste contexto, foram desenvolvidas três abordagens, a primeira apresenta o método clusMAM (Unsupervised Clustering using Metric Access Methods), o qual tem como objetivo apresentar um agrupamento dos dados com a aplicação de um Método de Acesso Métrico a partir de um conjunto resumido dos dados. A segunda abordagem apresenta a abordagem CCkNN (Class-Constraint k-NN) para lidar com o problema de restrições de múltiplas classes sobre o espaço de busca. Por fim, a terceira abordagem apresenta o método CfQ (Clustering for Querying) realizando a integração das técnicas clusMAM com CCkNN, empregando os pontos positivos de cada estratégia adotada pelos algoritmos. No geral, os experimentos realizados mostram que os métodos propostos contribuem de maneira efetiva na redução de medidas de similaridade requiridas durante um processamento de técnicas que são baseadas em computações de distância. / Due to the technological advances over the last years, both the amount and variety of data available have been increased at a fast pace. Thus, this scenario has influenced the development of effective strategies for the processing, summarizing, as well as to provide fast and automatic understanding of such data. The Access Methods are strategies that have been explored by researchers in the area to aid these purposes. These methods aim to effectively index data to reduce the time required for processing similarity querying. In addition, they have been applied to aid the processing of Data Mining techniques, such as Clustering Detection. Among the access methods, the metric structures are constructed applying only the criterion based on the distance computation between the elements of the dataset, i.e. similarity operations on the intrinsic characteristics of the dataset. Thus, the results do not always correspond to the context desired by users. This work explored the development of algorithms that allow metric access methods to process queries with a higher semantic load, aimed at contributing to the treatment of the quality question on the results of approaches that involve similarity operation (for example, data mining techniques and similarity queries). In this context, three approaches have been developed: the first approach presents the method clusMAM (Unsupervised Clustering using Metric Access Methods), which aims to display a clustering from a dataset with the application of a Metric Access Method from a summarized set. The second approach presents the CCkNN approach to dealing with the problem of multi-class constraints on the search space. Finally, the third proposal presents the method CfQ (Clustering for Querying) by integrating the techniques clusMAM with CCkNN, using the positive points of each strategy applied by the algorithms. In general, the experiments carried out showed that the proposed methods can contribute to an effective way of reducing similarity computations, which is required during a processing of techniques that are based on distance computations.
|
229 |
Um algoritmo evolutivo rápido para agrupamento de dadosAlves, Vinícius Santino 23 February 2007 (has links)
Made available in DSpace on 2015-02-04T21:45:28Z (GMT). No. of bitstreams: 1
Vinicius Alves.pdf: 740567 bytes, checksum: bf37e8ad38e43e90f7ff2432e96b31c1 (MD5)
Previous issue date: 2007-02-23 / A atividade de agrupamento de dados (obter uma partição que represente a estrutura de um conjunto de objetos) é de vasta aplicabilidade e importância nos dias de hoje. Ferramentas de agrupamento de dados são aplicadas em diversos domínios: inteligência artificial, reconhecimento de
padrões, economia, ecologia, psiquiatria, marketing, entre outros. Algoritmos evolutivos são ferramentas inspiradas na teoria da evolução das espécies que são, em geral, aplicados a problemas de otimização. Tais algoritmos são capazes de encontrar boas soluções (subótimas) em tempo computacional razoável e, por esta razão, eles são utilizados desde a década
de 60 como opção para a solução de problemas complexos.
Quando considerado como um problema de otimização combinatória, a atividade de agrupamento de dados tem espaço de busca de complexidade não polinomial. Tal complexidade tem estimulado o desenvolvimento de ferramentas de agrupamento de dados utilizando algoritmos evolutivos. Nesta dissertação apresenta-se o novo Algoritmo Evolutivo Rápido para Agrupamento de Dados (Fast-
EAC), uma ferramenta capaz de estimar o número ótimo de grupos para um determinado conjunto de dados e a respectiva partição dos dados utilizando a abordagem de algoritmos evolutivos.
Além da proposta do novo Fast-EAC, são contribuições desse trabalho a proposta de uma nova metodologia de avaliação para algoritmos evolutivos aplicados a agrupamento de dados e um novo índice externo de avaliação de partições, o Rand Index parcial por grupos.
|
230 |
Uma arquitetura para suporte ? minera??o de dados paralela e distribu?da em ambientes de computa??o de alto desempenhoBernardi, ?lder Francisco Fontana 10 March 2010 (has links)
Made available in DSpace on 2015-04-14T14:49:32Z (GMT). No. of bitstreams: 1
431852.pdf: 1120851 bytes, checksum: 164e0d72a540ab33502e807a748407b1 (MD5)
Previous issue date: 2010-03-10 / Este trabalho apresenta uma arquitetura para suporte ? execu??o de tarefas de minera??o de dados em ambientes de computa??o de alto desempenho, tais como: clusters, m?quinas SMP e grades. Esta arquitetura automatiza o processo de dimensionamento da aplica??o paralela, criando ferramentas para a constru??o autom?tica de tarefas, mapeamento, ger?ncia e execu??o dessas aplica??es nos recursos computacionais dispon?veis. Os mecanismos criados para a execu??o de aplica??es de minera??o possibilitam a combina??o do paralelismo do fluxo de dados e de instru??es. Como contribui??o do trabalho, destaca-se a organiza??o da arquitetura proposta e a cria??o de um algoritmo para mapeamento de aplica??es de minera??o paralelas em ambientes computacionais heterog?neos. Enfatiza-se o suporte ao aproveitamento de recursos com m?ltiplos n?cleos de processamento (multi-cores). Al?m disso, apresenta-se a paraleliza??o de um algoritmo de minera??o de dados para regress?o
|
Page generated in 0.0588 seconds