Spelling suggestions: "subject:"agrupamento dde dados"" "subject:"agrupamento dee dados""
61 |
Algoritmo Wang-Landau e agrupamento de dados superparamagnéticoRAMEH, Leila Milfont 26 August 2010 (has links)
Submitted by (ana.araujo@ufrpe.br) on 2016-08-02T14:20:48Z
No. of bitstreams: 1
Leila Milfont Rameh.pdf: 1805419 bytes, checksum: 3c0a871188e0dc9ff8282000ec45fc1c (MD5) / Made available in DSpace on 2016-08-02T14:20:48Z (GMT). No. of bitstreams: 1
Leila Milfont Rameh.pdf: 1805419 bytes, checksum: 3c0a871188e0dc9ff8282000ec45fc1c (MD5)
Previous issue date: 2010-08-26 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / The method of unsupervised data classification proposed by Domany and coworkers is based on mapping the problem onto an inhomogeneous granular magnetic system whose properties can be investigated through some Monte Carlo Method. The array containing the data consists of n numeric attributes corresponding to points in an n-dimensional Euclidean space. Each data item is associated with a Potts spin. The interaction between such spins decays exponentially with the distance. This favors the alignment of the spins associated with similar objects. The physical system corresponds to a disordered ferromagnet which, in turn, is described by a Hamiltonian of a q-states Potts model. It is expected that the magnetic system exhibits three temperature-dependent regimes. For very low temperatures the system is completely ordered. At the other extreme, high temperatures, the system shows no magnetic order. In an intermediate range of temperatures, the spins within certain regions remain tightly coupled, forming grains. However, a grain does not influence the behavior of another grain. That is, the grains are non-correlated and this intermediate state is named a superparamagnetic phase. The transition from one regime to another can be identified by peaks in the specific heat versus temperature curve. We apply the method to several artificial and real-life data sets, such as classification of flowers, summary medical data and identification of images. We measure the spin-spin correlation at several temperatures to classify the data. In disagreement with the Domany and coworkers claims we found that the best classification of the data occurred outside the superparagnetic phase. / O método de agrupamento de dados não supervisionado proposto por Domany e colaboradores baseia-se no mapeamento do problema em um sistema magnético granular não homogêneo, cujas propriedades são investigadas através de algum método de Monte Carlo. A matriz que contém os dados é composta por n atributos de valor numérico e corresponde a um ponto em um espaço euclidiano n-dimensional. A cada item de dado é associado um spin de Potts. A interação entre tais spins decai exponencialmente com o aumento da distância entre eles. Isto favorece o alinhamento dos spins associados a objetos similares. O sistema físico corresponde a um ferromagneto desordenado que, por sua vez, é descrito por um hamiltoniano de Potts de q estados. Espera-se que o sistema magnético exiba três regimes quando sua temperatura seja variada. Para temperaturas muito baixas o sistema está completamente ordenado. No outro extremo, em altas temperaturas, o sistema não apresenta qualquer ordem magnética. Numa faixa intermediária de temperaturas, spins dentro de certas regiões permanecem fortemente acoplados, formando grãos. Porém, um grão não influencie o comportamento de outro grão. Ou seja, os grãos estão não correlacionados. Este estado intermediário caracteriza um estado superparamagnético. A transição de um regime para outro pode ser identificada por picos na curva de calor específico versus temperatura. Aplicamos o método aos conjuntos de dados reais da planta íris e de dados médicos, conhecido por BUPA, aos dados sintéticos conhecidos por Ruspini e a um conjunto de dados, gerado por nós, que consiste de duas figuras tridimensionais sobrepostas, um esfera e um toro. Procedemos a classificação dos dados através da correlação spin-spin em diversas temperaturas. O principal resultado foi a verificação que nem sempre o agrupamento realizado na fase superparamagnética é o ideal.
|
62 |
Módulos computacionais para seleção de variáveis e Análise de agrupamento para definição de zonas de manejo / Computational modules for variable selection and cluster analysis for definition of management zonesGavioli, Alan 17 February 2017 (has links)
Submitted by Neusa Fagundes (neusa.fagundes@unioeste.br) on 2017-09-18T14:32:46Z
No. of bitstreams: 1
Alan_Gavioli2017.pdf: 4935513 bytes, checksum: 58816f2871fee27474b2fd5e511826af (MD5) / Made available in DSpace on 2017-09-18T14:32:46Z (GMT). No. of bitstreams: 1
Alan_Gavioli2017.pdf: 4935513 bytes, checksum: 58816f2871fee27474b2fd5e511826af (MD5)
Previous issue date: 2017-02-17 / Two basic activities for the definition of quality management zones (MZs) are the variable
selection task and the cluster analysis task. There are several methods proposed to execute them, but due to their complexity, they need to be made available by computer systems. In this study, 5 methods based on spatial correlation analysis, principal component analysis (PCA) and multivariate spatial analysis based on Moran’s index and PCA (MULTISPATI-PCA) were evaluated. A new variable selection algorithm, named MPCA-SC, based on the combined use of spatial correlation analysis and MULTISPATI-PCA, was proposed. The potential use of 20 clustering algorithms for the generation of MZs was evaluated: average linkage, bagged clustering, centroid linkage, clustering large applications, complete linkage, divisive analysis, fuzzy analysis clustering (fanny), fuzzy c-means, fuzzy c-shells, hard competitive learning, hybrid hierarchical clustering, k-means, McQuitty’s method (mcquitty), median linkage, neural gas, partitioning around medoids, single linkage, spherical k-means, unsupervised fuzzy competitive learning, and Ward’s method. Two computational modules developed to provide the variable selection and data clustering methods for definition of MZs were also presented. The evaluations were conducted with data obtained between 2010 and 2015 in three commercial agricultural areas, cultivated with soybean and corn, in the state of Paraná, Brazil.
The experiments performed to evaluate the 5 variable selection algorithms showed that the
new method MPCA-SC can improve the quality of MZs in several aspects, even obtaining
satisfactory results with the other 4 algorithms. The evaluation experiments of the 20 clustering methods showed that 17 of them were suitable for the delineation of MZs, especially fanny and mcquitty. Finally, it was concluded that the two computational modules developed made it possible to obtain quality MZs. Furthermore, these modules constitute a more complete computer system than other free-to-use software such as FuzME, MZA, and SDUM, in terms of the diversity of variable selection and data clustering algorithms. / A seleção de variáveis e a análise de agrupamento de dados são atividades fundamentais
para a definição de zonas de manejo (ZMs) de qualidade. Para executar essas duas
atividades, existem diversos métodos propostos, que devido à sua complexidade precisam
ser executados por meio da utilização de sistemas computacionais. Neste trabalho, avaliaramse
5 métodos de seleção de variáveis baseados em análise de correlação espacial, análise
de componentes principais (ACP) e análise espacial multivariada baseada no índice de Moran
e em ACP (MULTISPATI-PCA). Propôs-se um novo algoritmo de seleção de variáveis,
denominado MPCA-SC, desenvolvido a partir da aplicação conjunta da análise de correlação
espacial e de MULTISPATI-PCA. Avaliou-se a viabilidade de aplicação de 20 algoritmos de
agrupamento de dados para a geração de ZMs: average linkage, bagged clustering, centroid
linkage, clustering large applications, complete linkage, divisive analysis, fuzzy analysis
clustering (fanny), fuzzy c-means, fuzzy c-shells, hard competitive learning, hybrid hierarchical
clustering, k-means, median linkage, método de McQuitty (mcquitty), método de Ward, neural
gas, partitioning around medoids, single linkage, spherical k-means e unsupervised fuzzy
competitive learning. Apresentaram-se ainda dois módulos computacionais desenvolvidos
para disponibilizar os métodos de seleção de variáveis e de agrupamento de dados para a
definição de ZMs. As avaliações foram realizadas com dados obtidos entre os anos de 2010
e 2015 de três áreas agrícolas comerciais, localizadas no estado do Paraná, nas quais
cultivaram-se milho e soja. Os experimentos efetuados para avaliar os 5 algoritmos de seleção
de variáveis mostraram que o novo método MPCA-SC pode melhorar a qualidade de ZMs em
diversos aspectos, mesmo obtendo-se resultados satisfatórios com os outros 4 algoritmos. Os
experimentos de avaliação dos 20 métodos de agrupamento citados mostraram que 17 deles
foram adequados para o delineamento de ZMs, com destaque para fanny e mcquitty. Por fim,
concluiu-se que os dois módulos computacionais desenvolvidos possibilitaram a obtenção de
ZMs de qualidade. Além disso, esses módulos constituem uma ferramenta computacional
mais abrangente que outros softwares de uso gratuito, como FuzME, MZA e SDUM, em
relação à diversidade de algoritmos disponibilizados para selecionar variáveis e agrupar
dados.
|
63 |
Enxame de partículas aplicado ao agrupamento de textos / Enxame de partículas aplicado ao agrupamento de textosPrior, Ana Karina Fontes 22 December 2010 (has links)
Made available in DSpace on 2016-03-15T19:37:34Z (GMT). No. of bitstreams: 1
Ana Karina Fontes Prior.pdf: 415415 bytes, checksum: a6ecb97b982ab886cc421abdc943c8ac (MD5)
Previous issue date: 2010-12-22 / Fundo Mackenzie de Pesquisa / The large number of data generated by people and organizations has stimulated the research on effective and automatic methods of knowledge extraction from databases. This dissertation proposes two new bioinspired techniques, named cPSC and oPSC, based on the Particle Swarm Optimization Algorithm (PSO) to solve data clustering problems. The proposed algorithms are applied to data and text clustering problems and their performances are compared with a standard algorithm from the literature. The results allow us to conclude that the proposed algorithms are competitive with those already available in literature, but bring benefits such as automatic determination of the number of groups on the dataset and a search for the best partitioning of the dataset considering an explicit cost function. / A grande quantidade de dados gerados por pessoas e organizações tem estimulado a pesquisa sobre métodos efetivos e automáticos de extração de conhecimentos a partir de bases de dados. Essa dissertação propõe duas novas técnicas bioinspiradas, denominadas cPSC e oPSC, baseadas no algoritmo de otimização por enxame de partículas (PSO - Particle Swarm Optimization) para resolver problemas de agrupamento de dados. Os algoritmos propostos são aplicados a problemas de agrupamento de dados e textos, e seus desempenhos são comparados com outros propostos na literatura específica. Os resultados obtidos nos permitem concluir que os algoritmos propostos são competitivos com aqueles já disponíveis na literatura, porém trazem outros benefícios como a determinação automática do número de grupos nas bases e a efetuação de uma busca pelo melhor particionamento possível da base considerando uma função de custo explícita.
|
64 |
Um novo algoritmo imunológico artificial para agrupamento de dadosBorges, Ederson 27 January 2010 (has links)
Made available in DSpace on 2016-03-15T19:38:14Z (GMT). No. of bitstreams: 1
Ederson Borges.pdf: 626219 bytes, checksum: d83887c1b3e2287f434525ac9701f0c7 (MD5)
Previous issue date: 2010-01-27 / Clustering is an important data mining task from the field of Knowledge Discovery in Databases. There are several algorithms capable of performing clustering tasks, and the most popular ones involve the calculation of a similarity or distance measure among objects from the database. Many algorithms can perform clustering in a simple and efficient manner, but have drawbacks as a way to get the optimal number of partitions and the possibility of getting stuck in local optima solutions. To try and reduce these drawbacks this dissertation proposes a new clustering algorithm based on Artificial Immune Systems. This algorithm is characterized by the generation of multiple simultaneous high quality solutions in terms of the number of partitions (clusters) for the database and the use of a cost function that explicitly evaluates the quality of partitions, minimizing the inconvenience of getting stuck in local optima. The algorithm was tested using four databases known in the literature and obtained satisfactory results in terms of the diversity of solutions, but has a high computational cost compared to other algorithms tested. / Agrupamento de dados é uma importante tarefa da mineração de dados e descoberta de conhecimentos em bases de dados. Existem diversos algoritmos capazes de realizar a tarefa de agrupamento de dados, sendo que os mais populares envolvem o cálculo de similaridade ou distância entre objetos da base de dados. Boa parte dos algoritmos pode agrupar os dados de forma simples e eficiente, mas possui inconvenientes como a forma de obter o número ótimo de partições e a possibilidade de ficar preso em ótimos locais. Para tentar diminuir estes inconvenientes essa dissertação propõe um novo Algoritmo Imunológico para Agrupamento de Dados baseado em Sistemas Imunológicos Artificiais. Esse algoritmo é caracterizado pela geração de múltiplas soluções simultâneas de boa qualidade no que tange o número de partições (grupos) para a base de dados e uma função de custo que avalia explicitamente a qualidade dessas partições, minimizando o inconveniente de ficar preso em ótimos locais. O algoritmo foi testado utilizando quatro bases de dados conhecidas na literatura e obteve resultados satisfatórios no que tange a diversidade das soluções encontradas, mas apresentou um custo computacional elevado em relação a outros algoritmos testados.
|
65 |
Complex network component unfolding using a particle competition technique / Desdobramento de componentes de redes complexas utilizando uma técnica de competição de partículasPaulo Roberto Urio 12 June 2017 (has links)
This work applies complex network theory to the problem of semi-supervised and unsupervised learning in networks that are representations of multivariate datasets. Complex networks allow the use of nonlinear dynamical systems to represent behaviors according to the connectivity patterns of networks. Inspired by behavior observed in nature, such as competition for limited resources, dynamical system models can be employed to uncover the organizational structure of a network. In this dissertation, we develop a technique for classifying data represented as interaction networks. As part of the technique, we model a dynamical system inspired by the biological dynamics of resource competition. So far, similar methods have focused on vertices as the resource of competition. We introduce edges as the resource of competition. In doing so, the connectivity pattern of a network might be used not only in the dynamical system simulation but in the learning task as well. / Este trabalho aplica a teoria de redes complexas para o estudo de uma técnica aplicada ao problema de aprendizado semissupervisionado e não-supervisionado em redes, especificamente, aquelas que representam conjuntos de dados multivariados. Redes complexas permitem o emprego de sistemas dinâmicos não-lineares que podem apresentar comportamentos de acordo com os padrões de conectividade de redes. Inspirado pelos comportamentos observados na natureza, tais como a competição por recursos limitados, sistema dinâmicos podem ser utilizados para revelar a estrutura da organização de uma rede. Nesta dissertação, desenvolve-se uma técnica aplicada ao problema de classificação de dados representados por redes de interação. Como parte da técnica, um sistema dinâmico inspirado na competição por recursos foi modelado. Métodos similares concentraram-se em vértices como o recurso da concorrência. Neste trabalho, introduziu-se arestas como o recurso-alvo da competição. Ao fazê-lo, utilizar-se-á o padrão de conectividade de uma rede tanto na simulação do sistema dinâmico, quanto na tarefa de aprendizado.
|
66 |
Agrupamento de dados baseado em comportamento coletivo e auto-organização / Data clustering based on collective behavior and self-organizationGueleri, Roberto Alves 18 June 2013 (has links)
O aprendizado de máquina consiste de conceitos e técnicas que permitem aos computadores melhorar seu desempenho com a experiência, ou, em outras palavras, aprender com dados. Um dos principais tópicos do aprendizado de máquina é o agrupamento de dados que, como o nome sugere, procura agrupar os dados de acordo com sua similaridade. Apesar de sua definição relativamente simples, o agrupamento é uma tarefa computacionalmente complexa, tornando proibitivo o emprego de algoritmos exaustivos, na busca pela solução ótima do problema. A importância do agrupamento de dados, aliada aos seus desafios, faz desse campo um ambiente de intensa pesquisa. Também a classe de fenômenos naturais conhecida como comportamento coletivo tem despertado muito interesse. Isso decorre da observação de um estado organizado e global que surge espontaneamente das interações locais presentes em grandes grupos de indivíduos, caracterizando, pois, o que se chama auto-organização ou emergência, para ser mais preciso. Os desafios intrínsecos e a relevância do tema vêm motivando sua pesquisa em diversos ramos da ciência e da engenharia. Ao mesmo tempo, técnicas baseadas em comportamento coletivo vêm sendo empregadas em tarefas de aprendizado de máquina, mostrando-se promissoras e ganhando bastante atenção. No presente trabalho, objetivou-se o desenvolvimento de técnicas de agrupamento baseadas em comportamento coletivo. Faz-se cada item do conjunto de dados corresponder a um indivíduo, definem-se as leis de interação local, e então os indivíduos são colocados a interagir entre si, de modo que os padrões que surgem reflitam os padrões originalmente presentes no conjunto de dados. Abordagens baseadas em dinâmica de troca de energia foram propostas. Os dados permanecem fixos em seu espaço de atributos, mas carregam certa informação a energia , a qual é progressivamente trocada entre eles. Os grupos são estabelecidos entre dados que tomam estados de energia semelhantes. Este trabalho abordou também o aprendizado semissupervisionado, cuja tarefa é rotular dados em bases parcialmente rotuladas. Nesse caso, foi adotada uma abordagem baseada na movimentação dos próprios dados pelo espaço de atributos. Procurou-se, durante todo este trabalho, não apenas propor novas técnicas de aprendizado, mas principalmente, por meio de muitas simulações e ilustrações, mostrar como elas se comportam em diferentes cenários, num esforço em mostrar onde reside a vantagem de se utilizar a dinâmica coletiva na concepção dessas técnicas / Machine learning consists of concepts and techniques that enable computers to improve their performance with experience, i.e., enable computers to learn from data. Data clustering (or just clustering) is one of its main topics, which aims to group data according to their similarities. Regardless of its simple definition, clustering is a complex computational task. Its relevance and challenges make this field an environment of intense research. The class of natural phenomena known as collective behavior has also attracted much interest. This is due to the observation that global patterns may spontaneously arise from local interactions among large groups of individuals, what is know as self-organization (or emergence). The challenges and relevance of the subject are encouraging its research in many branches of science and engineering. At the same time, techniques based on collective behavior are being employed in machine learning tasks, showing to be promising. The objective of the present work was to develop clustering techniques based on collective behavior. Each dataset item corresponds to an individual. Once the local interactions are defined, the individuals begin to interact with each other. It is expected that the patterns arising from these interactions match the patterns originally present in the dataset. Approaches based on dynamics of energy exchange have been proposed. The data are kept fixed in their feature space, but they carry some sort of information (the energy), which is progressively exchanged among them. The groups are established among data that take similar energy states. This work has also addressed the semi-supervised learning task, which aims to label data in partially labeled datasets. In this case, it has been proposed an approach based on the motion of the data themselves around the feature space. More than just providing new machine learning techniques, this research has tried to show how the techniques behave in different scenarios, in an effort to show where lies the advantage of using collective dynamics in the design of such techniques
|
67 |
Emprego de técnicas de análise exploratória de dados utilizados em Química Medicinal / Use of different techniques for exploratory data analysis in Medicinal ChemistryGertrudes, Jadson Castro 10 September 2013 (has links)
Pesquisas na área de Química Medicinal têm direcionado esforços na busca por métodos que acelerem o processo de descoberta de novos medicamentos. Dentre as diversas etapas relacionadas ao longo do processo de descoberta de substâncias bioativas está a análise das relações entre a estrutura química e a atividade biológica de compostos. Neste processo, os pesquisadores da área de Química Medicinal analisam conjuntos de dados que são caracterizados pela alta dimensionalidade e baixo número de observações. Dentro desse contexto, o presente trabalho apresenta uma abordagem computacional que visa contribuir para a análise de dados químicos e, consequentemente, a descoberta de novos medicamentos para o tratamento de doenças crônicas. As abordagens de análise exploratória de dados, utilizadas neste trabalho, combinam técnicas de redução de dimensionalidade e de agrupamento para detecção de estruturas naturais que reflitam a atividade biológica dos compostos analisados. Dentre as diversas técnicas existentes para a redução de dimensionalidade, são discutidas o escore de Fisher, a análise de componentes principais e a análise de componentes principais esparsas. Quanto aos algoritmos de aprendizado, são avaliados o k-médias, fuzzy c-médias e modelo de misturas ICA aperfeiçoado. No desenvolvimento deste trabalho foram utilizados quatro conjuntos de dados, contendo informações de substâncias bioativas, sendo que dois conjuntos foram relacionados ao tratamento da diabetes mellitus e da síndrome metabólica, o terceiro conjunto relacionado a doenças cardiovasculares e o último conjunto apresenta substâncias que podem ser utilizadas no tratamento do câncer. Nos experimentos realizados, os resultados alcançados sugerem a utilização das técnicas de redução de dimensionalidade juntamente com os algoritmos não supervisionados para a tarefa de agrupamento dos dados químicos, uma vez que nesses experimentos foi possível descrever níveis de atividade biológica dos compostos estudados. Portanto, é possível concluir que as técnicas de redução de dimensionalidade e de agrupamento podem possivelmente ser utilizadas como guias no processo de descoberta e desenvolvimento de novos compostos na área de Química Medicinal. / Researches in Medicinal Chemistry\'s area have focused on the search of methods that accelerate the process of drug discovery. Among several steps related to the process of discovery of bioactive substances there is the analysis of the relationships between chemical structure and biological activity of compounds. In this process, researchers of medicinal chemistry analyze data sets that are characterized by high dimensionality and small number of observations. Within this context, this work presents a computational approach that aims to contribute to the analysis of chemical data and, consequently, the discovery of new drugs for the treatment of chronic diseases. Approaches used in exploratory data analysis, employed in this work, combine techniques of dimensionality reduction and clustering for detecting natural structures that reflect the biological activity of the analyzed compounds. Among several existing techniques for dimensionality reduction, we have focused the Fisher\'s score, principal component analysis and sparse principal component analysis. For the clustering procedure, this study evaluated k-means, fuzzy c-means and enhanced ICA mixture model. In order to perform experiments, we used four data sets, containing information of bioactive substances. Two sets are related to the treatment of diabetes mellitus and metabolic syndrome, the third set is related to cardiovascular disease and the latter set has substances that can be used in cancer treatment. In the experiments, the obtained results suggest the use of dimensionality reduction techniques along with clustering algorithms for the task of clustering chemical data, since from these experiments, it was possible to describe different levels of biological activity of the studied compounds. Therefore, we conclude that the techniques of dimensionality reduction and clustering can be used as guides in the process of discovery and development of new compounds in the field of Medicinal Chemistry
|
68 |
Emprego de técnicas de análise exploratória de dados utilizados em Química Medicinal / Use of different techniques for exploratory data analysis in Medicinal ChemistryJadson Castro Gertrudes 10 September 2013 (has links)
Pesquisas na área de Química Medicinal têm direcionado esforços na busca por métodos que acelerem o processo de descoberta de novos medicamentos. Dentre as diversas etapas relacionadas ao longo do processo de descoberta de substâncias bioativas está a análise das relações entre a estrutura química e a atividade biológica de compostos. Neste processo, os pesquisadores da área de Química Medicinal analisam conjuntos de dados que são caracterizados pela alta dimensionalidade e baixo número de observações. Dentro desse contexto, o presente trabalho apresenta uma abordagem computacional que visa contribuir para a análise de dados químicos e, consequentemente, a descoberta de novos medicamentos para o tratamento de doenças crônicas. As abordagens de análise exploratória de dados, utilizadas neste trabalho, combinam técnicas de redução de dimensionalidade e de agrupamento para detecção de estruturas naturais que reflitam a atividade biológica dos compostos analisados. Dentre as diversas técnicas existentes para a redução de dimensionalidade, são discutidas o escore de Fisher, a análise de componentes principais e a análise de componentes principais esparsas. Quanto aos algoritmos de aprendizado, são avaliados o k-médias, fuzzy c-médias e modelo de misturas ICA aperfeiçoado. No desenvolvimento deste trabalho foram utilizados quatro conjuntos de dados, contendo informações de substâncias bioativas, sendo que dois conjuntos foram relacionados ao tratamento da diabetes mellitus e da síndrome metabólica, o terceiro conjunto relacionado a doenças cardiovasculares e o último conjunto apresenta substâncias que podem ser utilizadas no tratamento do câncer. Nos experimentos realizados, os resultados alcançados sugerem a utilização das técnicas de redução de dimensionalidade juntamente com os algoritmos não supervisionados para a tarefa de agrupamento dos dados químicos, uma vez que nesses experimentos foi possível descrever níveis de atividade biológica dos compostos estudados. Portanto, é possível concluir que as técnicas de redução de dimensionalidade e de agrupamento podem possivelmente ser utilizadas como guias no processo de descoberta e desenvolvimento de novos compostos na área de Química Medicinal. / Researches in Medicinal Chemistry\'s area have focused on the search of methods that accelerate the process of drug discovery. Among several steps related to the process of discovery of bioactive substances there is the analysis of the relationships between chemical structure and biological activity of compounds. In this process, researchers of medicinal chemistry analyze data sets that are characterized by high dimensionality and small number of observations. Within this context, this work presents a computational approach that aims to contribute to the analysis of chemical data and, consequently, the discovery of new drugs for the treatment of chronic diseases. Approaches used in exploratory data analysis, employed in this work, combine techniques of dimensionality reduction and clustering for detecting natural structures that reflect the biological activity of the analyzed compounds. Among several existing techniques for dimensionality reduction, we have focused the Fisher\'s score, principal component analysis and sparse principal component analysis. For the clustering procedure, this study evaluated k-means, fuzzy c-means and enhanced ICA mixture model. In order to perform experiments, we used four data sets, containing information of bioactive substances. Two sets are related to the treatment of diabetes mellitus and metabolic syndrome, the third set is related to cardiovascular disease and the latter set has substances that can be used in cancer treatment. In the experiments, the obtained results suggest the use of dimensionality reduction techniques along with clustering algorithms for the task of clustering chemical data, since from these experiments, it was possible to describe different levels of biological activity of the studied compounds. Therefore, we conclude that the techniques of dimensionality reduction and clustering can be used as guides in the process of discovery and development of new compounds in the field of Medicinal Chemistry
|
69 |
Novos m?todos determin?sticos para gerar centros iniciais dos grupos no algoritmo fuzzy C-Means e variantesArnaldo, Helo?na Alves 24 February 2014 (has links)
Made available in DSpace on 2014-12-17T15:48:11Z (GMT). No. of bitstreams: 1
HeloinaAA_DISSERT.pdf: 1661373 bytes, checksum: df9fe39185a27ded472f2f72284acdf6 (MD5)
Previous issue date: 2014-02-24 / Coordena??o de Aperfei?oamento de Pessoal de N?vel Superior / Data clustering is applied to various fields such as data mining, image processing and
pattern recognition technique. Clustering algorithms splits a data set into clusters such
that elements within the same cluster have a high degree of similarity, while elements
belonging to different clusters have a high degree of dissimilarity. The Fuzzy C-Means
Algorithm (FCM) is a fuzzy clustering algorithm most used and discussed in the literature.
The performance of the FCM is strongly affected by the selection of the initial centers of
the clusters. Therefore, the choice of a good set of initial cluster centers is very important
for the performance of the algorithm. However, in FCM, the choice of initial centers is
made randomly, making it difficult to find a good set. This paper proposes three new
methods to obtain initial cluster centers, deterministically, the FCM algorithm, and can
also be used in variants of the FCM. In this work these initialization methods were applied
in variant ckMeans.With the proposed methods, we intend to obtain a set of initial centers
which are close to the real cluster centers. With these new approaches startup if you want
to reduce the number of iterations to converge these algorithms and processing time
without affecting the quality of the cluster or even improve the quality in some cases.
Accordingly, cluster validation indices were used to measure the quality of the clusters
obtained by the modified FCM and ckMeans algorithms with the proposed initialization
methods when applied to various data sets / Agrupamento de dados ? uma t?cnica aplicada a diversas ?reas como minera??o de dados,
processamento de imagens e reconhecimento de padr?es. Algoritmos de agrupamento
particionam um conjunto de dados em grupos, de tal forma, que elementos dentro de um
mesmo grupo tenham alto grau de similaridade, enquanto elementos pertencentes a diferentes
grupos tenham alto grau de dissimilaridade. O algoritmo Fuzzy C-Means (FCM)
? um dos algoritmos de agrupamento fuzzy de dados mais utilizados e discutidos na literatura.
O desempenho do FCM ? fortemente afetado pela sele??o dos centros iniciais dos
grupos. Portanto, a escolha de um bom conjunto de centros iniciais ? muito importante
para o desempenho do algoritmo. No entanto, no FCM, a escolha dos centros iniciais ?
feita de forma aleat?ria, tornando dif?cil encontrar um bom conjunto. Este trabalho prop?e
tr?s novos m?todos para obter os centros iniciais dos grupos, de forma determin?stica,
no algoritmo FCM, e que podem tamb?m ser usados em variantes do FCM. Neste trabalho
esses m?todos de inicializa??o foram aplicados na variante ckMeans. Com os m?todos
propostos, pretende-se obter um conjunto de centros iniciais que esteja pr?ximo dos centros
reais dos grupos. Com estas novas abordagens de inicializa??o deseja-se reduzir o
n?mero de itera??es para estes algoritmos convergirem e o tempo de processamento, sem
afetar a qualidade do agrupamento ou at? melhorar a qualidade em alguns casos. Neste
sentido, foram utilizados ?ndices de valida??o de agrupamento para medir a qualidade dos
agrupamentos obtidos pelos algoritmos FCM e ckMeans, modificados com os m?todos de
inicializa??o propostos, quando aplicados a diversas bases de dados
|
70 |
Algoritmos de agrupamentos fuzzy intervalares e ?ndice de valida??o para agrupamento de dados simb?licos do tipo intervalo / An interval fuzzy clustering and validation index for clusteinf in interval symbolic dataMoura, Ronildo Pinheiro de Ara?jo 21 February 2014 (has links)
Made available in DSpace on 2014-12-17T15:48:11Z (GMT). No. of bitstreams: 1
RonildoPAM_DISSERT.pdf: 2783175 bytes, checksum: c268ade677ca4b8c543ccc014b0aafef (MD5)
Previous issue date: 2014-02-21 / Coordena??o de Aperfei?oamento de Pessoal de N?vel Superior / Symbolic Data Analysis (SDA) main aims to provide tools for reducing large databases
to extract knowledge and provide techniques to describe the unit of such data in complex
units, as such, interval or histogram. The objective of this work is to extend classical
clustering methods for symbolic interval data based on interval-based distance. The main
advantage of using an interval-based distance for interval-based data lies on the fact that
it preserves the underlying imprecision on intervals which is usually lost when real-valued
distances are applied. This work includes an approach allow existing indices to be adapted
to interval context. The proposed methods with interval-based distances are compared
with distances punctual existing literature through experiments with simulated data and
real data interval / A An?lise de Dados Simb?licos (SDA) tem como objetivo prover mecanismos de redu??o
de grandes bases de dados para extra??o do conhecimento e desenvolver m?todos que descrevem
esses dados em unidades complexas, tais como, intervalos ou um histograma. O
objetivo deste trabalho ? estender m?todos de agrupamento cl?ssicos para dados simb?licos
intervalares baseados em dist?ncias essencialmente intervalares. A principal vantagem
da utiliza??o de uma dist?ncia essencialmente intervalar est? no fato da preserva??o da
imprecis?o inerente aos intervalos, pois a imprecis?o ? normalmente perdida quando as
dist?ncias valoradas em R s?o aplicadas. Este trabalho inclui uma abordagem que permite
adaptar ?ndices de valida??o de agrupamento existentes para o contexto intervalar.
Os m?todos propostos com dist?ncias essencialmente intervalares s?o comparados a dist?ncias
pontuais existentes na literatura atrav?s de experimentos realizados com dados
sint?ticos e reais intervalares
|
Page generated in 0.1127 seconds