• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 403
  • 34
  • 7
  • 6
  • 6
  • 6
  • 5
  • 5
  • 1
  • Tagged with
  • 449
  • 206
  • 141
  • 134
  • 96
  • 92
  • 82
  • 78
  • 74
  • 74
  • 65
  • 64
  • 41
  • 41
  • 40
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
21

RELAÇÃO ENTRE PRECIPITAÇÃO E TURBIDEZ EM CURSOS D ÁGUA NO ESPÍRITO SANTO

PENEDO, P. H. S. 28 August 2015 (has links)
Made available in DSpace on 2016-08-29T15:37:14Z (GMT). No. of bitstreams: 1 tese_9152_Dissertação Pedro Penedo.pdf: 14665408 bytes, checksum: 299e8ef4a5e1fcbdb0e7a62a0118d5d8 (MD5) Previous issue date: 2015-08-28 / Objetivou-se com a realização deste trabalho avaliar a relação entre a turbidez e características morfométricas e de uso do solo em 50 bacias hidrográficas no Estado do Espírito Santo. Foram selecionados 50 pontos de adução de água bruta operados pela Companhia Espírito Santense de Saneamento (CESAN) para tratamento e fornecimento à rede de abastecimento público. Para controle do processo de tratamento e dosagem de reagentes, dados de turbidez são coletados periodicamente. Neste estudo foi utilizado médias mensais de turbidez de 48 meses, de Janeiro de 2006 a Dezembro de 2008. As bacias hidrográficas foram delimitadas com a utilização de um modelo digital de elevação hidrologicamente consistido, obtido em ambiente SIG, bem como as respectivas características morfométricas. Os dados de precipitação média mensal de estações pluviométricas referentes ao período foram espacializados utilizando a técnica geoestatística krigagem ordinária. Os dados de uso do solo são oriundos do banco de dados do Instituto Estadual do Meio Ambiente IEMA e da base de dados geográficos do Estado do Espírito Santo Geobases. Foi realizada a análise de regressão entre a turbidez e a precipitação em todas as bacias, resultando em equações com r2 variando entre 0,90 e 0,015. Após eliminação de variáveis independentes com alto coeficiente de correlação entre si, para redução da multicolinearidade, aplicou-se a técnica de análise de agrupamento hierárquico para agrupar as bacias quanto as características morfométricas e de uso de solo similares. Foi realizada a análise de correlação parcial entre as variáveis nos grupos obtidos, para avaliação de sua influencia na turbidez. Foi realizada a análise de regressão múltipla entre as variáveis e a turbidez nos grupos obtidos, resultando em equações ajustadas com r2 entre 0,68 e 0,16. As variações da interação da precipitação, das características morfométricas e de uso do solo com os níveis de turbidez que ocorrem em escala sub-mensal não puderam ser percebidos, o que pode ter contribuído para a imprecisão dos modelos ajustados. Palavras-chave: bacias hidrográficas; análise de agrupamento; correlação parcial.
22

Predição das concentrações plasmáticas de IL-1B, IL-6 e TNF-α por agrupamentos de fatores de risco cardiovascular em adolescentes.

Silva, Carla Teixeira January 2014 (has links)
Programa de Pós-Graduação em Saúde e Nutrição. Escola de Nutrição, Universidade Federal de Ouro Preto. / Submitted by Oliveira Flávia (flavia@sisbin.ufop.br) on 2014-09-29T18:34:15Z No. of bitstreams: 2 license_rdf: 22190 bytes, checksum: 19e8a2b57ef43c09f4d7071d2153c97d (MD5) DISSERTAÇÃO_PrediçãoConcentraçõesPlasmáticas.pdf: 2463890 bytes, checksum: 6448ec742101d344b01edd2f08a0fd05 (MD5) / Approved for entry into archive by Gracilene Carvalho (gracilene@sisbin.ufop.br) on 2014-11-07T13:00:50Z (GMT) No. of bitstreams: 2 license_rdf: 22190 bytes, checksum: 19e8a2b57ef43c09f4d7071d2153c97d (MD5) DISSERTAÇÃO_PrediçãoConcentraçõesPlasmáticas.pdf: 2463890 bytes, checksum: 6448ec742101d344b01edd2f08a0fd05 (MD5) / Made available in DSpace on 2014-11-07T13:00:50Z (GMT). No. of bitstreams: 2 license_rdf: 22190 bytes, checksum: 19e8a2b57ef43c09f4d7071d2153c97d (MD5) DISSERTAÇÃO_PrediçãoConcentraçõesPlasmáticas.pdf: 2463890 bytes, checksum: 6448ec742101d344b01edd2f08a0fd05 (MD5) Previous issue date: 2014 / As doenças cardiovasculares (DCV) são as principais causas de mobi-mortalidade em todo o mundo e estão bem relacionadas a diversos fatores de risco cardiovascular tradicionais (RCV), incluindo obesidade central, resistência à insulina (RI), intolerância à glicose, dislipidemias e hipertensão arterial sistêmica (HAS). A inflamação tem sido associada a muitos destes fatores de risco, apresentando considerável papel na instalação das DCV. Seus mediadores inflamatórios, incluindo as citocinas pró-inflamatórias interleucina 1β (IL-1β), interleucina 6 (IL-6) e fator de necrose tumoral α (TNF-α) desempenham importantes funções associadas ao metabolismo de carboidratos, lipídeos e processo aterosclerótico, sendo consideradas fatores de RCV emergentes. Estudos têm sido desenvolvidos a fim de investigar os agrupamentos desses fatores na fisiopatologia da DCV em crianças e adolescentes, pois sabe-se que sua instalação se inicia precocemente e leva a graves consequências na vida adulta. Nesse sentido, o objetivo deste trabalho foi Investigar a associação entre agrupamentos de fatores de risco cardiovascular e IL-1β, IL-6 e TNF-α, em adolescentes. Foi realizado um estudo transversal com 487 adolescentes (236 meninos e 251 meninas) no qual foram obtidas medidas antropométricas e de composição corporal (peso, altura, perímetro da cintura e porcentagem de gordura corporal), calculado o índice de massa corporal (IMC), a relação cintura/estatura (RCE) e o índice de conicidade (Índice C), aferida a pressão arterial e foram determinadas as concentrações plasmáticas de IL-6, IL-1β e TNF-α, concentrações séricas de colesterol total e frações (HDL-c e LDL-c), triacilgliceróis, glicose e insulina e calculado posteriormente o índice HOMA-IR (índice de avaliação da homeostase de resistência à insulina). As variáveis de RCV clínicas e bioquímicas foram incluídas na análise de componentes principais. A associação entre os agrupamentos de fatores de risco cardiovascular e interleucina 6, interleucina 1β e fator de necrose tumoral α, foi obtida através da análise de regressão linear múltipla. As análises foram realizadas separadamente para meninos e meninas, considerando p<0,05 e com auxílio do programa estatístico PASW 18.0. A análise de componentes principais revelou cinco componentes independentes, responsáveis por 80% e 81% de explicação da variação total das 14 variáveis originais em meninos e meninas, respectivamente. Em ambos os sexos, foram encontrados componentes que foram caracterizados por adiposidade, metabolismo de glicose, pressão arterial, HDL/triacilgliceróis e colesterol/LDL. Metabolismo de glicose foi inversamente associado à interleucina 1β, em ambos os sexos (p=0,015 para meninas e p=0,039 para meninos); pressão arterial foi inversamente associada ao fator de necrose tumoral α, em meninas (p=0,003) e, por fim, o componente representado por HDL/triacilgliceróis foi positivamente associado à interleucina 6, em meninas (p=0,01), e à interleucina 1β (p<0,001) e fator de necrose tumoral α (p<0,001), em meninos. Os resultados sugerem que metabolismo de lipídeos possui forte ligação com o processo inflamatório, sendo uma das primeiras alterações presentes no desenvolvimento de doenças cardiovasculares, ainda na adolescência. Mais estudos são necessários a fim de melhor elucidar as relações encontradas entre metabolismo de glicose, pressão arterial e inflamação, em adolescentes. ______________________________________________________________________ / ABSTRACT: Cardiovascular diseases (CVD) are a major cause of mobility and mortality worldwide and are well related to several factors of traditional cardiovascular risk (CVR), including central obesity, insulin resistance (IR), glucose intolerance, dyslipidemia and systemic arterial hypertension (SAH). Inflammation has been linked to many of these risk factors, presenting considerable role in the onset of CVD. Inflammatory mediators, including proinflammatory cytokines interleukin 1β (IL-1β), interleukin 6 (IL-6) and tumor necrosis factor α (TNF- α) play important functions associated with the metabolism of carbohydrates, lipids and atherosclerosis, being considered cardiovascular risk factors emerging. Studies have been conducted to investigate the clusters of these factors in the pathophysiology of CVD in children and adolescents, since it is known that the installation begins early and leads to serious consequences in adulthood. In this sense, the aim of this study was to investigate the association between clusters of cardiovascular risk factors and IL-1β, IL-6 and TNF-α in adolescents. A cross-sectional study of 487 adolescents ( 236 boys and 251 girls ) in which anthropometric and body composition (weight, height, waist circumference and percentage of body fat) measurements were obtained, calculated body mass index (BMI) was conducted waist / height ratio (WHR) and conicity index, measured blood pressure and were determined plasma concentrations of IL-6 , IL-1β and TNF-α, serum total cholesterol and its fractions (HDL - c and LDL-c), triglycerides, glucose and insulin, and subsequently calculates the HOMA-IR index (homeostasis assessment of insulin resistance). Clinical and biochemical variable of CVR were included in the principal components analysis. The association between clusters of cardiovascular risk factors and IL-6, IL-1β and TNF-α was obtained by multiple linear regression. Analyses were performed separately for boys and girls, considering p < 0.05 with PASW 18.0 statistical program. The principal components analysis revealed five independent components, accounting for 80 % and 81 % of the explained total variance of 14 original variables in boys and girls, respectively. In both sexes, components that are characterized by adiposity, glucose metabolism, blood pressure, HDL/triglycerides and cholesterol/LDL were found. Metabolism of glucose was inversely related to IL-1β in both sexes (p = 0.015 for girls and p = 0.039 for boys), blood pressure was inversely related to tumor necrosis factor α in girls (p = 0.003) and, finally, the component represented by HDL/triglycerides was positively associated with IL-6 in girls (p=0.01 and IL-1β (p < 0.001) and TNF-α (p < 0.001) in boys. The results suggest that lipid metabolism has a strong link with the inflammatory process, being one of the first changes present in the development of CVD, in adolescence. More studies are needed to elucidate the relationships between glucose metabolism, blood pressure and inflammation in adolescents.
23

"Uma abordagem para pré-processamento de dados textuais em algoritmos de aprendizado"

Claudia Aparecida Martins 25 November 2003 (has links)
A representação atributo-valor de documentos usada no processo de mineração de textos é uma estrutura adequada à maioria das tarefas de classificação e agrupamento de documentos. No contexto de algoritmos de aprendizado de máquina, a representação atributo-valor de documentos freqüentemente utiliza a abordagem bag-of-words. Essa abordagem é caracterizada pela alta dimensionalidade na representação dos dados, pois toda palavra presente no documento pode ser um possível atributo. Deve ser considerado, portanto, que uma boa representação de documentos tem uma influência fundamental no desempenho dos algoritmos de aprendizado (supervisionado ou não supervisionado). Como uma das principais contribuições deste trabalho, é apresentada uma ferramenta para pré-processamento que eficientemente decompõe textos em palavras usando a abordagem bag-of-words, bem como o uso de métodos para reduzir a dimensionalidade da representação gerada. Essa ferramenta transforma os documentos em um formato acessível à maioria dos algoritmos de aprendizado, nos quais os dados são descritos como um vetor de dimensão fixa. A ferramenta computacional implementada, entre as diversas funcionalidades, reduz a dimensionalidade da representação de documentos com o objetivo de obter um melhor desempenho dos algoritmos de aprendizado de máquina utilizados. A escolha do algoritmo de aprendizado a ser utilizado, supervisionado e não supervisionado, é dependente do problema em questão. Algoritmos de aprendizado supervisionado podem ser aplicados a documentos rotulados, enquanto algoritmos de aprendizado não supervisionado são freqüentemente aplicados a dados não rotulados. No caso do aprendizado não supervisionado, para avaliar se um dado cluster corresponde a um certo conceito, neste trabalho é utilizada uma abordagem usando algoritmos de aprendizado indutivo para auxiliar na interpretação dos clusters. Nesta abordagem o interesse consiste em compreender como o sistema representa e raciocina sobre o conhecimento adquirido. Essa compreensão é necessária tanto para o usuário aceitar a solução gerada pelo sistema quanto para analisar o raciocínio utilizado.
24

Abordagem híbrida para representação de forma e textura baseada em dados simbólicos

ALMEIDA, Carlos Wilson Dantas de 13 March 2013 (has links)
Submitted by João Arthur Martins (joao.arthur@ufpe.br) on 2015-03-12T18:31:53Z No. of bitstreams: 2 Tese Carlos Dantas.pdf: 9442070 bytes, checksum: 23ec0df3aeec907b3058315538fe9c19 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-12T18:31:53Z (GMT). No. of bitstreams: 2 Tese Carlos Dantas.pdf: 9442070 bytes, checksum: 23ec0df3aeec907b3058315538fe9c19 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Previous issue date: 2013-03-13 / CNPq / A análise de dados simbólicos (Symbolic Data Analysis) é uma nova abordagem na área de descoberta automática de conhecimento que visa desenvolver métodos para dados descritos por variáveis onde existem conjuntos de categorias, intervalos ou distribuições de probabilidade nas células das tabelas de dados. Os dados clássicos passam a ser agregados a fim de representar variáveis mais complexas como intervalos reais, conjuntos de categorias, histogramas, distribuições de probabilidade, entre outras. Esta tese introduz um novo algoritmo de agrupamento denominado Fuzzy Kohonen Clustering Network para dados simbólicos do tipo intervalo. São apresentadas duas versões do algoritmo. Na primeira versão, é introduzido o algoritmo clássico utilizando a abordagem da análise de dados simbólicos. Na segunda versão, é introduzido o cálculo de pesos para cada classe e para cada atributo da classe como principal alteração do algoritmo original. Um outro ponto abordado se refere ao desenvolvimento de novos descritores de imagens. Nos últimos anos, o uso de documentos e imagens digitais vêm tomando um espaço cada vez maior na sociedade. Em resposta a esses desafios, iremos investigar uma nova estratégia, desenvolvendo descritores de forma e textura junto com os algoritmos de agrupamento. Estes descritores são desenvolvidos nesta tese como uma abordagem baseada em dados simbólicos de tipo intervalo.
25

Metodos de Agrupamento de Dados Simbolicos Baseados em funções de Dissimilaridades

Patrícia da Silva, kelly 31 January 2008 (has links)
Made available in DSpace on 2014-06-12T15:51:50Z (GMT). No. of bitstreams: 1 license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2008 / Com a crescente quantidade de informacões produzidas pelas diversas atividades humanas, tem se tornado cada vez mais importante agregar, tratar e manipular grandes massas de dados de modo a definir conceitos e extrair conhecimento destes dados. Esses conceitos podem ser descritos por dados mais complexos, chamados dados simbolicos. Nesse contexto, surge a necessidade de estender metodos exploratorios, estatisticos e representações graficas para lidar com esse tipo de dados, em que cada variavel pode assumir como valor um conjunto de categorias, intervalos ou distribuicões de probabilidades. A analise de dados simbolicos e definida como a extensão dos metodos de analise de dados classicos para tal tipo de dados. Com o intuito de estender metodos estatisticos e tecnicas de aprendizado de maquina a esse tipo de dados, e necessario definir medidas de distância apropriadas. Diversas medidas de distância têm sido propostas na literatura. No entanto, ainda existe na literatura uma carência de analises comparativas dos desempenhos de medidas de distância para dados simbolicos. A principal contribuicão desta Dissertacão e prover uma avaliacão empirica de funções de dissimilaridade para dados simbolicos no contexto de analise de agrupamento. Alem disso, foram propostas novas medidas de dissimilaridade para dados simbolicos. Com o intuito de atingir esses objetivos, foi desenvolvido um framework para agrupamento de dados simbolicos. Esse framework utiliza funções de dissimilaridade baseadas em volume e algoritmos de agrupamento de dados relacionais. Os experimentos foram executados com bases de dados de benchmark e duas bases de dados artificiais com diferentes graus de dificuldade de agrupamento. Os resultados obtidos foram avaliados atraves do indice de rand corrigido. Em seguida, foram construidos os intervalos de confianca para comparar os desempenhos dos algoritmos de agrupamento e das medidas de dissimilaridade
26

Mineração de regras para seleção de técnicas de agrupamento para dados de expressão gênica de câncer

NASCIMENTO, André Câmara Alves do 31 January 2009 (has links)
Made available in DSpace on 2014-06-12T15:52:33Z (GMT). No. of bitstreams: 1 license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2009 / Diferentes algoritmos têm sido usados para agrupar dados de expressão gênica, porém não há um único algoritmo que possa ser considerado o melhor independentemente dos dados a serem analisados. Neste trabalho, aplicamos técnicas de Meta-aprendizado para relacionar características de conjuntos de dados de expressão gênica ao desempenho de algoritmos de agrupamento. No nosso contexto, cada meta-exemplo representa características descritivas de uma base de dados de expressão gênica e um rótulo indicando o algoritmo de agrupamento que obteve os melhores resultados quando aplicado aos dados. Um conjunto destes metaexemplos é fornecido como entrada para um algoritmo de aprendizado (o meta-aprendiz), que, por sua vez, é responsável por adquirir conhecimento relativo às características descritivas e os melhores algoritmos. Neste trabalho, realizamos experimentos em um estudo de caso no qual um meta-aprendiz foi utilizado para discriminar entre três algoritmos de agrupamento candidatos, bem como para extrair conhecimento interpretável a partir dos experimentos. O conhecimento extraído pelo meta-aprendiz foi útil para o entendimento da aplicabilidade de cada algoritmo de agrupamento para problemas específicos
27

Sistema para Agrupamento de Dados baseado no Comportamento Superparamagnético do Modelo de Potts

das Graças da Silva Oliveira, Maria January 2004 (has links)
Made available in DSpace on 2014-06-12T15:59:08Z (GMT). No. of bitstreams: 2 arquivo4851_1.pdf: 9220141 bytes, checksum: cefb66cdefb3c1a635055960a42bba0b (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2004 / O agrupamento de dados é uma das operações mais importantes na análise de informações. Esta operação consiste em, dada uma massa de informações a respeito de uma população de indivíduos, procurar grupos de elementos semelhantes entre si e diferentes dos outros. Essa técnica encontra aplicações em praticamente todas as áreas, desde análise de imagens até bioinformática. Quando o volume de dados é considerável, o problema se torna computacionalmente muito difícil. Recentemente foi estabelecida uma analogia entre o problema de agrupamento e a procura de configurações típicas de um modelo físico, o modelo de Potts. Dado que existem algoritmos eficientes para a localização dessas configurações, como por exemplo a dinâmica de Swendsen-Wang, é possível aplicar essas técnicas para um grande volume de dados e em uma grande diversidade de situações. Para verificar essa analogia foi desenvolvido o programa SPC, em linguagem C, pelo Professor Eytan Domany, do Departamento de Física de Sistemas Complexos, do Instituto de Ciência de Weizmann, em Israel. A função principal desse programa é a geração de agrupamentos de dados utilizando uma nova técnica de agrupamento baseada na analogia citada. Essa técnica ficou conhecida como superparamagnética e se baseia na procura de ocorrências de um certo modelo de Potts não-homogêneo em um estágio intermediário entre duas fases do magnetismo, a ferromagnética e a paramagnética. O programa SPC utiliza a dinâmica de Swendsen-Wang para simular os estados típicos do modelo de Potts. Esta dissertação estuda essa técnica de agrupamento e apresenta proposta, construção e avaliação de um sistema amigável para sua aplicação em diversas situações. O resultado deste trabalho é uma interface amigável, desenvolvida em IDL, que permite tanto a especificação dos parâmetros que determinam o funcionamento do algoritmo SPC quanto a análise dos resultados por ele produzidos. Esta análise permite a visualização dos agrupamentos superparamagnéticos através de gráficos hierárquicos (dendrogramas). Esses dendrogramas oferecem ao usuário mecanismos de interação para descoberta de informações, bem como análises quantitativas (média, variância, mediana, curtose, coeficiente e assimetria, entre outras) e qualitativas (Brushplots) dos dados. A junção desse sistema com o programa SPC foi empregada com sucesso na análise de dados
28

Técnicas de agrupamento de dados na mineração de dados químicos

de Aguiar Loureiro, Juliana January 2005 (has links)
Made available in DSpace on 2014-06-12T16:01:13Z (GMT). No. of bitstreams: 2 arquivo7201_1.pdf: 2018800 bytes, checksum: 53a5a6f555847d7a5b53bef8739ece02 (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2005 / O processo de descoberta de conhecimento em bases de dados (Knowledge Discovery in Databases KDD) tem por objetivo extrair informações úteis (conhecimento) a partir de uma extensa quantidade de dados. Este processo, por sua vez, se constitui de várias etapas, entre elas, a atividade de mineração dos dados, representada neste estudo sob forma de an´ alise de agrupamento. Um problema característico dessa etapa é identificar qual ou quais métodos de agrupamento podem realmente apresentar uma classificação útil e válida para o conjunto de dados em estudo. Entre os mecanismos de apoio à triagem e estudo das técnicas de análise de agrupamento está o conhecimento adquirido sobre o conjunto de dados, o conhecimento de técnicas estatísticas para realizar a análise exploratória dos dados e principalmente conhecer bem quais algoritmos são adequados ao problema de interesse. A presente dissertação visa considerar os procedimentos de KDD apropriados para a aplicação das técnicas de análise de agrupamento a um conjunto de dados químicos
29

Algoritmos para determinação do número de grupos em estudos de formas planas

OLIVEIRA, Rodrigo Alves de 05 February 2016 (has links)
Submitted by Isaac Francisco de Souza Dias (isaac.souzadias@ufpe.br) on 2016-07-11T16:55:56Z No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Rodrigo_CD.pdf: 1954769 bytes, checksum: 1848fe54bf3979180fcfc4966a04b492 (MD5) / Made available in DSpace on 2016-07-11T16:55:56Z (GMT). No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Rodrigo_CD.pdf: 1954769 bytes, checksum: 1848fe54bf3979180fcfc4966a04b492 (MD5) Previous issue date: 2016-02-05 / CAPES / Análise de formas planas é uma área de conhecimento bastante útil e sólida para lidar com estudos de estruturas de objetos e informação geométrica. A fim de descrever objetos bidimensionais é necessário especificar um sistema de coordenadas a qual deve ser invariante sob locação, escala e rotação da configuração tal como as coordenadas de Kendall. E uma versão linearizada do espaço de formas são as coordenadas tangentes, esta pertence ao espaço Euclidiano, portanto, toda literatura de análise multivariada pode ser utilizada. Em diversas ocasiões é necessário agrupar conjuntos de dados de tal maneira que se tenha grupos com características mais homogêneos entre si. Para tanto Amaral et al. (2010a) desenvolveu o algoritmo K-médias para lidar com análise de formas. Devido as desvantagens deste algoritmo, Jayasumana et al. (2013) propôs o algoritmo Kernel K-médias. Estes dois algoritmos dependem da escolha do número de grupos, K. E para o segundo, deve-se estimar o parâmetro de largura de banda. Em situações em que não se conhecem os rótulos dos grupos, a escolha de um valor apropriado para K é difícil. Para resolver esse desafio, medidas de validade tentam determinar como precisamente se retratam os grupos dos dados. No entanto, diversas medidas de validade surgem, e diferentes medidas geralmente produzem resultados discrepantes. Esta dissertação introduz métodos para computar o número de grupos em um determinado conjunto de dados que lidam com a natureza das estruturas planas. Os métodos propostos são baseados nas medidas de validade Silhoueta, Davies-Bouldin e os Resíduos Procrustes. Gerou-se amostras de duas populações da distribuição Bingham complexa a qual possui suporte na esfera unitária; e também amostras de duas populações com espaço nos marcos. Considera-se vários cenários com alta e baixa concentração dos dados. Percebe-se que os índices para coordenadas tangentes encontram corretamente o número de grupos para dados de alta concentração assim como os índices modificados para coordenadas de Kendall. Já em situações com baixa concentração os índices para coordenadas tangentes não funcionam bem, portanto, não identificam o número correto de grupos, ao contrário, os índices com natureza própria de formas planas conseguem estimar o verdadeiro número de grupos para os dados simulados. Os índices mais apropriados são o Procruste Residual e o Davies-Bouldin ajustado pela segunda vez. Análise de dados reais mostra que os índices existentes para coordenadas tangentes e os índices modificados para coordenadas de Kendall estimam o número correto de grupos. / Statistical Shape Analysis is a useful and solid area of knowledge for deal objects structures study and geometrical information. In order to describe two-dimensional objects you must specify a coordinate system which must be filter out translation, rotation and scale information of the setting as the Kendall coordinates. One linearized version of the shape space in the vicinity of a particular point of shape space is the tangent coordinates, that belongs to the Euclidian space, so all multivariate analysis may be used. On several occasions it is necessary to group data sets in such a way that it has groups with more homogeneous characteristics together. Therefore, Amaral et al. (2010a) developed the K-means algorithm to deal with shape analysis. Because of the disadvantages of this algorithm, Jayasumana et al. (2013) proposed Kernel K-means algoritm. These two algorithms depends on the choice of the number of groups, K. And for second, to estimate the bandwidth parameter. In situations in which there is no known labels groups, the choice of an appropriate value for K is difficult. To overcome this challenge, validity measures attempt to determine how accurately the clusters reflect the data. However, numerous validity measures proliferate, and different measures often produce disparate results. This paper introduces methods to compute the number of groups in a given data set that deal with the nature of the planar shapes. The proposed methods are based on the validity of measures Silhoutte, Davies-Bouldin and Procrustes Residuals. Samples were generated from two populations of complex Bingham distribution which is supported on the unit sphere; and also samples of two populatoin with space in the landmarks. Considered some scenarios with high and low concentration of data. It is noticed that the contents are properly coordinated tangent to the number of groups for high-concentration data, as well as modified indices for Kendall coordinates. Already in situations with low concentration indexes to coordinate tangents do not work well, so do not identify the correct number of groups, by contrast, the indexes with the nature of planar shapes can estimate the true number of groups for the simulated data. The most suitable index are Procrustes Residuals and Davies-Bouldin adapted the second time. Real data analysis shows that the existing index for tangent coordinates and indexes modified to Kendall coordinates estimate the correct number of groups.
30

On the evaluation of clustering results: measures, ensembles, and gene expression data analysis / Sobre a avaliação de resultados de agrupamento: medidas, comitês e análise de dados de expressão gênica

Pablo Andretta Jaskowiak 27 November 2015 (has links)
Clustering plays an important role in the exploratory analysis of data. Its goal is to organize objects into a finite set of categories, i.e., clusters, in the hope that meaningful and previously unknown relationships will emerge from the process. Not every clustering result is meaningful, though. In fact, virtually all clustering algorithms will yield a result, even if the data under analysis has no true clusters. If clusters do exist, one still has to determine the best configuration of parameters for the clustering algorithm in hand, in order to avoid poor outcomes. This selection is usually performed with the aid of clustering validity criteria, which evaluate clustering results in a quantitative fashion. In this thesis we study the evaluation/validation of clustering results, proposing, in a broad context, measures and relative validity criteria ensembles. Regarding measures, we propose the use of the Area Under the Curve (AUC) of the Receiver Operating Characteristics (ROC) curve as a relative validity criterion for clustering. Besides providing an empirical evaluation of AUC, we theoretically explore some of its properties and its relation to another measure, known as Gamma. A relative criterion for the validation of density based clustering results, proposed with the participation of the author of this thesis, is also reviewed. In the case of ensembles, we propose their use as means to avoid the evaluation of clustering results based on a single, ad-hoc selected, measure. In this particular scope, we: (i) show that ensembles built on the basis of arbitrarily selected members have limited practical applicability; and (ii) devise a simple, yet effective heuristic approach to select ensemble members, based on their effectiveness and complementarity. Finally, we consider clustering evaluation in the specific context of gene expression data. In this particular case we evaluate the use of external information from the Geno Ontology for the evaluation of distance measures and clustering results / Técnicas de agrupamento desempenham um papel fundamental na análise exploratória de dados. Seu objetivo é a organização de objetos em um conjunto finito de categorias, i.e., grupos (clusters), na expectativa de que relações significativas entre objetos resultem do processo. Nem todos resultados de agrupamento são relevantes, entretanto. De fato, a vasta maioria dos algoritmos de agrupamento existentes produzirá um resultado (partição), mesmo em casos para os quais não existe uma estrutura real de grupos nos dados. Se grupos de fato existem, a determinação do melhor conjunto de parâmetros para estes algoritmos ainda é necessária, a fim de evitar a utilização de resultados espúrios. Tal determinação é usualmente feita por meio de critérios de validação, os quais avaliam os resultados de agrupamento de forma quantitativa. A avaliação/validação de resultados de agrupamentos é o foco desta tese. Em um contexto geral, critérios de validação relativos e a combinação dos mesmos (ensembles) são propostas. No que tange critérios, propõe-se o uso da área sob a curva (AUC Area Under the Curve) proveniente de avaliações ROC (Receiver Operating Characteristics) como um critério de validação relativo no contexto de agrupamento. Além de uma avaliação empírica da AUC, são exploradas algumas de suas propriedades teóricas, bem como a sua relação com outro critério relativo existente, conhecido como Gamma. Ainda com relação à critérios, um índice relativo para a validação de resultados de agrupamentos baseados em densidade, proposto com a participação do autor desta tese, é revisado. No que diz respeito à combinação de critérios, mostra-se que: (i) combinações baseadas em uma seleção arbitrária de índices possuem aplicação prática limitada; e (ii) com o uso de heurísticas para seleção de membros da combinação, melhores resultados podem ser obtidos. Finalmente, considera-se a avaliação/validação no contexto de dados de expressão gênica. Neste caso particular estuda-se o uso de informação da Gene Ontology, na forma de similaridades semânticas, na avaliação de medidas de dissimilaridade e resultados de agrupamentos de genes.

Page generated in 0.0662 seconds