• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 1
  • Tagged with
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

[pt] RESULTADOS TEÓRICOS E EXPERIMENTAIS EM CLUSTERIZAÇÃO COM MÉTRICAS DE TEORIA DA INFORMAÇÃO / [en] THEORETICAL AND EXPERIMENTAL RESULTS IN INFORMATION-THEORETIC CLUSTERING

LUCAS SAADI MURTINHO 21 September 2020 (has links)
[pt] Esta dissertação apresenta resultados teóricos e experimentais relativos ao problema de clusterização de um conjunto de vetores (que possam ser interpretados como distribuições de probabilidade) com o objetivo de minimizar uma medida de impureza da partição resultante. Por meio de uma conexão entre o problema geométrico de k-médias e o problema de clusterização para minimizar a impureza ponderada de Gini da partição, prova-se que este último é NP-completo e APX-difícil. Também analisamos uma família de algoritmos para clusterização com base nas componentes dominantes (as maiores componentes) dos vetores a serem particionados. Mostra-se que, em alguns casos, dois desses algoritmos conseguem obter bons resultados em termos da entropia ponderada da partição resultante, em um tempo bem menor do que os algoritmos considerados como o estado da arte. / [en] We present theoretical and experimental results related to the problem of clustering a set of vectors (which can be interpreted as probability distributions) with the goal of minimizing a weighted impurity measure of the resulting partition. The problem of clustering while minimizing the weighted Gini impurity of the partition is shown to be NP-complete and APX-hard, via a connection with the geometrical k-means problem. We also analyze a family of algorithms for information-theoretic clustering that rely on the dominant (largest) component of the vectors to be clustered. These algorithms are shown to be very fast compared to the state of the art, while able to achieve comparable results in terms of the resulting partition s weighted entropy.

Page generated in 0.0322 seconds