1 |
[pt] RESULTADOS TEÓRICOS E EXPERIMENTAIS EM CLUSTERIZAÇÃO COM MÉTRICAS DE TEORIA DA INFORMAÇÃO / [en] THEORETICAL AND EXPERIMENTAL RESULTS IN INFORMATION-THEORETIC CLUSTERINGLUCAS SAADI MURTINHO 21 September 2020 (has links)
[pt] Esta dissertação apresenta resultados teóricos e experimentais relativos
ao problema de clusterização de um conjunto de vetores (que possam
ser interpretados como distribuições de probabilidade) com o objetivo de
minimizar uma medida de impureza da partição resultante. Por meio de
uma conexão entre o problema geométrico de k-médias e o problema de
clusterização para minimizar a impureza ponderada de Gini da partição,
prova-se que este último é NP-completo e APX-difícil. Também analisamos
uma família de algoritmos para clusterização com base nas componentes
dominantes (as maiores componentes) dos vetores a serem particionados.
Mostra-se que, em alguns casos, dois desses algoritmos conseguem obter
bons resultados em termos da entropia ponderada da partição resultante,
em um tempo bem menor do que os algoritmos considerados como o estado
da arte. / [en] We present theoretical and experimental results related to the problem
of clustering a set of vectors (which can be interpreted as probability
distributions) with the goal of minimizing a weighted impurity measure
of the resulting partition. The problem of clustering while minimizing the
weighted Gini impurity of the partition is shown to be NP-complete and
APX-hard, via a connection with the geometrical k-means problem. We
also analyze a family of algorithms for information-theoretic clustering that
rely on the dominant (largest) component of the vectors to be clustered.
These algorithms are shown to be very fast compared to the state of the art,
while able to achieve comparable results in terms of the resulting partition s
weighted entropy.
|
Page generated in 0.0236 seconds