• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 1
  • 1
  • Tagged with
  • 2
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Una metodología para enfrentar el dinamismo de atributos en clustering

Barrera Aylwin, Sergio Benito January 2017 (has links)
Magíster en Gestión de Operaciones. Ingeniero Civil Industrial / En este trabajo se desarrollar una metodología para enfrentar el problema de clustering cuando alguno de los atributos se encuentra incompleto y se va completando en forma dinámica. Y se implementa dicha metodología en un modelo particular. El modelo implementado en este trabajo se basa en el modelo de projected clustering (Proclus) desarrollado por Aggarwal et al. en 1999. Al problema de dinamismo se le agregan las siguientes restricciones: La imposibilidad de imputar los valores faltantes (los que todavía no llegan) al igual que la imposibilidad de marginalizar las las con dichos valores faltantes. Estas restricciones se imponen ya que de lo contrario el problema se puede resolver en fácilmente de forma estática y/o tiene soluciones dinámicas conocidas. Se modificó el modelo de proyected clustering para considerar las restricciones impuestas al igual que implementar el dinamismo buscado. Para evaluar el modelo se generaron datos de forma sintética (95000 filas), con diferentes instancias en las que se buscan generar distintos escenarios donde la estructura de los clusters cambia a medida que los nuevos datos llegan. La generación sintética permitió evaluar los resultados y observar la evolución en la detección de las dimensiones y los clusters. Dado el modelo base escogido dicha modificación manifiesta alguna de sus mismas limitaciones, como es el caso de necesitar un número elevado de dimensiones. Los resultados entregados por la implementación del modelo fueron satisfactorios. Encontrando las soluciones esperadas después de un número razonable de iteraciones y realizado las operaciones en un tiempo menor que la aplicación estática del modelo tras la llegada de cada lote de datos. De igual forma se generó una medida para analizar y/o detectar los cambios en la estructura de los clusters a medida que llegan los datos de la nueva columna. Finalmente, en relación a los objetivos planteados en este trabajo, se puede concluir que el modelo desarrollado logra cumplir con los objetivos planteados, logrando desarrollar un modelo y metodológica que enfrente en forma efectiva el problema antes descrito al igual que el aplicarlo a datos simulados y analizar dichos resultados.
2

An Efficient Parameter-Relationship-Based Approach for Projected Clustering

Huang, Tsun-Kuei 16 June 2008 (has links)
The clustering problem has been discussed extensively in the database literature as a tool for many applications, for example, bioinformatics. Traditional clustering algorithms consider all of the dimensions of an input dataset in an attempt to learn as much as possible about each object described. In the high dimensional data, however, many of the dimensions are often irrelevant. Therefore, projected clustering is proposed. A projected cluster is a subset C of data points together with a subset D of dimensions such that the points in C are closely clustered in the subspace of dimensions D. There have been many algorithms proposed to find the projected cluster. Most of them can be divided into three kinds of classification: partitioning, density-based, and hierarchical. The DOC algorithm is one of well-known density-based algorithms for projected clustering. It uses a Monte Carlo algorithm for iteratively computing projected clusters, and proposes a formula to calculate the quality of cluster. The FPC algorithm is an extended version of the DOC algorithm, it uses the mining large itemsets approach to find the dimensions of projected cluster. Finding the large itemsets is the main goal of mining association rules, where a large itemset is a combination of items whose appearing times in the dataset is greater than a given threshold. Although the FPC algorithm has used the technique of mining large itemsets to speed up finding projected clusters, it still needs many user-specified parameters to work. Moreover, in the first step, to choose the medoid, the FPC algorithm applies a random approach for several times to get the medoid, which takes long time and may still find a bad medoid. Furthermore, the way to calculate the quality of a cluster can be considered in more details, if we take the weight of dimensions into consideration. Therefore, in this thesis, we propose an algorithm which improves those disadvantages. First, we observe that the relationship between parameters, and propose a parameter-relationship-based algorithm that needs only two parameters, instead of three parameters in most of projected clustering algorithms. Next, our algorithm chooses the medoid with the median, we choose the medoid only one time and the quality of our cluster is better than that in the FPC algorithm. Finally, our quality measure formula considers the weight of each dimension of the cluster, and gives different values according to the times of occurrences of dimensions. This formula makes the quality of projected clustering based on our algorithm better than that of the FPC algorithm. It avoids the cluster containing too many irrelevant dimensions. From our simulation results, we show that our algorithm is better than the FPC algorithm, in term of the execution time and the quality of clustering.

Page generated in 0.1235 seconds