Return to search

An automated approach to clustering with the framework suggested by Bradley, Fayyad and Reina

Clustering with the framework suggested by Bradley, Fayyad and Reina allows for great scalability. However, practical challenges appear when applying the framework. One of the challenges is to define model parameters. This includes defining the number of clusters (K). Understanding how parameter values affect the final clustering may be challenging even with insight into the algorithm. Automating the clustering would allow for a more widespread use. The research question is thus: How could an automated process for clustering with BFR be defined and what results could such a process yield? A tailored method for parameter optimization is suggested. This method is used with a new and computationally advantageous cluster validity index called population density index. Computing the widely used within set sum of squares error requires an additional pass over the data set. Computing population density index does not. The final step of the automated process is to cluster with the parameters generated in the process. The outcome of these clusterings are measured. The results present data collected over 100 identically defined automated processes. These results show that 97 % of the identified K-values falls within the range of the suggested optimal value 2. The method for optimizing parameters clearly results in parameters that outperform randomized parameters. The suggested population density index has a correlation coefficient of 1.00 with the commonly used within set sum of square error in a 32-dimensional case. An automated process for clustering with BFR has been defined. / Ramverket som föreslås av Bradley, Fayyad och Reina möjliggör storskalig klustring. Att använda ramverket medför dock praktiska utmaningar. En av dessa utmaningar är att definiera modellens parametrar. Detta inkluderar att definiera antalet kluster (K). Att förstå hur angivna parametervärden påverkar det slutgiltiga klustringsresultatet är utmanande även med insikt i algoritmen. Att automatisera klustringen skulle möjliggöra för fler att använda ramverket. Detta resulterar i frågeställningen: Hur skulle en automatiserad process för klustring med BFR kunna definieras och vilka resultat skulle en sådan process kunna ge? En skräddarsydd metod för parameteroptimisering föreslås. Denna används i kombination med ett nytt klustervalideringsindex vilket refereras till som population density index. Användning av detta index medför beräkningsmässiga fördelar. Att beräkna det frekvent använda within set sum of squares-värdet kräver ytterligare en iteration över det använda datasettet. Att beräkna population density index undviker denna extra iteration. Det sista steget i den automatiserade processen är att klustra givet de parametervärden som processen själv definierar. Resultatet av dessa klustringar mäts. Resultaten presenterar data insamlad över 100 individuella försök. För samtliga av dessa var den automatiserade processen identiskt definierad. Resultaten visar att 97 % av de identifierade värdena på K-parametern faller inom en värdemängd baserad på det optimala värdet 2. Att optimera parametervärden med den föreslagna metoden ger tydligt bättre värden än om dessa genereras stokastiskt. Det föreslagna population density index har 1.00 som korrelationskoefficient med det välanvända within set sum of squares-värdet i ett 32-dimensionellt fall. En automatiserad process för att klustra med BFR har definierats.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-238736
Date January 2018
CreatorsBerglund, Jesper
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2018:623

Page generated in 0.0059 seconds