As the amount of data increases every year, the need for effective structuring of data is a growing problem. This thesis aims to investigate and compare how four different clustering algorithms perform on a practical use case for images. The four algorithms used are Affinity Propagation, BIRCH, Rectifying Self-Organizing Maps, Deep Embedded Clustering. The algorithms get the image metadata and also its content, extracted using a pre-trained deep convolutional neural network. The results demonstrate that while there are variations in the data, Affinity Propagation and BIRCH shows the most potential among the four algorithms. Furthermore, when metadata is available it improves the results of the algorithms that can process the extreme values cause. For Affinity Propagation the mean share score is improved by 5.6 percentage points and the silhouette score is improved by 0.044. BIRCH mean share score improves by 1.9 percentage points and silhouette score by 0.051. RSOM and DEC could not process the metadata. / Allt eftersom datamängderna ökar för varje år som går så ökar även behovet av att strukturera datan på en bra sätt. Detta arbete syftar till att undersöka och jämföra hur väl fyra olika klustringsalgoritmer fungerar för ett praktiskt användningsfall med bilder. De fyra algorithmerna som används är Affinity Propagation, BIRCH, Rectifying Self-Organizing Maps och Deep Embedded Clustering. Algoritmerna hade bildernas metadata samt deras innehåll, framtaget med hjälp av ett deep convolutional neural network, att använda för klustringen. Resultaten visar att även om det finns stora variationer i utfallen, visar Affinity Propagation och BIRCH den största potentialen av de fyra algoritmerna. Vidare verkar metadatan, när den finns tillgänglig, förbättra resultaten för de klustringsalgoritmer som kunde hantera de extremvärden som metadatan kunde ge upphov till. För Affinity propagation föbättrades den genomsnittliga delnings poängen med 5,6 procentenheter och dess silhouette index ökade med 0.044. BIRCHs genomsnittliga delnings poäng ökade med 1,9 procentenheter samt dess silhouette index förbättades med 0.051. RSOM och DEC kunde inte processa metadatan.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-233318 |
Date | January 2018 |
Creators | Dackander, Erik |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | English |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2018:507 |
Page generated in 0.0018 seconds