Clustering is a technology within unsupervised learning with a wide range of applications. Several of these applications use data that change over time, which makes clusters’ persistence of interest. One among these employments of clustering time-variant data is preference based customer segmentation. Preferences are assumed to change over time and it is thus of interest to know for how long clusters based on preferences remain. This study explores clusters of clients obtained in the segmentation analysis of users of a video streaming service and their persistence over time. The clients were clustered based on viewing history from distinct months with the k-means algorithm. Various metrics, such as Rand Index (RI), Adjusted Rand Index (ARI) and Fowlkes-Mallows score, were employed for evaluation of cluster persistence. It was found that most of the identified clusters did not show persistence over months but that most partitions included at least one clustered that was considered persistent. The results also suggested that clusters featured by titles that target children were more persistent than other clusters. Moreover, clients with a large interest in videos within the children genres appeared to form relatively separated clusters, which supports considering consumers of children titles as a separate target group. / Klustring är en teknik inom oövervakad maskininlärning med en mängd applikationer. Flera av dess applikationer använder data som förändras med tid, vilket gör klusters bestående intressant. En av dessa användningar av klustring av tidsberoende data är preferensbaserad kundsegmentering. Preferenser antas förändras med tid och det är således av intresse att veta hur länge kluster baserade på preferenser förblir. Den här studien utforskar klient-kluster erhållna genom segmenteringsanalys av användare av en video-strömningstjänst och dessas beständighet över tid. Klienterna klustrades baserat på deras tittarhistorik från olika månader med k-means. Flertalet mätvärden, såsom RI, ARI och Fowlkes-Mallows, användes för att utvärdera klusters fortlevnad i termer av överlapp av klienter. Fortlevnad över månader visades inte vara norm bland de identifierade klustren. Resultaten visade också på att kluster som präglades av titlar riktade mot barn var mer beständiga än andra kluster. Vidare tycktes klusters top-titlar antingen uteslutande utgöras av titlar riktade mor barn eller inte inkludera några titlar riktade mot barn, vilket stödjer hantering av konsumenter av barntitlar som en separat målgrupp.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-306421 |
Date | January 2021 |
Creators | Almström, Sara |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | English |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2021:812 |
Page generated in 0.0027 seconds