1 |
Persistence of Preference- Based Customer Segments : An investigation of cluster evolution / Fortlevnad av preferens-baserade kundsegment : En undersökning av klusterevolutionAlmström, Sara January 2021 (has links)
Clustering is a technology within unsupervised learning with a wide range of applications. Several of these applications use data that change over time, which makes clusters’ persistence of interest. One among these employments of clustering time-variant data is preference based customer segmentation. Preferences are assumed to change over time and it is thus of interest to know for how long clusters based on preferences remain. This study explores clusters of clients obtained in the segmentation analysis of users of a video streaming service and their persistence over time. The clients were clustered based on viewing history from distinct months with the k-means algorithm. Various metrics, such as Rand Index (RI), Adjusted Rand Index (ARI) and Fowlkes-Mallows score, were employed for evaluation of cluster persistence. It was found that most of the identified clusters did not show persistence over months but that most partitions included at least one clustered that was considered persistent. The results also suggested that clusters featured by titles that target children were more persistent than other clusters. Moreover, clients with a large interest in videos within the children genres appeared to form relatively separated clusters, which supports considering consumers of children titles as a separate target group. / Klustring är en teknik inom oövervakad maskininlärning med en mängd applikationer. Flera av dess applikationer använder data som förändras med tid, vilket gör klusters bestående intressant. En av dessa användningar av klustring av tidsberoende data är preferensbaserad kundsegmentering. Preferenser antas förändras med tid och det är således av intresse att veta hur länge kluster baserade på preferenser förblir. Den här studien utforskar klient-kluster erhållna genom segmenteringsanalys av användare av en video-strömningstjänst och dessas beständighet över tid. Klienterna klustrades baserat på deras tittarhistorik från olika månader med k-means. Flertalet mätvärden, såsom RI, ARI och Fowlkes-Mallows, användes för att utvärdera klusters fortlevnad i termer av överlapp av klienter. Fortlevnad över månader visades inte vara norm bland de identifierade klustren. Resultaten visade också på att kluster som präglades av titlar riktade mot barn var mer beständiga än andra kluster. Vidare tycktes klusters top-titlar antingen uteslutande utgöras av titlar riktade mor barn eller inte inkludera några titlar riktade mot barn, vilket stödjer hantering av konsumenter av barntitlar som en separat målgrupp.
|
2 |
Improving Recommender Engines for Video Streaming Platforms with RNNs and Multivariate Data / Förbättring av Rekommendationsmotorer för Videoströmningsplattformar med RNN och Multivariata DataPérez Felipe, Daniel January 2022 (has links)
For over 4 years now, there has been a fierce fight for staying ahead in the so-called ”Streaming War”. The Covid-19 pandemic and its consequent confinement only worsened the situation. In such a market where the user is faced with too many streaming video services to choose from, retaining customers becomes a necessary must. Moreover, an extensive catalogue makes it even more difficult for the user to choose a movie from. Recommender Systems try to ease this task by analyzing the users’ interactions with the platform and predicting movies that, a priori, will be watched next. Neural Networks have started to be implemented as the underlying technology in the development of Recommender Systems. Yet, most streaming services fall victim to a highly uneven movies distribution, where a small fraction of their content is watched by most of their users, having the rest of their catalogue a limited number of views. This is the long-tail problem that makes for a difficult classification model. An RNN model was implemented to solve this problem. Following a multiple-experts classification strategy, where each classifier focuses only on a specific group of films, movies are clustered by popularity. These clusters were created following the Jenks natural breaks algorithm, clustering movies by minimizing the inner group variance and maximizing the outer group variance. This new implementation ended up outperforming other clustering methods, where the proposed Jenks’ movie clusters gave better results for the corresponding models. The model had, as input, an ordered stream of watched movies. An extra input variable, the date of the visualization, gave an increase in performance, being more noticeable in those clusters with a fewer amount of movies and more views, i.e., those clusters not corresponding to the least popular ones. The addition of an extra variable, the percent of movies watched, gave inconclusive results due to hardware limitations. / I över fyra år har det nu varit en hård kamp för att ligga i framkant i det så kallade ”Streaming kriget”. Covid-19-pandemin och den därpå följande karantänen förvärrade bara situationen. På en sådan marknad där användaren står inför alltför många streamingtjänster att välja mellan, blir kvarhållande av kunderna en nödvändighet. En omfattande katalog gör det dessutom ännu svårare för användaren att välja en film. Rekommendationssystem försöker underlätta denna uppgift genom att analysera användarnas interaktion med plattformen och förutsäga vilka filmer som kommer att ses härnäst. Neurala nätverk har börjat användas som underliggande teknik vid utvecklingen av rekommendationssystem. De flesta streamingtjänster har dock en mycket ojämn fördelning av filmerna, då en liten del av deras innehåll ses av de flesta av användarna, medan en stor del av deras katalog har ett begränsat antal visualiseringar. Detta så kallade ”Long Tail”-problem gör det svårt att skapa en klassificeringsmodell. En RNN-modell implementerades för att lösa detta problem. Genom att följa en klassificeringsstrategi med flera experter, där varje klassificerare endast fokuserar på en viss grupp av filmer, grupperas filmerna efter popularitet. Dessa kluster skapades enligt Jenks natural breaks-algoritm, som klustrar filmer genom att minimera variansen i den inre gruppen och maximera variansen i den yttre gruppen. Denna nya implementering överträffade till slut andra klustermetoder, där filmklustren föreslagna av Jenks gav bättre resultat för motsvarande modeller. Modellen hade som indata en ordnad ström av sedda filmer. En extra ingångsvariabel, datumet för visualiseringen, gav en ökning av prestandan, som var mer märkbar i de kluster med färre filmer och fler visualiseringar, dvs. de kluster som inte motsvarade de minst populära klustren. Tillägget av en extra variabel, procent av filmen som har setts, gav inte entydiga resultat på grund av hårdvarubegränsningar / Desde hace más de 4 años, se está librando una lucha encarnizada por mantenerse en cabeza en la llamada ”Guerra del Streaming”. La Covid-19 y su consiguiente confinamiento no han hecho más que empeorar la situación. En un mercado como éste, en el que el usuario se encuentra con demasiados servicios de vídeo en streaming entre los que elegir, retener a los clientes se convierte en una necesidad. Además, un catálogo extenso dificulta aún más la elección de una película por parte del usuario. Los sistemas de recomendación intentan facilitar esta tarea analizando las interacciones de los usuarios con la plataforma y predecir las películas que, a priori, se verán a continuación. Las Redes Neuronales han comenzado a implementarse como tecnología subyacente en el desarrollo de los sistemas de recomendación. Sin embargo, la mayoría de los servicios de streaming son víctimas de una distribución de películas muy desigual, en la que una pequeña fracción de sus contenidos es vista por la mayoría de sus usuarios, teniendo el resto de su catálogo un número muy inferior de visualizaciones. Este es el denominado problema de ”long-tail” que dificulta el modelo de clasificación. Para resolver este problema se implementó un modelo RNN. Siguiendo una estrategia de clasificación de expertos múltiples, en la que cada clasificador se centra en un único grupo específico de películas, agrupadas por popularidad. Estos clusters se crearon siguiendo el algoritmo de Jenks, agrupando las películas mediante minimización y maximización de la varianza entre grupos . Esta nueva implementación acabó superando a otros métodos de clustering, donde los clusters de películas de Jenks propuestos dieron mejores resultados para los modelos correspondientes. El modelo tenía como entrada un flujo ordenado de películas vistas. Una variable de entrada extra, la fecha de la visualización, dio un incremento en el rendimiento, siendo más notable en aquellos clusters con una menor cantidad de películas y más visualizaciones, es decir, aquellos clusters que no corresponden a los menos populares. La adición de una variable extra, el porcentaje de películas vistas, dio resultados no concluyentes debido a limitaciones hardware.
|
Page generated in 0.0876 seconds