In a world where information, entertainment and e-commerce are growing rapidly in terms of volume and options, it can be challenging for individuals to find what they want. Search engines and recommendation systems have emerged as solutions, guiding the users. A typical example of this is Spotify, a music streaming company that utilises users listening data and other derived metrics to provide personalised music recommendation. Spotify has a hypothesis that external factors affect users listening preferences and that some of these external factors routinely affect the users, such as workout routines and commuting to work. This work aims to find time- based listening habits in users’ music listening history to decrease the entropy in the data, resulting in a better understanding of the users. While this work primarily targets listening habits, the method can, in theory, be applied on any time series-based dataset. Listening histories were split into hour vectors, vectors where each element represents the distribution of a label/genre played during an hour. The hour vectors allowed for a good representation of the data independent of the volume. In addition, it allowed for clustering, making it possible to find hours where similar music was played. Hour slots that routinely appeared in the same cluster became a profile, highlighting a habit. In the final implementation, a user is represented by a profile vector allowing different profiles each hour of a week. Several users were profiled with the proposed approach and evaluated in terms of decrease in Shannon entropy when profiled compared to when not profiled. On average, user entropy dropped by 9% with highs in the 50% and a small portion of users not experiencing any decrease. In addition, the profiling was evaluated by measuring cosine similarity across users listening history, resulting in a correlation between gain in cosine similarity and decrease in entropy. In conclusion, users become more predictable and interpretable when profiled. This knowledge can be used to understand users better or as a feature for recommender systems and other analysis. / I en värld där information, underhållning och e-handel har vuxit kraftig i form av volym och alternativ, har individer fått det svårare att hitta det som de vill ha. Sökmotorer och rekommendationssystem har vuxit fram som lösningar till detta problem och hjälpt individer att hitta rätt. Ett typexempel på detta är Spotify, en musikströmningstjänst som använder sig av användares lyssningsdata för att rekommendera musik och annan personalisering. Spotify har en hypotes att externa faktorer påverkar användares lyssningspreferenser, samt att vissa av dessa faktorer påverkar användaren rutinmässigt som till exempel träningsrutiner och pendlade till jobbet. Målet med detta arbete är att hitta tidsbaserade lyssningsvanor i användares musiklyssningshistorik för att sänka Shannon entropin i data, resulterande i en bättre förståelse av användarna. Arbetet är primärt gjort för att hitta lyssningsvanor, men metoden kan i teorin appliceras på valfri godtycklig tidsserie dataset. Lyssningshistoriken delades in i timvektorer, radvektorer med längden x där varje element representerar fördelningen av en etikett/ genre som spelas under en timme. Timvektorerna skapade möjligheten till att använda klusteranalys som användes för att hitta timmar där liknande musik spelats. Timvektorer som rutinmässigt hamnade i samma kluster blev profiler, som användes för att markera vanor. I den slutgiltiga produkten representeras en användare av en profilvektor som tillåter en användare att ha en profil för varje timme i veckan. Ett flertal användare blev profilerade med den föreslagna metoden och utvärderade i form av sänkning i entropi när de blev profilerade gentemot när de inte blev profilerade. I genomsnitt sänktes användarnas entropi med 9%, med några över användare 50%, samt ett fåtal som inte fick någon sänknings alls. Profilering blev även utvärderad genom att mäta cosinuslikhet över en användares lyssningshistorik. Detta resulterade i en korrelation mellan ökning i cosinuslikhet och sänkning i entropi vid användandet av profilering. Slutsatsen som kan dras är att användare blir mera förutsägbara och tolkbara när de har blivit profilerade. Denna kunskap kan användas till att förstå användare bättre eller användas som en del av ett rekommendationssystem eller annan analys.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-300043 |
Date | January 2021 |
Creators | Magnusson, John |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2021:278 |
Page generated in 0.0021 seconds