Collaborative filtering is a popular technique to use behavior data in the form of user’s interactions with, or ratings of, items in a system to provide personalized recommendations of items to the user. This study compares three different state-of-the-art Recommendation System models that implement this technique, Matrix Factorization, Multi-layer Perceptron and Neural Matrix Factorization, using behavior data from a digital book platform for children. The field of Recommendation Systems is growing, and many platforms can benefit of personalizing the user experience and simplifying the use of the platforms. To perform a more complex comparison and introduce a new take on the models, this study proposes a new way to represent the behavior data as input to the models, i.e., to use the Term Frequency-Inverse Document Frequency (TFIDF) of occurrences of interactions between users and books, as opposed to the traditional binary representation (positive if there has been any interaction and negative otherwise). The performance is measured by extracting the last book read for each user, and evaluating how the models would rank that book for recommendations to the user. To assess the value of the models for the children’s reading platform, the models are also compared to the existing Recommendation System on the digital book platform. The results indicate that the Matrix Factorization model performs best out of the three models when using children’s reading behavior data. However, due to the long training process and larger set of hyperparameters to tune for the other two models, these may not have reached an optimal hyperparameter tuning, thereby affecting the comparison among the three state-of-the-art models. This limitation is further discussed in the study. All three models perform significantly better than the current system on the digital book platform. The models with the proposed representation using TF-IDF values show notable promise, performing better than the binary representation in almost all numerical metrics for all models. These results can suggest future research work on more ways of representing behavior data as input to these types of models. / Kollaborativ filtrering är en populär teknik för att använda beteendedata från användare i form av t.ex. interaktioner med, eller betygsättning av, objekt i ett system för att ge användaren personliga rekommendationer om objekt. I den här studien jämförs tre olika modeller av moderna rekommendationssystem som tillämpar denna teknik, matrisfaktorisering, flerlagersperceptron och neural matrisfaktorisering, med hjälp av beteendedata från en digital läsplattform för barn. Rekommendationssystem är ett växande område, och många plattformar kan dra nytta av att anpassa användarupplevelsen utifrån individen och förenkla användningen av plattformen. För att utföra en mer komplex jämförelse och introducera en ny variant av modellerna, föreslår denna studie ett nytt sätt att representera beteendedata som indata till modellerna, d.v.s. att använda termfrekvens med omvänd dokumentfrekvens (TF- IDF) av förekomster av interaktioner mellan användare och böcker, i motsats till den traditionella binära representationen (positiv om en tidigare interaktion existerar och negativ i annat fall). Prestandan mäts genom att extrahera den senaste boken som lästs för varje användare, och utvärdera hur högt modellerna skulle rangordna den boken i rekommendationer till användaren. För att värdesätta modellerna för plattformen med digitala böcker, så jämförs modellerna också med det befintliga rekommendationssystemet på plattformen. Resultaten tyder på att matrisfaktorisering-modellen presterar bäst utav de tre modellerna när man använder data från barns läsbeteende. På grund av den långa träningstiden och fler hyperparametrar att optimera för de andra två modellerna, kan det dock vara så att de inte har nått en optimal hyperparameterinställning, vilket påverkar jämförelsen mellan de tre moderna modellerna. Denna begränsning diskuteras ytterligare i studien. Alla tre modellerna presterar betydligt bättre än det nuvarande systemet på läsplattformen. Modellerna med den föreslagna representationen av TFIDF-värden visar sig mycket lovande och presterar bättre än den binära representationen i nästan alla numeriska mått för alla modeller. Dessa resultat kan ge skäl för framtida forskning av fler sätt att representera beteendedata som indata till denna typ av modeller.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-325839 |
Date | January 2023 |
Creators | Lundqvist, Malvin |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2023:53 |
Page generated in 0.0028 seconds