Return to search

Evaluating Cold-Start in Recommendation Systems Using a Hybrid Model Based on Factorization Machines and SBERT Embeddings / Evaluering av kallstartsproblemet hos rekommendationssystem med en NLP-baserad hybridmodell baserad på faktoriseringsmaskiner och SBERT inbäddningar

The item cold-start problem, which describes the difficulty of recommendation systems in recommending new items to users, remains a great challenge for recommendation systems that rely on past user-item interaction data. A popular technique in the current research surrounding the cold-start problem is the use of hybrid models that combine two or more recommendation strategies that may contribute with their individual advantages. This thesis investigates the use of a hybrid model which combines Sentence BERT embeddings with a recommendation model based on Factorization Machines (FM). The research question is stated as: How does a hybrid recommendation system based on Factorization Machines with frozen Sentence BERT embeddings perform in terms of solving the cold-start problem?. Three experiments were conducted to answer the research question. These involved finding an optimal pre-trained Sentence BERT model, investigating the difference in performance between an FM-model and a hybrid FM-model, as well as the difference in ranking of an item depending on whether or not the hybrid FM-model has been trained on the item. The results show that the best pre-trained Sentence BERT model for producing meaningful embeddings is the paraphrase-MiniLM-L3-v2 model, that a hybrid FM-model and a standard FM-model perform almost equally in terms of precision and recall at 50, and that there is a weak correlation between the item-frequency and how the hybrid FM-model ranks an item when trained and not trained on the item. The answer to the research question is that a recommendation model based on Factorization Machines with frozen Sentence BERT embeddings displays low precision at 50 and recall at 50 values with the given parameters in comparison to the values given in an optimal recommendation scenario. The hybrid FM-model shows cold-start potential due to displaying similar results to the standard FM-model, but these values are so low that further investigation with other parameters is needed for a clearer conclusion. / Kallstartsproblem för artiklar som beskriver svårigheten hos rekommendationssystem gällande uppgiften att rekommendera nya artiklar till användare, är fortsatt en stor utmaning för rekommendationssystem som förlitar sig på data som beskriver interaktioner mellan användare och artiklar. En populär teknik inom den aktuella forskningen gällande kallstartsproblemet är användandet av hybridmodeller som kombinerar två eller flera rekommendationsstrategier och som potentiellt kan bidra med sina individuella fördelar. Detta examensarbete undersöker användandet av en hybridmodell som kombinerar menings-BERT inbäddningar med en rekommendationsmodell baserad på faktoriseringsmaskiner (FM). Frågeställningen lyder: Hur väl kan kallstartsproblemet för rekommendationer lösas med en hybridmodell baserad på faktoriseringsmaskiner med frusna menings-BERT-inbäddningar?. Tre experiment utfördes för att svara på frågeställningen. Dessa experiment innebar att hitta en optimal förtränad menings-BERT-modell, undersöka skillnaden i utförandet mellan en FM-modell och en hybrid FM-modell, samt skillnaden i ranking av en artikel baserat på huruvida hybridmodellen tränats eller inte tränats på artikeln. Resultaten visar att den bästa förtränade menings-BERT-modellen gällande skapandet av meningsfulla inbäddningar är paraphrase-MiniLM-L3-v2-modellen, att en hybrid FM-modell och en FM-modell genererar nästan identiska resultat baserat på precision och återkallelse för de första 50 resultaten och att det finns en svag korrelation mellan artikel-frekvens och hur hybridmodellen rankar en artikel när hybridmodellen tränats eller inte tränats på artikeln. Svaret på frågeställningen är att en hybrid FM-modell med frusna menings-BERT-inbäddningar visar låga resultat för precision och återkallelse för de första 50 resultaten givet de använda parametrarna jämfört med de värden som skulle genererats i ett optimalt rekommendationsscenario. Den hybrida FM-modellen visar kallstartspotential då den visar liknande resultat som FM-modellen, men dessa värden är så låga att frågan behöver undersökas ytterligare för tydligare resultat.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-321357
Date January 2022
CreatorsChowdhury, Sabrina
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageEnglish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2022:691

Page generated in 0.0185 seconds