Modern search engines, particularly those utilizing the BM25 ranking algorithm, offer a multitude of tunable parameters designed to refine search results. Among these parameters, the weight of each searchable field plays a crucial role in enhancing search outcomes. Traditional methods of discovering optimal weight combinations, however, are often exploratory, demanding substantial time and risking the delivery of substandard results during testing. This thesis proposes a streamlined solution: an ordinal-regression-based model specifically engineered to identify optimal weight combinations with minimal data input, within an offline testing environment. The evaluation corpus comprises a comprehensive snapshot of a product search database from Tradera. The top $100$ search queries and corresponding search results pages on the Tradera platform were divided into a training set and an evaluation set. The model underwent iterative training on the training set, and subsequent testing on the evaluation set, with progressively increasing amounts of labeled data. This methodological approach allowed examining the model's proficiency in deriving high-performance weight combinations from limited data. The empirical experiments conducted confirmed that the proposed model successfully generated promising weight combinations, even with restricted data, and exhibited robust generalization to the evaluation dataset. In conclusion, this research substantiates the significant potential for enhancing search results by tuning searchable field weights using a regression-based model, even in data-scarce scenarios. / Moderna sökmotorer, i synnerhet sådana som använder rankningsalgoritmen BM25, erbjuder en mängd justerbara parametrar utformade för att förbättra sökresultat. Bland dessa parametrar spelar vikten av varje sökbart fält en avgörande roll för att förbättra sökresultaten. Traditionella metoder för att hitta optimala viktkombinationer är dock ofta utforskande, kräver mycket tid och riskerar att ge undermåliga sökresultat under testningsperioden. Denna avhandling föreslår en strömlinjeformad lösning: en ordinal-regressionsbaserad modell specifikt utvecklad för att identifiera optimala viktkombinationer med minimal träningsdata, inom en offline testmiljö. Utvärderingskorpus består av en omfattande ögonblicksbild av en produktsökdatabas från Tradera. De $100$ vanligaste sökfrågorna och motsvarande sökresultatssidor på Traderas plattform delades in i en träningsuppsättning och en utvärderingsuppsättning. Modellen genomgick iterativ träning på träningsuppsättningen, och därefter testning på utvärderingsuppsättningen, med successivt ökande mängder av kategoriserad data. Denna metodologiska strategi möjliggjorde undersökning av modellens förmåga att härleda högpresterande viktkombinationer från begränsad data. De empiriska experimenten som genomfördes bekräftade att den föreslagna modellen framgångsrikt genererade lovande viktkombinationer, även med begränsad data, och uppvisade robust generalisering till utvärderingsdatamängden. Sammanfattningsvis bekräftar denna forskning den betydande potentialen för förbättring av sökresultat genom att justera sökbara fältvikter med hjälp av en regressionsbaserad modell, även i datasnåla scenarion.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-337047 |
Date | January 2023 |
Creators | Kader, Zino |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS), Stockholm : KTH Royal Institute of Technology |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2023:627 |
Page generated in 0.0029 seconds