The objective of this thesis was to explore whether there are alternatives to the established search ranking algorithm Best Matching 25 (BM25) when searching for shorter documents, in particular for the search of titles. Five search engines were compared to BM25, three of them being variants of the BM25 algorithm and the other two being based on a binary independence model that does not take term frequency or length normalisation into account. The evaluation data consisted of titles of Wikipedia articles from the fair ranking track retrieved from the main conference in the field, Text REtrieval Conference (TREC), and user logs collected from user search queries from Spotify. It was found that none of the alternative models consistently outperformed the standard BM25 for a query q where the number of words in q ranges between 1 ≤ |q| ≤ 8. Yet, for shorter queries |q| ≤ 3, the binary independence model and BM25 adaptive term (BM25adpt) outperformed the standard BM25. Furthermore, a 1% increase in Mean Average Precision (MAP) score was acquired with a binary independence model and BM25adpt compared to BM25 when sampling queries from the user log data. However, because of the bias in the evaluation data together with the small percentage increase in MAP score, it was concluded that the potential benefit of using the methods explored in this thesis is not enough to justify switching from the BM25 algorithm when searching for titles. / Målet med avhandlingen var att undersöka om det finns alternativ till den vedertagna sökalgoritmen Best matching 25 (BM25) vid sökning bland kortare document, närmare bestämt vid titelsökning. Fem sökmotorer jämfördes med BM25, tre av dem var varianter av BM25 och de andra två varianter av en binär oberoende modell. Den senare modellen använder sig inte av ordfrekvens eller längdnormalisering i sin beräkning, till skillnad från de tidigare modellerna. Evalueringsdatan bestod av titlar från Wikipedia som hämtats från den främsta konferensen inom informationssökning, Text retrieval conference (TREC), och även användarloggar hämtade från användarsökningar från Spotifys datasamling. Ingen av de alternativa modellerna presterade konsekvent bättre än BM25 när antalet ord i söktexten q varierade mellan 1 ≤ |q| ≤ 8. För kortare söktexter |q| ≤ 3 kunde både en binär oberoende modell och en BM25 adaptive term-modell (BM25adpt) prestera bättre än BM25. Vidare så kunde man se en ökning på den genomsnittliga precisionen (MAP) på 1% både hos den binära oberoende modellen och BM25adpt-modellen jämfört med BM25 när flera stickprov från användarloggdatan gjordes. På grund av att evalueringsdatan har en bias tillsammans med att den potentiella ökningen av MAP endast når upp till 1% drogs slutsatsen att fördelen med att använda en annan modell inte rättfärdigar bytet från BM25 vid titelsökning.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-321410 |
Date | January 2022 |
Creators | Rostami, Lara |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2022:581 |
Page generated in 0.0229 seconds