Query spelling correction is an important component of modern search engines that can help users to express their intent, and thus improve search quality. In this study, we investigated with what accuracy a sequence-to-sequence recurrent neural network (RNN) can recognise and correct misspellings in a music search engine, when the model is trained with old search queries. A sequence-to-sequence RNN was chosen as the model in this study since it has achieved state-of-the-art performance on similar tasks, such as machine translation and speech recognition. The findings from the study imply that the model learns to correct and complete queries with higher accuracy compared to a baseline model that returns the input query. However, we suggest that, for a model that would be good enough for production, more work needs to be done. Especially, work on creating a cleaner, less biased training dataset. Nevertheless, our work strengthens the idea that sequence-to-sequence RNNs could be used as a spell correction system in search engines. / Stavningskorrigering av söksträngar är en viktig komponent i moderna sökmotorer. Stavningskorrigering kan hjälpa användarna att uttrycka sig och därmed förbättra kvaliteten i sökningen. I det här arbetet undersökte vi med vilken noggrannhet en Recurrent neural network (RNN) modell kan lära sig att korrigera felstavningar i söksträngar från en sökmotor för musik. RNN modellen tränades med söksträngar från historiska sökningar från sökmotorn. Anledningen till att RNN valdes som modell i den här studien var för att den har uppnått hittills bästa möjliga resultat på liknande uppgifter, såsom maskinöversättning och taligenkänning. Resultaten från vår studie visar att modellen lär sig att korrigera och komplettera söksträngar med högre noggrannhet än en basmodell som enbart returnerar indatasträngen. För att utveckla en modell som är tillräckligt bra för produktion föreslår vi emellertid att mer arbete måste utföras. Framför allt är vi övertygade om att ett renare, mindre systematiskt avvikande träningsdataset skulle förbättra modellen. På det hela taget stärker dock vårt arbete hypothesen att RNN modeller kan användas som stavningskorrigeringssystem i sökmotorer.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-229716 |
Date | January 2018 |
Creators | Movin, Maria |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2018:320 |
Page generated in 0.002 seconds