Return to search

Spelling Correction in a Music Entity Search Engine by Learning from Historical Search Queries / Stavningskorrigering i en sökmotor för musik genom att lära av historiska söksträngar

Query spelling correction is an important component of modern search engines that can help users to express their intent, and thus improve search quality. In this study, we investigated with what accuracy a sequence-to-sequence recurrent neural network (RNN) can recognise and correct misspellings in a music search engine, when the model is trained with old search queries. A sequence-to-sequence RNN was chosen as the model in this study since it has achieved state-of-the-art performance on similar tasks, such as machine translation and speech recognition. The findings from the study imply that the model learns to correct and complete queries with higher accuracy compared to a baseline model that returns the input query. However, we suggest that, for a model that would be good enough for production, more work needs to be done. Especially, work on creating a cleaner, less biased training dataset. Nevertheless, our work strengthens the idea that sequence-to-sequence RNNs could be used as a spell correction system in search engines. / Stavningskorrigering av söksträngar är en viktig komponent i moderna sökmotorer. Stavningskorrigering kan hjälpa användarna att uttrycka sig och därmed förbättra kvaliteten i sökningen. I det här arbetet undersökte vi med vilken noggrannhet en Recurrent neural network (RNN) modell kan lära sig att korrigera felstavningar i söksträngar från en sökmotor för musik. RNN modellen tränades med söksträngar från historiska sökningar från sökmotorn. Anledningen till att RNN valdes som modell i den här studien var för att den har uppnått hittills bästa möjliga resultat på liknande uppgifter, såsom maskinöversättning och taligenkänning. Resultaten från vår studie visar att modellen lär sig att korrigera och komplettera söksträngar med högre noggrannhet än en basmodell som enbart returnerar indatasträngen. För att utveckla en modell som är tillräckligt bra för produktion föreslår vi emellertid att mer arbete måste utföras. Framför allt är vi övertygade om att ett renare, mindre systematiskt avvikande träningsdataset skulle förbättra modellen. På det hela taget stärker dock vårt arbete hypothesen att RNN modeller kan användas som stavningskorrigeringssystem i sökmotorer.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-229716
Date January 2018
CreatorsMovin, Maria
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2018:320

Page generated in 0.0054 seconds