This thesis presents a method which reduces the amount of labour required to translate the English question answering dataset SQuAD into Swedish. The purpose of the study is to contribute to shrinking the gap between natural language processing research in English and research in lesser-resourced languages by providing a method for creating datasets in these languages which are counterparts to those used in English. This would allow for the results from English studies to be evaluated in more languages. The method put forward by this thesis uses multilingual sentence embeddings to search for and rank answers to English SQuAD questions in SwedishWikipedia articles associated with the question. The resulting search results are then used to pair SQuAD questions with sentences that contain their answers. We also estimate to what extent SQuAD questions have answers in the Swedish edition of Wikipedia, concluding that this proportion of questions is small but still useful in size. Further, the evaluation of the method shows that it provides a clear reduction in the labour required for translating SQuAD into Swedish, while impacting the amount of datapoints retained in a resulting translation to a degree which is acceptable for many use-cases. Manual labour is still required for translating the SQuAD questions and for locating the answers within the Swedish sentences which contain them. Researching ways to automate these processes would further increase the utility of the approach, but are outside the scope of this thesis. / I detta examensarbete presenteras en metod som syftar till att minska mängden arbete som krävs för att översätta fråga-svarskorpuset SQuAD från engelska till svenska. Syftet med studien är att bidra till att minska glappet mellan språkteknologisk forskning på engelska och forskningen på språk med mindre resurser. Detta åstadkoms genom att beskriva en metod för att skapa korpusar liknande dem som används inom forskning på engelska och som kan användas för att utvärdera i vilken utsträckning resultat från den forskningen generaliserar till andra språk. Metoden använder språkagnostiska meningsvektorer för att söka efter svar på engelska SQuAD-frågor i svenska Wikipedia-artiklar, och sedan ranka dessa. Sökresultaten används sedan för att para samman SQuAD-frågor med de svenska meningar som innehåller deras svar. Även utsträckningen i vilken svar på engelska SQuAD-frågor står att finna i den svenska upplagan av Wikipedia undersöktes. Andelen SQuAD-frågor där ett svar fanns i den svenska Wikipedia-artikel som var associerad med frågan var liten men ändå användbar. Vidare visar utvärderingen av metoden att den innebär en tydlig minskning av mängden arbete som krävs för att översätta SQuAD till svenska. Denna minskning åstadkoms samtidigt som mängden fråga-svarspar som missas som en konsekvens av detta är acceptabel för många användningsområden. Manuellt arbete krävs fortfarande för att översätta SQuAD-frågorna från engelska och för att hitta var i de svenska meningarna som svaren finns. Vidare studier kring dessa frågor skulle bidra till att göra metoden än mer användbar, men ligger utanför avgränsningen för denna uppsats.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-281826 |
Date | January 2020 |
Creators | Vakili, Thomas |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2020:581 |
Page generated in 0.0021 seconds