Return to search

Techniques for Multilingual Document Retrieval for Open-Domain Question Answering : Using hard negatives filtering, binary retrieval and data augmentation / Tekniker för flerspråkig dokumenthämtning för OpenQA : Använder hård negativ filtrering, binär sökning och dataförstärkning

Open Domain Question Answering (OpenQA) systems find an answer to a question from a large collection of unstructured documents. In this information era, we have an immense amount of data at our disposal. However, filtering all the content and trying to find the answers to our questions can be too time-consuming and ffdiicult. In addition, in such a globalised world, the information we look for to answer a question may be in a different language. Current research is focused on improving monolingual (English) OpenQA performance. This creates a disparity between the tools accessible between English and non-English speakers. The techniques explored in this study involve the combination of different methods, such as data augmentation and hard negative filtering for performance increase, and binary embeddings for improving the efficiency, with multilingual Transformers. The downstream performance is evaluated using sentiment multilingual datasets covering Cross-Lingual Transfer (XLT), question and answer in the same language, and Generalised Cross-Lingual Transfer (G-XLT), different languages for question and answer. The results show that data augmentation increased Recall by 37.0% and Mean Average Precision (MAP) by 67.0% using languages absent from the test set for XLT. Combining binary embeddings and hard negatives can reduce inference time and index size to 12.5% and 3.1% of the original, retaining 97.1% of the original Recall and 94.8% of MAP (averages of XLT and MAP). / Open Domain Question Answering (OpenQA)-system hittar svar på frågor till stora samlingar av ostrukturerade dokument. I denna informationsepok har vi en enorm mängd kunskap till vårt förfogande. Att filtrera allt innehåll för att försöka att hitta svar på våra frågor kan dock vara mycket tidskrävande och svårt. I en globaliserad värld kan informationen vi söker för att besvara en fråga dessutom vara på ett annat språk. Nuvarande forskning är primärt inriktad på att förbättra OpenQA:s enspråkiga (engelska) prestanda. Detta skapar ett gap mellan de verktyg som är tillgängliga för engelsktalande och icke-engelsktalande personer. De tekniker som undersöks i den här studien innebär en kombination av olika metoder, t.ex. dataförstärkning och hård negativ filtrering för att öka prestandan, och binära embeddings för att förbättra effektiviteten med flerspråkiga Transformatorer. Prestandan nedströms utvärderas med hjälp av flerspråkiga dataset som omfattar Cross-Lingual Transfer (XLT), fråga och svar på samma språk, och Generalised Cross-Lingual Transfer (G-XLT), olika språk för fråga och svar. Resultaten visar att dataförstärkning ökade recall med 37.0% och 67.0% för Mean Average Precision (MAP) med hjälp av språk som inte fanns med i testuppsättningen för XLT. Genom att kombinera binära embeddings och hårda negationer kan man minska tiden för inferens och indexstorleken till 12.5% och 3.1% av originalet, samtidigt som man behåller 97.1% av ursprunglig recall samt 94.8% av MAP (medelvärden av XLT och MAP).

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-321545
Date January 2022
CreatorsLago Solas, Carlos
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS), Stockholm : KTH Royal Institute of Technology
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2022:733

Page generated in 0.0025 seconds