The best performing Transformer-based Language Models are monolingual and mainly focus on high-resource languages such as English. In an attempt to extend their usage to more languages, multilingual models have been introduced. Nevertheless, multilingual models still underperform on a specific language when compared to a similarly sized monolingual model that has been trained solely on that specific language. The main objective of this thesis project is to explore how a multilingual model can be improved for Swedish which is a low-resource language. We study if a multilingual model can benefit from further pre-training on Swedish or on a mix of English and Swedish text before fine-tuning. Our results on the task of semantic text similarity show that further pre-training increases the Pearson Correlation Score by 5% for specific cross-lingual language settings. Taking into account the responsibilities that arise from the increased use of Language Models in real-world applications, we supplement our work by additional experiments that measure stereotypical biases associated to gender. We use a new dataset that we designed specifically for that purpose. Our systematic study compares Swedish to English as well as various model sizes. The insights from our exploration indicate that the Swedish language carries less bias associated to gender than English and that higher manifestation of gender bias is associated to the use of larger Language Models. / De bästa Transformerbaserade språkmodellerna är enspråkiga och fokuserar främst på resursrika språk som engelska. I ett försök att utöka deras användning till fler språk har flerspråkiga modeller introducerats. Flerspråkiga modeller underpresterar dock fortfarande på enskilda språk när man jämför med en enspråkig modell av samma storlek som enbart har tränats på det specifika språket. Huvudsyftet med detta examensarbete är att utforska hur en flerspråkig modell kan förbättras för svenska som är ett resurssnålt språk. Vi studerar om en flerspråkig modell kan dra nytta av ytterligare förträning på svenska eller av en blandning av engelsk och svensk text innan finjustering. Våra resultat på uppgiften om semantisk textlikhet visar att ytterligare förträning ökar Pearsons korrelationspoäng med 5% för specifika tvärspråkiga språkinställningar. Med hänsyn till det ansvar som uppstår från den ökade användningen av språkmodeller i verkliga tillämpningar, kompletterar vi vårt arbete med ytterligare experiment som mäter stereotypa fördomar kopplade till kön. Vi använder en ny datauppsättning som vi har utformat specifikt för det ändamålet. Vår systematiska studie jämför svenska med engelska samt olika modellstorlekar. Insikterna från vår forskning tyder på att det svenska språket har mindre partiskhet förknippat med kön än engelska, samt att högre manifestation av könsfördomar är förknippat med användningen av större språkmodeller.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-305920 |
Date | January 2021 |
Creators | Katsarou, Styliani |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2021:829 |
Page generated in 0.0016 seconds