• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 2
  • Tagged with
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Improving Multilingual Models for the Swedish Language : Exploring CrossLingual Transferability and Stereotypical Biases

Katsarou, Styliani January 2021 (has links)
The best performing Transformer-based Language Models are monolingual and mainly focus on high-resource languages such as English. In an attempt to extend their usage to more languages, multilingual models have been introduced. Nevertheless, multilingual models still underperform on a specific language when compared to a similarly sized monolingual model that has been trained solely on that specific language. The main objective of this thesis project is to explore how a multilingual model can be improved for Swedish which is a low-resource language. We study if a multilingual model can benefit from further pre-training on Swedish or on a mix of English and Swedish text before fine-tuning. Our results on the task of semantic text similarity show that further pre-training increases the Pearson Correlation Score by 5% for specific cross-lingual language settings. Taking into account the responsibilities that arise from the increased use of Language Models in real-world applications, we supplement our work by additional experiments that measure stereotypical biases associated to gender. We use a new dataset that we designed specifically for that purpose. Our systematic study compares Swedish to English as well as various model sizes. The insights from our exploration indicate that the Swedish language carries less bias associated to gender than English and that higher manifestation of gender bias is associated to the use of larger Language Models. / De bästa Transformerbaserade språkmodellerna är enspråkiga och fokuserar främst på resursrika språk som engelska. I ett försök att utöka deras användning till fler språk har flerspråkiga modeller introducerats. Flerspråkiga modeller underpresterar dock fortfarande på enskilda språk när man jämför med en enspråkig modell av samma storlek som enbart har tränats på det specifika språket. Huvudsyftet med detta examensarbete är att utforska hur en flerspråkig modell kan förbättras för svenska som är ett resurssnålt språk. Vi studerar om en flerspråkig modell kan dra nytta av ytterligare förträning på svenska eller av en blandning av engelsk och svensk text innan finjustering. Våra resultat på uppgiften om semantisk textlikhet visar att ytterligare förträning ökar Pearsons korrelationspoäng med 5% för specifika tvärspråkiga språkinställningar. Med hänsyn till det ansvar som uppstår från den ökade användningen av språkmodeller i verkliga tillämpningar, kompletterar vi vårt arbete med ytterligare experiment som mäter stereotypa fördomar kopplade till kön. Vi använder en ny datauppsättning som vi har utformat specifikt för det ändamålet. Vår systematiska studie jämför svenska med engelska samt olika modellstorlekar. Insikterna från vår forskning tyder på att det svenska språket har mindre partiskhet förknippat med kön än engelska, samt att högre manifestation av könsfördomar är förknippat med användningen av större språkmodeller.
2

Task-agnostic knowledge distillation of mBERT to Swedish / Uppgiftsagnostisk kunskapsdestillation av mBERT till svenska

Kina, Added January 2022 (has links)
Large transformer models have shown great performance in multiple natural language processing tasks. However, slow inference, strong dependency on powerful hardware, and large energy consumption limit their availability. Furthermore, the best-performing models use high-resource languages such as English, which increases the difficulty of using these models for low-resource languages. Research into compressing large transformer models has been successful, using methods such as knowledge distillation. In this thesis, an existing task-agnostic knowledge distillation method is employed by using Swedish data for distillation of mBERT models further pre-trained on different amounts of Swedish data, in order to obtain a smaller multilingual model with performance in Swedish competitive with a monolingual student model baseline. It is shown that none of the models distilled from a multilingual model outperform the distilled Swedish monolingual model on Swedish named entity recognition and Swedish translated natural language understanding benchmark tasks. It is also shown that further pre-training mBERT does not significantly affect the performance of the multilingual teacher or student models on downstream tasks. The results corroborate previously published results showing that no student model outperforms its teacher. / Stora transformator-modeller har uppvisat bra prestanda i flera olika uppgifter inom naturlig bearbetning av språk. Men långsam inferensförmåga, starkt beroende av kraftfull hårdvara och stor energiförbrukning begränsar deras tillgänglighet. Dessutom använder de bäst presterande modellerna högresursspråk som engelska, vilket ökar svårigheten att använda dessa modeller för lågresursspråk. Forskning om att komprimera dessa stora transformatormodeller har varit framgångsrik, med metoder som kunskapsdestillation. I denna avhandling används en existerande uppgiftsagnostisk kunskapsdestillationsmetod genom att använda svensk data för destillation av mBERT modeller vidare förtränade på olika mängder svensk data för att få fram en mindre flerspråkig modell med prestanda på svenska konkurrerande med en enspråkig elevmodell baslinje. Det visas att ingen av modellerna destillerade från en flerspråkig modell överträffar den destillerade svenska enspråkiga modellen på svensk namngiven enhetserkännande och svensk översatta naturlig språkförståelse benchmark uppgifter. Det visas också att ytterligare förträning av mBERTpåverkar inte väsentligt prestandan av de flerspråkiga lärar- eller elevmodeller för nedströmsuppgifter. Resultaten bekräftar tidigare publicerade resultat som visar att ingen elevmodell överträffar sin lärare.

Page generated in 0.0938 seconds