Global ETD Search

1	Neural maskinöversättning av gawarbati / Neural machine translation for Gawarbati Gillholm, Katarina January 2023 (has links) Nya neurala modeller har lett till stora framsteg inom maskinöversättning, men fungerar fortfarande sämre på språk som saknar stora mängder parallella data, så kallade lågresursspråk. Gawarbati är ett litet, hotat lågresursspråk där endast 5000 parallella meningar finns tillgängligt. Denna uppsats använder överföringsinlärning och hyperparametrar optimerade för små datamängder för att undersöka möjligheter och begränsningar för neural maskinöversättning från gawarbati till engelska. Genom att använda överföringsinlärning där en föräldramodell först tränades på hindi-engelska förbättrades översättningar med 1.8 BLEU och 1.3 chrF. Hyperparametrar optimerade för små datamängder ökade BLEU med 0.6 men minskade chrF med 1. Att kombinera överföringsinlärning och hyperparametrar optimerade för små datamängder försämrade resultatet med 0.5 BLEU och 2.2 chrF. De neurala modellerna jämförs med och presterar bättre än ordbaserad statistisk maskinöversättning och GPT-3. Den bäst presterande modellen uppnådde endast 2.8 BLEU och 19 chrF, vilket belyser begränsningarna av maskinöversättning på lågresursspråk samt det kritiska behovet av mer data. / Recent neural models have led to huge improvements in machine translation, but performance is still suboptimal for languages without large parallel datasets, so called low resource languages. Gawarbati is a small, threatened low resource language with only 5000 parallel sentences. This thesis uses transfer learning and hyperparameters optimized for small datasets to explore possibilities and limitations for neural machine translation from Gawarbati to English. Transfer learning, where the parent model was trained on parallel data between Hindi and English, improved results by 1.8 BLEU and 1.3 chrF. Hyperparameters optimized for small datasets increased BLEU by 0.6 but decreased chrF by 1. Combining transfer learning and hyperparameters optimized for small datasets led to a decrease in performance by 0.5 BLEU and 2.2 chrF. The neural models outperform a word based statistical machine translation and GPT-3. The highest performing model only achieved 2.8 BLEU and 19 chrF, which illustrates the limitations of machine translation for low resource languages and the critical need for more data. / VR 2020-01500 Machine translation neural machine translation NMT low resource language Gawarbati transfer learning GPT Maskinöversättning neural maskinöversättning NMT lågresursspråk gawarbati överföringsinlärning GPT
2	Light verb predicates in Gawarbati / Lättverbspredikat i Gawarbati Kalyva, Natalia January 2024 (has links) This is a corpus-based study about the light verb predicates (LVP) in Gawarbati, an Indo-Aryan language indigenous to the Hindu Kush region. This thesis aims to identify and analyse the frequency of light verbs, examine the borrowed elements within these constructions, and explore the semantic fields expressed through LVP. The data are speech events, gathered for the ongoing project “Gawarbati: Documenting a vulnerable linguistic community in the Hindu Kush”(2020-01500). The speech events were extracted from a corpus using Python and analysed manually. The results show that LVP represent 5.86% of all predicates in the data, with ‘to do’, ‘to give’, and ‘to say’ being the primary verbs, while a few others occur infrequently. Borrowed non-verbal elements in LVP, originating from Arabic, English, Persian, Pashto, and Urdu, constitute 68.92% of non-verbal elements within LVP. The main semanticfields expressed with LVP are basic actions and technology, speech and language, social andpolitical relations, cognition, and agriculture and vegetation. / Detta är en korpusbaserad studie om lättverbspredikat (LVP) i gawarbati, ett indoariskt språk som talas i Hindukush-området. Uppsatsens syfte är att identifiera lättverb i LVP i gawarbatioch analysera deras frekvens, undersöka låneord i LVP, samt utforska de semantiska fält som uttrycks genom sådana konstruktioner. Datan består av talhändelser som samlades ininför projektet “Gawarbati: Documenting a vulnerable linguistic community in the HinduKush”(2020-01500). Python användes för att exportera data från korpusen och vidare analys har gjorts manuellt. Resultatet visade att LVP representerar 5,86% av alla predikat i datan, med ‘att göra’, ‘att ge’ och ‘att säga’ som de primära lättverben och ett fåtal till som förekommer sällan. Inlånade icke-verbala element inom LVP härstammande från arabiska, engelska, persiska, pashto och urdu, och utgjorde 68,92% av alla hittade icke-verbala element inom LVP. De huvudsakliga semantiska fälten som uttrycktes med LVP var basala handlingar och teknologi, tal och språk, sociala och politiska relationer, kognition och jordbruk och vegetation. / Gawarbati: Documenting a vulnerable linguistic community in the Hindu Kush (VR 2020-01500) Light verb complex predicate light verb predicate Hindu Kush Gawarbati General Language Studies and Linguistics

Search results

Neural maskinöversättning av gawarbati / Neural machine translation for Gawarbati

Light verb predicates in Gawarbati / Lättverbspredikat i Gawarbati