Return to search

Language identification for typologically similar low-resource languages: : A case study of Meänkieli, Kven and Finnish / Språkidentifering för typologiskt närbesläktade lågresursspråk: : En fallstudie för meänkieli, kvänska och finska

This study examines different methods of language identification for the languages Meänkieli, Kven, and Finnish. The methods explored are two n-gram-based classifiers; Naive Bayes and TextCat and one word embedding-based classifier; fastText. These models were trained on approximately 100.000 sentences taken from the three languages and further divided into four separate datasets to examine how data availability impacts the final performance of the trained models. The study found that the best model for the examined dataset was the fastText classifier, but for languages with less available material a naive Bayes classifier might be more appropriate. / Denna studie utforskar olika metoder av språkidentifering för språken meänkieli, kvänska och finska. Två metoder baserade på n-gram undersöks; naive Bayes och TextCat samt en metod med ordinbäddningar; fastText. Dessa modeller tränades på sammanlagt 100 000 meningar taget från dessa tre språk och delades vidare in i fyra delmängder för att utvärdera hur stor inverkan storleken av träningsdata har på de tränade modellerna. Studien fann att den bästa implementationen utifrån den undersökta datamängden var fastText, medans språk med färre resurser skulle förmodligen gynnas bättre av en språkidentifering byggd med en naive Bayes klassifierare.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:su-230776
Date January 2024
CreatorsLarsson, Jacob
PublisherStockholms universitet, Avdelningen för datorlingvistik
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0024 seconds