• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 1
  • Tagged with
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Language identification for typologically similar low-resource languages: : A case study of Meänkieli, Kven and Finnish / Språkidentifering för typologiskt närbesläktade lågresursspråk: : En fallstudie för meänkieli, kvänska och finska

Larsson, Jacob January 2024 (has links)
This study examines different methods of language identification for the languages Meänkieli, Kven, and Finnish. The methods explored are two n-gram-based classifiers; Naive Bayes and TextCat and one word embedding-based classifier; fastText. These models were trained on approximately 100.000 sentences taken from the three languages and further divided into four separate datasets to examine how data availability impacts the final performance of the trained models. The study found that the best model for the examined dataset was the fastText classifier, but for languages with less available material a naive Bayes classifier might be more appropriate. / Denna studie utforskar olika metoder av språkidentifering för språken meänkieli, kvänska och finska. Två metoder baserade på n-gram undersöks; naive Bayes och TextCat samt en metod med ordinbäddningar; fastText. Dessa modeller tränades på sammanlagt 100 000 meningar taget från dessa tre språk och delades vidare in i fyra delmängder för att utvärdera hur stor inverkan storleken av träningsdata har på de tränade modellerna. Studien fann att den bästa implementationen utifrån den undersökta datamängden var fastText, medans språk med färre resurser skulle förmodligen gynnas bättre av en språkidentifering byggd med en naive Bayes klassifierare.

Page generated in 0.0597 seconds