Return to search

Morfologinio daugiareikšminimo statistiniais metodais parametrų tyrimas / Research of morphological ambiguity parameters by statistical methods

Šiame darbe kuriamas įrankis, kuris padėtų nustatyti, kurios morfologinės žymos savybės yra svarbios sprendžiant lietuvių kalbos morfologinio daugiareikšmiškumo problemą. Morfologinio daugiareikšmiškumo problema išsprendžiama tuomet, kai pagal kontekstą vienam žodžiui priskiriama viena morfologinė žyma. Darbe naudojamas tekstynas, kurį sudaro daugiau nei 1.200.000 žodžių. Tekstyne žodžiams morfologines žymas nustatė ekspertas, o visos galimos žodžio morfologinės žymos buvo sugeneruotos su pagalbiniu įrankiu. Morfologinio daugiareikšmiškumo problemoms spręsti suprogramuotas ir taikytas Viterbi algoritmas, randantis tikėtiniausią sakinį atitinkančią kalbos dalių seką pagal sukurtus bigramų ar trigramų kalbos modelius. Atlikus testavimą naudojant dešimt kartų kryžminį patikrinimą, pasiekti toki rezultatai: • 90,10% – tikslumas, kuris parodo ar teisingai priskirta morfologinė žyma daugiareikšmiams žodžiams; • 96,39% – bendras tikslumas, kuris skaičiuojamas įtraukiant ir tuos žodžius, kurie turėjo tik vieną morfologinę žymą. / In this research was developed tool, which helps to determine, which morphological mark attributes are important when solving problem of morphological ambiguity in Lithuanian language. Morphological ambiguity problem is solved, when one word is matched with one morphological mark. Research uses corpus, which contains over than 1.200.000 words. Morphological marks in the corpus were assigned by expert and list of all possible morphological marks was generated with other utility. There was developed and applied Viterbi algorithm to solve morphological ambiguity problem, which finds the most expected path of part of speeches by created bigram or trigram speech models. Testing was implemented using cross validation with 10 folds. There was achieved these results: • 90,10% – accuracy, which shows if morphological mark was correctly match with ambiguous word; • 96,39% – total accuracy, which calculated when included non-ambiguous words.

Identiferoai:union.ndltd.org:LABT_ETD/oai:elaba.lt:LT-eLABa-0001:E.02~2010~D_20100615_084959-97619
Date15 June 2010
CreatorsŽiemelis, Audrius
ContributorsRaškinis, Gailius, Kazlauskas, Kazys, Tamošiūnaitė, Minija, Vytautas Magnus University
PublisherLithuanian Academic Libraries Network (LABT), Vytautas Magnus University
Source SetsLithuanian ETD submission system
LanguageLithuanian
Detected LanguageUnknown
TypeMaster thesis
Formatapplication/pdf
Sourcehttp://vddb.laba.lt/obj/LT-eLABa-0001:E.02~2010~D_20100615_084959-97619
RightsUnrestricted

Page generated in 0.0019 seconds