• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 1
  • Tagged with
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Morfologinio daugiareikšminimo statistiniais metodais parametrų tyrimas / Research of morphological ambiguity parameters by statistical methods

Žiemelis, Audrius 15 June 2010 (has links)
Šiame darbe kuriamas įrankis, kuris padėtų nustatyti, kurios morfologinės žymos savybės yra svarbios sprendžiant lietuvių kalbos morfologinio daugiareikšmiškumo problemą. Morfologinio daugiareikšmiškumo problema išsprendžiama tuomet, kai pagal kontekstą vienam žodžiui priskiriama viena morfologinė žyma. Darbe naudojamas tekstynas, kurį sudaro daugiau nei 1.200.000 žodžių. Tekstyne žodžiams morfologines žymas nustatė ekspertas, o visos galimos žodžio morfologinės žymos buvo sugeneruotos su pagalbiniu įrankiu. Morfologinio daugiareikšmiškumo problemoms spręsti suprogramuotas ir taikytas Viterbi algoritmas, randantis tikėtiniausią sakinį atitinkančią kalbos dalių seką pagal sukurtus bigramų ar trigramų kalbos modelius. Atlikus testavimą naudojant dešimt kartų kryžminį patikrinimą, pasiekti toki rezultatai: • 90,10% – tikslumas, kuris parodo ar teisingai priskirta morfologinė žyma daugiareikšmiams žodžiams; • 96,39% – bendras tikslumas, kuris skaičiuojamas įtraukiant ir tuos žodžius, kurie turėjo tik vieną morfologinę žymą. / In this research was developed tool, which helps to determine, which morphological mark attributes are important when solving problem of morphological ambiguity in Lithuanian language. Morphological ambiguity problem is solved, when one word is matched with one morphological mark. Research uses corpus, which contains over than 1.200.000 words. Morphological marks in the corpus were assigned by expert and list of all possible morphological marks was generated with other utility. There was developed and applied Viterbi algorithm to solve morphological ambiguity problem, which finds the most expected path of part of speeches by created bigram or trigram speech models. Testing was implemented using cross validation with 10 folds. There was achieved these results: • 90,10% – accuracy, which shows if morphological mark was correctly match with ambiguous word; • 96,39% – total accuracy, which calculated when included non-ambiguous words.

Page generated in 0.0744 seconds