Return to search

Statistiniai kolokacijų nustatymo metodai ir vertimo atitikmenys lygiagrečiajame grožinės literatūros tekstyne / Statistical collocation extraction methods and translation equivalents in the Pprallel corpus of fiction

Darbo tyrimo objektas – kolokacijos ir jų tyrimo metodai. Pagrindinis darbo tikslas – išanalizuoti statistiniais metodais nustatytų kolokacijų sąrašus, juos palyginti ir išnagrinėti atrinktų kolokacijų vertimo atitikmenis.
Darbo aktualumas – kolokacijų analizė padės lingvistams ir kitiems kalbos specialistams pasirinkti tinkamą kolokacijų nustatymo metodą tiek anglų, tiek lietuvių kalbai. O kolokacijų vertimo proceso supratimas svarbus vertimo analizei, vertėjų darbui.
Tyrimas susideda iš penkių dalių. Antrajame skyriuje pristatoma teorinė kolokacijos sąvoka. Pateikiama sudėtinga kolokacijų vertimo problematika ir keturių analizei pasirinktų statistinių metodų charakteristikos: Tarpusavio Informacija (angl. Mutual Information), T-lygmuo (angl. T-score), Lošimo kauliukų metodas (angl. Dice) ir Logaritminio tikėtinumo santykis (angl. Log-likelihood ratio).
Trečiajame skyriuje, remiantis pagrindiniu analizės šaltiniu – lygiagrečiu grožinės literatūros tekstynu, nustatomi kolokacijų sąrašai. Paaiškėja, kad T-lygmens ir Logaritminio tikėtinumo santykio (LTS) metoduose išryškėjo gramatinės kolokacijos, o Tarpusavio Informacijos (TI) ir Lošimo kauliukų (LK) metoduose – leksinės. Parinktos ir apibrėžtos kolokacijų ribos bei metodų panašumo koeficientai.
Ketvirtajame skyriuje pasirenkamas 200 geriausiųjų kolokacijų sąrašas ir atliekamas kiekvienos kalbos statistinių metodų palyginimas. Metodai lyginami poromis pagal panašumo kriterijus – LK su TI (leksinės kolokacijos) bei... [toliau žr. visą tekstą] / The main objective of the Master thesis is collocations and collocation extraction methods. The aim of the research is to analyze collocation lists extracted by statistical methods from the parallel corpus of fiction and determine the collocation equivalents.
Relevance of the thesis – collocation analysis can help linguists and other language specialists choose the right collocaton extraction methods in both, English and Lithuanian, languages. What is more, understanding of collocation translation process is very important for the translation analysis and interpreters.
Research consists of 5 parts. Chapter 2 presents the concept of collocation and possible collocation translation problems. The theoretical part also includes the characteristics of the four selected statistical methods: Mutual Information (MI), T-score, Dice and Log-likelihood ratio (LLR).
In chapter 3, collocation lists for each language, English and Lithuanian, are extracted. The analysis reveal that T-score and LLR methods extract grammatical collocations, while MI and Dice – lexical ones. Futher in this chapter, collocation boundaries and the coefficients of each method are defined.
Chapter 4 presents a list of top 200 collocations of each language and method. The methods with new collocation lists are compared in pairs according to similarity criteria - Dice with MI (lexical collocations) and T-score with LLR (grammatical). Another distribution of bigrams according to frequency is identified, and both... [to full text]

Identiferoai:union.ndltd.org:LABT_ETD/oai:elaba.lt:LT-eLABa-0001:E.02~2010~D_20100617_111239-72584
Date17 June 2010
CreatorsKaraliūtė, Asta
ContributorsUtka, Andrius, Boizou, Loic, Vytautas Magnus University
PublisherLithuanian Academic Libraries Network (LABT), Vytautas Magnus University
Source SetsLithuanian ETD submission system
LanguageLithuanian
Detected LanguageEnglish
TypeMaster thesis
Formatapplication/pdf
Sourcehttp://vddb.laba.lt/obj/LT-eLABa-0001:E.02~2010~D_20100617_111239-72584
RightsUnrestricted

Page generated in 0.0022 seconds