Global ETD Search

Return to search

Teksto skaidymas pastoviųjų junginių segmentais / Collocation segmentation for text chunking

Teksto skaidymo įvairaus tipo segmentais metodai yra plačiai naudojami teksto apdorojimui. Segmentuojant naudojami tiek statistiniai, tiek formalieji metodai. Disertacijoje pristatomas naujas segmentavimo tipas ir metodas - segmentavimas pastoviaisiais junginiais - ir pateikiami taikymai įvairiose teksto apdorojimo srityse. Taikant pastoviųjų junginių segmentavimą leksikografijoje atskleidžiama, kaip objektyviai ir greitai galima analizuoti labai didelius tekstų archyvus aptinkant vartojamą terminiją ir šių automatiškai identifikuotų terminų svarbumą ir kaitą laiko tėkmėje. Ši analizė leidžia greitai nustatyti svarbius metodologinius pokyčius mokslinių tyrimų istorijoje ir nustatyti pastarojo meto aktualias tyrimų sritis. Tekstų klasifikavimo taikyme atskleidžiama, kaip taikant segmentavimą pastoviaisiais junginiais galima pagerinti tekstų klasifikavimo rezultatus. Taip pat, pasitelkiant segmentavimą pastoviaisiais junginiais, atskleidžiama, kad nežymiai galima pagerinti statistinio mašininio vertimo kokybę, ir atskleidžiama įvairių žodžių junglumo įverčių įtaka segmentavimui pastoviaisiais junginiais. Naujas teksto skaidymo pastoviaisiais junginiais metodas atskleidžia naujas galimybes gerinti teksto apdorojimo rezultatus įvairiuose taikymuose ir įvairiose kalbose. / Segmentation is a widely used paradigm in text processing. Rule-based, statistical and hybrid methods are employed to perform the segmentation. This dissertation introduces a new type of segmentation - collocation segmentation - and a new method to perform it, and applies them to three different text processing tasks. In lexicography, collocation segmentation makes possible the use of large corpora to evaluate the usage and importance of terminology over time. Text categorization results can be improved using collocation segmentation. The study shows that collocation segmentation, without any other language resources, achieves better results than the widely used n-gram techniques together with POS (Part-of-Speech) processing tools. Also, the preprocessing of data with collocation segmentation and subsequent integration of these segments into a Statistical Machine Translation system improves the translation results. Diverse word combinability measures variously influence the final collocation segmentation and, thus, the translation results. The new collocation segmentation method is simple, efficient and applicable to language processing for diverse applications.

Informatics

Pastovieji junginiai

Daugiažodžiai junginiai

Terminologija

Mašininis vertimas

Tekstų klasifikavimas

Collocation segmentation

Identifer	oai:union.ndltd.org:LABT_ETD/oai:elaba.lt:LT-eLABa-0001:E.02~2013~D_20130204_112746-86101
Date	04 February 2013
Creators	Daudaravičius, Vidas
Contributors	Tamošiūnaitė, Minija, Kaminskas, Vytautas, Telksnys, Laimutis, Dabašinskienė, Ineta, Butleris, Rimantas, Maskeliūnas, Rytis, Kalėdaitė, Violeta, Rudžionis, Vytautas, Vytautas Magnus University
Publisher	Lithuanian Academic Libraries Network (LABT), Vytautas Magnus University
Source Sets	Lithuanian ETD submission system
Language	Lithuanian
Detected Language	Unknown
Type	Doctoral thesis
Format	application/pdf
Source	http://vddb.laba.lt/obj/LT-eLABa-0001:E.02~2013~D_20130204_112746-86101
Rights	Unrestricted

Page generated in 0.0031 seconds

Teksto skaidymas pastoviųjų junginių segmentais / Collocation segmentation for text chunking

Description

Links & Downloads

Tags

Additional Fields