Global ETD Search

1	Lietuvių kalbos tekstynų saugojimas naudojant reliacines duomenų bazes / Lithuanian language corpus storage using relational database systems Šadauskas, Marius 15 June 2011 (has links) Šiame darbe analizuojamos trys egzistuojančios tekstynų sistemos. Lietuvių kalbos tekstyno paieška sukurta su Lucene paieškos sistema, vokiečių tekstyno lietuviškų tekstų paieška sukurta MySQL pagrindu, bei britų nacionalinio tekstyno paieška sukurta su Xaira programine įranga. Plačiau aprašomas šių sistemų indeksavimo ir paieškos veikimas. Taip pat Fedora ir DSpace repozitoriumų sistemos, kurios buvo išbandytos ir palygintos tarpusavyje. Nei viena iš egzistuojančių sistemų neturi galimybės indeksuoti morfologiškai žymėtus tekstynus ir atlikti paiešką juose, todėl pasiūlomas prototipinis tekstyno sistemos sprendimas, kuris leistų tai atlikti. Tekstynai saugomi XML dokumentuose ir yra morfologiškai sužymėti TEI P5 formatu. Prototipinė sistema leidžia atlikti paiešką pagal konkretų žodį, pagal pagrindinę žodžio formą - lemą. Rezultatai pateikiami vartotojui patogia forma – sakiniais. Paieškos rezultatuose yra pateikiami sakiniai su ieškotu žodžiu ir su ieškoto žodžio lema, taip pateikiant daugiau rezultatų. Pasiūlytas prototipinės sistemos modeliui sukurti panaudojus vieną iš reliacinių duomenų bazių sistemų – MySQL, taip pat XPath ir PHP programavimo kalba. / In this Master Thesis has been researched three existing corpus systems. Lithuanian corpus search system, which is created by Lucene search engine. German corpus search system which uses Lithuanian Wikipedia texts as corpus. This system which is created by MySQL. British national corpus search system which is created by Xaira software. All these systems are analyzed and explained how indexing and searching components works. Also two popular repository systems were taken and researched deeply, it’s Fedora and DSpace. None of existing systems had morphological search option, that is why prototype system is created. All texts are stored in XML files which are marked by TEI P5 format. Prototype system allows perform a search by exact word and by main word form called lemma. Results are displayed by sentences. At first system displays sentences of exact word and sentences where same lemma as search word exists. Prototype system is created using MySQL database system also for programming PHP and XPath is used. Informatics Morfologinė paieška Tekstynai TEI Repozitoriumai Mophological search Corpus TEI Repository

Search results

Lietuvių kalbos tekstynų saugojimas naudojant reliacines duomenų bazes / Lithuanian language corpus storage using relational database systems