Global ETD Search

Return to search

Straipsnių pasikartojimo internetinėje žiniasklaidoje analizė / Articles of online media recurrence analysis

Šiame darbe yra pateikiama informacija apie esamų darbų apžvalgą, kuriuose yra minimas panašios bei pasikartojančios informacijos ieškojimas, taip pat aprašoma darbų analizė, kuriuose yra minimas informacijos nuskaitymas iš internetinio portalo bei jos išsaugojimas. Dabartinėje rinkoje egzistuojančių programinių paketų bei karkasų apžvalga, kurių pagalba galima nuskaityti informacija iš internetinio puslapio paverčiant DOM objektais. Po darbų bei sistemų analizės sukurta sistema, kuri sugeba nuskaityti iš „Delfi.lt“ portalo turimo archyvo straipsnius bei komentarus. Pasinaudojant sukurtu programiniu kodu sukurta žinių bazė, kurią sudaro straipsniai ir straipsniams priklausantys komentarai. Žinių bazėje yra sukaupta 10 metų „Delfi.lt“ straipsniai. Atlikus panašiu darbų apžvalgą susijusią su pasikartojančios informacijos paieška įgyvendintas algoritmas, kurį naudojant galima nurodytoje žinių bazėje surasti skirtingus žodžius, suskaičiuoti žodžių reikšmingumą žinių bazę sudarantiems tekstams, bei paskaičiuoti skirtingų dokumentų panašumą. Naudojantis sukurtu programiniu kodu atlikta panašios informacijos paieška bei priimtas sprendimas ar pavyko rasti atsikartojančios informacijos ar ne. / This work describes the overview of the existing works whose has been carried out in the information extraction from the web site and the received information saving. Also describes overview of existing works where are mentioned duplicated information search. In current time ware overviewed existing software packages and frameworks, whose can help retrieve information from web pages and convert all HTML elements to DOM objects. After other existing works overview and systems analysis was created a system which is able to scan „Delfi.lt" portal archive for articles and comments. Using developed program code was created 10 years knowledge base, where are included all articles and articles comments. Also was adapted program code which can find all different words, words counts per documents and documents similarity from created knowledge base, and from results was decided are possible to found duplicated information or not.

Informatics

Straipsniai

Internetinė žiniasklaida

Identifer	oai:union.ndltd.org:LABT_ETD/oai:elaba.lt:LT-eLABa-0001:E.02~2013~D_20130618_103843-92506
Date	18 June 2013
Creators	Skarbalius, Ramūnas
Contributors	Daudaravičius, Vidas, Vitkutė-Adžgauskienė, Daiva, Telksnys, Laimutis, Raškinis, Gailius, Kęstutis, Kęstutis, Krilavičius, Tomas, Butkus, Laimonas, Vytautas Magnus University
Publisher	Lithuanian Academic Libraries Network (LABT), Vytautas Magnus University
Source Sets	Lithuanian ETD submission system
Language	Lithuanian
Detected Language	Unknown
Type	Master thesis
Format	application/pdf
Source	http://vddb.laba.lt/obj/LT-eLABa-0001:E.02~2013~D_20130618_103843-92506
Rights	Unrestricted

Page generated in 0.0027 seconds

Straipsnių pasikartojimo internetinėje žiniasklaidoje analizė / Articles of online media recurrence analysis

Description

Links & Downloads

Tags

Additional Fields