Spelling suggestions: "subject:"bigramų"" "subject:"diagramų""
1 |
BNS informacinių žinučių analizė teminiu aspektu / Topic analysis in news items of BNS news agencyGrigaitytė, Justina 17 June 2010 (has links)
Darbe nagrinėjamas temų identifikavimo uždavinys, kuris siejamas su teksto klasifikavimu į tam tikras kategorijas, t.y. įvairių tekstinių duomenų grupavimas pagal atitinkamas temas. Žinutės naujienų agentūrose yra skirstomos į atskiras grupes ir pogrupius pagal temas. Šis darbas atliekamas rankomis, t.y. perskaitomas tekstas ir priskiriamas kokiai nors temai. Vis dėlto, vystantis žiniasklaidai ir kuriantis įvairiems naujienų portalams, aktualu naujienas skirstyti ne rankiniu, o automatiniu būdu, todėl galimybė automatizuoti šį procesą galėtų būti naudinga įvairiems naujienų portalams, padedant skirstyti pranešimus ir taupant laiko bei energijos sąnaudas.
Darbo objektą apima 2007 metų BNS spaudos centro žinutės.
Darbo tikslas – išsiaiškinti, kaip atskiri žodžiai padeda nustatyti teksto temą.
Temos nustatymui taikomi trys metodai: dažnų žodžių, dvižodžių junginių (bigramų) ir prasminių žodžių. Darbas susideda iš trijų dalių.
Pirmoje dalyje buvo aptarti teoriniai pagrindai (temos nustatymas, tekstų klasifikavimas, žinių kalba). Apžvelgus žinučių ypatumus pastebėta, kad šis informacinis žanras iš kitų išsiskiria tekstų glaustumu, faktų konstatavimu. Taip pat daroma prielaida, kad temos nustatymo tikslumui yra svarbu žinutės apimtis ir aktualumas.
Antroje dalyje aprašyti dažnų žodžių ir dvižodžių junginių sąrašų sudarymo bei prasminių žodžių ištraukimo būdai. Apžvelgus naujienų skirstymą pagal temas, buvo sudarytas temų sąrašas ir juo remiantis, buvo anotuoti dažnų žodžių ir... [toliau žr. visą tekstą] / The thesis is based on topic detection in BNS news reports. The reports are divided into different groups and sub-grouped according to topics. This topic analysis is manual; namely, reading texts and assigning to any topic. However, media and various news portals are developing very quickly, so the possibility to distribute reports automatically is quite relevant problem. The automated topic detection process would be useful for various news portals, automated distribution would save time and energy costs. Therefore, the task of the paper is topic detection issue, which is associated with the classification of text into certain categories, in other words, various text data is classified by subject.
The object of the thesis is reports from BNS news agency received in 2007. The aim of the paper is to analyze how separate words help identify the topic. Three methods are applied to detect the topic: high frequency words, bigrams (two-word compounds) and the keywords. The paper consists of three parts.
The first part is theoretical; it presents the bases of topic detection, text classification and report language. The report was chosen because this information genre is concise and clearly stating facts. What is more, it is hypothesized that the accuracy of topic detection depends on the size and relevance of the report.
The second part describes the formation of frequent words’ and bigram lists and keyword extraction techniques. Those frequent word and bigram lists were... [to full text]
|
Page generated in 0.0397 seconds