Return to search

Utvärdering av Random Indexing och PageRank som verktyg för automatisk textsammanfattning

Mängden information på internet är enorm och bara forsätter att öka på både gott och ont. Framförallt kan det vara svårt för grupper såsom synskadade och personer med språksvårigheter att navigera sig och ta vara på all denna information. Därmed finns ett behov av väl fungerande sammanfattningsverktyg för dessa, men även för andra människor som snabbt behöver presenteras det viktigaste ur en uppsättning texter. Den här studien undersöker hur väl sammanfattningssystemet CogSum, som är baserat på Random Indexing, presterar med och utan rankningsalgoritmen PageRank aktiverat på nyhetstexter och texter från Försäkringskassan. Utöver detta används sammanfattningssystemet SweSum som en baslinje i undersökningen. Rapporten innefattar en teoretisk bakgrund som avhandlar automatisk textsammanfattning i stort vilket inkluderar olika utvärderingsmetoder, tekniker och sammanfattningssystem. Utvärderingen utfördes med hjälp av det automatiska utvärderingsverktyget KTHxc på nyhetstexterna och ett annat sådant, AutoSummENG, på Försäkringskassans texter. Studiens resultat påvisar att CogSum utan PageRank presterar bättre än CogSum med PageRank på 10 nyhetstexter medan det omvända gäller för 5 texter från Försäkringskassan. SweSum i sin tur erhöll det bästa resultatet för nyhetstexterna respektive det sämsta för texterna från Försäkringskassan.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:liu-53590
Date January 2009
CreatorsGustavsson, Pär
PublisherLinköpings universitet, Institutionen för datavetenskap
Source SetsDiVA Archive at Upsalla University
LanguageSwedish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0023 seconds