Mängden information på internet är enorm och bara forsätter att öka på både gott och ont. Framförallt kan det vara svårt för grupper såsom synskadade och personer med språksvårigheter att navigera sig och ta vara på all denna information. Därmed finns ett behov av väl fungerande sammanfattningsverktyg för dessa, men även för andra människor som snabbt behöver presenteras det viktigaste ur en uppsättning texter. Den här studien undersöker hur väl sammanfattningssystemet CogSum, som är baserat på Random Indexing, presterar med och utan rankningsalgoritmen PageRank aktiverat på nyhetstexter och texter från Försäkringskassan. Utöver detta används sammanfattningssystemet SweSum som en baslinje i undersökningen. Rapporten innefattar en teoretisk bakgrund som avhandlar automatisk textsammanfattning i stort vilket inkluderar olika utvärderingsmetoder, tekniker och sammanfattningssystem. Utvärderingen utfördes med hjälp av det automatiska utvärderingsverktyget KTHxc på nyhetstexterna och ett annat sådant, AutoSummENG, på Försäkringskassans texter. Studiens resultat påvisar att CogSum utan PageRank presterar bättre än CogSum med PageRank på 10 nyhetstexter medan det omvända gäller för 5 texter från Försäkringskassan. SweSum i sin tur erhöll det bästa resultatet för nyhetstexterna respektive det sämsta för texterna från Försäkringskassan.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:liu-53590 |
Date | January 2009 |
Creators | Gustavsson, Pär |
Publisher | Linköpings universitet, Institutionen för datavetenskap |
Source Sets | DiVA Archive at Upsalla University |
Language | Swedish |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0024 seconds