Return to search

Automatisk Dokument Klassifikation : Heuristisk Klustring / Automatic Document Classification : Heuristic Clustering

I detta arbete har jag studerat automatisk klassifikation av texter i syfte att sortera dem i grupper om liknande innehåll. Texterna jämfördes med varandra och om de uppvisade tillräckligt hög innehållsmässig överensstämmelse läggs de i samma kluster. Den metod som jag har studerat, heuristisk klustergenerering, syftar till att sortera texter utan förkunskap om deras innehåll. Vid klassifikationen används orden i texterna, vilka avspeglar innehållet i texterna. Då är det intressant att studera vilka egenskaper orden har som kan utnyttjas vid klassifikationen av texterna. Syftet med arbetet var här att studera ordens statistiska egenskaper, frekvenser och förekomster. Vid klustergenereringen studerade jag både representation av texter genom deras ord och dels genom deras trigram, överlappande trebokstavskombinationer. De resultat jag uppnådde med min studie av orden visade att de har statistiska egenskaper, både i enskilda texter och i hela textsamlingen, som kan utnyttjas för klassifikation. Resultat ifrån klusterstudien visade att ingen skillnad fanns mellan nyttjandet av ord eller trigram. Vid likartad fördelning av texterna så hade större krav på trigram överensstämmelser ställts. Detta därför att samma trigram fanns i flertalet olika ord. Fördelen med trigram framför ord är att de krävde mindre utrymme tack vare deras begränsade längd. Den klusterstruktur som skapades avspeglade ungefär texternas relationer. Relationerna mellan texterna, inom och utanför klustren, är baserade på syntaktiska likheter varför det är omöjligt att exakt kunna beskriva de faktiska relationerna. / <p>Bachelor thesis in partial fulfillment of the Bachelor of Science degree in Systems Analysis</p>

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:lnu-15748
Date January 1992
CreatorsEberhagen, Niclas
PublisherVäxjö universitet, Matematiska och systemtekniska institutionen, Institutionen för Matematik, Statistik och ADB, Högskolan i Växjö, Växjö, Sweden : Department of Mathematics, Statistics and Computer Science, Växjö University
Source SetsDiVA Archive at Upsalla University
LanguageSwedish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0021 seconds