Return to search

Automatisk temainndeling / Automatic Topic

<p>I dagens informasjonssamfunn har man enkel tilgang til store mengder informasjon, dette fører ofte til at man finner mye mer informasjon enn man trenger og det blir vanskelig å finne det man leter etter. I min masteroppgave skal jeg prøve å finne en metode som automatisk angir tema til tekster. Ved å få angitt et tema, er det forhåpentlig enklere å se om teksten innholder relevant informasjon. Utgangspunktet for oppgaven var en idé om at det er mulig å finne tema for en tekst ved å bruke tittelen og sammendrag (abstract) som grunnlag. Dette testes ved å dele en samling dokumenter opp i flere deler og trene en del ved å la forhåndsbestemte tema for denne delen bli satt som utgangspunkt for sammenligninger med resten av samlingen. For å løse denne oppgaven har jeg gjennomført en litteraturstudie, tatt i bruk lovende teknologier for høsting av metadata og laget en prototyp som tester hvor godt metoden fungerer i praksis. For å høste metadata ble Open Archives Initiative’s standard for høsting av metadata valgt som løsning for høsting av data. Arc, en åpen kildekode programvare, ble brukt for selve høstingen og MySQL ble valgt som datalager for innhøstede data. Det viste seg at metoden i de fleste tilfeller traff feil tema, sammenligner man med de fem temaene som blir foreslått er treffprosenten 11 prosent i gjennomsnitt. Dette gir for dårlig resultat til at metoden kan taes i bruk slik den er i dag. Det har underveis blitt oppdaget en mulig feilkilde i selve samlingen som er brukt for testformålet, da dokumentene i samlingen er fordelt slik at like tema ligger nært hverandre. Ved testing på et utvalg av samlingen på de 100 første dokumentene blir resultatet vesentlig bedre enn for hele samlingen. Temafordelingen i denne delen av samlingen er også mer jevnt fordelt enn resten av samlingen, dette indikerer at det er samlingen som er problemet og ikke metoden. Jeg konkluderte med at metoden mest sannsynlig virker og at den kan brukes til å angi tema for tekstlige dokumenter. Det må imidlertid testes på blant annet om resultatet blir bedre dersom man stokker dokumentene, eller bruker en annen dokumentsamling. Dersom resultatet blir at treffprosenten nærmer seg hundre prosent er det etter min mening mulig å bruke metoden i stor skala på internett for å angi tema til dokumenter.</p>

Identiferoai:union.ndltd.org:UPSALLA/oai:DiVA.org:ntnu-10295
Date January 2006
CreatorsReite, Toril Ormberg
PublisherNorwegian University of Science and Technology, Department of Computer and Information Science, Institutt for datateknikk og informasjonsvitenskap
Source SetsDiVA Archive at Upsalla University
LanguageNorwegian
Detected LanguageNorwegian
TypeStudent thesis, text

Page generated in 0.0021 seconds