<p>I geografiske informasjonsgjenfinningssystem vektlegges ord og fraser som angir en geografisk lokasjon på jordens overflate. Det er ofte behov for å kunne identifisere stedsnavn, slik at disse kan være med på å danne grunnlaget for indeksering av dokumenter. Systemet AIDaS identifiserer stedsnavn i norske nyhetstekster. AIDaS har oppnådd svært gode resultater med precison og recall på henholdsvis 80,7 og 86,7 prosent. Andre systemer som identifiserer stedsnavn i norske tekster har ikke oppnådd fullt så gode resultater. AIDaS er med andre ord et system som er godt egnet til å identifisere stedsnavn i norske nyhetstekster. Utviklingen av AIDaS bygger på mitt høstprosjekt der jeg utviklet en abstrakt løsningsmetode for å identifisere stedsnavn. Da denne løsningsmetoden ble implementert i begynnelsen av dette prosjektet viste det seg imidlertid at den inneholdt noen svakheter. Med utgangspunkt i disse svakhetene og et oppdatert litteraturstudium utviklet jeg en ny løsningsmetode som også ble implementert. Systemet som ble implementert er kalt AIDaS. Litteraturstudiet tok for seg to engelske systemer som fikk svært gode resultater under MUC-7, Language Technology Group System og NetOwl Extractor System. Jeg så også på det norske systemet ARNER. AIDaS er utviklet basert på ideer fra disse systemene og en abstrakt løsningsmetode utviklet i høstprosjektet. AIDaS er et regelbasert system som identifiserer stedsnavn i norske nyhetstekster. Det vil si at AIDaS bruker regler for å klassifisere egennavnene i tekstene. AIDaS bruker også flere ressurser, blant annet Oslo-Bergen taggeren. Reglene AIDaS bruker er utviklet med tanke på språket som brukes i nyhetstekster. Reglene ble utviklet ved hjelp av et treningssett fra Bergens Tidende. I slike tekster blir personer ofte godt introdusert med tittel og eventuelt hvilken organisasjon de har tilknytning til. Ved hjelp av konteksten er det dermed lett å lage regler som kan klassifisere personnavn og organisasjonsnavn som typen annet. Stedsnavn blir imidlertid ikke godt presentert i nyhetstekster. Men siden det er lett å finne typen annet i fra konteksten er det mulig å lage generelle regler som kan skille sted fra typen annet. AIDaS bruker som nevnt flere ressurser. Den viktigste ressursen er Oslo-Bergen taggeren. Oslo-Bergen taggeren er en ekstern ressurs som tilordner et ord en eller flere ordklasser. Alle ordene som er i en tekst blir tagget og informasjonen brukes når egennavnene klassifiseres. Som hjelpemiddel under klassifiseringen bruker AIDaS også semantiske sett og lister med egennavn. De semantiske settene er grupperinger av ord som har lignende semantisk innhold og som kan hjelpe til med klassifiseringen. Listene med egennavn brukes sammen med reglene for å bestemme hvilken type et egennavn er. AIDaS ble evaluert på en samling bestående av 50 nyhetsartikler, også fra Bergens Tidende. Før evalueringen begynte ble samlingen lest gjennom manuelt og egennavn ble klassifisert i to typer, stedsnavn og annet. Resultatet til AIDaS ble sammenlignet med den manuelle klassifiseringen. Evalueringen viste at AIDaS er et system som er godt egnet til å identifisere stedsnavn i nyhetstekster. Skal systemet derimot skal brukes på andre samlinger, som for eksempel skjønnlitteratur, er det helt klart nødvendig med flere regler. Dette fordi personer og organisasjoner ofte blir presentert med for eksempel titler eller lignende i nyhetstekster.</p>
Identifer | oai:union.ndltd.org:UPSALLA/oai:DiVA.org:ntnu-10201 |
Date | January 2005 |
Creators | Røyneberg, Ellen |
Publisher | Norwegian University of Science and Technology, Department of Computer and Information Science, Institutt for datateknikk og informasjonsvitenskap |
Source Sets | DiVA Archive at Upsalla University |
Language | Norwegian |
Detected Language | Norwegian |
Type | Student thesis, text |
Page generated in 0.002 seconds