Return to search

Informasjonsgjenfinning i XML dokumenter / Information retrieval in XML documents

Den enorme økningen av digitale dokumenter de siste 15 årene har ført til en eksplosjonsartet interesse for, og utvikling av, informasjonsgjenfinning. IR har lenge forholdt seg til dokumenter med lite eller ingen formell struktur, og har blitt dominert av de tre søkemodellene boolsk modell, vektormodell og sannsynlighetsmodell. Den stadig voksende mengden med digital informasjon har etter hvert ført til et behov for større formalitet, noe som har ført til utvikling og introduksjon av strukturerte dokumentformater som SGML og XML. Spesielt sistnevnte språk ser stadig mer utstrakt bruk som format for digital informasjon, noe som fører til nye utfordringer og muligheter innen IR. Informasjonsgjenfinning i XML dokumenter setter nye krav til lagring av dokumenter, prosessering av innholdet i dokumentene, indeksering og søking etter informasjon. Et mangfold av muligheter åpner seg også, men ikke helt uten videre, inngående forskning og studier kreves for å kunne få utbytte av disse mulighetene. En viktig framdriftskraft i denne sammenhengen er INEX, et initiativ som eksisterer for å fremme utviklingen av informasjonsgjenfinning i XML dokumenter. Endringene som kreves for å tilpasse seg de nye dokumentformatene ligger i detaljene. På overordnet nivå forholder ikke IR-systemer seg til om dokumentene er strukturerte eller ikke, det er i de enkelte modulene av systemet, hvor parsing, tekstbehandling, indeksering og søking foregår, at utfordringene ligger for forskere og utviklere. Samtidig presenterer XML nye muligheter for brukerne av slike systemer, gjennom nye måter å formulere spørringer på og nye muligheter for å presentere søkeresultater på. IR i XML er et forskningsområde som er svært viktig for fremtiden innen håndtering av digital informasjon, og vil fortsette å få mye oppmerksomhet i lang tid fremover.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:ntnu-10203
Date January 2005
CreatorsKlungerbo, Kent Rune
PublisherNorges teknisk-naturvitenskapelige universitet, Institutt for datateknikk og informasjonsvitenskap, Institutt for datateknikk og informasjonsvitenskap
Source SetsDiVA Archive at Upsalla University
LanguageNorwegian
Detected LanguageNorwegian
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0015 seconds