Return to search

Enhetlig tilgang til heterogene metadatabaser : Interoperabilitet v.h.a. OAI-PMH

Denne avhandlingen fokuserer på hvordan informasjon fra mange forskjellige samlinger kan gjøres lettere tilgjengelig for informasjonsbrukere. I dagens informasjonssamfunn finnes og produseres det store mengder digital informasjon, og mange organisasjoner og bedrifter anvender derfor beskrivende metadata til å organisere informasjonen sin i mange ulike samlinger/databaser. Dette fører til at personer som ønsker å søke etter informasjon, må forholde seg til tilsvarende mange forskjellige søkesystemer og søketeknikker. Fra disse brukernes ståsted er det ønskelig med et søkesystem som gjør det mulig å søke etter informasjon fra et stort antall samlinger/databaser på ett sted. Problemstillingen som ligger til grunn for oppgaven er todelt. For det første skal det undersøkes hvordan man kan utforme en arkitektur som muliggjør samtidig søking i flere heterogene metadatabaser. For det andre skal det undersøkes hvordan denne arkitekturen kan anvendes til å bygge opp et enhetlig søkegrensesnitt som gir brukeren tilgang til ressursbeskrivelser fra alle de heterogene metadatabasene. Forutsetningen for oppgaven er at arkitekturen skal baseres på metadatahøsting ved hjelp av OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting). Dessuten skal Fast Data Search anvendes som indekserings- og søkesystem. I denne avhandlingen presenteres et forslag til et system som, basert på metadatahøsting fra flere forskjellige datakilder og påfølgende sentral indeksering av de innhøstede metadataene, tilbyr en enhetlig søketjeneste. Dette gjør det i praksis mulig å søke i innholdet fra mange datakilder gjennom ett felles søkegrensesnitt. Datagrunnlaget i prototypen utgjøres av om lag 1400 metadatabeskrivelser som blir høstet fra tre av Nasjonalbibliotekets samlinger; Digitalt Radioarkiv, Galleri NOR og Mavis. Metadatahøstingen utføres av en OAI-høster som er en videreutvikling av en fritt tilgjengelig høsterapplikasjon med åpen kildekode. Alle metadataene er beskrevet i formatet MODS (Metadata Object Description Schema), som er et mer uttrykksfullt alternativ til Dublin Core. Etter en enkel normalisering, blir metadataene indeksert i Fast Data Search. Et webbasert søkegrensesnitt, med mulighet for både enkelt og avansert søk, gjør det mulig for brukerne å søke i alle de indekserte metadataene. Hovedkonklusjonen er at metadatahøsting ved hjelp av OAI-PMH er en velegnet metode for å utvikle en felles søketjeneste for informasjon fra mange datakilder. Metoden fungerer også internt i en organisasjon/bedrift. Det er likevel viktig å være bevisst på at eksterne faktorer, som for eksempel variasjoner metadatakvalitet, kan påvirke kvaliteten på søketjenesten. Når metoden anvendes internt i en organisasjon/bedrift, kan det derfor være nyttig å undersøke datakildenes kvalitet på forhånd. På denne måten kan uegnede datakilder utelukkes på et tidlig tidspunkt. / This thesis focuses on how information from a lot of different collections can be made more easily available for information users. Today’s information society contains large amounts of digital information, and many organizations and enterprises therefore employ descriptive metadata when organizing their information in several different collections/databases. This diversity forces people wanting to search for information to deal with a corresponding number of different search systems and techniques. For these users, a search system which makes it possible to locate information from a large number of collections/databases at single spot is desirable. The problem to be addressed in this thesis is split. Firstly it has to be examined how to model an architecture which supports simultaneous searching in heterogeneous metadatabases. Secondly it has to be examined how this architecture can be employed to build a uniform search interface which gives the user access to resource descriptions from all the heterogeneous metadatabases. A premise for the thesis is that the architecture should be based on metadata harvesting by means of the OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting). In addition Fast Data Search should be used as the indexing and searching system. This thesis presents a system suggestion which offers a uniform search service, based on metadata harvesting from several different data sources and subsequent central indexing of the harvested metadata. In practice this makes it possible to search the content of several data sources using one common search interface. The data foundation in the prototype is constituted by about 1400 metadata descriptions harvested from three collections at the National Library of Norway: Digitalt radioarkiv (Digital Radio Archive), Galleri NOR (photo gallery) and Mavis (multimedia database). The harvesting process is performed by an OAI harvester which is an adaptation of an open source harvester application. All metadata is described using MODS (Metadata Object Description Schema), which is a more expressive alternative to Dublin Core. After a simple normalization process, the metadata is indexed by Fast Data Search. A web based search interface, enabling both basic and advanced search options, makes it possible for the users to search the indexed metadata. The main conclusion is that metadata harvesting by means of OAI-PMH is a suitable method for developing a common search service for information from various data sources. The method is also applicable for internal use in an organization or enterprise. However, it is important to be conscious about external factors that may affect the quality of the search service, for instance variations in metadata quality. When the method is used internally in an organization/enterprise, it may be useful to examine the quality of the data sources in advance. By doing this, unsuitable data sources can be excluded early in the development process.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:ntnu-219
Date January 2004
CreatorsSolvang, Eskil Høyen
PublisherNorges teknisk-naturvitenskapelige universitet, Institutt for datateknikk og informasjonsvitenskap, Institutt for datateknikk og informasjonsvitenskap
Source SetsDiVA Archive at Upsalla University
LanguageBokmal, Norwegian
Detected LanguageEnglish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0028 seconds