Return to search

[en] CRAWLING THE LINKED DATA CLOUD / [pt] COLETA DE DADOS INTERLIGADOS

[pt] As melhores práticas de dados interligados recomendam que se utilizem
ontologias bem conhecidas de modo a facilitar a ligação entre um novo conjunto
de triplas RDF (ou, abreviadamente, tripleset) e os já existentes. Entretanto,
ambas as tarefas apresentam dificuldades. Esta tese apresenta frameworks para
criação de buscadores de metadados que ajudam na seleção de ontologias e na
escolha de triplesets que podem ser usados, respectivamente, nos processos de
publicação e interligação de triplesets. Resumidamente, o administrador de um
novo tripleset deve inicialmente definir um conjunto de termos que descrevam o
domínio de interesse do tripleset. Um buscador de metadados, construído segundo
os frameworks apresentados na tese, irá localizar, nos vocabulários dos triplesets
existentes, aqueles que possuem relação direta ou indireta com os termos
definidos pelo administrador. O buscador retornará então uma lista de ontologias
que podem ser utilizadas para o domínio, bem como uma lista dos triplesets
relacionados. O buscador tem então como foco os metadados dos triplesets,
incluindo informações de subclasse, e a sua saída retorna somente metadados,
justificando assim chama-lo de buscador focado em metadados . / [en] The Linked Data best practices recommend to publish a new tripleset using
well-known ontologies and to interlink the new tripleset with other triplesets.
However, both are difficult tasks. This thesis describes frameworks for metadata
crawlers that help selecting the ontologies and triplesets to be used, respectively,
in the publication and the interlinking processes. Briefly, the publisher of a new
tripleset first selects a set of terms that describe the application domain of interest.
Then, he submits the set of terms to a metadata crawler, constructed using one of
the frameworks described in the thesis, that searches for triplesets which
vocabularies include terms direct or transitively related to those in the initial set of
terms. The crawler returns a list of ontologies that are used for publishing the new
tripleset, as well as a list of triplesets with which the new tripleset can be
interlinked. Hence, the crawler focuses on specific metadata properties, including
subclass of, and returns only metadata, which justifies the classification metadata
focused crawler.

Identiferoai:union.ndltd.org:puc-rio.br/oai:MAXWELL.puc-rio.br:26175
Date26 April 2016
CreatorsRAPHAEL DO VALE AMARAL GOMES
ContributorsMARCO ANTONIO CASANOVA, MARCO ANTONIO CASANOVA
PublisherMAXWELL
Source SetsPUC Rio
LanguageEnglish
Detected LanguageEnglish
TypeTEXTO

Page generated in 0.0024 seconds