[pt] O objetivo desta dissertação é melhorar a busca por palavra-chave em
formato RDF. Propomos uma abordagem escalável, baseada numa representação
tensorial, que permite o armazenamento distribuído e, como consequência, o uso
de técnicas de paralelismo para agilizar a busca sobre grandes bases de RDF, em
particular, as publicadas como Linked Data. Um volume sem precedentes de
informação está sendo disponibilizado seguindo os princípios de Linked Data,
formando o que chamamos de Web of Data. Esta informação, tipicamente
codificada como triplas RDF, costuma ser representada como um grafo, onde
sujeitos e objetos são vértices, e predicados são arestas ligando os vértices. Em
consequência da ampla adoção de mecanismos de busca na World Wide Web,
usuários estão familiarizados com a busca por palavra-chave. No caso de grafos
RDF, no entanto, a extração de uma partição coerente de grafos para enriquecer os
resultados da busca é uma tarefa cara, demorada, e cuja expectativa do usuário é
de que seja executada em tempo real. Este trabalho tem como objetivo o
tratamento deste problema. Parte de uma solução proposta recentemente prega a
indexação do grafo RDF como uma matriz esparsa, que contém um conjunto de
informações pré-computadas para agilizar a extração de seções do grafo, e o uso
de consultas baseadas em tensores sobre a matriz esparsa. Esta abordagem
baseada em tensores permite que se tome vantagem de técnicas modernas de
programação distribuída, e.g., a utilização de bases de dados não-relacionais
fracionadas e o modelo de MapReduce. Nesta dissertação, propomos o desenho e
exploramos a viabilidade da abordagem baseada em tensores, com o objetivo de
construir um depósito de dados distribuído e agilizar a busca por palavras-chave
com uma abordagem paralela. / [en] The goal of this dissertation is to improve RDF keyword search. We
propose a scalable approach, based on a tensor representation that allows for
distributed storage, and thus the use of parallel techniques to speed up the search
over large linked data sets, in particular those published as Linked Data. An
unprecedented amount of information is becoming available following the
principles of Linked Data, forming what is called the Web of Data. This
information, typically codified as RDF subject-predicate-object triples, is
commonly abstracted as a graph which subjects and objects are nodes, and
predicates are edges connecting them. As a consequence of the widespread
adoption of search engines on the World Wide Web, users are familiar with
keyword search. For RDF graphs, however, extracting a coherent subset of data
graphs to enrich search results is a time consuming and expensive task, and it is
expected to be executed on-the-fly at user prompt. The dissertation s goal is to
handle this problem. A recent proposal has been made to index RDF graphs as a
sparse matrix with the pre-computed information necessary for faster retrieval of
sub-graphs, and the use of tensor-based queries over the sparse matrix. The tensor
approach can leverage modern distributed computing techniques, e.g., nonrelational
database sharding and the MapReduce model. In this dissertation, we
propose a design and explore the viability of the tensor-based approach to build a
distributed datastore and speed up keyword search with a parallel approach.
Identifer | oai:union.ndltd.org:puc-rio.br/oai:MAXWELL.puc-rio.br:23832 |
Date | 26 December 2014 |
Creators | DANILO MORET RODRIGUES |
Contributors | KARIN KOOGAN BREITMAN, KARIN KOOGAN BREITMAN, KARIN KOOGAN BREITMAN |
Publisher | MAXWELL |
Source Sets | PUC Rio |
Language | English |
Detected Language | Portuguese |
Type | TEXTO |
Page generated in 0.0021 seconds