[pt] Dentro do processo de publicação de dados na Web recomenda-se interligar
os dados entre diferentes fontes, através de recursos similares que descrevam
um domínio em comum. No entanto, com o crescimento do número dos conjuntos
de dados publicados na Web de Dados, as tarefas de descoberta e
seleção de dados tornam-se cada vez mais complexas. Além disso, a natureza
distribuída e interconectada dos dados, fazem com que a sua análise
e entendimento sejam muito demorados. Neste sentido, este trabalho visa
oferecer uma arquitetura Web para a identificação de fontes de dados em
RDF, com o objetivo de prover melhorias nos processos de publicação, interconex
ão, e exploração de dados na Linked Open Data. Para tal, nossa
abordagem utiliza o modelo de MapReduce sobre o paradigma de computa
ção nas nuvens. Assim, podemos efetuar buscas paralelas por palavraschave
sobre um índice de dados semânticos existente na Web. Estas buscas
permitem identificar fontes candidatas para ligar os dados. Por meio desta
abordagem, foi possível integrar diferentes ferramentas da web semântica em
um processo de busca para descobrir fontes de dados relevantes, e relacionar
tópicos de interesse denidos pelo usuário. Para atingir nosso objetivo foi
necessária a indexação e análise de texto para aperfeiçoar a busca de recursos
na Linked Open Data. Para mostrar a ecácia de nossa abordagem
foi desenvolvido um estudo de caso, utilizando um subconjunto de dados de
uma fonte na Linked Open Data, através do seu serviço SPARQL endpoint.
Os resultados do nosso trabalho revelam que a geração de estatísticas sobre
os dados da fonte é, de fato, um grande diferencial no processo de busca. Estas estatísticas ajudam ao usuário no processo de escolha de indivíduos. Um processo especializado de extração de palavras-chave é aplicado para cada indivíduo com o objetivo de gerar diferentes buscas sobre o índice semântico. Mostramos a escalabilidade de nosso processo de recomendação de fontes RDF através de diferentes amostras de indivíduos. / [en] In the Web publishing process of data it is recommended to link the data
from different sources using similar resources that describe a domain in
common. However, the growing number of published data sets on the Web
have made the data discovery and data selection tasks become increasingly
complex. Moreover, the distributed and interconnected nature of the data
causes the understanding and analysis to become too prolonged. In this
context, this work aims to provide a Web architecture for identifying RDF
data sources with the goal of improving the publishing, interconnection, and
data exploration processes within the Linked Open Data. Our approach
utilizes the MapReduce computing model on top of the cloud computing
paradigm. In this manner, we are able to make parallel keyword searches
over existing semantic data indexes available on the web. This will allow
to identify candidate sources to link the data. Through this approach, it
was possible to integrate different semantic web tools and relevant data
sources in a search process, and also to relate topics of interest denied
by the user. In order to achieve our objectives it was necessary to index
and analyze text to improve the search of resources in the Linked Open
Data. To show the effectiveness of our approach we developed a case study
using a subset of data from a source in the Linked Open Data through
its SPARQL endpoint service. The results of our work reveal that the
generation and usage of data source s statistics do make a great difference
within the search process. These statistics help the user within the choosing
individuals process. Furthermore, a specialized keyword extraction process
is run for each individual in order to create different search processes using
the semantic index. We show the scalability of our RDF recommendation
process by sampling several individuals.
Identifer | oai:union.ndltd.org:puc-rio.br/oai:MAXWELL.puc-rio.br:21367 |
Date | 25 March 2013 |
Creators | JOSE EDUARDO TALAVERA HERRERA |
Contributors | KARIN KOOGAN BREITMAN, KARIN KOOGAN BREITMAN, KARIN KOOGAN BREITMAN |
Publisher | MAXWELL |
Source Sets | PUC Rio |
Language | Portuguese |
Detected Language | Portuguese |
Type | TEXTO |
Page generated in 0.0026 seconds