Return to search

[pt] CONTRIBUIÇÕES AO PROBLEMA DE BUSCA POR PALAVRAS-CHAVE EM CONJUNTOS DE DADOS E TRAJETÓRIAS SEMÂNTICAS BASEADOS NO RESOURCE DESCRIPTION FRAMEWORK / [en] CONTRIBUTIONS TO THE PROBLEM OF KEYWORD SEARCH OVER DATASETS AND SEMANTIC TRAJECTORIES BASED ON THE RESOURCE DESCRIPTION FRAMEWORK

[pt] Busca por palavras-chave fornece uma interface fácil de usar para recuperar
informação. Esta tese contribui para os problemas de busca por palavras chave
em conjuntos de dados sem esquema e trajetórias semânticas baseados
no Resource Description Framework.
Para endereçar o problema da busca por palavras-chave em conjuntos
de dados RDF sem esquema, a tese introduz um algoritmo para traduzir automaticamente
uma consulta K baseada em palavras-chave especificadas pelo
usuário em uma consulta SPARQL Q de tal forma que as respostas que Q retorna
também são respostas para K. O algoritmo não depende de um esquema
RDF, mas sintetiza as consultas SPARQL explorando a semelhança entre os
domínios e contradomínios das propriedades e os conjuntos de instâncias de
classe observados no grafo RDF. O algoritmo estima a similaridade entre conjuntos
com base em sinopses, que podem ser precalculadas, com eficiência, em
uma única passagem sobre o conjunto de dados RDF. O trabalho inclui dois
conjuntos de experimentos com uma implementação do algoritmo. O primeiro
conjunto de experimentos mostra que a implementação supera uma ferramenta
de pesquisa por palavras-chave sobre grafos RDF que explora o esquema RDF
para sintetizar as consultas SPARQL, enquanto o segundo conjunto indica que
a implementação tem um desempenho melhor do que sistemas de pesquisa
por palavras-chave em conjuntos de dados RDF baseados na abordagem de
documentos virtuais denominados TSA+BM25 e TSA+VDP. Finalmente, a
tese também computa a eficácia do algoritmo proposto usando uma métrica
baseada no conceito de relevância do grafo resposta.
O segundo problema abordado nesta tese é o problema da busca por
palavras-chave sobre trajetórias semânticas baseadas em RDF. Trajetórias semânticas
são trajetórias segmentadas em que as paradas e os deslocamentos de
um objeto móvel são semanticamente enriquecidos com dados adicionais. Uma
linguagem de consulta para conjuntos de trajetórias semânticas deve incluir
seletores para paradas ou deslocamentos com base em seus enriquecimentos
e expressões de sequência que definem como combinar os resultados dos seletores
com a sequência que a trajetória semântica define. A tese inicialmente
propõe um framework formal para definir trajetórias semânticas e introduz
expressões de sequências de paradas-e-deslocamentos (stop-and-move sequences),
com sintaxe e semântica bem definidas, que atuam como uma linguagem
de consulta expressiva para trajetórias semânticas. A tese descreve um modelo
concreto de trajetória semântica em RDF, define expressões de sequências
de paradas-e-deslocamentos em SPARQL e discute estratégias para compilar
tais expressões em consultas SPARQL. A tese define consultas sobre trajetórias
semânticas com base no uso de palavras-chave para especificar paradas e
deslocamentos e a adoção de termos com semântica predefinida para compor
expressões de sequência. Em seguida, descreve como compilar tais expressões
em consultas SPARQL, mediante o uso de padrões predefinidos. Finalmente,
a tese apresenta uma prova de conceito usando um conjunto de trajetórias semânticas
construído com conteúdo gerado pelos usuários do Flickr, combinado
com dados da Wikipedia. / [en] Keyword search provides an easy-to-use interface for retrieving information.
This thesis contributes to the problems of keyword search over schema-less
datasets and semantic trajectories based on RDF.
To address the keyword search over schema-less RDF datasets problem,
this thesis introduces an algorithm to automatically translate a user-specified
keyword-based query K into a SPARQL query Q so that the answers Q returns
are also answers for K. The algorithm does not rely on an RDF schema, but it
synthesizes SPARQL queries by exploring the similarity between the property
domains and ranges, and the class instance sets observed in the RDF dataset.
It estimates set similarity based on set synopses, which can be efficiently precomputed
in a single pass over the RDF dataset. The thesis includes two
sets of experiments with an implementation of the algorithm. The first set
of experiments shows that the implementation outperforms a baseline RDF
keyword search tool that explores the RDF schema, while the second set of
experiments indicate that the implementation performs better than the stateof-
the-art TSA+BM25 and TSA+VDP keyword search systems over RDF
datasets based on the virtual documents approach. Finally, the thesis also
computes the effectiveness of the proposed algorithm using a metric based on
the concept of graph relevance.
The second problem addressed in this thesis is the keyword search over
RDF semantic trajectories problem. Stop-and-move semantic trajectories are
segmented trajectories where the stops and moves are semantically enriched
with additional data. A query language for semantic trajectory datasets has
to include selectors for stops or moves based on their enrichments, and
sequence expressions that define how to match the results of selectors with
the sequence the semantic trajectory defines. The thesis first proposes a
formal framework to define semantic trajectories and introduces stop and move
sequence expressions, with well-defined syntax and semantics, which act as
an expressive query language for semantic trajectories. Then, it describes a
concrete semantic trajectory model in RDF, defines SPARQL stop-and-move
sequence expressions, and discusses strategies to compile such expressions
into SPARQL queries. Next, the thesis specifies user-friendly keyword search
expressions over semantic trajectories based on the use of keywords to specify
stop and move queries, and the adoption of terms with predefined semantics
to compose sequence expressions. It then shows how to compile such keyword
search expressions into SPARQL queries. Finally, it provides a proof-of-concept
experiment over a semantic trajectory dataset constructed with user-generated
content from Flickr, combined with Wikipedia data.

Identiferoai:union.ndltd.org:puc-rio.br/oai:MAXWELL.puc-rio.br:52758
Date18 May 2021
CreatorsYENIER TORRES IZQUIERDO
ContributorsMARCO ANTONIO CASANOVA, MARCO ANTONIO CASANOVA, MARCO ANTONIO CASANOVA
PublisherMAXWELL
Source SetsPUC Rio
LanguageEnglish
Detected LanguageEnglish
TypeTEXTO

Page generated in 0.0027 seconds