[pt] Os sistemas de busca textual fornecem aos usuários uma alternativa amigável
para acessar datasets RDF (Resource Description Framework). A avaliação
de desempenho de tais sistemas requer benchmarks adequados, consistindo
de datasets RDF, consultas e respectivas respostas esperadas. No entanto, os
benchmarks disponíveis geralmente possuem poucas consultas e respostas incompletas,
principalmente porque são construídos manualmente com a ajuda
de especialistas. A contribuição central desta tese é um método para construir
benchmarks automaticamente, com um maior número de consultas e com respostas
mais completas. O método proposto aplica-se tanto a consultas baseadas
em palavras-chave quanto em linguagem natural e possui duas partes: geração
de consultas e geração de respostas. A geração de consultas seleciona um
conjunto de entidades relevantes, chamadas de indutores, e, para cada uma,
heurísticas orientam o processo de extração de consultas relacionadas. A geração
de respostas recebe as consultas produzidas no passo anterior e computa
geradores de solução (SG), subgrafos do dataset original contendo diferentes
respostas às consultas. Heurísticas também orientam a construção dos SGs
evitando o desperdiço de recursos computacionais na geração de respostas irrelevantes. / [en] Text search systems provide users with a friendly alternative to access
Resource Description Framework (RDF) datasets. The performance evaluation
of such systems requires adequate benchmarks, consisting of RDF datasets,
text queries, and respective expected answers. However, available benchmarks
often have small sets of queries and incomplete sets of answers, mainly
because they are manually constructed with the help of experts. The central
contribution of this thesis is a method for building benchmarks automatically,
with larger sets of queries and more complete answers. The proposed method
works for both keyword and natural language queries and has two steps:
query generation and answer generation. The query generation step selects
a set of relevant entities, called inducers, and, for each one, heuristics guide
the process of extracting related queries. The answer generation step takes
the queries and computes solution generators (SG), subgraphs of the original
dataset containing different answers to the queries. Heuristics also guide
the construction of SGs, avoiding the waste of computational resources in
generating irrelevant answers.
Identifer | oai:union.ndltd.org:puc-rio.br/oai:MAXWELL.puc-rio.br:61091 |
Date | 04 November 2022 |
Creators | ANGELO BATISTA NEVES JUNIOR |
Contributors | MARCO ANTONIO CASANOVA, MARCO ANTONIO CASANOVA, MARCO ANTONIO CASANOVA |
Publisher | MAXWELL |
Source Sets | PUC Rio |
Language | English |
Detected Language | Portuguese |
Type | TEXTO |
Page generated in 0.0018 seconds