1 |
[pt] NOVAS MEDIDAS DE IMPORTÂNCIA DE VÉRTICES PARA APERFEIÇOAR A BUSCA POR PALAVRAS-CHAVE EM GRAFOS RDF / [en] NOVEL NODE IMPORTANCE MEASURES TO IMPROVE KEYWORD SEARCH OVER RDF GRAPHSELISA SOUZA MENENDEZ 15 April 2019 (has links)
[pt] Um ponto importante para o sucesso de sistemas de busca por palavras-chave é um mecanismo de ranqueamento que considera a importância dos documentos recuperados. A noção de importância em grafos é tipicamente computada usando medidas de centralidade, que dependem amplamente do grau dos nós, como o PageRank. Porém, em grafos RDF, a noção de importância não é necessariamente relacionada com o grau do nó. Sendo assim, esta tese aborda dois problemas: (1) como definir uma medida de importância em grafos RDF; (2) como usar essas medidas para ajudar a compilar e ranquear respostas a consultas por palavras-chave sobre grafos RDF. Para resolver estes problemas, esta tese propõe uma nova família de medidas, chamada de InfoRank, e um sistema de busca por palavras-chave, chamado QUIRA, para grafos RDF. Esta tese é concluída com experimentos que mostram que a solução proposta melhora a qualidade dos resultados em benchmarks de busca por palavras-chave. / [en] A key contributor to the success of keyword search systems is a ranking mechanism that considers the importance of the retrieved documents. The notion of importance in graphs is typically computed using centrality measures that highly depend on the degree of the nodes, such as PageRank. However, in RDF graphs, the notion of importance is not necessarily related to the node degree. Therefore, this thesis addresses two problems: (1) how to define importance measures for RDF graphs; (2) how to use these measures to help compile and rank results of keyword queries over RDF graphs. To solve these problems, the thesis proposes a novel family of measures, called InfoRank, and a keyword search system, called QUIRA, for RDF graphs. Finally, this thesis concludes with experiments showing that the proposed solution improves the quality of the results in two keyword search benchmarks.
|
2 |
[en] ON THE CONNECTIVITY OF ENTITY PAIRS IN KNOWLEDGE BASES / [pt] SOBRE A CONECTIVIDADE DE PARES DE ENTIDADES EM BASES DE CONHECIMENTOJOSE EDUARDO TALAVERA HERRERA 28 July 2017 (has links)
[pt] Bases de conhecimento são ferramentas poderosas que fornecem suporte a um amplo espectro de aplicações como, por exemplo, busca exploratória, ranqueamento e recomendação. Bases de conhecimento podem ser vistas como grafos, onde os nós representam entidades e as arestas seus relacionamentos. Atualmente, motores de busca usam bases de conhecimento para melhorar suas recomendações. No entanto, motores de busca são orientados a uma única entidade e enfrentam dificuldades ao tentar explicar porque e como duas entidades estão relacionadas, um problema conhecido como relacionamento entre entidades. Esta tese explora o uso de bases de conhecimento em formato RDF para endereçar o problema de relacionamento entre entidades, em duas direções. Em uma direção, a tese define o conceito de perfis de conectividade para pares de entidades, que são explicações concisas sobre como as entidades se relacionam. A tese introduz uma estratégia para gerar um perfil de conectividade entre um par de entidades, que combina anotações semânticas e métricas de similaridade para resumir um conjunto de caminhos entre as duas entidades. Em seguida, introduz a ferramenta DBpedia profiler, que implementa a estratégia proposta, e cuja efetividade foi medida através de experimentos com usuários. Em outra direção, considerando os desafios para explorar grandes bases de conhecimento online, a tese apresenta uma estratégia genérica de busca baseada na heurística backward, a qual prioriza alguns caminhos sobre outros. A estratégia combina medidas de similaridade e de ranqueamento, criando diferentes alternativas. Por último, a tese avalia e compara as diferentes alternativas em dois domínios, música e filmes, adotando como ground truth rankings especializados de caminhos especialmente desenvolvidos para os experimentos. / [en] Knowledge bases are a powerful tool for supporting a large spectrum of applications such as exploratory search, ranking, and recommendation. Knowledge bases can be viewed as graphs whose nodes represent entities and whose edges represent relationships. Currently, search engines take advantage of knowledge bases to improve their recommendations. However, search engines are single entity-centric and face difficulties when trying to explain why and how two entities are related, a problem known as entity relatedness. This thesis explores the use of knowledge bases in RDF format to address the entity relatedness problem, in two directions. In one direction, it defines the concept of connectivity profiles for entity pairs, which are concise explanations about how the entities are related. The thesis introduces a strategy to generate a connectivity profile for an entity pair that combines semantic annotations and similarity metrics to summarize a set of relationship paths between the given entity pair. The thesis then describes the DBpedia profiler tool, which implements the strategy for DBpedia, and whose effectiveness was evaluated through user experiments. In another direction, motivated by the challenges of exploring large online knowledge bases, the thesis introduces a generic search strategy, based on the backward search heuristic, to prioritize certain paths over others. The strategy combines similarity and ranking measures to create different alternatives. Finally, the thesis evaluates and compares the different alternatives in two domains, music and movies, based on specialized path rankings taken as ground truth.
|
3 |
[pt] ESTRATÉGIAS PARA ENTENDER A CONECTIVIDADE DE PARES DE ENTIDADES EM BASES DE CONHECIMENTO / [en] STRATEGIES TO UNDERSTAND THE CONNECTIVITY OF ENTITY PAIRS IN KNOWLEDGE BASESJAVIER GUILLOT JIMENEZ 04 November 2021 (has links)
[pt] O problema do relacionamento de entidades refere-se à questão de
explorar uma base de conhecimento, representada como um grafo RDF, para
descobrir e entender como duas entidades estão conectadas. Esta questão pode
ser resolvida implementando-se uma estratégia de busca de caminhos que
combina uma medida de similaridade de entidades, um limite para o grau das
entidades, e um limite de expansão para reduzir o espaço de busca de caminhos,
e uma medida de ranqueamento de caminhos para ordenar os caminhos
relevantes entre um determinado par de entidades no grafo RDF. Esta tese
inicialmente apresenta um framework, chamado CoEPinKB, juntamente com
uma implementação, para experimentar estratégias de busca de caminhos. O
framework apresenta como pontos de flexibilização a medida de similaridade
entre entidades, o limite máximo do grau das entidades, o limite de expansão,
a medida de classificação de caminhos, e a base de conhecimento. Em seguida,
a tese apresenta uma avaliação de desempenho de nove estratégias de busca de
caminhos usando um benchmark envolvendo dois domínios de entretenimento
sobre o OpenLink Virtuoso SPARQL protocol endpoint da DBpedia. Por fim, a
tese apresenta o DCoEPinKB, uma versão distribuída do framework baseado
em Apache Spark, que suporta a avaliação empírica de estratégias de busca de
caminhos, e apresenta uma avaliação de seis estratégias de busca de caminhos
em dois domínios de entretenimento sobre dados reais coletados da DBpedia.
Os resultados fornecem intuições sobre o desempenho das estratégias de busca
de caminhos e sugerem que a implementação do framework, instanciado com
o par de medidas de melhor desempenho, pode ser usado, por exemplo, para
expandir os resultados dos motores de busca em bases de conhecimento para
incluir entidades relacionadas. / [en] The entity relatedness problem refers to the question of exploring a
knowledge base, represented as an RDF graph, to discover and understand how
two entities are connected. This question can be addressed by implementing a
path search strategy that combines an entity similarity measure with an entity
degree limit and an expansion limit to reduce the path search space and a path
ranking measure to order the relevant paths between a given pair of entities in
the RDF graph. This thesis first introduces a framework, called CoEPinKB,
together with an implementation, to experiment with path search strategies.
The framework features as hot spots the entity similarity measure, the entity
degree limit, the expansion limit, the path ranking measure, and the knowledge
base. The thesis moves on to present a performance evaluation of nine path
search strategies using a benchmark from two entertainment domains over
the OpenLink Virtuoso SPARQL protocol endpoint of the DBpedia. The
thesis then introduces DCoEPinKB, a distributed version of the framework
based on Apache Spark, that supports the empirical evaluation of path
search strategies, and presents an evaluation of six path search strategies
over two entertainment domains over real-data collected from DBpedia. The
results provide insights about the performance of the path search strategies
and suggest that the framework implementation, instantiated with the best performing pair of measures, can be used, for example, to expand the results
of search engines over knowledge bases to include related entities.
|
Page generated in 0.0491 seconds