1 |
[en] BENCH: A TOOL TO GENERATE BENCHMARK DATA TO TEST CONCEPTUAL SCHEMA ALIGNMENT ALGORITHMS / [pt] BENCH: UM GERADOR DE DADOS PARA TESTAR ALGORITMOS DE ALINHAMENTO DE ESQUEMAS CONCEITUAISGUYLERME VELASCO DE SOUZA FIGUEIREDO 24 September 2013 (has links)
[pt] Esta dissertação descreve uma ferramenta para teste e avaliação de algoritmos de alinhamento de esquemas a partir da criação de um conjunto de esquemas conceituais, populados com dados. A ferramenta, simplesmente chamada de Bench, possibilita a importação de qualquer conjunto de dados com um esquema conceitual bem definido e oferece facilidades para gerar variações deste esquema através de transformações que refletem alternativas de projeto comumente encontradas. Estas transformações de fato definem alinhamentos de referência entre o esquema original e suas variantes. O Bench permite ainda calcular o desempenho de um algoritmo de alinhamento de esquemas submetido para testes, comparando os alinhamentos de referência com os alinhamentos encontrados pelo algoritmo em teste. / [en] This dissertation describes a tool for generate benchmark data to test schema matching algorithms based on the creation of a set of conceptual schemas, populated with data. The tool, simply called Bench, allows importing any data set with a well-defined conceptual schema and offers facilities to generate variations of the schema through transformations that reflect structural alternatives found in typical conceptual modeling. Such transformations in fact define reference alignments between the original schema and its variations. Bench also permits evaluating the performance of the schema matching algorithm submitted for testing by comparing the reference alignments with those the algorithm under testing is able to find.
|
2 |
[en] MATCHMAKING: AN INFRASTRUCTURE TO MATCH SCHEMAS / [pt] MATCHMAKING: UMA INFRAESTRUTURA PARA ALINHAMENTO DE ESQUEMASRAPHAEL DO VALE AMARAL GOMES 08 February 2017 (has links)
[pt] Um esquema conceitual de banco de dados, ou simplesmente um esquema, é
a descrição em alto nível de como os conceitos de um banco de dados estão
organizados. O alinhamento de um esquema origem S em um esquema destino T
define conceitos em T nos termos dos conceitos de S. Esse trabalho descreve uma
ferramenta de software que auxilia a implementação de técnicas de alinhamento
de esquemas OWL baseadas em instâncias, que dependem da definição de
funções de similaridade para avaliar a proximidade semântica dos elementos de
dois esquemas diferentes. A ferramenta foi projetada para permitir a utilização de
diferentes funções de similaridade e a troca dos algoritmos de alinhamento,
facilitando assim a experimentação com diferentes configurações de alinhamento. / [en] A database conceptual schema, or simply a schema, is a high level
description of how database concepts are organized. The schema matching from a
source schema S into a target schema T defines concepts in T on terms of the
concepts in S. This work describes a software tool that helps implement instancebased
schema matching techniques for OWL dialects that depend on the definition
of similarity functions to evaluate the semantic proximity of elements from two
different schemas. The tool is designed to accommodate different similarity
functions and distinct matching algorithms, thereby facilitating experimenting
with alternative matching configurations.
|
3 |
[en] CONCEPTUAL SCHEMA MATCHING BASED ON SIMILARITY HEURISTICS / [pt] ALINHAMENTO DE ESQUEMAS CONCEITUAIS BASEADO EM HEURÍSTICAS DE SIMILARIDADELUIZ ANDRE PORTES PAES LEME 07 January 2016 (has links)
[pt] Alinhamento de esquema é uma questão fundamental em aplicações de banco de dados, tais como mediação de consultas, integração de banco de dados e armazéns de dados. Nesta tese, abordamos inicialmente o alinhamento de catálogos. Um catálogo é um banco de dados simples que contém informações sobre conjuntos de objetos, tipicamente classificados usando-se termos de um dado tesauro. Inicialmente apresentamos uma técnica de alinhamento baseada na noção de similaridade, que se aplica a pares de tesauros e de listas de propriedades. Descrevemos, então, o alinhamento baseado na noção de informação mútua e introduzimos variações que exploram certas heurísticas. Ao final, discutimos resultados experimentais que avaliam a precisão do método e comparam a influência das heurísticas. Após as técnicas para alinhamento de catálogos, nos concentramos no problema mais complexo de alinhamento de dois esquemas descritos em um subconjunto de OWL. Adotamos uma técnica baseada em instâncias e, por isso, assumimos que conjuntos de instâncias de cada esquema estão disponíveis. Decompomos este problema nos subproblemas de alinhamento de vocabulário e de alinhamento de conceitos. Introduzimos também condições suficientes para garantir que o alinhamento de vocabulário induz um alinhamento de conceitos correto. Em seguida, descrevemos uma técnica de alinhamento de esquemas OWL baseada no conceito de similaridade. Finalmente, avaliamos a precisão da técnica usando dados disponíveis na Web. De forma diferente de outras técnicas anteriores baseadas em instâncias, o processo de alinhamento que descrevemos usa funções de similaridade para induzir alinhamento de vocabulários de uma forma não trivial. Ilustramos, também, que a estrutura de esquemas OWL pode nos levar a mapeamentos de conceitos errados e indicamos como evitar tais problemas. / [en] Schema matching is a fundamental issue in many database applications, such as query mediation, database integration, catalog matching and data warehousing. In this thesis, we first address hot to match catalogue schemas. A catalogue is a simple database that holds information about a set of objects, typically classified using terms taken from a given thesaurus. We introduce a matching approach, based on the notion of similarity, which applies to pairs of thesauri and to pairs of lists of properties. We then describe matchings based on cooccurrence of information and introduce variations that explore certain heuristics. Lastly, we discuss experimental results that evaluate the precision of the matchings introduced and that measure the influence of the heuristics. We then focus on the mre complex problem of matching two schemas that belong to an expressive OWL dialect. We adopt an instance-based approach and, therefore, assume that a set of instances from each schema is available. We first decompose the problem of OWL schema matching into the problem of vocabulary matching and the problem of concept mapping. We also introduce sufficient conditions guaranteeing that a vocabulary matching induces a correct concept mapping. Next, we describe OWL schema matching technique based on the notion of similarity. Lastly, we evaluate the precision of the technique using data available on the Web. Unlike any of the previous instance-based techniques, the matching process we describe uses similarity functions to induce vocabulary matchings in a non-trivial, coping with an expressive OWL dialect. We also illustrate, through a set of examples, that the structure of OWL schemas may lead to incorrect concept mappings and indicate how to avoid such pitfalls.
|
4 |
[en] TOWARDS A WELL-INTERLINKED WEB THROUGH MATCHING AND INTERLINKING APPROACHES / [pt] INTERLIGANDO RECURSOS NA WEB ATRAVÉS DE ABORDAGENS DE MATCHING E INTERLINKINGBERNARDO PEREIRA NUNES 07 January 2016 (has links)
[pt] Com o surgimento da Linked (Open) Data, uma série de novos e importantes
desafios de pesquisa vieram à tona. A abertura de dados, como muitas vezes a
Linked Data é conhecida, oferece uma oportunidade para integrar e conectar, de
forma homogênea, fontes de dados heterogêneas na Web. Como diferentes fontes
de dados, com recursos em comum ou relacionados, são publicados por diferentes
editores, a sua integração e consolidação torna-se um verdadeiro desafio. Outro
desafio advindo da Linked Data está na criação de um grafo denso de dados na
Web. Com isso, a identificação e interligação, não só de recursos idênticos, mas
também dos recursos relacionadas na Web, provê ao consumidor (data consumer)
uma representação mais rica dos dados e a possibilidade de exploração dos recursos
conectados. Nesta tese, apresentamos três abordagens para enfrentar os problemas
de integração, consolidação e interligação de dados. Nossa primeira abordagem
combina técnicas de informação mútua e programação genética para solucionar o
problema de alinhamento complexo entre fontes de dados, um problema raramente
abordado na literatura. Na segunda e terceira abordagens, adotamos e ampliamos
uma métrica utilizada em teoria de redes sociais para enfrentar o problema de
consolidação e interligação de dados. Além disso, apresentamos um aplicativo Web
chamado Cite4Me que fornece uma nova perspectiva sobre a pesquisa e recuperação
de conjuntos de Linked Open Data, bem como os benefícios da utilização de nossas
abordagens. Por fim, uma série de experimentos utilizando conjuntos de dados reais
demonstram que as nossas abordagens superam abordagens consideradas como
estado da arte. / [en] With the emergence of Linked (Open) Data, a number of novel and notable
research challenges have been raised. The openness that often characterises Linked
Data offers an opportunity to homogeneously integrate and connect heterogeneous
data sources on the Web. As disparate data sources with overlapping or related resources
are provided by different data publishers, their integration and consolidation
becomes a real challenge. An additional challenge of Linked Data lies in the creation
of a well-interlinked graph of Web data. Identifying and linking not only identical
Web resources, but also lateral Web resources, provides the data consumer with
richer representation of the data and the possibility of exploiting connected resources.
In this thesis, we present three approaches that tackle data integration, consolidation
and linkage problems. Our first approach combines mutual information and genetic
programming techniques for complex datatype property matching, a rarely addressed
problem in the literature. In the second and third approaches, we adopt and extend a
measure from social network theory to address data consolidation and interlinking.
Furthermore, we present a Web-based application named Cite4Me that provides
a new perspective on search and retrieval of Linked Open Data sets, as well as
the benefits of using our approaches. Finally, we validate our approaches through
extensive evaluations using real-world datasets, reporting results that outperform
state of the art approaches.
|
Page generated in 0.0348 seconds