[pt] Com o surgimento da Linked (Open) Data, uma série de novos e importantes
desafios de pesquisa vieram à tona. A abertura de dados, como muitas vezes a
Linked Data é conhecida, oferece uma oportunidade para integrar e conectar, de
forma homogênea, fontes de dados heterogêneas na Web. Como diferentes fontes
de dados, com recursos em comum ou relacionados, são publicados por diferentes
editores, a sua integração e consolidação torna-se um verdadeiro desafio. Outro
desafio advindo da Linked Data está na criação de um grafo denso de dados na
Web. Com isso, a identificação e interligação, não só de recursos idênticos, mas
também dos recursos relacionadas na Web, provê ao consumidor (data consumer)
uma representação mais rica dos dados e a possibilidade de exploração dos recursos
conectados. Nesta tese, apresentamos três abordagens para enfrentar os problemas
de integração, consolidação e interligação de dados. Nossa primeira abordagem
combina técnicas de informação mútua e programação genética para solucionar o
problema de alinhamento complexo entre fontes de dados, um problema raramente
abordado na literatura. Na segunda e terceira abordagens, adotamos e ampliamos
uma métrica utilizada em teoria de redes sociais para enfrentar o problema de
consolidação e interligação de dados. Além disso, apresentamos um aplicativo Web
chamado Cite4Me que fornece uma nova perspectiva sobre a pesquisa e recuperação
de conjuntos de Linked Open Data, bem como os benefícios da utilização de nossas
abordagens. Por fim, uma série de experimentos utilizando conjuntos de dados reais
demonstram que as nossas abordagens superam abordagens consideradas como
estado da arte. / [en] With the emergence of Linked (Open) Data, a number of novel and notable
research challenges have been raised. The openness that often characterises Linked
Data offers an opportunity to homogeneously integrate and connect heterogeneous
data sources on the Web. As disparate data sources with overlapping or related resources
are provided by different data publishers, their integration and consolidation
becomes a real challenge. An additional challenge of Linked Data lies in the creation
of a well-interlinked graph of Web data. Identifying and linking not only identical
Web resources, but also lateral Web resources, provides the data consumer with
richer representation of the data and the possibility of exploiting connected resources.
In this thesis, we present three approaches that tackle data integration, consolidation
and linkage problems. Our first approach combines mutual information and genetic
programming techniques for complex datatype property matching, a rarely addressed
problem in the literature. In the second and third approaches, we adopt and extend a
measure from social network theory to address data consolidation and interlinking.
Furthermore, we present a Web-based application named Cite4Me that provides
a new perspective on search and retrieval of Linked Open Data sets, as well as
the benefits of using our approaches. Finally, we validate our approaches through
extensive evaluations using real-world datasets, reporting results that outperform
state of the art approaches.
Identifer | oai:union.ndltd.org:puc-rio.br/oai:MAXWELL.puc-rio.br:25608 |
Date | 07 January 2016 |
Creators | BERNARDO PEREIRA NUNES |
Contributors | MARCO ANTONIO CASANOVA, MARCO ANTONIO CASANOVA |
Publisher | MAXWELL |
Source Sets | PUC Rio |
Language | English |
Detected Language | Portuguese |
Type | TEXTO |
Page generated in 0.1833 seconds