Global ETD Search

1	[en] DISTRIBUTED RDF GRAPH KEYWORD SEARCH / [pt] BUSCA DISTRIBUÍDA EM GRAFO RDF POR PALAVRA-CHAVE DANILO MORET RODRIGUES 26 December 2014 (has links) [pt] O objetivo desta dissertação é melhorar a busca por palavra-chave em formato RDF. Propomos uma abordagem escalável, baseada numa representação tensorial, que permite o armazenamento distribuído e, como consequência, o uso de técnicas de paralelismo para agilizar a busca sobre grandes bases de RDF, em particular, as publicadas como Linked Data. Um volume sem precedentes de informação está sendo disponibilizado seguindo os princípios de Linked Data, formando o que chamamos de Web of Data. Esta informação, tipicamente codificada como triplas RDF, costuma ser representada como um grafo, onde sujeitos e objetos são vértices, e predicados são arestas ligando os vértices. Em consequência da ampla adoção de mecanismos de busca na World Wide Web, usuários estão familiarizados com a busca por palavra-chave. No caso de grafos RDF, no entanto, a extração de uma partição coerente de grafos para enriquecer os resultados da busca é uma tarefa cara, demorada, e cuja expectativa do usuário é de que seja executada em tempo real. Este trabalho tem como objetivo o tratamento deste problema. Parte de uma solução proposta recentemente prega a indexação do grafo RDF como uma matriz esparsa, que contém um conjunto de informações pré-computadas para agilizar a extração de seções do grafo, e o uso de consultas baseadas em tensores sobre a matriz esparsa. Esta abordagem baseada em tensores permite que se tome vantagem de técnicas modernas de programação distribuída, e.g., a utilização de bases de dados não-relacionais fracionadas e o modelo de MapReduce. Nesta dissertação, propomos o desenho e exploramos a viabilidade da abordagem baseada em tensores, com o objetivo de construir um depósito de dados distribuído e agilizar a busca por palavras-chave com uma abordagem paralela. / [en] The goal of this dissertation is to improve RDF keyword search. We propose a scalable approach, based on a tensor representation that allows for distributed storage, and thus the use of parallel techniques to speed up the search over large linked data sets, in particular those published as Linked Data. An unprecedented amount of information is becoming available following the principles of Linked Data, forming what is called the Web of Data. This information, typically codified as RDF subject-predicate-object triples, is commonly abstracted as a graph which subjects and objects are nodes, and predicates are edges connecting them. As a consequence of the widespread adoption of search engines on the World Wide Web, users are familiar with keyword search. For RDF graphs, however, extracting a coherent subset of data graphs to enrich search results is a time consuming and expensive task, and it is expected to be executed on-the-fly at user prompt. The dissertation s goal is to handle this problem. A recent proposal has been made to index RDF graphs as a sparse matrix with the pre-computed information necessary for faster retrieval of sub-graphs, and the use of tensor-based queries over the sparse matrix. The tensor approach can leverage modern distributed computing techniques, e.g., nonrelational database sharding and the MapReduce model. In this dissertation, we propose a design and explore the viability of the tensor-based approach to build a distributed datastore and speed up keyword search with a parallel approach. [pt] LINKED DATA [en] LINKED DATA [pt] MAPREDUCE [pt] CLOUD COMPUTING [pt] KEYWORD SEARCH
2	[en] CRAWLING THE LINKED DATA CLOUD / [pt] COLETA DE DADOS INTERLIGADOS RAPHAEL DO VALE AMARAL GOMES 26 April 2016 (has links) [pt] As melhores práticas de dados interligados recomendam que se utilizem ontologias bem conhecidas de modo a facilitar a ligação entre um novo conjunto de triplas RDF (ou, abreviadamente, tripleset) e os já existentes. Entretanto, ambas as tarefas apresentam dificuldades. Esta tese apresenta frameworks para criação de buscadores de metadados que ajudam na seleção de ontologias e na escolha de triplesets que podem ser usados, respectivamente, nos processos de publicação e interligação de triplesets. Resumidamente, o administrador de um novo tripleset deve inicialmente definir um conjunto de termos que descrevam o domínio de interesse do tripleset. Um buscador de metadados, construído segundo os frameworks apresentados na tese, irá localizar, nos vocabulários dos triplesets existentes, aqueles que possuem relação direta ou indireta com os termos definidos pelo administrador. O buscador retornará então uma lista de ontologias que podem ser utilizadas para o domínio, bem como uma lista dos triplesets relacionados. O buscador tem então como foco os metadados dos triplesets, incluindo informações de subclasse, e a sua saída retorna somente metadados, justificando assim chama-lo de buscador focado em metadados . / [en] The Linked Data best practices recommend to publish a new tripleset using well-known ontologies and to interlink the new tripleset with other triplesets. However, both are difficult tasks. This thesis describes frameworks for metadata crawlers that help selecting the ontologies and triplesets to be used, respectively, in the publication and the interlinking processes. Briefly, the publisher of a new tripleset first selects a set of terms that describe the application domain of interest. Then, he submits the set of terms to a metadata crawler, constructed using one of the frameworks described in the thesis, that searches for triplesets which vocabularies include terms direct or transitively related to those in the initial set of terms. The crawler returns a list of ontologies that are used for publishing the new tripleset, as well as a list of triplesets with which the new tripleset can be interlinked. Hence, the crawler focuses on specific metadata properties, including subclass of, and returns only metadata, which justifies the classification metadata focused crawler. [pt] LINKED DATA [en] LINKED DATA [pt] BUSCADORES FOCADOS [pt] RECOMENDACAO DE TRIPLESETS
3	[en] STDTRIP: AN A PRIORI DESIGN PROCESS FOR PUBLISHING LINKED DATA / [pt] STDTRIP: UM PROCESSO DE PROJETO A PRIORI PARA PUBLICAÇÃO DE LINKED DATA PERCY ENRIQUE RIVERA SALAS 30 January 2017 (has links) [pt] A abordagem de Dados Abertos tem como objetivo promover a interoperabilidade de dados na Web. Consiste na publicação de informações em formatos que permitam seu compartilhamento, descoberta, manipulação e acesso por parte de usuários e outros aplicativos de software. Essa abordagem requer a triplificação de conjuntos de dados, ou seja, a conversão do esquema de bases de dados relacionais, bem como suas instâncias, em triplas RDF. Uma questão fundamental neste processo é decidir a forma de representar conceitos de esquema de banco de dados em termos de classes e propriedades RDF. Isto é realizado através do mapeamento das entidades e relacionamentos para um ou mais vocabulários RDF, usados como base para a geração das triplas. A construção destes vocabulários é extremamente importante, porque quanto mais padrões são utilizados, melhor o grau de interoperabilidade com outros conjuntos de dados. No entanto, as ferramentas disponíveis atualmente não oferecem suporte adequado ao reuso de vocabulários RDF padrão no processo de triplificação. Neste trabalho, apresentamos o processo StdTrip, que guia usuários no processo de triplificação, promovendo o reuso de vocabulários de forma a assegurar interoperabilidade dentro do espaço da Linked Open Data (LOD). / [en] Open Data is a new approach to promote interoperability of data in the Web. It consists in the publication of information produced, archived and distributed by organizations in formats that allow it to be shared, discovered, accessed and easily manipulated by third party consumers. This approach requires the triplification of datasets, i.e., the conversion of database schemata and their instances to a set of RDF triples. A key issue in this process is deciding how to represent database schema concepts in terms of RDF classes and properties. This is done by mapping database concepts to an RDF vocabulary, used as the base for generating the triples. The construction of this vocabulary is extremely important, because the more standards are reused, the easier it will be to interlink the result to other existing datasets. However, tools available today do not support reuse of standard vocabularies in the triplification process, but rather create new vocabularies. In this thesis, we present the StdTrip process that guides users in the triplification process, while promoting the reuse of standard, RDF vocabularies. [pt] INTEROPERABILIDADE [en] INTEROPERABILITY [pt] ALINHAMENTO DE ONTOLOGIAS [en] ONTOLOGY ALIGNMENT [pt] LINKED DATA [en] LINKED DATA [pt] REUTILIZACAO DE ONTOLOGIAS [pt] TRIPLIFICATION
4	[en] RDXEL: A TOOLKIT FOR RDF STATISTICAL DATA MANIPULATION THROUGH SPREADSHEETS / [pt] RDXEL: UM CONJUNTO DE FERRAMENTAS PARA MANIPULAÇÃO DE DADOS ESTATÍSTICOS EM RDF POR MEIO DE PLANILHAS MARCIA LUCAS PESCE 03 May 2016 (has links) [pt] Dados estatísticos são uma das mais importantes fontes de informação para atividades humanas e organizações. No entanto, o acesso, consulta e correlação deste tipo de dados demanda grande esforço, principalmente em situações que envolvem diferentes organizações. Soluções que facilitem o acesso e a integração de grandes bases de dados analíticos, desta forma, agregam muito valor a este cenário. Neste trabalho propomos um arcabouço de software que permite com que dados estatísticos sejam eficientemente transformados e representados no formato de triplas RDF. Utilizando como base o DataCube Vocabulary, padrão W3C para o processo de triplificação de informações, a solução proposta facilita a consulta, análise, e reuso dos dados quando no formato RDF. O processo inverso, RDF para Excel, também é suportado, de modo a oferecer uma solução para a integração e consumo de dados RDF a partir de planilha. / [en] Statistical data represent one of the most important sources of information both for humans and organizations alike. However, accessing, querying and correlating statistical data demand a great deal of effort, especially in situations that involve different organizations. Therefore, solutions to facilitate the manipulation and integration of large statistical databases add value to this scenario. In this dissertation we propose a framework that allows statistical data to be efficiently processed and represented as RDF triples. Based on the DataCube Vocabulary, W3C s triplification standard, the proposed solution makes it easy to query, analyze, and reuse statistical data in RDF format. The reverse process, RDF for Excel, is also supported, so as to offer a solution for the integration and use of RDF data in spreadsheets. [pt] WEB SEMANTICA [en] SEMANTIC WEB [pt] LINKED DATA [en] LINKED DATA [pt] TRIPLIFICACAO [en] TRIPLIFICATION [pt] RDF [en] RDF [pt] DATA CUBE VOCABULARY [en] DATA CUBE VOCABULARY [pt] EXCEL [en] EXCEL
5	[en] MATERIALIZATION AND MAINTENANCE OF OWL: SAMEAS LINKS / [pt] MATERIALIZAÇÃO E MANUTENÇÃO DE LIGAÇÕES OWL: SAMEAS CARLA GONCALVES OUROFINO 17 January 2017 (has links) [pt] A Web de Dados cresceu significativamente nos últimos anos, tanto em quantidade de dados, quanto em fontes responsáveis por esses. A partir desse aumento no número de fontes de dados, ligações owl:sameAs têm sido cada vez mais utilizadas para conectar dados equivalentes e publicados por fontes distintas. Com isso, torna-se necessário haver uma rotina de identificação e manutenção dessas conexões. Com o objetivo de automatizar essa tarefa, desenvolvemos o Framework MsA – Materialização de sameAs para materializar e recomputar ligações do tipo owl:sameAs entre bancos de dados locais e dados publicados na Web. Essas ligações, uma vez identificadas, são materializadas juntamente aos dados locais e recomputadas apenas quando necessário. Para isso, a ferramenta monitora as operações (cadastramento, remoção e atualização) realizadas nos dados locais e remotos e, para cada tipo, implementa uma estratégia de manutenção das ligações envolvidas. / [en] The Web of Data has grown significantly in recent years, not only in the amount of data but also in the number of data sources. In parallel with this tendency, owl:sameAs links have been increasingly used to connect equivalent data published by different sources. As a consequence, it becomes necessary to have a routine for the identification and maintenance of these connections. In order to automate this task, we have developed the MsA Framework - sameAs Materialization to materialize and recompute owl:sameAs links between local databases and data published on the Web. These connections, once identified, are materialized along with the local data and recomputed only when necessary. To achieve this goal, the tool monitors the operations (insertion, update and deletion) performed on local and remote records, and for each type of operation it implements a maintenance strategy on the links involved. [pt] WEB SEMANTICA [en] SEMANTIC WEB [pt] MANUTENCAO [en] UPDATING [pt] BANCO DE DADOS [en] DATABASE [pt] LINKED DATA [pt] MATERIALIZACAO [pt] LIGACOES [pt] OWL SAMEAS
6	[en] ENRICHING AND ANALYZING SEMANTIC TRAJECTORIES WITH LINKED OPEN DATA / [pt] ENRIQUECENDO E ANALISANDO TRAJETÓRIAS SEMÂNTICAS COM DADOS ABERTOS INTERLIGADOS LIVIA COUTO RUBACK RODRIGUES 26 February 2018 (has links) [pt] Os últimos anos testemunharam o uso crescente de dispositivos que rastreiam objetos móveis: equipamentos com GPS e telefones móveis, veículos ou outros sensores da Internet das Coisas, além de dados de localização de check-ins de redes sociais. Estes dados de mobilidade são representados como trajetórias, e armazenam a sequência de posições de um objeto móvel. Porém, estas sequências representam somente os dados de posição originais, que precisam ser semanticamente enriquecidos para permitir tarefas de análise e apoiar um entendimento profundo sobre o comportamento do movimento. Um outro espaço de dados global sem precedentes tem crescido rapidamente, a Web de Dados, graças à iniciativa de Dados Interligados. Estes dados semânticos ricos e livremente disponíveis fornecem uma nova maneira de enriquecer dados de trajetória. Esta tese apresenta contribuições para os desafios que surgem considerando este cenário. Em primeiro lugar, a tese investiga como dados de trajetória podem se beneficiar da iniciativa de dados interligados, guiando todo o processo de enriquecimento semântico utilizando fontes de dados externas. Em segundo lugar, aborda o tópico de computação de similaridade entre entidades representadas como dados interligados com o objetivo de computar a similaridade entre trajetórias semanticamente enriquecidas. A novidade da abordagem apresentada nesta tese consiste em considerar as características relevantes das entidades como listas ranqueadas. Por último, a tese aborda a computação da similaridade entre trajetórias enriquecidas comparando a similaridade entre todas as entidades representadas como dados interligados que representam as trajetórias enriquecidas. / [en] The last years witnessed a growing number of devices that track moving objects: personal GPS equipped devices and GSM mobile phones, vehicles or other sensors from the Internet of Things but also the location data deriving from the Social Networks check-ins. These mobility data are represented as trajectories, recording the sequence of locations of the moving object. However, these sequences only represent the raw location data and they need to be semantically enriched to be meaningful in the analysis tasks and to support a deep understanding of the movement behavior. Another unprecedented global space that is also growing at a fast pace is the Web of Data, thanks to the emergence of the Linked Data initiative. These freely available semantic rich datasets provide a novel way to enhance trajectory data. This thesis presents a contribution to the many challenges that arise from this scenario. First, it investigates how trajectory data may benefit from the Linked Data Initiative by guiding the whole trajectory enrichment process with the use of external datasets. Then, it addresses the pivotal topic of the similarity computation between Linked Data entities with the final objective of computing the similarity between semantically enriched trajectories. The novelty of our approach is that the thesis considers the relevant entity features as a ranked list. Finally, the thesis targets the computation of the similarity between enriched trajectories by comparing the similarity of the Linked Data entities that represent the enriched trajectories. [pt] LINKED DATA [pt] SEMANTIC WEB [pt] DADOS DE MOVIMENTO [pt] SIMILARIDADE SEMANTICA [pt] TRAJETORIAS SEMANTICAS [en] LINKED DATA [en] SEMANTIC WEB [en] MOVEMENT DATA [en] SEMANTIC SIMILARITY [en] SEMANTIC TRAJECTORIES
7	[en] CATALOGUE OF LINKED DATA CUBE DESCRIPTIONS / [pt] CATÁLOGO DE DESCRIÇÕES DE CUBOS DE DADOS INTERLIGADOS SOFIA RIBEIRO MANSO DE ABREU E SILVA 06 November 2014 (has links) [pt] Dados estatísticos são considerados uma das principais fontes de informação e são essenciais em muitos campos, uma vez que podem funcionar como indicadores sociais e econômicos. Um conjunto de dados estatísticos compreende um conjunto de observações feitas em determinados pontos de um espaço lógico e é muitas vezes organizado como o que se chama de cubo de dados. A definição correta dos cubos de dados, especialmente das suas dimensões, ajuda a processar as observações e, mais importante, ajuda a combinar as observações de diferentes cubos de dados. Neste contexto, os princípios de Linked Data podem ser proveitosamente aplicados à definição de cubos de dados, no sentido de que os princípios oferecem uma estratégia para proporcionar a semântica ausentes das suas dimensões, incluindo os seus valores. Esta dissertação descreve inicialmente uma arquitetura de mediação para ajudar a descrever e consumir dados estatísticos, expostos como triplas RDF, mas armazenados em bancos de dados relacionais. Uma das características desta mediação é o Catálogo de Descrições de Cubos de Dados Interligados, que vai ser descrito em detalhes na dissertação. Este catálogo contém uma descrição padronizada em RDF para cada cubo de dados, que está realmente armazenado em cada banco de dados (relacional). Portanto, a principal discussão nesta dissertação é sobre a forma de representar em RDF cubos representando dados estatísticos e armazenados em bancos de dados relacionais, ou seja, como mapear os conceitos de banco de dados para RDF de uma forma em que seja fácil consultar, analisar e reutilizar dados estatísticos no formato RDF. / [en] Statistical Data are considered one of the major sources of information and are essential in many fields as they can work as social and economic indicators. A statistical data set comprises a colletion of observations made at some points of a logical space and is often organized as what is called a data cube. The proper definition of the data cubes, especially of theis dimensions, helps processing the observations and, more importantly, helps combining observations from different data cubes. In this contexto, the Linked Data principles can be profitably applied to the definition of data cubes, in the sense that the principles offer a strategy to provide the missing semantics of the dimensions, including their values. This dissertion first describes a mediation architecture to help describing and consuming statistical data, exposed as RDFtriples, but stored in relational databases. One of the features of this architesture is the Catalogue of Linked Data Cube Descriptions, which is described in detail in the dissertation. This catalogue has a standardized description in RDF of each data cube actually stored in statistical (relational) databases. Therefore, the main discussion in this dissertation is how to represent the data cubes in RDF, i.e., how to map the database concepts to RDF in a way that makes it easy to query, analyze and reuse statistical data in the RDF format. [pt] LINKED DATA [en] LINKED DATA [pt] DADOS ESTATISTICOS [en] STATISTICAL DATA [pt] ARQUITETURA DE MEDIACAO [en] MEDIATION ARCHITECTURE [pt] TRIPLIFICACAO [en] TRIPLIFICATION [pt] RDF [en] RDF [pt] DATA CUBE VOCABULARY [en] DATA CUBE VOCABULARY [pt] R2RML [en] R2RML
8	[en] DCD TOOL: A TOOLKIT FOR THE DISCOVERY AND TRIPLIFICATION OF STATISTICAL DATA CUBES / [pt] DCD TOOL: UM CONJUNTO DE FERRAMENTAS PARA DESCOBERTA E TRIPLIFICAÇÃO DE CUBOS DE DADOS ESTATÍSTICOS SERGIO RICARDO BATULI MAYNOLDI ORTIGA 07 July 2015 (has links) [pt] A produção de indicadores sociais e sua disponibilização na Web é uma importante iniciativa de democratização e transparência que os governos em todo mundo vêm realizando nas últimas duas décadas. No Brasil diversas instituições governamentais ou ligadas ao governo publicam indicadores relevantes para acompanhamento do desempenho do governo nas áreas de saúde, educação, meio ambiente entre outras. O acesso, a consulta e a correlação destes dados demanda grande esforço, principalmente, em um cenário que envolve diferentes organizações. Assim, o desenvolvimento de ferramentas com foco na integração e disponibilização das informações de tais bases, torna-se um esforço relevante. Outro aspecto que se destaca no caso particular do Brasil é a dificuldade em se identificar dados estatísticos dentre outros tipos de dados armazenados no mesmo banco de dados. Esta dissertação propõe um arcabouço de software que cobre a identificação das bases de dados estatísticas no banco de dados de origem e o enriquecimento de seus metadados utilizando ontologias padronizadas pelo W3C, como base para o processo de triplificação. / [en] The production of social indicators and their availability on the Web is an important initiative for the democratization and transparency that governments have been doing in the last two decades. In Brazil, several government or government-linked institutions publish relevant indicators to help assess the government performance in the areas of health, education, environment and others. The access, query and correlation of these data demand substantial effort, especially in a scenario involving different organizations. Thus, the development of tools, with a focus on the integration and availability of information stored in such bases, becomes a significant effort. Another aspect that requires attention, in the case of Brazil, is the difficulty in identifying statistical databases among others type of data that share the same database. This dissertation proposes a software framework which covers the identification of statistical data in the database of origin and the enrichment of their metadata using W3C standardized ontologies, as a basis for the triplification process. [pt] WEB SEMANTICA [en] SEMANTIC WEB [pt] LINKED DATA [en] LINKED DATA [pt] DADOS ESTATISTICOS [en] STATISTICAL DATA [pt] TRIPLIFICACAO [en] TRIPLIFICATION [pt] RDF [en] RDF [pt] DATA CUBE VOCABULARY [en] DATA CUBE VOCABULARY [pt] R2RML [en] R2RML [pt] MODELAGEM DIMENSIONAL [en] DIMENSIONAL MODELING
9	[en] OLAP2DATACUBE: AN ON-DEMAND TRANSFORMATION FRAMEWORK FROM OLAP TO RDF DATA CUBES / [pt] OLAP2DATACUBE: UM FRAMEWORK PARA TRANSFORMAÇÕES EM TEMPO DE EXECUÇÃO DE OLAP PARA CUBOS DE DADOS EM RDF PERCY ENRIQUE RIVERA SALAS 13 April 2016 (has links) [pt] Dados estatísticos são uma das mais importantes fontes de informações, relevantes para um grande número de partes interessadas nos domínios governamentais, científicos e de negócios. Um conjunto de dados estatísticos compreende uma coleção de observações feitas em alguns pontos através de um espaço lógico e muitas vezes é organizado como cubos de dados. A definição adequada de cubos de dados, especialmente das suas dimensões, ajuda a processar as observações e, mais importante, ajuda a combinar observações de diferentes cubos de dados. Neste contexto, os princípios de Linked Data podem ser proveitosamente aplicados na definição de cubos de dados, no sentido de que os princípios oferecem uma estratégia para fornecer a semântica ausentes nas dimensões, incluindo os seus valores. Nesta tese, descrevemos o processo e a implementação de uma arquitetura de mediação, chamada OLAP2DataCube On Demand Framework, que ajuda a descrever e consumir dados estatísticos, expostos como triplas RDF, mas armazenados em bancos de dados relacionais. O Framework possui um catálogo de descrições de Linked Data Cubes, criado de acordo com os princípios de Linked Data. O catálogo tem uma descrição padronizada para cada cubo de dados armazenado em bancos de dados (relacionais) estatísticos conhecidos pelo Framework. O Framework oferece uma interface para navegar pelas descrições dos Linked Data Cubes e para exportar os cubos de dados como triplas RDF geradas por demanda a partir das fontes de dados subjacentes. Também discutimos a implementação de operações sofisticadas de busca de metadados, operações OLAP em cubo de dados, tais como slice e dice, e operações de mashup sofisticadas de cubo de dados que criam novos cubos através da combinação de outros cubos. / [en] Statistical data is one of the most important sources of information, relevant to a large number of stakeholders in the governmental, scientific and business domains alike. A statistical data set comprises a collection of observations made at some points across a logical space and is often organized as what is called a data cube. The proper definition of the data cubes, especially of their dimensions, helps processing the observations and, more importantly, helps combining observations from different data cubes. In this context, the Linked Data principles can be profitably applied to the definition of data cubes, in the sense that the principles offer a strategy to provide the missing semantics of the dimensions, including their values. In this thesis we describe the process and the implementation of a mediation architecture, called OLAP2DataCube On Demand, which helps describe and consume statistical data, exposed as RDF triples, but stored in relational databases. The tool features a catalogue of Linked Data Cube descriptions, created according to the Linked Data principles. The catalogue has a standardized description for each data cube actually stored in each statistical (relational) database known to the tool. The tool offers an interface to browse the linked data cube descriptions and to export the data cubes as RDF triples, generated on demand from the underlying data sources. We also discuss the implementation of sophisticated metadata search operations, OLAP data cube operations, such as slice and dice, and data cube mashup operations that create new cubes by combining other cubes. [pt] MODELOS MULTIDIMENSIONAIS [pt] MASHUP DE DADOS [pt] OPERACOES OLAP [pt] R2RML [pt] TRIPLIFICACAO [pt] DADOS ESTATISTICOS [pt] LINKED DATA [pt] INTEGRACAO DE DADOS [en] MULTIDIMENSIONAL MODEL [en] R2RML [en] TRIPLIFICATION [en] STATISTICAL DATA [en] LINKED DATA [en] DATA INTEGRATION
10	[en] TOWARDS A WELL-INTERLINKED WEB THROUGH MATCHING AND INTERLINKING APPROACHES / [pt] INTERLIGANDO RECURSOS NA WEB ATRAVÉS DE ABORDAGENS DE MATCHING E INTERLINKING BERNARDO PEREIRA NUNES 07 January 2016 (has links) [pt] Com o surgimento da Linked (Open) Data, uma série de novos e importantes desafios de pesquisa vieram à tona. A abertura de dados, como muitas vezes a Linked Data é conhecida, oferece uma oportunidade para integrar e conectar, de forma homogênea, fontes de dados heterogêneas na Web. Como diferentes fontes de dados, com recursos em comum ou relacionados, são publicados por diferentes editores, a sua integração e consolidação torna-se um verdadeiro desafio. Outro desafio advindo da Linked Data está na criação de um grafo denso de dados na Web. Com isso, a identificação e interligação, não só de recursos idênticos, mas também dos recursos relacionadas na Web, provê ao consumidor (data consumer) uma representação mais rica dos dados e a possibilidade de exploração dos recursos conectados. Nesta tese, apresentamos três abordagens para enfrentar os problemas de integração, consolidação e interligação de dados. Nossa primeira abordagem combina técnicas de informação mútua e programação genética para solucionar o problema de alinhamento complexo entre fontes de dados, um problema raramente abordado na literatura. Na segunda e terceira abordagens, adotamos e ampliamos uma métrica utilizada em teoria de redes sociais para enfrentar o problema de consolidação e interligação de dados. Além disso, apresentamos um aplicativo Web chamado Cite4Me que fornece uma nova perspectiva sobre a pesquisa e recuperação de conjuntos de Linked Open Data, bem como os benefícios da utilização de nossas abordagens. Por fim, uma série de experimentos utilizando conjuntos de dados reais demonstram que as nossas abordagens superam abordagens consideradas como estado da arte. / [en] With the emergence of Linked (Open) Data, a number of novel and notable research challenges have been raised. The openness that often characterises Linked Data offers an opportunity to homogeneously integrate and connect heterogeneous data sources on the Web. As disparate data sources with overlapping or related resources are provided by different data publishers, their integration and consolidation becomes a real challenge. An additional challenge of Linked Data lies in the creation of a well-interlinked graph of Web data. Identifying and linking not only identical Web resources, but also lateral Web resources, provides the data consumer with richer representation of the data and the possibility of exploiting connected resources. In this thesis, we present three approaches that tackle data integration, consolidation and linkage problems. Our first approach combines mutual information and genetic programming techniques for complex datatype property matching, a rarely addressed problem in the literature. In the second and third approaches, we adopt and extend a measure from social network theory to address data consolidation and interlinking. Furthermore, we present a Web-based application named Cite4Me that provides a new perspective on search and retrieval of Linked Open Data sets, as well as the benefits of using our approaches. Finally, we validate our approaches through extensive evaluations using real-world datasets, reporting results that outperform state of the art approaches. [pt] WEB SEMANTICA [en] SEMANTIC WEB [pt] INTEGRACAO DE DADOS [en] DATA INTEGRATION [pt] PRIVACIDADE [en] PRIVACY [pt] ALINHAMENTO DE ONTOLOGIAS [en] ONTOLOGY ALIGNMENT [pt] SISTEMAS DE RECOMENDACAO [en] RECOMMENDER SYSTEMS [pt] ALINHAMENTO DE ESQUEMAS [pt] LINKED DATA [en] LINKED DATA [pt] CONSOLIDACAO DE DADOS [en] DATA CONSOLIDATION [pt] ENTITY LINKING [en] ENTITY LINKING [pt] DOCUMENT LINKING [en] DOCUMENT LINKING [pt] CITE4ME [en] CITE4ME [pt] FIREME [en] FIREME

Search results