1 |
[en] ENLIDA: ENRICHMENT OF LINKED DATA CUBE DESCRIPTIONS / [pt] ENLIDA: ENRIQUECIMENTO DAS DESCRIÇÕES DE LINKED DATA CUBESXIMENA ALEXANDRA CABRERA TAPIA 12 January 2015 (has links)
[pt] O termo dados interligados refere-se a conjuntos de triplas RDF
organizados segundo certos princípios que facilitam a publicação e o acesso a
dados por meio da infraestrutura da Web. Os princípios para organização de dados
interligados são de grande importância pois oferecem uma forma de minimizar o
problema de interoperabilidade entre bancos de dados expostos na Web. Este
trabalho propõe enriquecer um banco de dados que contém descrições em RDF de
cubos de dados, interligando seus componentes com entidades definidas em fontes
de dados externas através de triplas owl:sameAs. O trabalho propõe uma
arquitetura composta por dois componentes principais, o enriquecedor automático
e o enriquecedor manual. O primeiro componente gera triplas owl:sameAs
automaticamente enquanto que o segundo componente permite ao usuário definir
manualmente as ligações. Em conjunto, estes componentes facilitam a definição
de cubos de dados de acordo com os princípios de dados interligados / [en] The term Linked Data refers to a set of RDF triples organized according to
certain principles that facilitate the publishing and consumption of data using the
Web infrastructure. The importance of the Linked Data principles stems from the
fact that they offer a way to minimize the interoperability problem between
databases exposed on the Web. This dissertation proposes to enrich a database
that contains Linked Data cube descriptions by interconnecting the components of
the data cubes with entities defined in external data sources, using owl:sameAs
triples. The dissertation proposes an architecture consisting of two major
components, the automatic enriching component and the manual enriching
component. The first component automatically generates owl:sameAs triples,
while the second component helps the user manually define owl:sameAs triples
that the automatic component was not able to uncover. Together, these
components therefore facilitate the definition of data cubes according to the
Linked Data principles.
|
2 |
[en] EXPLORING RDF KNOWLEDGE BASES THROUGH SERENDIPITY PATTERNS / [pt] EXPLORANDO BASES DE CONHECIMENTO EM RDF ATRAVÉS DE PADRÕES DE FORTUIDADEJERONIMO SIROTHEAU DE ALMEIDA EICHLER 15 January 2019 (has links)
[pt] Fortuidade pode ser definida como a descoberta de algo que não está sendo buscado. Em outras palavras, fortuidade trata da descoberta de informação que provê valiosas intuições ao desvendar conhecimento inesperado. O tópico vem recebendo bastante atenção na literatura, uma vez que precisão pode ser justificadamente relaxada com o objetivo de aumentar a satisfação do usuário. Uma área que pode se beneficiar com fortuidade é a área de dados interligados, um gigantesco espaço de dados no qual dados são disponibilizados publicamente. Buscar e extrair informação relevante se torna uma tarefa desafiadora à medida que cada vez mais dados se tornam disponíveis nesse ambiente. Esta tese contribui para enfrentar este desafio de duas maneiras. Primeiro, apresenta um processo de orquestração de consulta que introduz três estratégias para injetar padrões de fortuidade no processo de consulta. Os padrões de fortuidade são inspirados em características básicas de eventos fortuitos, como analogia e perturbação, e podem ser usados para estender os resultados com informações adicionais, sugerindo consultas alternativas ou reordenando os resultados. Em segundo lugar, introduz uma base de dados que pode ser utilizada para comparar diferentes abordagens de obtenção de conteúdo fortuito. A estratégia adotada para construção dessa base de dados consiste em dividir o universo de dados em partições com base em um atributo global e conectar entidades de diferentes partições de acordo com o número de caminhos compartilhados. / [en] Serendipity is defined as the discovery of a thing when one is not searching for it. In other words, serendipity means the discovery of information that provides valuable insights by unveiling unanticipated knowledge. The topic is receiving increased attention in the literature, since the precision requirement may be justifiably relaxed in order to improve user satisfaction. A field that can benefit from serendipity is the Web of Data, an immense global data space where data is publicly available. As more and more data become available in this data space, searching and extracting relevant information becomes a challenging task. This thesis contributes to addressing this challenge in two ways. First, it presents a query orchestration process that introduces three strategies to inject serendipity patterns in the query process. The serendipity patterns are inspired by basic characteristics of serendipitous events, such as, analogy and disturbance, and can be used for augmenting the results with additional information, suggesting
alternative queries or rebalancing the results. Second, it introduces a benchmark dataset that can be used to compare different approaches for locating serendipitous content. The strategy adopted for constructing the dataset consists of dividing the dataset into partitions based on a global feature and linking entities from different partitions according to the number of paths they share.
|
3 |
[en] OPERATIONS OVER LIGHTWEIGHT ONTOLOGIES / [pt] OPERAÇÕES SOBRE ONTOLOGIAS LEVESROMULO DE CARVALHO MAGALHAES 25 February 2016 (has links)
[pt] Este trabalho aborda problemas de projeto de ontologias tratando-as como teorias e definindo um conjunto de operações que mapeiam ontologias em ontologias, incluindo suas restrições. Inicialmente, o trabalho resume o conhecimento básico necessário para definir a classe de ontologias utilizada e propõe quatro operações para manipular ontologias. Em seguida, mostra o funcionamento destas operações e como elas podem ajudar na criação de novas ontologias. O cerne do trabalho mostra a implementação destas operações em um plug-in do Protégé, detalhando sua arquitetura e incluindo casos de uso. / [en] This work addresses ontology design problems by treating ontologies as theories and by defining a set of operations that map ontologies into ontologies, including their constraints. The work first summarizes the base knowledge needed to define the class of ontologies used and proposes four operations to manipulate them. It then shows how the operations work and how they may help design new ontologies. The core of this work is describing the implementation of the operations over a Protégé plug-in, detailing the architecture and including case-use examples.
|
4 |
[en] CLUSTERING AND DATASET INTERLINKING RECOMMENDATION IN THE LINKED OPEN DATA CLOUD / [pt] CLUSTERIZAÇÃO E RECOMENDAÇÃO DE INTERLIGAÇÃO DE CONJUNTO DE DADOS NA NUVEM DE DADOS ABERTOS CONECTADOSALEXANDER ARTURO MERA CARABALLO 24 July 2017 (has links)
[pt] O volume de dados RDF publicados na Web aumentou consideravelmente, o que ressaltou a importância de seguir os princípios de dados interligados para promover a interoperabilidade. Um dos princípios afirma que todo novo conjunto de dados deve ser interligado com outros conjuntos de dados publicados na Web. Esta tese contribui para abordar este princípio de duas maneiras. Em primeiro lugar, utiliza algoritmos de detecção de comunidades e técnicas de criação de perfis para a criação e análise automática de um diagrama da nuvem da LOD (Linked Open Data), o qual facilita a localização de conjuntos de dados na nuvem da LOD. Em segundo lugar, descreve três abordagens, apoiadas por ferramentas totalmente implementadas, para recomendar conjuntos de dados a serem interligados com um novo conjunto de dados, um problema conhecido como problema de recomendação de interligação de conjunto de dados. A primeira abordagem utiliza medidas de previsão de links para produzir recomendações de interconexão. A segunda abordagem emprega algoritmos de aprendizagem supervisionado, juntamente com medidas de previsão de links. A terceira abordagem usa algoritmos de agrupamento e técnicas de criação de perfil para
produzir recomendações de interconexão. Essas abordagens são implementadas, respectivamente, pelas ferramentas TRT, TRTML e DRX. Por fim, a tese avalia extensivamente essas ferramentas, usando conjuntos de dados do mundo real. Os resultados mostram que estas ferramentas facilitam o processo de criação de links entre diferentes conjuntos de dados. / [en] The volume of RDF data published on the Web increased considerably,
which stressed the importance of following the Linked Data principles to foster
interoperability. One of the principles requires that a new dataset should be interlinked with other datasets published on the Web. This thesis contributes to addressing this principle in two ways. First, it uses community detection algorithms and profiling techniques for the automatic creation and analysis of a Linked Open Data (LOD) diagram, which facilitates locating datasets in the LOD cloud. Second, it describes three approaches, backed up by fully implemented tools, to recommend datasets to be interlinked with a new dataset, a problem known as the dataset interlinking recommendation problem. The first approach uses link prediction measures to provide a list of datasets recommendations for interlinking. The second approach employs supervised learning algorithms, jointly with link prediction measures. The third approach uses clustering algorithms and profiling techniques to produce dataset interlinking recommendations. These approaches are backed up, respectively, by the TRT, TRTML and DRX tools. Finally, the thesis extensively evaluates these tools, using real-world datasets, reporting results that show that they facilitate the process of creating links between disparate datasets.
|
5 |
[pt] MANUTENÇÃO DE LINKS SAMEAS MATERIALIZADOS UTILIZANDO VISÕES / [en] MATERIALIZED SAMEAS LINK MAINTENANCE WITH VIEWSELISA SOUZA MENENDEZ 11 February 2016 (has links)
[pt] Na área de dados interligados, usuários frequentemente utilizam ferramentas de descoberta de links para materializar links sameAs entre diferentes base de dados. No entanto, pode ser difícil especificar as regras de ligação nas ferramentas, se as bases de dados tiverem modelos complexos. Uma possível solução para esse problema seria estimular os administradores das base de dados a publicarem visões simples, que funcionem como catálogos de recursos. Uma vez que os links estão materializados, um segundo problema que surge é como manter esses links atualizados quando as bases de dados são atualizadas. Para ajudar a resolver o segundo problema, este trabalho apresenta um framework para a manutenção de visões e links materializados, utilizando uma estratégia incremental. A ideia principal da estratégia é recomputar apenas os links dos recursos que foram atualizadas e que fazem parte da visão. Esse trabalho também apresenta um experimento para comparar a performance da estratégia incremental com a recomputação total das visões e dos links materializados. / [en] In the Linked Data field, data publishers frequently materialize sameAs links between two different datasets using link discovery tools. However, it may be difficult to specify linking conditions, if the datasets have complex models. A possible solution lies in stimulating dataset administrators to publish simple predefined views to work as resource catalogues. A second problem is related to maintaining materialized sameAs linksets, when the source datasets are updated. To help solve this second problem, this work presents a framework for maintaining views and linksets using an incremental strategy. The key idea is to re-compute only the set of updated resources that are part of the view. This work also describes an experiment to compare the performance of the incremental strategy with the full re-computation of views and linksets.
|
6 |
[en] ANALYZING, COMPARING AND RECOMMENDING CONFERENCES / [pt] ANÁLISE, COMPARAÇÃO E RECOMENDAÇÃO DE CONFERÊNCIASGRETTEL MONTEAGUDO GARCÍA 06 September 2016 (has links)
[pt] Esta dissertação discute técnicas para automaticamente analisar, comparar e recomendar conferências, usando dados bibliográficos. Apresenta uma implementação das técnicas propostas e descreve experimentos com os dados extraídos de uma versão triplificada do repositório DBLP. A análise de conferências baseia-se em medidas estatísticas e medidas para a análises de redes sociais aplicadas à rede de coautoria das conferências. As técnicas para comparar conferências exploram um conjunto de medidas de similaridades como, por exemplo, o coeficiente de similaridade de Jaccard, a similaridade por correlação de Pearson e o Cosseno, além de uma nova medida de similaridade baseada em comunidades de coautores. As medidas para calcular similaridade entre conferências são usadas em um sistema de recomendação baseado na estratégia de filtragem colaborativa. Finalmente, a dissertação introduz duas técnicas para recomendar conferências a um determinado autor, usando uma medida de relação entre autores. A primeira alternativa usa o índice de Katz, que pode ser computacionalmente lento para grandes grafos, enquanto a segunda adota uma aproximação do índice de Katz, que mostrou ser computacionalmente mais eficiente. Os experimentos sugerem que as melhores técnicas são: a técnica de comparação de conferências que utiliza a nova medida de similaridade baseada em comunidades de coautores; e a técnica para recomendação de conferências que explora os autores mais relacionados na rede de coautores. / [en] This dissertation discusses techniques to automatically analyze, compare
and recommend conferences, using bibliographic data, outlines an implementation
of the proposed techniques and describes experiments with data extracted from a
triplified version of the DBLP repository. Conference analysis applies statistical
and social network analysis measures to the co-authorship network. The
techniques for comparing conferences explore familiar similarity measures, such
as the Jaccard similarity coefficient, the Pearson correlation similarity and the
cosine similarity, and a new measure, the co-authorship network communities
similarity index. These similarity measures are used to create a conference
recommendation system based on the Collaborative Filtering strategy. Finally, the
work introduces two techniques for recommending conferences to a given
prospective author based on the strategy of finding the most related authors in the
co-authorship network. The first alternative uses the Katz index, which can be
quite costly for large graphs, while the second one adopts an approximation of the
Katz index, which proved to be much faster to compute. The experiments suggest
that the best performing techniques are: the technique for comparing conferences
that uses the new similarity measure based on co-authorship communities; and the
conference recommendation technique that explores the most related authors in
the co-authorship network.
|
Page generated in 0.0473 seconds