• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 8
  • 2
  • Tagged with
  • 10
  • 10
  • 10
  • 10
  • 10
  • 5
  • 4
  • 3
  • 3
  • 3
  • 3
  • 3
  • 2
  • 2
  • 2
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

[en] A FRAMEWORK FOR THE CONSTRUCTION OF MEDIATORS OFFERING DEDUPLICATION / [pt] UM FRAMEWORK PARA A CONSTRUÇÃO DE MEDIADORES OFERECENDO ELIMINAÇÃO DE DUPLICATAS

GUSTAVO LOPES MOURAD 24 January 2011 (has links)
[pt] À medida em que aplicações web que combinam dados de diferentes fontes ganham importância, soluções para a detecção online de dados duplicados tornam-se centrais. A maioria das técnicas existentes são baseadas em algoritmos de aprendizado de máquina, que dependem do uso de bases de treino criadas manualmente. Estas soluções não são adequadas no caso da Deep Web onde, de modo geral, existe pouca informação acerca do tamanho das fontes de dados, da volatilidade dos mesmos e do fato de que a obtenção de um conjunto de dados relevante para o treinamento é uma tarefa difícil. Nesta dissertação propomos uma estratégia para extração (scraping), detecção de duplicatas e incorporação de dados resultantes de consultas realizadas em bancos de dados na Deep Web. Nossa abordagem não requer o uso de conjuntos de testes previamente definidos, mas utiliza uma combinação de um classificador baseado no Vector Space Model, com funções de cálculo de similaridade para prover uma solução viável. Para ilustrar nossa proposta, nós apresentamos um estudo de caso onde o framework é instanciado para uma aplicação do domínio dos vinhos. / [en] As Web applications that obtain data from different sources (Mashups) grow in importance, timely solutions to the duplicate detection problem become central. Most existing techniques, however, are based on machine learning algorithms, that heavily rely on the use of relevant, manually labeled, training datasets. Such solutions are not adequate when talking about data sources on the Deep Web, as there is often little information regarding the size, volatility and hardly any access to relevant samples to be used for training. In this thesis we propose a strategy to aid in the extraction (scraping), duplicate detection and integration of data that resulted from querying Deep Web resources. Our approach does not require the use of pre-defined training sets , but rather uses a combination of a Vector Space Model classifier with similarity functions, in order to provide a viable solution. To illustrate our approach, we present a case study where the proposed framework was instantiated for an application in the wine industry domain.
2

[en] IT STRATEGIES FOR THE ELECTRONIC INTEGRATION OF INFORMATION: A STUDY OF THE STATE OF THE ART AND THE PRACTICE / [pt] ESTRATÉGIAS DE TI PARA A INTEGRAÇÃO ELETRÔNICA DA INFORMAÇÃO: UM ESTUDO SOBRE O ESTADO DA ARTE E DA PRÁTICA

DANIEL VALENTE SERMAN 03 March 2008 (has links)
[pt] A informação passou a ser vista ao longo do tempo como um insumo importante para a tomada de decisão e para a obtenção de vantagens competitivas pelas empresas. A tecnologia passou a fazer parte do cotidiano das empresas para melhor administrá-la e disseminá-la. Entretanto, nem sempre as organizações adotaram esse caminho de forma planejada. Percebe-se uma confusão no uso de conceitos e de soluções em TI, que se estende para o tema da integração eletrônica da informação. O trabalho consistiu em uma revisão da literatura sobre a integração de sistemas e de dados, verificando-se os conceitos mais comuns, as soluções mais utilizadas e as promessas encontradas. Além disso, realizou-se uma pesquisa de campo, na qual gestores expuseram em entrevistas qualitativas o que acontece na prática sobre o assunto, aludindo a benefícios, problemas e requisitos para o desenvolvimento e adoção de soluções de integração. / [en] Organizations began to see information like an important component for decision making and obtaining above average profits, when well used. Computational tools and communication technologies became common on the quotidian of these organizations. However, those tools and technologies weren`t always adopted through the right way. We notice confusion on the use of concepts and the adoption of solutions on IT and that problem extends to information integration. This work consisted on an intense review of the literature about systems and data integration, verifying most common concepts, most utilized solutions and promises about them. Besides, a field research was realized, which manages showed on qualitative interviews what actually happens about this subject, referring to benefits, problems and requisites for the development and adoption of integration solutions.
3

[en] SEMANTIC DATA INTEGRATION WITH AN ONTOLOGY FEDERATION. / [pt] INTEGRAÇÃO SEMÂNTICA DE DADOS ATRAVÉS DE FEDERAÇÃO DE ONTOLOGIAS

SANDRA APARECIDA DIAS 16 October 2006 (has links)
[pt] O advento da WEB propiciou a disseminação de bases de dados distribuídas e heterogêneas. Por vezes, a resposta a uma consulta demanda o uso de várias destas bases. É necessário, então, algum nível de integração destas. A publicação dessas bases nem sempre segue um padrão semântico. Em função disso parece ser essencial existir um meio de relacionar os diferentes dados para satisfazer tais consultas. Este processo é comumente denominado de integração de dados. A comunidade de Banco de Dados tem conhecimento de métodos para dar conta desta integração no contexto de federações de Bancos de Dados heterogêneos. No entanto, atualmente existem descrições mais ricas e com mais possibilidades de semântica, tais como aquelas induzidas pelo conceito de ontologia. A comunidade de Banco de Dados tem considerado ontologias na solução do problema da integração de Banco de Dados. O alinhamento ou merge de ontologias são algumas das propostas conhecidas da comunidade de WEB semântica. Este trabalho propõe o uso de métodos de merge de ontologias como solução ao problema da construção de uma federação de ontologias como método integrador de fontes de dados. O trabalho inclui a implementação de um estudo de caso na ferramenta Protegé. Este estudo de caso permite discutir aspectos de escalabilidade e de aplicabilidade da proposta como uma solução tecnologicamente viável. / [en] The WEB has spread out the use of heterogeneous distributed databases. Sometimes, the answer to a query demands the use of more than one database. Some level of integration among these databases is desired. However, frequently, the bases were not designed according a unique semantic pattern. Thus, it seems essential to relate the different data, in the respective base, in order to provide an adequate answer to the query. The process of building this relationship is often called data integration. The Data Base community has acquired enough knowledge to deal with this in the context of Data Base Heterogeneous Federation. Nowadays, there are more expressive model descriptions, namely ontologies. The Data Base community has also considered ontologies as a tool to contribute as part of a solution to the data integration problem. The Semantic WEB community defined alignment or merge of ontologies as one of the possible solutions to the some of this integration problem. This work has the aim of using merge of ontologies methods as a mean to define the construction of a Federation of ontologies as a mean to integrate source of data. The dissertation includes a case study written in the Protegé tool. From this case study, a discussion follows on the scalability and applicability of the proposal as a feasible technological solution for data integration.
4

[pt] AGRUPAMENTO FUZZY APLICADO À INTEGRAÇÃO DE DADOS MULTI-ÔMICOS / [en] FUZZY CLUSTERING APPLIED TO MULTI-OMICS DATA

SARAH HANNAH LUCIUS LACERDA DE GOES TELLES CARVALHO ALVES 05 October 2021 (has links)
[pt] Os avanços nas tecnologias de obtenção de dados multi-ômicos têm disponibilizado diferentes níveis de informação molecular que aumentam progressivamente em volume e variedade. Neste estudo, propõem-se uma metodologia de integração de dados clínicos e multi-ômicos, com o objetivo de identificar subtipos de câncer por agrupamento fuzzy, representando assim as gradações entre os diferentes perfis moleculares. Uma melhor caracterização de tumores em subtipos moleculares pode contribuir para uma medicina mais personalizada e assertiva. Os conjuntos de dados ômicos a serem integrados são definidos utilizando um classificador com classe-alvo definida por resultados da literatura. Na sequência, é realizado o pré-processamento dos conjuntos de dados para reduzir a alta dimensionalidade. Os dados selecionados são integrados e em seguida agrupados. Optou-se pelo algoritmo fuzzy C-means pela sua capacidade de considerar a possibilidade dos pacientes terem características de diferentes grupos, o que não é possível com métodos clássicos de agrupamento. Como estudo de caso, utilizou-se dados de câncer colorretal (CCR). O CCR tem a quarta maior incidência na população mundial e a terceira maior no Brasil. Foram extraídos dados de metilação, expressão de miRNA e mRNA do portal do projeto The Cancer Genome Atlas (TCGA). Observou-se que a adição dos dados de expressão de miRNA e metilação a um classificador de expressão de mRNA da literatura aumentou a acurácia deste em 5 pontos percentuais. Assim, foram usados dados de metilação, expressão de miRNA e mRNA neste trabalho. Os atributos de cada conjunto de dados foram selecionados, obtendo-se redução significativa do número de atributos. A identificação dos grupos foi realizada com o algoritmo fuzzy C-means. A variação dos hiperparâmetros deste algoritmo, número de grupos e parâmetro de fuzzificação, permitiu a escolha da combinação de melhor desempenho. A escolha da melhor configuração considerou o efeito da variação dos parâmetros nas características biológicas, em especial na sobrevida global dos pacientes. Observou-se que o agrupamento gerado permitiu identificar que as amostras consideradas não agrupadas têm características biológicas compartilhadas entre grupos de diferentes prognósticos. Os resultados obtidos com a combinação de dados clínicos e ômicos mostraram-se promissores para melhor predizer o fenótipo. / [en] The advances in technologies for obtaining multi-omic data provide different levels of molecular information that progressively increase in volume and variety. This study proposes a methodology for integrating clinical and multiomic data, which aim is the identification of cancer subtypes using fuzzy clustering algorithm, representing the different degrees between molecular profiles. A better characterization of tumors in molecular subtypes can contribute to a more personalized and assertive medicine. A classifier that uses a target class from literature results indicates which omic data sets should be integrated. Next, data sets are pre-processed to reduce high dimensionality. The selected data is integrated and then clustered. The fuzzy C-means algorithm was chosen due to its ability to consider the shared patients characteristics between different groups. As a case study, colorectal cancer (CRC) data were used. CCR has the fourth highest incidence in the world population and the third highest in Brazil. Methylation, miRNA and mRNA expression data were extracted from The Cancer Genome Atlas (TCGA) project portal. It was observed that the addition of miRNA expression and methylation data to a literature mRNA expression classifier increased its accuracy by 5 percentage points. Therefore, methylation, miRNA and mRNA expression data were used in this work. The attributes of each data set were pre-selected, obtaining a significant reduction in the number of attributes. Groups were identified using the fuzzy C-means algorithm. The variation of the hyperparameters of this algorithm, number of groups and membership degree, indicated the best performance combination. This choice considered the effect of parameters variation on biological characteristics, especially on the overall survival of patients. Clusters showed that patients considered not grouped had biological characteristics shared between groups of different prognoses. The combination of clinical and omic data to better predict the phenotype revealed promissing results.
5

[en] INTEGRATION OF REPOSITORIES OF DIGITAL LIBRARY SYSTEMS AND LEARNING MANAGEMENT SYSTEMS / [pt] INTEGRAÇÃO DE REPOSITÓRIOS DE SISTEMAS DE BIBLIOTECAS DIGITAIS E SISTEMAS DE APRENDIZAGEM

GEORGIA REGINA RODRIGUES GOMES 18 May 2007 (has links)
[pt] Com o uso generalizado das tecnologias de informação no apoio ao ensino, é comum disponibilizar conteúdos digitais, seja através de Sistemas de Bibliotecas Digitais (DLMS) ou de Sistemas de Gerência de Aprendizagem (LMS). No entanto, estes sistemas funcionam de forma independente, têm características diferentes e manipulam tipos diferentes de materiais, sendo seus repositórios com dados e metadados heterogêneos e distribuídos. Os conteúdos destes repositórios seriam melhor aproveitados se estivessem integrados a um ambiente comum, ou fossem acessados de modo integrado a partir dos ambientes de de DLMS e LMS. Nesta tese é apresentada uma visão homogênea dos conteúdos de DLMS e LMS. Para esta homogeneização utilizou-se uma extensão da arquitetura de mediadores e tradutores que trata a integração de metadados, assim como ontologias para tratamento semântico. Foram consideradas ontologias locais para descrever os metadados de cada repositório e uma ontologia global para a integração. No entanto, os documentos dos repositórios dos DLMS tendem a ser monolíticos e não têm um enfoque na reutilização( reuso). Assim, foram definidas regras para extração dos conteúdos mais importantes destes documentos, o que possibilita a reutilização. Esta extração envolve técnicas de mineração de texto e utiliza regras para descobrir as definições contidas nos documentos. Foi desenvolvido um protótipo que demonstra a viabilidade do processo. Para facilitar o entendimento do trabalho, é apresentado um estudo de caso que utiliza a técnica proposta e o protótipo desenvolvido. O trabalho facilita e enriquece o desenvolvimento de materiais de aprendizagem, uma vez que torna os conteúdos de documentos das bibliotecas digitais reutilizáveis e integrados aos Objetos de Aprendizagem (LO) existentes. / [en] With the widespread use of Information Technology for teaching support, it is usual to made digital content available through Digital Library Systems (DLMS) or Learning Management Systems (LMS).These systems, however, work independently, have different characteristics and manipulate different types of materials, and their data and metadata repositories are heterogeneous and distributed. The content of repositories would be better used if it was integrated in the same environment or accessed in an integrated way from DLMS and LMS. This thesis presents a homogeneous view of DLMS and LMS content. In order to provide such homogenization, it is proposed an extension of the mediator and wrapper architecture for dealing with metadata integration and ontologies for treating semantics. Local ontologies are used for describing each metadata repository, and a global ontology for the integration. As documents of DLMS repositories tend to be monolithic and not to follow a reuse approach, rules for extracting the most important content from these documents were developed in order to make them reusable. This extraction includes text mining techniques as well as rules for discovering definitions embedded in the documents. A prototype was developed which implements the extraction and proves the feasibility of this approach. In order to make the work easier to understand, it is presented a case study that uses the proposed technique and the prototype. The work described in this thesis facilitates and enriches the development of learning material by making the content of digital library documents reusable and integrated to existing learning objects.
6

[en] EXTENSION OF AN INTEGRATION SYSTEM OF LEARNING OBJECTS REPOSITORIES AIMING AT PERSONALIZING QUERIES WITH FOCUS ON ACCESSIBILITY / [pt] EXTENSÃO DE UM SISTEMA DE INTEGRAÇÃO DE REPOSITÓRIOS DE OBJETOS DE APRENDIZAGEM VISANDO A PERSONALIZAÇÃO DAS CONSULTAS COM ENFOQUE EM ACESSIBILIDADE

RAPHAEL GHELMAN 16 October 2006 (has links)
[pt] Hoje em dia e-learning está se tornando mais importante por possibilitar a disseminação de conhecimento e informação através da internet de uma forma mais rápida e menos dispendiosa. Consequentemente, de modo a filtrar o que é mais relevante e/ou de interesse do usuário, arquiteturas e técnicas de personalização vêm sendo abordadas. Dentre as muitas possibilidades de personalização existentes, a que lida com acessibilidade está se tornando essencial, pois garante que uma grande variedade de usuários possa ter acesso à informação conforme suas necessidades e características. Acessibilidade não é apenas garantir que pessoas com alguma deficiência, ou dificuldade, possam ter acesso à informação, apesar de ser importante e eventualmente ser uma exigência legal. Acessibilidade é também garantir que uma larga variedade de usuários e interfaces possam obter acesso à informação, maximizando assim a audiência potencial. Esta dissertação apresenta uma extensão do LORIS, um sistema de integração de repositórios de objetos de aprendizagem, descrevendo as alterações na sua arquitetura para ser capaz de lidar com acessibilidade e reconhecer diferentes versões de um mesmo objeto de aprendizagem, permitindo assim que um usuário execute uma consulta considerando seu perfil e preferências. Foi desenvolvido um protótipo dos serviços descritos na arquitetura utilizando serviços Web e navegação facetada, bem como padrões web, de e-learning e de acessibilidade. O uso de serviços Web e de padrões visa promover flexibilidade e interoperabilidade, enquanto a navegação facetada, como implementada, permite que o usuário aplique múltiplos filtros aos resultados da consulta sem a necessidade de re-submetê-la. / [en] Nowadays e-learning is becoming more important as it makes possible the dissemination of knowledge and information through the internet in a faster and costless way. Consequently, in order to filter what is more relevant and/or of users interest, architectures and personalization techniques have been raised. Among the many existing possibilities of personalization, the one that deals with accessibility is becoming essential because it guarantees that a wide variety of users may have access to the information according to their preferences and needs. Accessibility is not just about ensuring that disabled people can access information, although this is important and may be a legal requirement. It is also about ensuring that the wide variety of users and devices can all gain access to information, thereby maximizing the potential audience. This dissertation presents an extension of LORIS, an integration system of learning object repositories, describing the changes on its architecture to make it able to deal with accessibility and to recognize different versions of the same learning object, thus allowing a user to execute a query considering his/her preferences and needs. A prototype of the services that are described in the architecture was developed using web services and faceted navigation, as well as e-learning and accessibility standards. The use of web services and standards aims at providing flexibility and interoperability, while the faceted navigation, as implemented, allows the user to apply multiple filters to the query results without the need to resubmit it.
7

[en] AN ARCHITECTURE BASED ON MEDIATORS AND WEB SERVICES FOR INTEGRATING LEARNING OBJECTS REPOSITORIES / [pt] UMA ARQUITETURA PARA INTEGRAÇÃO DE REPOSITÓRIOS DE OBJETOS DE APRENDIZAGEM BASEADA EM MEDIADORES E SERVIÇOS WEB

SIMONE LEAL DE MOURA 10 March 2006 (has links)
[pt] Na educação baseada na Web há uma grande preocupação em relação ao compartilhamento de materiais instrucionais devido à complexidade do processo de desenvolvimento de materiais com boa qualidade. Isto leva a uma tendência em adotar a abordagem de orientação a objetos no desenvolvimento destes materiais, originando os chamados Objetos de Aprendizagem. Além disto, instituições e empresas interessadas na educação baseada na Web vêm formando parcerias no sentido de promover o compartilhamento de tais objetos. De modo a contribuir para estes esforços desenvolvemos uma arquitetura de mediadores e tradutores enriquecidos pelo uso de ontologias, que é implementada como serviços Web de modo a permitir a autonomia local com uma visão integrada. O uso de mediadores possibilita que uma consulta seja redefinida em sub-consultas que são distribuídas às fontes de dados e o resultado integrado. Os tradutores permitem que as sub-consultas sejam entendidas pelas fontes de dados e as respectivas respostas sejam entendidas pelo mediador. A implementação dos componentes da arquitetura como serviços Web possibilita uma maior flexibilidade e interoperabilidade entre os participantes da rede. O tratamento da heterogeneidade semântica faz uso do formalismo de ontologias para descrever os conceitos existentes nos metadados de cada repositório participante na rede e encontrar as possíveis equivalências entre eles. Desta forma, o desenvolvimento desta arquitetura resultou em LORIS, um sistema de integração de repositórios de objetos de aprendizagem. O LORIS está sendo aplicado no PGL, um projeto de cooperação internacional entre instituições de ensino e pesquisa para promover a educação baseada na Web. / [en] In web-based education there is an emphasis on reusing and sharing instructional content due to the complexity of the development process of highquality learning materials. It leads to the learning objects orientation as well as to partnerships among institutions to promote sharing of these objects. In order to contribute to these efforts, we proposed an architecture based on the mediators and wrappers for integrating learning objects repositories. The components of this architecture were implemented by the use of web- services and the integration processes were enriched by ontologies. The use of mediators allows a query to be redefined as sub-queries that are distributed to the data sources and the results to be integrated. The wrappers allow the data sources to understand the sub-queries and the mediator to understand the respective answers. The implementation of the architecture components as web services allows more flexibility and interoperability among the participants of the community. The formalism of ontologies is used to deal with the semantic heterogeneity as the metadata concepts of each repository are described and the equivalences are established. The development of this architecture is called LORIS, an integration system of learning objects` repositories. LORIS is being adopted by PGL, an international partnership project for promoting web-based education.
8

[en] EDUCO: MODELING EDUCATIONAL CONTENT / [pt] EDUCO: MODELANDO CONTEÚDO EDUCACIONAL

SEAN WOLFGAND MATSUI SIQUEIRA 04 May 2005 (has links)
[pt] No contexto de e-learning, o desenvolvimento de material de aprendizagem é um fator de sucesso. Entretanto, estes processos são caros e demorados de modo que se procura promover o reuso de materiais e estabelecer parcerias entre instituições para compartilhar conteúdo e serviços. Assim, o uso conjunto de Objetos de Aprendizagem (LOs) e respectivos metadados tem sido amplamente adotado. Entretanto, apesar do uso de padrões de descritores para LOs tornar sua aceitação mais ampla, muitos desenvolvedores demonstram uma grande dificuldade em usar e reusar LOs. Portanto, continua a haver interesse em prover meios que promovam o reuso destes LOs e a tendência atual é que estes LOs se tornem cada vez menores, estruturados conforme uma hierarquia de nós interconectados. Algumas abordagens atuais consideram o uso de mapas de tópicos (topic maps), ontologias e bases de conhecimento para trabalhar com os conteúdos contidos nos materiais educacionais. Esta tese apresenta um modelo para estruturar e representar o conteúdo contido nos materiais educacionais a partir dos tipos de informações e de unidades conceituais envolvidas. Além da proposta de modelagem é também apresentada uma arquitetura que possibilita a implantação dos diferentes níveis semânticos de informação a serem considerados em um ambiente de e-learning. Esta arquitetura se baseia em trabalhos relacionados a integração de dados e estabelece um contexto para a utilização do modelo proposto para a representação do conteúdo educacional, contribuindo para a sua adoção. / [en] In e-learning, the development of multimedia educational content material has been a success factor. However, as these processes are expensive and timeconsuming, there is a need for making the content reuse easier and institutions are establishing partnerships in order to share content and services. In this context, Learning Objects (LO) and standard metadata have been grown in acceptance. In spite of this, several developers have found it difficult to use and reuse LOs. Then there is still a need for providing mechanisms that promote LO reuse. The current trend is on making these LO even smaller, structured according to a hierarchy of interconnected nodes. Some recent approaches are based on the use of topic maps, ontology and knowledge bases in order to work with the content that are embedded into the educational material. This thesis presents a model for structuring and representing this content according to the involved information and conceptual unities. In addition, we also present an architecture that allows the different semantic levels of information to be considered in an e-learning environment. This architecture is based on related work on data integration and it establishes a context for the proposed modeling approach for representing educational content and therefore contributes for its acceptance and use by the e-learning community.
9

[en] OLAP2DATACUBE: AN ON-DEMAND TRANSFORMATION FRAMEWORK FROM OLAP TO RDF DATA CUBES / [pt] OLAP2DATACUBE: UM FRAMEWORK PARA TRANSFORMAÇÕES EM TEMPO DE EXECUÇÃO DE OLAP PARA CUBOS DE DADOS EM RDF

PERCY ENRIQUE RIVERA SALAS 13 April 2016 (has links)
[pt] Dados estatísticos são uma das mais importantes fontes de informações, relevantes para um grande número de partes interessadas nos domínios governamentais, científicos e de negócios. Um conjunto de dados estatísticos compreende uma coleção de observações feitas em alguns pontos através de um espaço lógico e muitas vezes é organizado como cubos de dados. A definição adequada de cubos de dados, especialmente das suas dimensões, ajuda a processar as observações e, mais importante, ajuda a combinar observações de diferentes cubos de dados. Neste contexto, os princípios de Linked Data podem ser proveitosamente aplicados na definição de cubos de dados, no sentido de que os princípios oferecem uma estratégia para fornecer a semântica ausentes nas dimensões, incluindo os seus valores. Nesta tese, descrevemos o processo e a implementação de uma arquitetura de mediação, chamada OLAP2DataCube On Demand Framework, que ajuda a descrever e consumir dados estatísticos, expostos como triplas RDF, mas armazenados em bancos de dados relacionais. O Framework possui um catálogo de descrições de Linked Data Cubes, criado de acordo com os princípios de Linked Data. O catálogo tem uma descrição padronizada para cada cubo de dados armazenado em bancos de dados (relacionais) estatísticos conhecidos pelo Framework. O Framework oferece uma interface para navegar pelas descrições dos Linked Data Cubes e para exportar os cubos de dados como triplas RDF geradas por demanda a partir das fontes de dados subjacentes. Também discutimos a implementação de operações sofisticadas de busca de metadados, operações OLAP em cubo de dados, tais como slice e dice, e operações de mashup sofisticadas de cubo de dados que criam novos cubos através da combinação de outros cubos. / [en] Statistical data is one of the most important sources of information, relevant to a large number of stakeholders in the governmental, scientific and business domains alike. A statistical data set comprises a collection of observations made at some points across a logical space and is often organized as what is called a data cube. The proper definition of the data cubes, especially of their dimensions, helps processing the observations and, more importantly, helps combining observations from different data cubes. In this context, the Linked Data principles can be profitably applied to the definition of data cubes, in the sense that the principles offer a strategy to provide the missing semantics of the dimensions, including their values. In this thesis we describe the process and the implementation of a mediation architecture, called OLAP2DataCube On Demand, which helps describe and consume statistical data, exposed as RDF triples, but stored in relational databases. The tool features a catalogue of Linked Data Cube descriptions, created according to the Linked Data principles. The catalogue has a standardized description for each data cube actually stored in each statistical (relational) database known to the tool. The tool offers an interface to browse the linked data cube descriptions and to export the data cubes as RDF triples, generated on demand from the underlying data sources. We also discuss the implementation of sophisticated metadata search operations, OLAP data cube operations, such as slice and dice, and data cube mashup operations that create new cubes by combining other cubes.
10

[en] TOWARDS A WELL-INTERLINKED WEB THROUGH MATCHING AND INTERLINKING APPROACHES / [pt] INTERLIGANDO RECURSOS NA WEB ATRAVÉS DE ABORDAGENS DE MATCHING E INTERLINKING

BERNARDO PEREIRA NUNES 07 January 2016 (has links)
[pt] Com o surgimento da Linked (Open) Data, uma série de novos e importantes desafios de pesquisa vieram à tona. A abertura de dados, como muitas vezes a Linked Data é conhecida, oferece uma oportunidade para integrar e conectar, de forma homogênea, fontes de dados heterogêneas na Web. Como diferentes fontes de dados, com recursos em comum ou relacionados, são publicados por diferentes editores, a sua integração e consolidação torna-se um verdadeiro desafio. Outro desafio advindo da Linked Data está na criação de um grafo denso de dados na Web. Com isso, a identificação e interligação, não só de recursos idênticos, mas também dos recursos relacionadas na Web, provê ao consumidor (data consumer) uma representação mais rica dos dados e a possibilidade de exploração dos recursos conectados. Nesta tese, apresentamos três abordagens para enfrentar os problemas de integração, consolidação e interligação de dados. Nossa primeira abordagem combina técnicas de informação mútua e programação genética para solucionar o problema de alinhamento complexo entre fontes de dados, um problema raramente abordado na literatura. Na segunda e terceira abordagens, adotamos e ampliamos uma métrica utilizada em teoria de redes sociais para enfrentar o problema de consolidação e interligação de dados. Além disso, apresentamos um aplicativo Web chamado Cite4Me que fornece uma nova perspectiva sobre a pesquisa e recuperação de conjuntos de Linked Open Data, bem como os benefícios da utilização de nossas abordagens. Por fim, uma série de experimentos utilizando conjuntos de dados reais demonstram que as nossas abordagens superam abordagens consideradas como estado da arte. / [en] With the emergence of Linked (Open) Data, a number of novel and notable research challenges have been raised. The openness that often characterises Linked Data offers an opportunity to homogeneously integrate and connect heterogeneous data sources on the Web. As disparate data sources with overlapping or related resources are provided by different data publishers, their integration and consolidation becomes a real challenge. An additional challenge of Linked Data lies in the creation of a well-interlinked graph of Web data. Identifying and linking not only identical Web resources, but also lateral Web resources, provides the data consumer with richer representation of the data and the possibility of exploiting connected resources. In this thesis, we present three approaches that tackle data integration, consolidation and linkage problems. Our first approach combines mutual information and genetic programming techniques for complex datatype property matching, a rarely addressed problem in the literature. In the second and third approaches, we adopt and extend a measure from social network theory to address data consolidation and interlinking. Furthermore, we present a Web-based application named Cite4Me that provides a new perspective on search and retrieval of Linked Open Data sets, as well as the benefits of using our approaches. Finally, we validate our approaches through extensive evaluations using real-world datasets, reporting results that outperform state of the art approaches.

Page generated in 0.4396 seconds