Spelling suggestions: "subject:"data provenance"" "subject:"data provenances""
11 |
Digital Provenance Techniques and ApplicationsAmani M Abu Jabal (9237002) 13 August 2020 (has links)
This thesis describes a data provenance framework and other associated frameworks for utilizing provenance for data quality and reproducibility. We first identify the requirements for the design of a comprehensive provenance framework which can be applicable to various applications, supports a rich set of provenance metadata, and is interoperable with other provenance management systems. We then design and develop a provenance framework, called SimP, addressing such requirements. Next, we present four prominent applications and investigate how provenance data can be beneficial to such applications. The first application is the quality assessment of access control policies. Towards this, we design and implement the ProFact framework which uses provenance techniques for collecting comprehensive data about actions which were either triggered due to a network context or a user (i.e., a human or a device) action. Provenance data are used to determine whether the policies meet the quality requirements. ProFact includes two approaches for policy analysis: structure-based and classification-based. For the structure-based approach, we design tree structures to organize and assess the policy set efficiently. For the classification-based approach, we employ several classification techniques to learn the characteristics of policies and predict their quality. In addition, ProFact supports policy evolution and the assessment of its impact on the policy quality. The second application is workflow reproducibility. Towards this, we implement ProWS which is a provenance-based architecture for retrieving workflows. Specifically, ProWS transforms data provenance into workflows and then organizes data into a set of indexes to support efficient querying mechanisms. ProWS supports composite queries on three types of search criteria: keywords of workflow tasks, patterns of workflow structure, and metadata about workflows (e.g., how often a workflow was used). The third application is the access control policy reproducibility. Towards this, we propose a novel framework, Polisma, which generates attribute-based access control policies from data, namely from logs of historical access requests and their corresponding decisions. Polisma combines data mining, statistical, and machine learning techniques, and capitalizes on potential context information obtained from external sources (e.g., LDAP directories) to enhance the learning process. The fourth application is the policy reproducibility by utilizing knowledge and experience transferability. Towards this, we propose a novel framework, FLAP, which transfer attribute-based access control policies between different parties in a collaborative environment, while considering the challenges of minimal sharing of data and support policy adaptation to address conflict. All frameworks are evaluated with respect to performance and accuracy.
|
12 |
Descrição da proveniência de dados para extração de conhecimento em sistemas de informação de hemoterapia / Provenance Description to Extract Knowledge from Hemotherapy Information SystemsAlmeida, Fernanda Nascimento 23 May 2012 (has links)
O Hemocentro São Paulo é responsável por manter um banco de dados com informações sobre cada doação ou tentativa de doação de sangue. No entanto, os dados desse banco de dados não possuem a qualidade requerida pelas ferramentas/técnicas de análise. Por essa razão, fica difícil utilizar tais dados para estabelecer relações sistemáticas entre as variáveis armazenadas. A principal contribuição desta tese é a descrição da proveniência para atributos selecionados usando critérios de classificação definidos por especialistas. Este trabalho mostra que é possível fazer investigações detalhadas usando a descrição dos dados sem a necessidade de alterar a estrutura do banco de dados. Durante o período de 1996 a 2006, 1.469.505 doadores foram responsáveis por mais de 2.8 milhões de doações. Após a descrição da proveniência, foram obtidos 252.301 doadores do sexo masculino e 133.056 doadores do sexo feminino e que atenderam aos critérios de inclusão usados nesta tese. Dos 385.357 doadores incluídos na análise, 21.954 (5,7%) tiveram suas doações adiadas devido a seus baixos níveis de hematócrito, 3.850 (1,5%) eram do sexo masculino e 18.104 (13,6%) do sexo feminino. Os resultados obtidos demonstram que, embora os intervalos de espera entre as doações de sangue sejam grandes entre os doadores do sexo feminino e masculino, as mulheres são recusadas mais cedo, por risco de desenvolver anemia, do que os homens. Aproximadamente 12,84% das mulheres e 1,21% dos homens desenvolveriam hematócrito baixo antes da sétima doação. Os dados sugerem que indivíduos com baixo nível de hematócrito devem esperar mais tempo antes de executarem a próxima doação. Portanto, é importante compreender se existe uma ligação entre a doação de sangue e a diminuição no nível de hematócrito, a fim de evitar resultados indesejáveis para os doadores de sangue. O modelo de proveniência apresentado nesta tese não foi definido de acordo com os modelos de proveniência genéricos já implementados. Esta tese apresenta um modelo de proveniência que foi capaz de acrescentar informações semânticas para adquirir conhecimento de um experimento in silico. Um dos principais objetivos foi desenvolver uma abordagem baseada em declarações, tentando responder a importantes questionamentos biológicos. O modelo descrito combina ricas informações em cada processo usando declarações, e se baseia no conhecimento de especialistas. Esta tese também utilizou estatística descritiva e Análise de Sobrevivência. Finalmente, com a validação do modelo em um domínio conhecido, é pretendido expandir esse método para outros sistemas de informação voltados para hemoterapia. / The São Paulo Blood Center is responsible to maintain a database with information on each donation. However, this database does not have the quality required by techniques of analysis. For this reason, it is difficult to use it directly to establish systematic relationships between the variables. The main contribution of this paper is a provenance description of attributes selected using classification criteria defined by specialists. We show that it is possible to make detailed investigations using the data description without the need to change the structure of the database. During 1996 2006, 1,469,505 donors were responsible for more than 2.8 million of donation. After the provenance description, we obtained 252,301 male and 133,056 female that met our inclusion criteria. Of the 385,357 donors included in the analysis, 21,954(5.7%) were deferred due to low hematocrit, 3,850(1.5%) were males and 18,104(13.6%) were females. Our results show that, although the intervals between donations for female and male donors are wider, women presented anemia earlier than men. Approximately 12,84% of the females and 1,21% of the males would develop low hematocrit before the 7th donation. Our data suggest that individuals with low hematocrit level should wait longer before the next donation. Therefore, it is important to understand if there is a connection between blood donation and decrease in hematocrit level in order to prevent undesirable outcomes to blood donors. The provenance model presented here was not defined according to the generic provenance models already implemented. This thesis presents a provenance model that is able to add semantic information to acquire knowledge of an in silico experiment. One of the main purposes is to develop an approach based on declarations in order to answer biological questions. The provenance model described in this paper combines rich information for each process using the declarations, each having expert knowledge as a basis. To evaluate this provenance model we use descriptive statistics and Survival Analysis. Finally, with the validation of the model in a known domain, we intent to apply and validate this provenance model to other hemotherapy information systems.
|
13 |
Dynamic Data Citation Service-Subset Tool for Operational Data ManagementSchubert, Chris, Seyerl, Georg, Sack, Katharina January 2019 (has links) (PDF)
In earth observation and climatological sciences, data and their data services grow on a daily
basis in a large spatial extent due to the high coverage rate of satellite sensors, model calculations, but
also by continuous meteorological in situ observations. In order to reuse such data, especially data
fragments as well as their data services in a collaborative and reproducible manner by citing the origin
source, data analysts, e.g., researchers or impact modelers, need a possibility to identify the exact
version, precise time information, parameter, and names of the dataset used. A manual process would
make the citation of data fragments as a subset of an entire dataset rather complex and imprecise to
obtain. Data in climate research are in most cases multidimensional, structured grid data that can
change partially over time. The citation of such evolving content requires the approach of "dynamic
data citation". The applied approach is based on associating queries with persistent identifiers. These
queries contain the subsetting parameters, e.g., the spatial coordinates of the desired study area or the
time frame with a start and end date, which are automatically included in the metadata of the newly
generated subset and thus represent the information about the data history, the data provenance,
which has to be established in data repository ecosystems. The Research Data Alliance Data Citation
Working Group (RDA Data Citation WG) summarized the scientific status quo as well as the state of
the art from existing citation and data management concepts and developed the scalable dynamic
data citation methodology of evolving data. The Data Centre at the Climate Change Centre Austria
(CCCA) has implemented the given recommendations and offers since 2017 an operational service
on dynamic data citation on climate scenario data. With the consciousness that the objective of this
topic brings a lot of dependencies on bibliographic citation research which is still under discussion,
the CCCA service on Dynamic Data Citation focused on the climate domain specific issues, like
characteristics of data, formats, software environment, and usage behavior. The current effort beyond
spreading made experiences will be the scalability of the implementation, e.g., towards the potential
of an Open Data Cube solution.
|
14 |
E-SECO ProVersion: uma arquitetura para manutenção e evolução de workflows científicosSirqueira, Tássio Ferenzini Martins 12 July 2016 (has links)
Submitted by Renata Lopes (renatasil82@gmail.com) on 2017-06-07T11:29:45Z
No. of bitstreams: 1
tassioferenzinimartinssirqueira.pdf: 6506958 bytes, checksum: 2145670dd9a80dec1aef328a3f8a0427 (MD5) / Approved for entry into archive by Adriana Oliveira (adriana.oliveira@ufjf.edu.br) on 2017-06-07T13:31:29Z (GMT) No. of bitstreams: 1
tassioferenzinimartinssirqueira.pdf: 6506958 bytes, checksum: 2145670dd9a80dec1aef328a3f8a0427 (MD5) / Made available in DSpace on 2017-06-07T13:31:29Z (GMT). No. of bitstreams: 1
tassioferenzinimartinssirqueira.pdf: 6506958 bytes, checksum: 2145670dd9a80dec1aef328a3f8a0427 (MD5)
Previous issue date: 2016-07-12 / Um ecossistema de software científico, além de outras funcionalidades, busca integrar todas as etapas de um experimento, e comumente utiliza workflows científicos para a resolução de problemas complexos. Toda modificação ocorrida em um experimento deve ser propagada para os workflows associados, os quais devem ser mantidos e evoluídos para o prosseguimento com sucesso da pesquisa. Um das forma de garantir este controle é através da gerência de configuração.
Para que ela possa ser utilizada, é importante o armazenamento dos dados de execução e modelagem do experimento e workflows associados. Neste trabalho, utilizamos conceitos e modelos relacionados à proveniência de dados para o armazenamento e consulta destes dados. O uso da proveniência de dados traz alguns benefícios neste armazenamento e consulta, conforme veremos nesta dissertação.
Assim, nesse trabalho é proposta uma arquitetura para gerenciar a evolução e manutenção de experimentos e workflows científicos, denominada E-SECO ProVersion. A motivação para a especificação e implementação da arquitetura veio a partir da realização de uma revisão sistemática e de um estudo para verificar características de manutenção e evolução em repositórios de workflows existentes. A partir destas análises, as principais funcionalidades da arquitetura foram definidas e detalhadas. Além disso, um roteiro com diretrizes de uso e provas de conceito utilizando workflows extraídos do repositório myEx-periment foram apresentados, com o objetivo de avaliar a aplicabilidade da arquitetura. / A scientific software ecosystem, in addition to other features, seeks to integrate all stages of an experiment, and commonly used scientific workflows to solve complex problems. Any changes that occurred in an experiment must be propagated to the associated workflows, which must be maintained and evolved for further successful research. One of the way to ensure this control is through configuration management.
So that it can be used, it is important the storage of performance data and modeling of the experiment and associated workflows. In this study, we use the concepts and models related to the source of data for storage and retrieval of this data. Use the data source brings some advantages in storage and query, as we will see in this dissertation.
Thus, this paper proposes an architecture to manage the development and maintenance of scientific experiments and workflows, called E-SECO ProVersion. The motivation for the specification and implementation of architecture came from the realization of a systematic review and a study to check maintenance characteristics and evolution in existing workflows repositories. From these analyzes, the main features of the architecture are defined and detailed. In addition, a roadmap with usage guidelines and proofs of concept using workflows extracted from myExperiment repository were presented in order to evaluate the applicability of architecture.
|
15 |
Descrição da proveniência de dados para extração de conhecimento em sistemas de informação de hemoterapia / Provenance Description to Extract Knowledge from Hemotherapy Information SystemsFernanda Nascimento Almeida 23 May 2012 (has links)
O Hemocentro São Paulo é responsável por manter um banco de dados com informações sobre cada doação ou tentativa de doação de sangue. No entanto, os dados desse banco de dados não possuem a qualidade requerida pelas ferramentas/técnicas de análise. Por essa razão, fica difícil utilizar tais dados para estabelecer relações sistemáticas entre as variáveis armazenadas. A principal contribuição desta tese é a descrição da proveniência para atributos selecionados usando critérios de classificação definidos por especialistas. Este trabalho mostra que é possível fazer investigações detalhadas usando a descrição dos dados sem a necessidade de alterar a estrutura do banco de dados. Durante o período de 1996 a 2006, 1.469.505 doadores foram responsáveis por mais de 2.8 milhões de doações. Após a descrição da proveniência, foram obtidos 252.301 doadores do sexo masculino e 133.056 doadores do sexo feminino e que atenderam aos critérios de inclusão usados nesta tese. Dos 385.357 doadores incluídos na análise, 21.954 (5,7%) tiveram suas doações adiadas devido a seus baixos níveis de hematócrito, 3.850 (1,5%) eram do sexo masculino e 18.104 (13,6%) do sexo feminino. Os resultados obtidos demonstram que, embora os intervalos de espera entre as doações de sangue sejam grandes entre os doadores do sexo feminino e masculino, as mulheres são recusadas mais cedo, por risco de desenvolver anemia, do que os homens. Aproximadamente 12,84% das mulheres e 1,21% dos homens desenvolveriam hematócrito baixo antes da sétima doação. Os dados sugerem que indivíduos com baixo nível de hematócrito devem esperar mais tempo antes de executarem a próxima doação. Portanto, é importante compreender se existe uma ligação entre a doação de sangue e a diminuição no nível de hematócrito, a fim de evitar resultados indesejáveis para os doadores de sangue. O modelo de proveniência apresentado nesta tese não foi definido de acordo com os modelos de proveniência genéricos já implementados. Esta tese apresenta um modelo de proveniência que foi capaz de acrescentar informações semânticas para adquirir conhecimento de um experimento in silico. Um dos principais objetivos foi desenvolver uma abordagem baseada em declarações, tentando responder a importantes questionamentos biológicos. O modelo descrito combina ricas informações em cada processo usando declarações, e se baseia no conhecimento de especialistas. Esta tese também utilizou estatística descritiva e Análise de Sobrevivência. Finalmente, com a validação do modelo em um domínio conhecido, é pretendido expandir esse método para outros sistemas de informação voltados para hemoterapia. / The São Paulo Blood Center is responsible to maintain a database with information on each donation. However, this database does not have the quality required by techniques of analysis. For this reason, it is difficult to use it directly to establish systematic relationships between the variables. The main contribution of this paper is a provenance description of attributes selected using classification criteria defined by specialists. We show that it is possible to make detailed investigations using the data description without the need to change the structure of the database. During 1996 2006, 1,469,505 donors were responsible for more than 2.8 million of donation. After the provenance description, we obtained 252,301 male and 133,056 female that met our inclusion criteria. Of the 385,357 donors included in the analysis, 21,954(5.7%) were deferred due to low hematocrit, 3,850(1.5%) were males and 18,104(13.6%) were females. Our results show that, although the intervals between donations for female and male donors are wider, women presented anemia earlier than men. Approximately 12,84% of the females and 1,21% of the males would develop low hematocrit before the 7th donation. Our data suggest that individuals with low hematocrit level should wait longer before the next donation. Therefore, it is important to understand if there is a connection between blood donation and decrease in hematocrit level in order to prevent undesirable outcomes to blood donors. The provenance model presented here was not defined according to the generic provenance models already implemented. This thesis presents a provenance model that is able to add semantic information to acquire knowledge of an in silico experiment. One of the main purposes is to develop an approach based on declarations in order to answer biological questions. The provenance model described in this paper combines rich information for each process using the declarations, each having expert knowledge as a basis. To evaluate this provenance model we use descriptive statistics and Survival Analysis. Finally, with the validation of the model in a known domain, we intent to apply and validate this provenance model to other hemotherapy information systems.
|
16 |
L'interrogation du web de données garantissant des réponses valides par rapport à des critères donnés / Querying the Web of Data guaranteeing valid answers with respect to given criteriaNguyen, Thanh Binh 03 December 2018 (has links)
Le terme Linked Open Data (LOD) (ou données ouvertes liées) a été introduit pour la première fois par Tim Berners-Lee en 2006. Depuis, les LOD ont connu une importante évolution. Aujourd’hui,nous pouvons constater les milliers de jeux de données présents sur le Web de données. De ce fait, la communauté de recherche s’est confrontée à un certain nombre de défis concernant la récupération et le traitement de données liées.Dans cette thèse, nous nous intéressons au problème de la qualité des données extraites de diverses sources du LOD et nous proposons un système d’interrogation contextuelle qui garantit la qualité des réponses par rapport à un contexte spécifié par l’utilisateur. Nous définissons un cadre d’expression de contraintes et proposons deux approches : l’une naïve et l’autre de réécriture, permettant de filtrer dynamiquement les réponses valides obtenues à partir des sources éventuellement non-valides, ceci au moment de la requête et non pas en cherchant à les valider dans les sources des données. L’approche naïve exécute le processus de validation en générant et en évaluant des sous-requêtes pour chaque réponse candidate en fonction de chaque contrainte. Alors que l’approche de réécriture utilise les contraintes comme des règles de réécriture pour reformuler la requête en un ensemble de requêtes auxiliaires, de sorte que les réponses à ces requêtes réécrites ne sont pas seulement les réponses de la requête initiale mais aussi des réponses valides par rapport à toutes les contraintes intégrées. La preuve de la correction et de la complétude de notre système de réécriture est présentée après un travail de formalisation de la notion de réponse valide par rapport à un contexte. Ces deux approches ont été évaluées et ont montré la praticabilité de notre système.Ceci est notre principale contribution: nous étendons l’ensemble de systèmes de réécriture déjà connus(Chase, C&BC, PerfectRef, Xrewrite, etc.) avec une nouvelle solution efficace pour ce nouveau défi qu’est le filtrage des résultats en fonction d’un contexte utilisateur. Nous généralisons également les conditions de déclenchement de contraintes par rapport aux solutions existantes, en utilisant la notion de one-way MGU. / The term Linked Open Data (LOD) is proposed the first time by Tim Berners-Lee since 2006.Since then, LOD has evolved impressively with thousands datasets on the Web of Data, which has raised a number of challenges for the research community to retrieve and to process LOD.In this thesis, we focus on the problem of quality of retrieved data from various sources of the LOD and we propose a context-driven querying system that guarantees the quality of answers with respect to the quality context defined by users. We define a fragment of constraints and propose two approaches: the naive and the rewriting, which allows us to filter dynamically valid answers at the query time instead of validating them at the data source level. The naive approach performs the validation process by generating and evaluating sub-queries for each candidate answer w.r.t. each constraint. While the rewriting approach uses constraints as rewriting rules to reformulate query into a set of auxiliary queries such that the answers of rewritten-queries are not only the answers of the query but also valid answers w.r.t. all integrated constraints. The proof of the correction and completeness of our rewriting system is presented after formalizing the notion of a valid answers w.r.t. a context. These two approaches have been evaluated and have shown the feasibility of our system.This is our main contribution: we extend the set of well-known query-rewriting systems (Chase, Chase& backchase, PerfectRef, Xrewrite, etc.) with a new effective solution for the new purpose of filtering query results based on constraints in user context. Moreover, we also enlarge the trigger condition of the constraint compared with other works by using the notion of one-way MGU.
|
17 |
AcCORD: um modelo colaborativo assíncrono para a reconciliação de dados / AcCORD: asynchronous collaborative data reconciliation modelAlmeida, Dayse Silveira de 28 April 2016 (has links)
Reconciliação é o processo de prover uma visão consistente de dados provenientes de várias fontes de dados. Embora existam na literatura trabalhos voltados à proposta de soluções de reconciliação baseadas em colaboração assíncrona, o desafio de reconciliar dados quando vários usuários colaborativos trabalham de forma assíncrona sobre as mesmas cópias locais de dados, compartilhando somente eventualmente as suas decisões de integração particulares, tem recebido menos atenção. Nesta tese de doutorado investiga-se esse desafio, por meio da proposta do modelo AcCORD (Asynchronous COllaborative data ReconcIliation moDel). AcCORD é um modelo colaborativo assíncrono para reconciliação de dados no qual as atualizações dos usuários são mantidas em um repositório de operações na forma de dados de procedência. Cada usuário tem o seu próprio repositório para armazenar a procedência e a sua própria cópia das fontes. Ou seja, quando inconsistências entre fontes importadas são detectadas, o usuário pode tomar decisões de integração para resolvê-las de maneira autônoma, e as atualizações que são executadas localmente são registradas em seu próprio repositório. As atualizações são compartilhadas entre colaboradores quando um usuário importa as operações dos repositórios dos demais usuários. Desde que diferentes usuários podem ter diferentes pontos de vista para resolver o mesmo conflito, seus repositórios podem estar inconsistentes. Assim, o modelo AcCORD também inclui a proposta de diferentes políticas de reconciliação multiusuário para resolver conflitos entre repositórios. Políticas distintas podem ser aplicadas por diferentes usuários para reconciliar as suas atualizações. Dependendo da política aplicada, a visão final das fontes importadas pode ser a mesma para todos os usuários, ou seja, um única visão global integrada, ou resultar em distintas visões locais para cada um deles. Adicionalmente, o modelo AcCORD também incorpora um método de propagação de decisões de integração, o qual tem como objetivo evitar que um usuário tome decisões inconsistentes a respeito de um mesmo conflito de dado presente em diferentes fontes, garantindo um processo de reconciliação multiusuário mais efetivo. O modelo AcCORD foi validado por meio de testes de desempenho que avaliaram as políticas propostas, e por entrevistas a usuários que avaliaram não somente as políticas propostas mas também a qualidade da reconciliação multiusuário. Os resultados obtidos demonstraram a eficiência e a eficácia do modelo proposto, além de sua flexibilidade para gerar uma visão integrada ou distintas visões locais. As entrevistas realizadas demonstraram diferentes percepções dos usuários quanto à qualidade do resultado provido pelo modelo AcCORD, incluindo aspectos relacionados à consistência, aceitabilidade, corretude, economia de tempo e satisfação. / Reconciliation is the process of providing a consistent view of the data imported from different sources. Despite some efforts reported in the literature for providing data reconciliation solutions with asynchronous collaboration, the challenge of reconciling data when multiple users work asynchronously over local copies of the same imported data has received less attention. In this thesis we investigate this challenge. We propose AcCORD, an asynchronous collaborative data reconciliation model. It stores users integration decision in logs, called repositories. Repositories keep data provenance, that is, the operations applied to the data sources that led to the current state of the data. Each user has her own repository for storing the provenance. That is, whenever inconsistencies among imported sources are detected, the user may autonomously take decisions to solve them, and integration decisions that are locally executed are registered in her repository. Integration decisions are shared among collaborators by importing each others repositories. Since users may have different points of view, repositories may also be inconsistent. Therefore, AcCORD also introduces several policies that can be applied by different users in order to solve conflicts among repositories and reconcile their integration decisions. Depending on the applied policy, the final view of the imported sources may either be the same for all users, that is, a single integrated view, or result in distinct local views for each of them. Furthermore, AcCORD encompasses a decision integration propagation method, which is aimed to avoid that a user take inconsistent decisions over the same data conflict present in different sources, thus guaranteeing a more effective reconciliation process. AcCORD was validated through performance tests that investigated the proposed policies and through users interviews that investigated not only the proposed policies but also the quality of the multiuser reconciliation. The results demonstrated the efficiency and efficacy of AcCORD, and highlighted its flexibility to generate a single integrated view or different local views. The interviews demonstrated different perceptions of the users with regard to the quality of the result provided by AcCORD, including aspects related to consistency, acceptability, correctness, time-saving and satisfaction.
|
18 |
AcCORD: um modelo colaborativo assíncrono para a reconciliação de dadosAlmeida, Dayse Silveira de 28 April 2016 (has links)
Reconciliação é o processo de prover uma visão consistente de dados provenientes de várias fontes de dados. Embora existam na literatura trabalhos voltados à proposta de soluções de reconciliação baseadas em colaboração assíncrona, o desafio de reconciliar dados quando vários usuários colaborativos trabalham de forma assíncrona sobre as mesmas co´pias locais de dados, compartilhando somente eventualmente as suas decisões de integração particulares, tem recebido menos atenção. Nesta tese de doutorado investiga-se esse desafio, por meio da proposta do modelo AcCORD (Asynchronous
COllaborative data ReconcIliation moDel). AcCORD é um modelo colaborativo assíncrono para
reconciliação de dados no qual as atualizações dos usuários são mantidas em um repositório de operações na forma de dados de procedência. Cada usuário tem o seu próprio repositório para armazenar a procedência e a sua própria cópia das fontes. Ou seja, quando inconsistências entre fontes importadas são detectadas, o usuário pode tomar decisões de integração para resolvê-las de maneira autônoma, e as atualizações que são executadas localmente são registradas em seu próprio repositório. As atualizações são compartilhadas entre colaboradores quando um usuário importa as operações dos repositórios dos demais usuários. Desde que diferentes usuários podem ter diferentes pontos de vista para resolver o mesmo conflito, seus repositórios podem estar inconsistentes. Assim, o modelo Ac- CORD também inclui a proposta de diferentes políticas de reconciliação multiusuário para resolver conflitos entre repositórios. Políticas distintas podem ser aplicadas por diferentes usuários para reconciliar as suas atualizações. Dependendo da política aplicada, a visão final das fontes importadas pode ser a mesma para todos os usuários, ou seja, um única visão global integrada, ou resultar em distintas visões locais para cada um deles. Adicionalmente, o modelo AcCORD também incorpora um método de propagação de decisões de integração, o qual tem como objetivo evitar que um usuário tome decisões inconsistentes a respeito de um mesmo conflito de dado presente em diferentes fontes, garantindo um processo de reconciliação multiusuário mais efetivo. O modelo AcCORD foi validado por meio de testes de desempenho que avaliaram as políticas propostas, e por entrevistas a usuários que avaliaram não somente as políticas propostas mas também a qualidade da reconciliação multiusuário. Os resultados obtidos demonstraram a eficiência e a eficácia do modelo proposto, além de sua flexibilidade para gerar uma visão integrada ou distintas visões locais. As entrevistas realizadas demonstraram diferentes percepções dos usuários quanto à qualidade do resultado provido pelo modelo AcCORD, incluindo aspectos relacionados à consistência, aceitabilidade, corretude, economia de tempo e satisfacão. / Reconciliation is the process of providing a consistent view of the data imported from different sources. Despite some efforts reported in the literature for providing data reconciliation solutions with asynchronous collaboration, the challenge of reconciling data when multiple users work asyn- chronously over local copies of the same imported data has received less attention. In this thesis we investigate this challenge. We propose AcCORD, an asynchronous collaborative data reconciliation model. It stores users’ integration decision in logs, called repositories. Repositories keep data prove- nance, that is, the operations applied to the data sources that led to the current state of the data. Each user has her own repository for storing the provenance. That is, whenever inconsistencies among im- ported sources are detected, the user may autonomously take decisions to solve them, and integration decisions that are locally executed are registered in her repository. Integration decisions are shared among collaborators by importing each other’s repositories. Since users may have different points of view, repositories may also be inconsistent. Therefore, AcCORD also introduces several policies that can be applied by different users in order to solve conflicts among repositories and reconcile their integration decisions. Depending on the applied policy, the final view of the imported sources may either be the same for all users, that is, a single integrated view, or result in distinct local views for each of them. Furthermore, AcCORD encompasses a decision integration propagation method, which is aimed to avoid that a user take inconsistent decisions over the same data conflict present in different sources, thus guaranteeing a more effective reconciliation process. AcCORD was validated through performance tests that investigated the proposed policies and through users’ interviews that investigated not only the proposed policies but also the quality of the multiuser reconciliation. The re- sults demonstrated the efficiency and efficacy of AcCORD, and highlighted its flexibility to generate a single integrated view or different local views. The interviews demonstrated different perceptions of the users with regard to the quality of the result provided by AcCORD, including aspects related to consistency, acceptability, correctness, time-saving and satisfaction.
|
19 |
Integrace a konzumace důvěryhodných Linked Data / Towards Trustworthy Linked Data Integration and ConsumptionKnap, Tomáš January 2013 (has links)
Title: Towards Trustworthy Linked Data Integration and Consumption Author: RNDr. Tomáš Knap Department: Department of Software Engineering Supervisor: RNDr. Irena Holubová, PhD., Department of Software Engineering Abstract: We are now finally at a point when datasets based upon open standards are being published on an increasing basis by a variety of Web communities, governmental initiatives, and various companies. Linked Data offers information consumers a level of information integration and aggregation agility that has up to now not been possible. Consumers can now "mashup" and readily integrate information for use in a myriad of alternative end uses. Indiscriminate addition of information can, however, come with inherent problems, such as the provision of poor quality, inaccurate, irrelevant or fraudulent information. All will come with associated costs of the consumed data which will negatively affect data consumer's benefit and Linked Data applications usage and uptake. In this thesis, we address these issues by proposing ODCleanStore, a Linked Da- ta management and querying tool able to provide data consumers with Linked Data, which is cleansed, properly linked, integrated, and trustworthy accord- ing to consumer's subjective requirements. Trustworthiness of data means that the data has associated...
|
20 |
Modelo de procedência para auxiliar na análise da qualidade do dado geográficoSantos, Renata Ribeiro dos 09 August 2016 (has links)
Submitted by Aelson Maciera (aelsoncm@terra.com.br) on 2017-03-29T19:09:28Z
No. of bitstreams: 1
DissRRS.pdf: 3751863 bytes, checksum: 950bef628d03f26a109436e96c9ac337 (MD5) / Approved for entry into archive by Ronildo Prado (ronisp@ufscar.br) on 2017-04-11T13:45:04Z (GMT) No. of bitstreams: 1
DissRRS.pdf: 3751863 bytes, checksum: 950bef628d03f26a109436e96c9ac337 (MD5) / Approved for entry into archive by Ronildo Prado (ronisp@ufscar.br) on 2017-04-11T13:45:15Z (GMT) No. of bitstreams: 1
DissRRS.pdf: 3751863 bytes, checksum: 950bef628d03f26a109436e96c9ac337 (MD5) / Made available in DSpace on 2017-04-11T13:53:54Z (GMT). No. of bitstreams: 1
DissRRS.pdf: 3751863 bytes, checksum: 950bef628d03f26a109436e96c9ac337 (MD5)
Previous issue date: 2016-08-09 / Não recebi financiamento / The quality of the geographic data must be a relevant concern for providers and consumers of this
type of data because the manipulation and analysis of low quality geographic data may result in
errors, which will be propagated through the consequent data. Thus it is important to properly
document the information which allows for certifying the quality of the geographic data. In order
to provide a minimum amount of metadata for such purpose, this dissertation presents an approach
based on the provenance of the geographic data, which corresponds to the information about the
history of such data from its origin until the processes that resulted in its current state. For this
purpose, a provenance model called ProcGeo was proposed, in which it was defined a minimum
amount of metadata that must be considered for the analysis of the quality of a certain geographic
data. Although a few works and geographic metadata standards, such as Federal Geographic Data
Committee (FGDC) and ISO 19115, consider the information about the provenance in the analysis
of the quality of geographic data, it´s the opinion of the author that some metadata considered
important for this purpose are not adequately contemplated. In this work, the prototype of an
interface called ProcGeoInter was also implemented, aiming to guarantee the completeness and
correctness in the filling out of the defined metadata in the ProcGeo model as well as the
visualization of their content. The validation of the ProcGeo model and of the ProcGeoInter
interface were made through tests and surveys applied to providers and consumers of geographic
data. As a means of comparison, the interface for filling out and visualization of metadata
available by SIG Quantum GIS (plugin Metatools) was used, which implements the FGDC
geographic metadata standard. The obtained results indicated that the metadata defined in the
ProcGeo model helped the geographic data provider in the description of the provenance of such
data, when compared to those defined in the FGDC geographic metadata standard. Through the
consumer´s focus it was possible to notice that the information filled out in the metadata defined
by the ProcGeo favored the analysis of the quality of the consumed data. It was clear that both
providers and consumers do not possess the habit of providing or consuming the information
predicted in the FGDC and ISO 19115 geographic metadata standards. / A qualidade do dado geográfico deve ser uma preocupação relevante para provedores e
consumidores desse tipo de dado, pois a manipulação e análise de um dado geográfico com baixa
qualidade podem resultar em erros que vão se propagar nos dados gerados a partir desse. Assim, é
importante que a informação que permita atestar a qualidade do dado geográfico seja
adequadamente documentada. Com o propósito de oferecer um conjunto mínimo de metadados
para essa finalidade, esse trabalho apresenta uma abordagem baseada na procedência do dado
geográfico, que corresponde à informação sobre a história do dado, desde a sua origem até os
processos que resultaram no seu estado atual. Para tanto, foi proposto um modelo de procedência
denominado ProcGeo no qual foi definido um conjunto mínimo de metadados que devem ser
considerados para a análise da qualidade de um dado geográfico. Embora alguns trabalhos e
padrões de metadados geográficos, como o Federal Geographic Data Committee (FGDC) e o ISO
19115, considerem a informação da procedência para a análise da qualidade do dado geográfico,
sob o ponto de vista da autora deste trabalho, alguns metadados considerados importantes para
essa finalidade não são adequadamente contemplados. Neste trabalho também foi implementado o
protótipo de uma interface denominada ProcGeoInter, que tem como finalidade garantir a
corretude e completude do preenchimento dos metadados definidos no modelo ProcGeo e a
visualização do conteúdo dos mesmos. A validação do modelo ProcGeo e da interface
ProcGeoInter foram realizados por meio de testes e questionários aplicados a provedores e
consumidores de dados geográficos. Para efeito de comparação, foi considerada a interface para
preenchimento e visualização de metadados disponibilizada no SIG Quantum GIS (plugin
Metatoools), que implementa o padrão de metadados geográficos FGDC. Os resultados obtidos
indicaram que os metadados definidos no modelo ProcGeo auxiliaram o provedor de dados
geográficos na descrição da procedência desses dados, quando comparados aos definidos no
padrão de metadados geográficos FGDC. Pelo foco do consumidor foi possível perceber que as
informações preenchidas nos metadados definidos pelo ProcGeo favoreceram a análise da
qualidade dos dados consumidos. Ficou evidente que tanto provedores quanto consumidores não
possuem o hábito de prover ou consumir as informações previstas nos padrões de metadados
geográficos FGDC e ISO 19115.
|
Page generated in 0.0813 seconds