Return to search

Blockchain Use for Data Provenance in Scientific Workflow

In Scientific workflows, data provenance plays a big part. Through data provenance, the execution of the workflow is documented and information about the data pieces involved are stored. This can be used to reproduce scientific experiments or to proof how the results from the workflow came to be. It is therefore vital that the provenance data that is stored in the provenance database is always synchronized with its corresponding workflow, to verify that the provenance database has not been tampered with. The blockchain technology has been gaining a lot of attention in recent years since Satoshi Nakamoto released his Bitcoin paper in 2009. The blockchain technology consists of a peer-to-peer network where an append-only ledger is stored and replicated across a peer-to-peer network and offers high tamper-resistance through its consensus protocols. In this thesis, the option of whether the blockchain technology is a suitable solution for synchronizing workflow with its provenance data was explored. A system that generates a workflow, based on a definition written in a Domain Specific Language, was extended to utilize the blockchain technology to synchronize the workflow itself and its results. Furthermore, the InterPlanetary File System was utilized to assist with the versioning of individual executions of the workflow. The InterPlanetary File System provided the functionality of comparing individual workflows executions in more detail and to discover how they differ. The solution was analyzed with respect to the 21 CFR Part 11 regulations imposed by the FDA in order to see how it could assist with fulfilling the requirements of the regulations.  Analysis on the system shows that the blockchain extension can be used to verify if the synchronization between a workflow and its results has been tampered with. Experiments revealed that the size of the workflow did not have a significant effect on the execution time of the extension. Additionally, the proposed solution offers a constant cost in digital currency regardless of the workflow. However, even though the extension shows some promise of assisting with fulfilling the requirements of the 21 CFR Part 11 regulations, analysis revealed that the extension does not fully comply with it due to the complexity of the regulations / I vetenskapliga arbetsflöden är usprung (eng. provenance) av dataviktigt. Genom att spåra ursprunget av data, i form av dokumentation,kan datas ursprung sparas. Detta kan användas för att återskapavetenskapliga experiment eller för att bevisa hur resultat från arbetsflödegenererats. Det är därför viktigt att datas ursprung, som lagrasi ursprungsdatabasen, alltid är synkroniserad med dess motsvarandearbetsflöde som ett sätt att verifiera att ursprungsdatabasen intehar manipulerats. Blockchainteknologi har fått mycket uppmärksamhetde senaste åren sen Satoshi Nakamoto släppte sin Bitcoin artikelår 2009. Blockchainteknologi består av ett peer-to-peer nätverk där endastbifogning tillåts i en liggare som är replikerad över ett peer-topeernätverk vilken tillhandahåller hög manipuleringsresistans genomkonsensusprotokoll. I denna uppsats undersöks hurvida blockchainteknologi är en passande lösning för arbetsflödessynkronisering avursprungsdata. Ett system som genererar ett arbetsflöde, baserat påen definition som skrivits i ett domänspecifikt språk, var förlängt föratt utnyttja blockchainteknologi för synkronisering av arbetsflödet ochdess resultat. InterPlanetary File System användes för att assistera medversionshanteringen av individuella exekveringar av arbetsflödet. InterPlanetaryFile System tillhandahöll funktionalitet för att jämföra individuellaarbetsflödesexekveringar mer detaljerat samt att upptäckahur de skiljer sig åt. Resultaten är analyserade med hänsyn till 21 CFRPart 11 regleringar från FDA för att se hur resultaten kan assistera medatt uppfylla kraven av förordningarna. Analys av systemen visar attblockchainförlängningen kan användas för att verifiera att synkroniseringenmellan arbetsflödet och dess resultat inte har manipulerats.Experimenten visade att storleken av arbetsflödet inte hade märkbareffekt på exekveringstiden av förlängningen. Därutöver möjliggör denpresenterade lösningen en konstant kostnad i digital valuta oavsett arbetsflödetsstorlek. Även om förlängningen visar lovande resultat förassistering av fullföljande av 21 CFR Part 11 regleringarna påvisar analysatt förlängningen inte fullständigt uppfyller kraven på grund avkomplexiteten av dessa regleringar.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-232548
Date January 2018
CreatorsSigurjonsson, Sindri Már Kaldal
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageEnglish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2018:315

Page generated in 0.0023 seconds