Global ETD Search

1	WorkflowDSL: Scalable Workflow Execution with Provenance Fernando, Tharidu January 2017 (has links) Scientific workflow systems enable scientists to perform large-scale data intensive scientific experiments using distributed computing resources. Due to the diversity of domains and complexity of technology, delivering a successful outcome efficiently requires collaboration between domain experts and technical experts. However, existing scientific workflow systems require a large investment of time to familiarise and adapt existing workflows. Thus, many scientific workflows are still being implemented by script based languages (such as Python and R) due to familiarity and extensive third party library support. In this thesis, we implement a framework that uses a domain specific language that enables domain experts to collaborate on fine-tuning workflows. Technical experts are able to use Python for task implementations. Moreover, the framework includes support for parallel execution without any specialized code. It also provides a provenance capturing framework that enables users to analyse past executions and retrieve complete lineage of any data item generated. Experiments which were performed using a real-world scientific workflow from the bioinformatics domain show that users were able to execute workflows efficiently while using our DSL for workflow composition and Python for task implementations. Moreover, we show that captured provenance can be useful for analysing past workflow executions. / Vetenskapliga arbetsflödessystem gör det möjligt för forskare att utföra storskaliga dataintensiva vetenskapliga experiment med hjälp av distribuerade datorresurser. På grund av mångfalden av domäner, och komplexitet i teknik, krävs samarbete mellan domänexperter och tekniska experter för att på ett effektivt sätt leverera en framgångsrik lösning. Befintliga vetenskapliga arbetsflödessystem kräver dock en stor investering i tid för att bekanta och anpassa befintliga arbetsflöden. Som ett resultat av detta implementeras många vetenskapliga arbetsflöden fortfarande av skriptbaserade språk (som Python och R) på grund av förtrogenhet och omfattande support från tredje part. I denna avhandling implementeras ett framework som använder ett domänsspecifikt språk som gör det möjligt för domänexperter att samarbeta med att finjustera arbetsflöden. Tekniska experter kan använda Python för att genomföra uppgifter. Dessutom innehåller ramverket stöd för parallell exekvering utan någon specialkod. Detta ger också ett ursprungsfångande framework som gör det möjligt för användare att analysera tidigare exekveringar och att hämta fullständiga härstamningar för samtliga genererade dataobjekt. Experiment som utfördes med hjälp av ett verkligt vetenskapligt arbetsflöde från bioinformatikdomänen visar att användarna effektivt kunde utföra arbetsflöden medan de använde en DSL för arbetsflödesammansättning och Python för uppdragsimplementationer. Dessutom visar vi hur fångade ursprung kan vara användbara för att analysera tidigare genomförda arbetsflödesexekveringar. scientific workflows domain specific language scalable execution provenance scientific workflows domain specific language scalable execution provenance Computer Sciences Datavetenskap (datalogi)
2	Big Data Workflows: DSL-based Specification and Software Containers for Scalable Execution Dejene Dessalk, Yared January 2020 (has links) Big Data workflows are composed of multiple orchestration steps that perform different data analytics tasks. These tasks process heterogeneous data using various computing and storage resources. Due to the diversity of application domains, involved technologies, and complexity of data sets, the design and implementation of Big Data workflows require the collaboration of domain experts and technical experts. However, existing tools are too technical and cannot easily allow domain experts to participate in the process of defining and executing Big Data workflows. Moreover, the majority of existing tools are designed for specific applications such as bioinformatics, computational chemistry, and genomics. They are also based on specific technology stacks that do not provide flexible means of code reuse and maintenance. This thesis presents the design and implementation of a Big Data workflow solution based on the use of a domain-specific language (DSL) for hiding complex technical details, enabling domain experts to participate in the process definition of workflows. The workflow solution uses a combination of software container technologies and message-oriented middleware (MOM) to enable highly scalable workflow execution. The applicability of the solution is demonstrated by implementing a prototype based on a real-world data workflow. As per performed evaluations, the proposed workflow solution was evaluated to provide efficient workflow definition and scalable execution. Furthermore, the results of a set of experiments were presented, comparing the performance of the proposed approach with Argo Workflows, one of the most promising tools in the area of Big Data workflows. / Big Data-arbetsflöden består av flera orkestreringssteg som utför olika dataanalysuppgifter. Dessa uppgifter bearbetar heterogena data med hjälp av olika databehandlings- och lagringsresurser. På grund av stora variationen av tillämpningsområden, den involverade tekniken, och komplexiteten hos datamängderna, kräver utformning och implementering av Big Data-arbetsflöden samarbete mellan domänexperter och tekniska experter. Befintliga verktyg är dock för tekniska och vilket försvårar för domänexperter att delta i processen att definiera och genomföra Big Data-arbetsflöden. Dessutom är majoriteten av befintliga verktyg utformade för specifika tillämpningar, som bioinformatik, beräkningskemi och genomik. Verktygen är också baserade på specifika teknikstackar som inte erbjuder flexibla metoder för att kunna underhålla och återanvända kod. Denna avhandling ämnar att presentera design och implementering av en Big Data-arbetsflödeslösning som utnyttjar ett domänspecifikt språk (DSL) för att dölja komplexa tekniska detaljer, vilket gör det möjligt för domänexperter att delta i processdefinitionen av arbetsflöden. Arbetsflödeslösningen använder en kombination av mjukvaruutrustningsteknik och meddelande-orienterad mellanvara (MOM) för att möjliggöra en mer skalbar körning av arbetsflöden. Tillämpningslösningen demonstreras genom att implementera en prototyp baserad på ett verkligt dataflöde. Efter en granskning av de genomförda testerna modifierades den föreslagna arbetsflödeslösningen för att uppnå en effektiv arbetsflödesdefinition och skalbar körning. Dessutom presenteras resultaten av en uppsättning experiment där man jämför skalbarheten för det föreslagna tillvägagångssättet med Argo Workflows, ett av de mest lovande verktygen inom Big Data-arbetsflöden Big Data workflow Domain-specific language Software container Message oriented middleware Scalable execution Big Data-arbetsflode Doman-specifikt sprak Programvarubehallare Meddelande-orienterad mellanprogramvara Skalbar korning Computer and Information Sciences Data- och informationsvetenskap

Search results

WorkflowDSL: Scalable Workflow Execution with Provenance

Big Data Workflows: DSL-based Specification and Software Containers for Scalable Execution