Return to search

Toward an autonomic engine for scientific workflows and elastic Cloud infrastructure / Etude et conception d’un système de gestion de workflow autonomique

Les infrastructures de calcul scientifique sont en constante évolution, et l’émergence de nouvelles technologies nécessite l’évolution des mécanismes d’ordonnancement qui leur sont associé. Durant la dernière décennie, l’apparition du modèle Cloud a suscité de nombreux espoirs, mais l’idée d’un déploiement et d’une gestion entièrement automatique des plates-formes de calcul est jusque la resté un voeu pieu. Les travaux entrepris dans le cadre de ce doctorat visent a concevoir un moteur de gestion de workflow qui intègre les logiques d’ordonnancement ainsi que le déploiement automatique d’une infrastructure Cloud. Plus particulièrement, nous nous intéressons aux plates-formes Clouds disposant de système de gestion de données de type DaaS (Data as a Service). L’objectif est d’automatiser l’exécution de workflows arbitrairement complexe, soumis de manière indépendante par de nombreux utilisateurs, sur une plate-forme Cloud entièrement élastique. Ces travaux proposent une infrastructure globale, et décrivent en détail les différents composants nécessaires à la réalisation de cette infrastructure :• Un mécanisme de clustering des tâches qui prend en compte les spécificités des communications via un DaaS ;• Un moteur décentralisé permettant l’exécution des workflows découpés en clusters de tâches ;• Un système permettant l’analyse des besoins et le déploiement automatique. Ces différents composants ont fait l’objet d’un simulateur qui a permis de tester leur comportement sur des workflows synthétiques ainsi que sur des workflows scientifiques réels issues du LBMC (Laboratoire de Biologie et Modélisation de la Cellule). Ils ont ensuite été implémentés dans l’intergiciel Diet. Les travaux théoriques décrivant la conception des composants, et les résultats de simulations qui les valident, ont été publié dans des workshops et conférences de portée internationale. / The constant development of scientific and industrial computation infrastructures requires the concurrent development of scheduling and deployment mechanisms to manage such infrastructures. Throughout the last decade, the emergence of the Cloud paradigm raised many hopes, but achieving full platformautonomicity is still an ongoing challenge. Work undertaken during this PhD aimed at building a workflow engine that integrated the logic needed to manage workflow execution and Cloud deployment on its own. More precisely, we focus on Cloud solutions with a dedicated Data as a Service (DaaS) data management component. Our objective was to automate the execution of workflows submitted by many users on elastic Cloud resources.This contribution proposes a modular middleware infrastructure and details the implementation of the underlying modules:• A workflow clustering algorithm that optimises data locality in the context of DaaS-centeredcommunications;• A dynamic scheduler that executes clustered workflows on Cloud resources;• A deployment manager that handles the allocation and deallocation of Cloud resources accordingto the workload characteristics and users’ requirements. All these modules have been implemented in a simulator to analyse their behaviour and measure their effectiveness when running both synthetic and real scientific workflows. We also implemented these modules in the Diet middleware to give it new features and prove the versatility of this approach.Simulation running the WASABI workflow (waves analysis based inference, a framework for the reconstruction of gene regulatory networks) showed that our approach can decrease the deployment cost byup to 44% while meeting the required deadlines.

Identiferoai:union.ndltd.org:theses.fr/2018LYSEN061
Date16 October 2018
CreatorsCroubois, Hadrien
ContributorsLyon, Caron, Eddy
Source SetsDépôt national des thèses électroniques françaises
LanguageEnglish
Detected LanguageFrench
TypeElectronic Thesis or Dissertation, Text

Page generated in 0.002 seconds