Return to search

A science-gateway for workflow executions : Online and non-clairvoyant self-healing of workflow executions on grids / Auto-guérison en ligne et non clairvoyante des exécutions de chaînes de traitement sur grilles de calcul : Méthodes et évaluation dans une science-gateway pour l’imagerie médicale

Les science-gateways, telles que la Plate-forme d’Imagerie Virtuelle (VIP), permettent l’accès à un grand nombre de ressources de calcul et de stockage de manière transparente. Cependant, la quantité d’informations et de couches intergicielles utilisées créent beaucoup d’échecs et d’erreurs de système. Dans la pratique, ce sont souvent les administrateurs du système qui contrôlent le déroulement des expériences en réalisant des manipulations simples mais cruciales, comme par exemple replanifier une tâche, redémarrer un service, supprimer une exécution défaillante, ou copier des données dans des unités de stockages fiables. De cette manière, la qualité de service fournie est correcte mais demande une intervention humaine importante. Automatiser ces opérations constitue un défi pour deux raisons. Premièrement, la charge de la plate-forme est en ligne, c’est-à-dire que de nouvelles exécutions peuvent se présenter à tout moment. Aucune prédiction sur l’activité des utilisateurs n’est donc possible. De fait, les modèles, décisions et actions considérés doivent rester simples et produire des résultats pendant l’exécution de l’application. Deuxièmement, la plate-forme est non-clairvoyante à cause du manque d’information concernant les applications et ressources en production. Les ressources de calcul sont d’ordinaire fournies dynamiquement par des grappes hétérogènes, des clouds ou des grilles de volontaires, sans estimation fiable de leur disponibilité ou de leur caractéristiques. Les temps d’exécution des applications sont difficilement estimables également, en particulier dans le cas de ressources de calculs hétérogènes. Dans ce manuscrit, nous proposons un mécanisme d’auto-guérison pour la détection autonome et traitement des incidents opérationnels dans les exécutions des chaînes de traitement. Les objets considérés sont modélisés comme des automates finis à états flous (FuSM) où le degré de pertinence d’un incident est déterminé par un processus externe de guérison. Les modèles utilisés pour déterminer le degré de pertinence reposent sur l’hypothèse que les erreurs, par exemple un site ou une invocation se comportant différemment des autres, sont rares. Le mécanisme d’auto-guérison détermine le seuil de gravité des erreurs à partir de l’historique de la plate-forme. Un ensemble d’actions spécifiques est alors sélectionné par règle d’association en fonction du niveau d’erreur. / Science gateways, such as the Virtual Imaging Platform (VIP), enable transparent access to distributed computing and storage resources for scientific computations. However, their large scale and the number of middleware systems involved in these gateways lead to many errors and faults. In practice, science gateways are often backed by substantial support staff who monitors running experiments by performing simple yet crucial actions such as rescheduling tasks, restarting services, killing misbehaving runs or replicating data files to reliable storage facilities. Fair quality of service (QoS) can then be delivered, yet with important human intervention. Automating such operations is challenging for two reasons. First, the problem is online by nature because no reliable user activity prediction can be assumed, and new workloads may arrive at any time. Therefore, the considered metrics, decisions and actions have to remain simple and to yield results while the application is still executing. Second, it is non-clairvoyant due to the lack of information about applications and resources in production conditions. Computing resources are usually dynamically provisioned from heterogeneous clusters, clouds or desktop grids without any reliable estimate of their availability and characteristics. Models of application execution times are hardly available either, in particular on heterogeneous computing resources. In this thesis, we propose a general self-healing process for autonomous detection and handling of operational incidents in workflow executions. Instances are modeled as Fuzzy Finite State Machines (FuSM) where state degrees of membership are determined by an external healing process. Degrees of membership are computed from metrics assuming that incidents have outlier performance, e.g. a site or a particular invocation behaves differently than the others. Based on incident degrees, the healing process identifies incident levels using thresholds determined from the platform history. A specific set of actions is then selected from association rules among incident levels.

Identiferoai:union.ndltd.org:theses.fr/2013ISAL0115
Date29 November 2013
CreatorsDa Silva, Rafael Ferreira
ContributorsLyon, INSA, Desprez, Frédéric, Glatard, Tristan
Source SetsDépôt national des thèses électroniques françaises
LanguageEnglish
Detected LanguageFrench
TypeElectronic Thesis or Dissertation, Text

Page generated in 0.0029 seconds