Avec l'évolution des machines parallèles, le besoin en protocole de tolérance aux fautes devient de plus en plus important. Les protocoles de tolérance aux fautes existants ne sont pas adaptés à ces architectures car soit ils forcent un redémarrage global (protocoles de sauvegarde de points de reprise coordonnés) soit ils forcent l'enregistrement de tous les messages (protocoles à enregistrement de messages). Nous avons étudié les caractéristiques des protocoles existants. Dans un premier temps, nous avons étudié le déterminisme des applications, étant donné que les protocoles existants supposent des exécutions non déterministes ou déterministes par morceaux. Dans notre étude, nous nous sommes intéressés au modèle par échange de messages, et plus précisément aux applications MPI. Nous avons analysé 26 applications MPI et avons mis avant une nouvelle caractéristique appelée "déterminisme des émissions" qui correspond à la majorité des applications étudiées. Dans un second temps, nous nous sommes intéressés aux schémas de communications des applications afin d'étudier l'existence des groupes de processus dans ces schémas. L'étude a montré que pour la plupart des applications, il est possible de créer des groupes de processus de façon à minimiser la taille des groupes et le volume des messages inter-groupe. A partir de là nous avons proposé deux protocoles de tolérance aux fautes. Le premier est un protocole de sauvegarde de points de reprise non coordonnés pour les applications à émissions déterministes qui évite l'effet domino en n'enregistrant qu'un sous ensemble des messages de l'application. Nous avons également adapté le protocole pour l'utiliser sur des groupes de processus. Par la suite, nous avons proposé HydEE, un protocole hiérarchique fondé sur le déterminisme des émissions et les groupes de processus. Il combine un protocole de sauvegarde de points de reprise coordonnés au sein des groupes à un protocole à enregistrement de messages entre les groupes.
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00666063 |
Date | 06 December 2011 |
Creators | Guermouche, Amina |
Publisher | Université Paris Sud - Paris XI |
Source Sets | CCSD theses-EN-ligne, France |
Language | French |
Detected Language | French |
Type | PhD thesis |
Page generated in 0.002 seconds