Global ETD Search

1	P2P-MPI : A fault-tolerant Message Passing Interface Implementation for Grids Rattanapoka, Choopan 22 April 2008 (has links) (PDF) Cette thèse démontre la faisabilité d'un intergiciel destiné aux grilles de calcul, prenant en compte la dynamicité de ce type de plateforme, et les impératifs des programmes parallèles à passage de message. Pour cela, nous mettons en avant l'intérêt d'utiliser une architecture la plus distribuée possible : nous reprenons l'idée d'une infrastructure pair-à-pair pour l'organisation des ressources, qui facilite notamment la découverte des ressources, et nous retenons les détecteurs de défaillance distribués pour gérer la tolérance aux pannes. La dynamicité de ce type d'environnement est également un problème pour le modèle d'exécution sous-jacent à MPI, car la panne d'un seul processus entraine l'arrêt de l'application. La contribution de P2P-MPI dans ce domaine est la tolérance aux pannes par réplication. Nous pensons qu'elle est la mieux adaptée à une architecture pair-à-pair, les techniques classiques basées sur le check-point and restart nécessitant un ou des serveurs de sauvegardes. De plus, la réplication est totalement transparente à l'utilisateur et rejoint ainsi l'objectif de simplicité d'utilisation que nous nous sommes fixés. Nous pensons que garder un environnement très simple d'utilisation, entièrement maîtrisable par un utilisateur, est un des facteurs permettant d'augmenter le nombre de ressources disponibles sur la grille. Enfin, la contribution majeure de P2P-MPI est la librairie de communication proposée, qui est une implémentation de MPJ (MPI adapté à Java), et qui intègre la réplication des processus. Ce point particulier de notre travail plaide pour une collaboration étroite entre l'intergiciel, qui connaît l'état de la grille (détection des pannes par exemple) et la couche de communication qui peut adapter son comportement en connaissance de cause. systèmes distribués tolérance aux pannes MPI grille
2	Méthodes formelles de haut niveau pour la conception de systèmes électroniques fiables Gorse, Nicolas January 2005 (has links) Thèse numérisée par la Direction des bibliothèques de l'Université de Montréal. Systèmes électroniques Méthodes formelles Qualité Fiabilité Ingénierie des exigences Tolérance aux pannes
3	Tolérance aux pannes pour objets actifs asynchrones : modèle, protocole et expérimentations Christian, Delbé 24 January 2007 (has links) (PDF) L'objectif premier de cette thèse est de proposer un protocole de tolérance aux pannes par recouvrement arrière pour le modèle à objets actifs asynchrones communicants ASP (Asynchronous Sequential Processes) et son implémentation en Java ProActive. Cette thèse généralise la problématique soulevée par le développement de ce protocole : nous étudions le recouvrement d'une application répartie depuis un état global non cohérent. Nous proposons donc dans un premier temps un protocole par points de reprise et son implémentation ne supposant pas que les états globaux soient cohérents. Nous montrons à travers des expérimentations réalistes utilisant des applications réparties communicantes que notre solution et son implémentation présentent de bonnes performances. Nous contribuons aussi de manière plus générale à l'étude du recouvrement depuis un état global non cohérent en définissant formellement une nouvelle condition de recouvrabilité, la P-cohérence, basée sur la notion de promesse d'évènement. Cette définition s'intègre dans un formalisme événementiel capable de prendre en compte la sémantique de n'importe quel système ; elle est donc applicable dans un cadre général. En particulier, en appliquant ce formalisme au modèle ASP, nous prouvons la correction de notre protocole en montrant que les états globaux formés durant l'exécution sont toujours recouvrables. Enfin, nous contribuons plus spécifiquement au domaine des grilles de calcul en proposant une extension de notre protocole et son implémentation adaptée à ce contexte. Cette extension se base sur la constitution automatique de groupes de recouvrement au déploiement de l'application. Elle permet une répartition indépendante des mémoires stables et un confinement des effets d'une panne au seul groupe concerné. tolérance aux pannes points de reprise cohérence promesse d'évènement
4	Programmation des systèmes parallèles distribués : tolérance aux pannes, résilience et adaptabilité Jafar, Samir 30 June 2006 (has links) (PDF) Les grilles et les grappes sont des architectures de plus en plus utilisées dans le domaine du calcul scientifique distribué. Le nombre important de constituants hétérogènes (processeurs, mémoire, interconnexion) dans ces architectures dynamiques font que le risque de défaillance est très important. Compte tenu de la durée considérable de l'exécution d'une application parallèle distribuée, ce risque de défaillance doit être contrôlé par l'utilisation de technique de tolérance aux pannes. <br />Dans ce travail, la représentation de l'état de l'exécution d'un programme parallèle est un graphe, dynamique, de flot de données construit à l'exécution. Cette description du parallélisme est indépendante du nombre de ressources et donc exploitée pour résoudre les problèmes liés à la dynamicité des plateformes considérées. La définition de formats portables pour la représentation des noeuds du graphe résout les problèmes d'hétérogénéité. La sauvegarde du graphe de flot de données d'une application durant son exécution sur une plateforme, constitue des points de reprise pour cette application. Par la suite, une reprise est possible sur un autre type ou nombre de processus. Deux méthodes de sauvegarde / reprise, avec une analyse formelle de leurs complexités, sont présentées : SEL (Systematic Event Logging) et TIC (Theft-Induced Checkpointing). Des mesures expérimentales d'un prototype sur des applications caractéristiques montrent que le surcoût à l'exécution peut être amorti, permettant d'envisager des exécutions tolérantes aux pannes qui passent à l'échelle. Tolérance aux pannes Systèmes répartis Calcul sur grille Point de reprise Recouvremment
5	Conception et réalisation d'un service de stockage fiable et extensible pour un système réparti à objets persistants Knaff, Alain 21 October 1996 (has links) (PDF) Cette thèse décrit la conception et la mise en oeuvre d'un service de stockage fiable et extensible. Les travaux ont été faits dans le cadre de Sirac, un système réparti à objets persistants. L'objectif de Sirac est de fournir des services pour le support d'objets persistants répartis et pour la construction d'applications réparties. Les deux idées qui ont dirigé cette étude sont la souplesse des services offerts et la coopération entre les sous-systèmes. La souplesse, rendue possible par la conception modulaire du système, améliore les performances, étant donné que les applications doivent seulement payer le prix des services qu'elles utilisent. La coopération (par exemple entre le stockage et la pagination) permet aux différents modules de prendre des décisions en connaissance de cause. La thèse présente dans le second chapitre un état de l'art en trois parties. La première partie s'attache à étudier la manière dont un grand espace de stockage unique peut être présenté aux applications. La deuxième partie analyse la mise en oeuvre du stockage fiable en étudiant notamment différentes réalisations de l'atomicité. La troisième partie enfin montre comment ces deux aspects sont mariés dans les systèmes modernes. Dans le troisième chapitre, nous faisons un rapide tour d'horizon d'Arias et de ses différents sous-systèmes~: protection, cohérence, synchronisation et stockage. Au sein des différents services, nous distinguons d'un côté des modules génériques de bas niveau, et d'un autre côté des modules spécifiques aux applications. Les modules génériques mettent en oeuvre les mécanismes tandis que les modules spécifiques définissent la politique. Certains sous-systèmes sont toujours présents, comme la gestion de la cohérence et de la synchronisation, alors que d'autres, comme par exemple la gestion de la protection ou la gestion de la permanence, sont optionnels. Dans les quatrième et cinquième chapitres, nous nous concentrons sur le service de stockage. Le service générique de stockage est subdivisé en deux parties~: d'abord un gestionnaire de volume, qui assure la pérennité des données, et puis un service de journalisation, qui assure l'atomicité des transactions. Ce système a été mis en oeuvre au dessus d'AIX, et la coopération entre les différents modules s'appuie sur le mécanisme des streams. Les performances de notre système sont bonnes, et s'approchent des limites imposées par le matériel dans les cas favorables. Les projets futurs incluent la fourniture d'un vaste éventail de protocoles de journalisation spécifiques, le support de volumes dupliqués ainsi que l'optimisation du gestionnaire du volume. tolérance aux pannes mémoire virtuelle répartie journal souplesse modularité
6	Marches aléatoires et mot circulant, adaptativité et tolérance aux pannes dans les environnements distribués. Bernard, Thibault 08 December 2006 (has links) (PDF) Nous proposons dans ces travaux une étude des marches aléatoires dans l'algorithmique distribuée pour les réseaux dynamiques. Nous montrons dans un premier temps que les marches aléatoires sont un outil viable pour la conception d'algorithmes distribués. Ces <br />algorithmes reposent principalement sur les trois propriétés fondamentales des marches aléatoires (Percussion, Couverture, Rencontre). Nous fournissons une méthode qui évalue <br />le temps ́ecoulé avant que ces trois propriétés soient vérifiées. Cela nous permet d'évaluer de la complexité de nos algorithmes. Dans un second temps, nous proposons l'utilisation d'un jeton circulant aléatoirement sous forme de mot circulant afin de collecter sur ce jeton des informations topologiques. Ces informations permettent la construction et la maintenance d'une structure couvrante du réseau de communication. Ensuite, nous <br />avons utilisé cette structure pour concevoir un algorithme de circulation de jeton tolérant aux pannes pour les environnements dynamiques. Cet algorithme a la particularité d'être complètement décentralisé. Nous proposons dans un dernier temps d'adapter notre circulation de jeton pour proposer une solution au problème d'allocation de ressources dans les réseaux ad-hoc. Algorithmes distribués Marches aléatoires Tolérance aux pannes Auto-stabilisation Réseaux dynamiques
7	Auto-stabilisation Efficace Tixeuil, Sébastien 14 January 2000 (has links) (PDF) Quand un système réparti est sujet à des défaillances transitoires qui modifient arbitrairement son état, il est crucial de pouvoir retrouver un comportement correct au bout d'un temps fini. L'auto-stabilisation présente une telle garantie, mais en général au prix de ressources importantes. Dans cette thèse, notre démarche a consisté à minimiser ces ressources lorsque cela était possible. <br /><br />Nous avons développé le concept de détecteur de défaillances transitoires, des oracles appelés par les processeurs du système, qui indiquent si des défaillances transitoires sont survenues, en un temps constant. Notre implantation permet de classifier les problèmes classiques suivant les ressources spécifiques nécessaires à la détection d'une erreur. Pour les tâches statiques, une suite naturelle a été de montrer qu'une condition sur le code localement exécuté par chaque processeur pouvait être suffisante pour garantir l'auto-stabilisation du système tout entier, indépendamment des hypothèses d'exécution et de la topologie du graphe de communication. Du fait que l'algorithme n'est pas modifié, il est forcément sans surcoût. De manière duale, nous avons développé des outils de synchronisation permettant de construire des algorithmes auto-stabilisants pour des spécifications dynamiques avec un surcoût en mémoire constant, c'est à dire indépendant de la taille du réseau. En outre, l'un des algorithmes présentés est instantanément stabilisant. Enfin, nous avons présenté une technique générale pour réduire systématiquement le coût des communications, en garantissant un délai de retransmission borné, et nous avons donné un cadre général ainsi que des outils d'implantation pour écrire des algorithmes auto-stabilisants dans ce contexte. Auto-stabilisation Systèmes répartis Algorithmique répartie Tolérance aux pannes
8	Résilience dans les Systèmes de Workflow Distribués pour les Applications d'Optimisation Numérique Trifan, Laurentiu 21 October 2013 (has links) (PDF) Cette thèse vise à la conception d'un environnement pour le calcul haute performance dans un cadre d'optimisation numérique. Les outils de conception et d'optimisation sont répartis dans plusieurs équipes distantes, académiques et industrielles, qui collaborent au sein des memes projets. Les outils doivent etre fédérésau sein d'un environnement commun afin d'en faciliter l'accès aux chercheurs et ingénieurs. L'environnement que nous proposons, pour répondre aux conditions précédentes, se compose d'un système de workflow et d'un système de calcul distribué. Le premier a pour objctif de faciliter la tache de conception tandis que le second se charge de l'exécution sur des ressources de calcul distribuées. Bien sur, des suystèmes de communication entre les deux systèmes doivent etre développés. Les calculs doivent etre réalisés de manière efficace, en prenant en compte le parallélisme interne de certains codes, l'exécution synchrone ou asynchrone des taches, le transfert des données et les ressources matérielles et logicielles disponibles. De plus, l'environnement doit assurer un bon niveau de tolérance aux pannes et aux défaillances logicielles, afin de minimiser leur influence sur le résultat final ou sur le temps de calcul. Une condition importante est de pouvoir implanter un dispositif de reprise sur erreur, de telle sorte que le temps supplémentaire de traitement des erreurs soit très inférieur au temps de ré-exécution total.Dans le cadre de ce travail, notyre choix s'est porté sur le moteur de workflow Yawl, qui présente de bonnes caractéristiques en termes i) d'indépendancze vis à vis du matériel et du logiciel et ii) de mécanisme de reprise sdur erreur. Pour la partie calcul distribué, nos expériences ont été réalisées sur la plateforme Grid5000, en utilisant 64 machines différentes réparties sur cinq sites géographiques. Ce document d&taille les choix de conception de cet environnement ainsi que les ajouts et modifications que nous avons apportées à Yawl pour lui permettre de fonctionner sur une plateforme distribuée. Calcul distribué workflow tolérance aux pannes
9	Machines à commutation de flux à grand nombre de phases : modèles comportementaux en mode dégradé et élaboration d’une stratégie de commande en vue de l’amélioration de la tolérance aux pannes / Flux switching machines with high phases number : behavioral models in degraded mode and development of a control strategy to improve fault tolerance Ben Sedrine, Emna 28 November 2014 (has links) Dans cette thèse, nous nous sommes intéressés à l'étude des modèles comportementaux en mode dégradé des machines pentaphasées à commutation de flux (MCF pentaphasée). Tout d'abord, une comparaison des performances électromagnétiques de cette machine à une machine triphasée équivalente est tout d'abord effectuée. Ces performances sont calculées par la méthode des Eléments Finis (EF 2D) et validées expérimentalement. Les résultats ont montré l'apport de la machine pentaphasée avec un couple massique plus élevé, une ondulation de couple plus faible, un courant de court-circuit plus faible et sa capacité à tolérer des défauts de phases. L'étude de la tolérance aux ouvertures de phases est alors élaborée pour cette MCF pentaphasée. Le comportement de la machine en cas d'ouvertures de phases (du point de vue du couple moyen, de l'ondulation de couple, des pertes Joule et du courant dans le neutre) est présenté. Ensuite, des méthodes de reconfiguration en vue d'améliorer le fonctionnement sont proposées dont une reconfiguration minimale permettant de se retrouver avec une alimentation équivalente à celle d'une machine tétraphasée ou triphasée, un calcul analytique des courants optimaux permettant d'annuler à la fois le courant du neutre et l'ondulation du couple tout en assurant le couple moyen, et finalement une reconfiguration assurée par un algorithme génétique d'optimisation qui est un algorithme non-déterministe multi-objectifs et multi-contraintes. Diverses combinaisons des différents objectifs et contraintes sont, dans ce cadre, effectuées et les courants optimaux sont injectés dans le modèle EF 2D de la machine pour vérifier si les performances ont été améliorées. Le modèle analytique du couple pris en compte dans l'algorithme d'optimisation est alors révisé pour prendre en compte l'influence du mode dégradé. Les différentes solutions du front de Pareto sont analysées et les performances électromagnétiques sont bien améliorées. Cela est vérifié par les calculs EF 2D et suivi d'une validation expérimentale. L'influence des défauts sur les forces magnétiques radiales est également analysée. Dans une seconde partie, l'étude de la tolérance de la machine pentaphasée à commutation de flux aux défauts de courts-circuits est effectuée. Les premières étapes d'isolation des défauts de courts-circuits sont proposées. Par la suite, les courants de courts-circuits, prenant en compte l'effet reluctant de la machine, sont calculés analytiquement et leurs effets sur les performances de la machine sont analysés. Les reconfigurations sont aussi calculées par l'algorithme génétique d'optimisation et les nouvelles références des courants permettent d'améliorer le fonctionnement en mode dégradé. Tous les résultats sont validés par la méthode des EF 2D et expérimentalement. En conclusion, des comparaisons entre la tolérance aux défauts d'ouvertures et de courts-circuits de la machine pentaphasée à commutation de flux sont effectuées et ont permis de conclure quant au fonctionnement de cette machine en modes sain et dégradé avec et sans correction. Les résultats analytiques, numériques et expérimentaux ont montré la bonne efficacité de la commande proposée pour l'amélioration de la tolérance aux défauts d'ouvertures et courts-circuits de phases. / In this thesis, we are interested in the study of a five-phase flux switching permanent magnet machine (five-phase FSPM machine) behavior in healthy and faulty mode. First, a comparison of electromagnetic performances between this machine and an equivalent three-phase machine is carried out. These performances are calculated by a Finite Element (FE 2D) model and validated by experiments. Results showed the five-phase machine contribution with a higher torque density, lower torque ripples, lower short-circuit current and ability to tolerate phases faults. The study of open-circuit tolerance is then developed for this five-phase FSPM. The behavior of the machine (the average torque, torque ripples, copper losses and the current in the neutral) in the case of open-circuit on a single and two adjacent and non-adjacent phases is presented. Then reconfiguration methods to improve the operation are proposed including a minimum reconfiguration allowing to end up with a feeding equivalent to that of a three-phase or a four-phase machine, an analytical calculation of optimal currents to cancel both the neutral current and torque ripples while ensuring the average torque, and finally a reconfiguration performed by a genetic optimization algorithm which is a non-deterministic algorithm multi-objective functions and multi-constraints. In this context, various combinations of different objectives and constraints are proposed and optimal currents are injected into the 2D FE model of the machine to see if performances have been improved. The analytical model of the torque used in the optimization algorithm is then revised to take into account the influence of the degraded mode. Different solutions of Pareto front are analyzed and electromagnetic performances are improved. This is verified by FE 2D calculations and followed by experimental validation. Faults impact on the radial magnetic forces is also analyzed. In the second part of this work, the study of the five-phase FSPM machine tolerance to short-circuit faults is performed. First steps of the faults isolation are proposed. Thereafter, short-circuit currents, taking into account the reluctance machine impact, are calculated analytically and their effects on machine performances are analyzed. Reconfigurations are also calculated by the genetic algorithm optimization and new references currents improved the degraded mode operation. All results are validated by the FE 2D calculation and experimentally. In conclusion, comparisons between fault-tolerance to phases openings and short-circuits of the five-phase FSPM machine are performed. Results led to conclude regarding the operation of this machine in healthy and degraded modes with and without correction. Analytical, numerical and experimental results showed good efficiency of the proposed control to improve fault-tolerance to phases openings and short-circuits. Algorithmes d'optimisation Défauts de phases Tolérance aux pannes Flux switching machine Fault tolerance
10	Codage d’algorithmes distribués d’agents mobiles à l’aide de calculs locaux Haddar, Mohamed Amine 20 December 2011 (has links) De nos jours, les systèmes distribués doivent répondre de plus en plus à de nouvelles exigences de qualité de service et à l’émergence de nouvelles applications comme le calcul sur la grille ; ce qui généralement se traduit par des impératifs de dynamicité et de mobilité. Si des solutions satisfaisantes existent pour des environnements distribués statiques, elles sont inadaptées dans le cas où le système devient dynamique (mobilité, évolution, modification de composants). En effet, la conception d’algorithmes distribués est traditionnellement fondée sur l’hypothèse d’un réseau dont la topologie est statique. Notre objectif dans cette thèse est de définir et d’étudier un modèle à base d’agents mobiles pour l’implémentation et l’exécution d’algorithmes distribués codés par des calculs locaux.Ce modèle doit tenir en compte des pannes qui peuvent altérer le fonctionnement du système distribué. Il doit aussi améliorer les performances vis-à-vis des modèles classiques (à envoi de messages) / Today, distributed systems must satisfy increasinglynew requirements for quality of service and the emergence ofnew applications such as Grid Computing, whichgenerally results in requirements of dynamicity andmobility. If satisfactory solutions exist forstatic distributed environments, they are inadequate in the casewhere the system becomes dynamic (mobility, evolution,components change). Indeed, the design of distributed algorithms istraditionally based on the assumption of a network whosetopology is static. Our goal, in this thesis, is to defineand study a model based on mobile agents to implementand execute distributed algorithms encoded by local computations.This model must take into account failures that can alter thethe distributed system operation. It should also improveperformance vis-à-vis the classical models (message passing systems) Calculs locaux Agents mobiles Tolérance aux pannes Local computations Mobiles agents Fault tolerance

Search results