Global ETD Search

1	Introduction de mécanismes de tolérance aux pannes franches dans les architectures de processeur « many-core » à mémoire partagée cohérente / Introduction of Fault-Tolerance Mechanisms for Permanent Failures in Coherent Shared-Memory Many-Core Architectures Fuguet Tortolero, César 25 November 2015 (has links) L'augmentation continue de la puissance de calcul requise par les applications telles que la cryptographie, la simulation, ou le traitement du signal a fait évoluer la structure interne des processeurs vers des architectures massivement parallèles (dites « many-core »). Ces architectures peuvent contenir des centaines, voire des milliers de cœurs afin de fournir une puissance de calcul importante avec une consommation énergétique raisonnable. Néanmoins, l'importante densité de transistors fait que ces architectures sont très susceptibles aux pannes matérielles. L'augmentation dans la variabilité du processus de fabrication, et dans les facteurs de stress des transistors, dégrade à la fois le rendement de fabrication, et leur durée de vie. Nous proposons donc un mécanisme complet de tolérance aux pannes franches, permettant les architectures « many-core » à mémoire partagée cohérente de fonctionner dans un mode dégradé. Ce mécanisme s'appuie sur un logiciel embarqué et distribué dans des mémoires sur puce (« firmware »), qui est exécuté par les cœurs à chaque démarrage du processeur. Ce logiciel implémente plusieurs algorithmes distribués permettant de localiser les composants défaillants (cœurs, bancs mémoires, et routeurs des réseaux sur puce), de reconfigurer l'architecture matérielle, et de fournir une cartographie de l'infrastructure matérielle fonctionnelle au système d'exploitation. Le mécanisme supporte aussi bien des défauts de fabrication, que des pannes de vieillissement après que la puce est en service dans l'équipement. Notre proposition est évaluée en utilisant un prototype virtuel précis au cycle d'une architecture « many-core » existante. / The always increasing performance demands of applications such as cryptography, scientific simulation, network packets dispatching, signal processing or even general-purpose computing has made of many-core architectures a necessary trend in the processor design. These architectures can have hundreds or thousands of processor cores, so as to provide important computational throughputs with a reasonable power consumption. However, their important transistor density makes many-core architectures more prone to hardware failures. There is an augmentation in the fabrication process variability, and in the stress factors of transistors, which impacts both the manufacturing yield and lifetime. A potential solution to this problem is the introduction of fault-tolerance mechanisms allowing the processor to function in a degraded mode despite the presence of defective internal components. We propose a complete in-the-field reconfiguration-based permanent failure recovery mechanism for shared-memory many-core processors. This mechanism is based on a firmware (stored in distributed on-chip read-only memories) executed at each hardware reset by the internal processor cores without any external intervention. It consists in distributed software procedures, which locate the faulty components (cores, memory banks, and network-on-chip routers), reconfigure the hardware architecture, and provide a description of the functional hardware infrastructure to the operating system. Our proposal is evaluated using a cycle-accurate SystemC virtual prototype of an existing many-core architecture. We evaluate both its latency, and its silicon cost. Pannes franches Many-Core Localisation de pannes Reconfiguration Algorithmique distribuée Réseau-Sur-Puce Démarrage du processeur Many-core Fault-tolerance 004
2	Applications de l'intelligence artificielle à la détection et l'isolation de pannes multiples dans un réseau de télécommunications / Application of artificial intelligence to the detection and isolation of multiple faults in a telecommunications network Tembo Mouafo, Serge Romaric 23 January 2017 (has links) Les réseaux de télécommunication doivent être fiables et robustes pour garantir la haute disponibilité des services. Les opérateurs cherchent actuellement à automatiser autant que possible les opérations complexes de gestion des réseaux, telles que le diagnostic de pannes.Dans cette thèse nous nous sommes intéressés au diagnostic automatique de pannes dans les réseaux d'accès optiques de l'opérateur Orange. L'outil de diagnostic utilisé jusqu'à présent, nommé DELC, est un système expert à base de règles de décision. Ce système est performant mais difficile à maintenir en raison, en particulier, du très grand volume d'informations à analyser. Il est également impossible de disposer d'une règle pour chaque configuration possible de panne, de sorte que certaines pannes ne sont actuellement pas diagnostiquées.Dans cette thèse nous avons proposé une nouvelle approche. Dans notre approche, le diagnostic des causes racines des anomalies et alarmes observées s'appuie sur une modélisation probabiliste, de type réseau bayésien, des relations de dépendance entre les différentes alarmes, compteurs, pannes intermédiaires et causes racines au niveau des différents équipements de réseau. Ce modèle probabiliste a été conçu de manière modulaire, de façon à pouvoir évoluer en cas de modification de l'architecture physique du réseau.Le diagnostic des causes racines des anomalies est effectué par inférence, dans le réseau bayésien, de l'état des noeuds non observés au vu des observations (compteurs, alarmes intermédiaires, etc...) récoltées sur le réseau de l'opérateur. La structure du réseau bayésien, ainsi que l'ordre de grandeur des paramètres probabilistes de ce modèle, ont été déterminés en intégrant dans le modèle les connaissances des experts spécialistes du diagnostic sur ce segment de réseau. L'analyse de milliers de cas de diagnostic de pannes a ensuite permis de calibrer finement les paramètres probabilistes du modèle grâce à un algorithme EM (Expectation Maximization).Les performances de l'outil développé, nommé PANDA, ont été évaluées sur deux mois de diagnostic de panne dans le réseau GPON-FTTH d'Orange en juillet-août 2015. Dans la plupart des cas, le nouveau système, PANDA, et le système en production, DELC, font un diagnostic identique. Cependant un certain nombre de cas sont non diagnostiqués par DELC mais ils sont correctement diagnostiqués par PANDA. Les cas pour lesquels les deux systèmes émettent des diagnostics différents ont été évalués manuellement, ce qui a permis de démontrer dans chacun de ces cas la pertinence des décisions prises par PANDA. / Telecommunication networks must be reliable and robust to ensure high availability of services. Operators are currently searching to automate as much as possible, complex network management operations such as fault diagnosis.In this thesis we are focused on self-diagnosis of failures in the optical access networks of the operator Orange. The diagnostic tool used up to now, called DELC, is an expert system based on decision rules. This system is efficient but difficult to maintain due in particular to the very large volume of information to analyze. It is also impossible to have a rule for each possible fault configuration, so that some faults are currently not diagnosed.We proposed in this thesis a new approach. In our approach, the diagnosis of the root causes of malfunctions and alarms is based on a Bayesian network probabilistic model of dependency relationships between the different alarms, counters, intermediate faults and root causes at the level of the various network component. This probabilistic model has been designed in a modular way, so as to be able to evolve in case of modification of the physical architecture of the network. Self-diagnosis of the root causes of malfunctions and alarms is made by inference in the Bayesian network model of the state of the nodes not observed in view of observations (counters, alarms, etc.) collected on the operator's network. The structure of the Bayesian network, as well as the order of magnitude of the probabilistic parameters of this model, were determined by integrating in the model the expert knowledge of the diagnostic experts on this segment of the network. The analysis of thousands of cases of fault diagnosis allowed to fine-tune the probabilistic parameters of the model thanks to an Expectation Maximization algorithm. The performance of the developed probabilistic tool, named PANDA, was evaluated over two months of fault diagnosis in Orange's GPON-FTTH network in July-August 2015. In most cases, the new system, PANDA, and the system in production, DELC, make an identical diagnosis. However, a number of cases are not diagnosed by DELC but are correctly diagnosed by PANDA. The cases for which self-diagnosis results of the two systems are different were evaluated manually, which made it possible to demonstrate in each of these cases the relevance of the decisions taken by PANDA. Diagnostic Réseau d'accès Gpon-Ftth Localisation de pannes Réseau Bayésien Inférence probabiliste Estimation paramétrique Expectation Maximization Self-Diagnosis Access network Gpon-Ftth Fault localization Bayesian network Probabilistic inference Parameter estimation Expectation Maximization 004

Search results

Introduction de mécanismes de tolérance aux pannes franches dans les architectures de processeur « many-core » à mémoire partagée cohérente / Introduction of Fault-Tolerance Mechanisms for Permanent Failures in Coherent Shared-Memory Many-Core Architectures

Applications de l'intelligence artificielle à la détection et l'isolation de pannes multiples dans un réseau de télécommunications / Application of artificial intelligence to the detection and isolation of multiple faults in a telecommunications network