• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 63
  • 30
  • 20
  • Tagged with
  • 113
  • 113
  • 113
  • 47
  • 42
  • 39
  • 38
  • 28
  • 24
  • 18
  • 18
  • 17
  • 16
  • 16
  • 13
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
61

Design, Optimization, and Formal Verification of Circuit Fault-Tolerance Techniques / Conception, optimisation, et vérification formelle de techniques de tolérance aux fautes pour circuits

Burlyaev, Dmitry 26 November 2015 (has links)
La miniaturisation de la gravure et l'ajustement dynamique du voltage augmentent le risque de fautes dans les circuits intégrés. Pour pallier cet inconvénient, les ingénieurs utilisent des techniques de tolérance aux fautes pour masquer ou, au moins, détecter les fautes. Ces techniques sont particulièrement utilisées dans les domaines critiques (aérospatial, médical, nucléaire, etc.) où les garanties de bon fonctionnement des circuits et leurs tolérance aux fautes sont cruciales. Cependant, la vérification de propriétés fonctionnelles et de tolérance aux fautes est un problème complexe qui ne peut être résolu par simulation en raison du grand nombre d'exécutions possibles et de scénarios d'occurrence des fautes. De même, l'optimisation des surcoûts matériels ou temporels imposés par ces techniques demande de garantir que le circuit conserve ses propriétés de tolérance aux fautes après optimisation.Dans cette thèse, nous décrivons une optimisation de techniques de tolérance aux fautes classiques basée sur des analyses statiques, ainsi que de nouvelles techniques basées sur la redondance temporelle. Nous présentons comment leur correction peut être vérifiée formellement à l'aide d'un assistant de preuves.Nous étudions d'abord comment certains voteurs majoritaires peuvent être supprimés des circuits basés sur la redondance matérielle triple (TMR) sans violer leurs propriétés de tolérance. La méthodologie développée prend en compte les particularités des circuits (par ex. masquage logique d'erreurs) et des entrées/sorties pour optimiser la technique TMR.Deuxièmement, nous proposons une famille de techniques utilisant la redondance temporelle comme des transformations automatiques de circuits. Elles demandent moins de ressources matérielles que TMR et peuvent être facilement intégrés dans les outils de CAO. Les transformations sont basées sur une nouvelle idée de redondance temporelle dynamique qui permet de modifier le niveau de redondance «à la volée» sans interrompre le calcul. Le niveau de redondance peut être augmenté uniquement dans les situations critiques (par exemple, au-dessus des pôles où le niveau de rayonnement est élevé), lors du traitement de données cruciales (par exemple, le cryptage de données sensibles), ou pendant des processus critiques (par exemple, le redémarrage de l'ordinateur d'un satellite).Troisièmement, en associant la redondance temporelle dynamique avec un mécanisme de micro-points de reprise, nous proposons une transformation avec redondance temporelle double capable de masquer les fautes transitoires. La procédure de recouvrement est transparente et le comportement entrée/sortie du circuit reste identique même lors d'occurrences de fautes. En raison de la complexité de cette méthode, la garantie totale de sa correction a nécessité une certification formelle en utilisant l'assistant de preuves Coq. La méthodologie développée peut être appliquée pour certifier d'autres techniques de tolérance aux fautes exprimées comme des transformations de circuits. / Technology shrinking and voltage scaling increase the risk of fault occurrences in digital circuits. To address this challenge, engineers use fault-tolerance techniques to mask or, at least, to detect faults. These techniques are especially needed in safety critical domains (e.g., aerospace, medical, nuclear, etc.), where ensuring the circuit functionality and fault-tolerance is crucial. However, the verification of functional and fault-tolerance properties is a complex problem that cannot be solved with simulation-based methodologies due to the need to check a huge number of executions and fault occurrence scenarios. The optimization of the overheads imposed by fault-tolerance techniques also requires the proof that the circuit keeps its fault-tolerance properties after the optimization.In this work, we propose a verification-based optimization of existing fault-tolerance techniques as well as the design of new techniques and their formal verification using theorem proving. We first investigate how some majority voters can be removed from Triple-Modular Redundant (TMR) circuits without violating their fault-tolerance properties. The developed methodology clarifies how to take into account circuit native error-masking capabilities that may exist due to the structure of the combinational part or due to the way the circuit is used and communicates with the surrounding device.Second, we propose a family of time-redundant fault-tolerance techniques as automatic circuit transformations. They require less hardware resources than TMR alternatives and could be easily integrated in EDA tools. The transformations are based on the novel idea of dynamic time redundancy that allows the redundancy level to be changed "on-the-fly" without interrupting the computation. Therefore, time-redundancy can be used only in critical situations (e.g., above Earth poles where the radiation level is increased), during the processing of crucial data (e.g., the encryption of selected data), or during critical processes (e.g., a satellite computer reboot).Third, merging dynamic time redundancy with a micro-checkpointing mechanism, we have created a double-time redundancy transformation capable of masking transient faults. Our technique makes the recovery procedure transparent and the circuit input/output behavior remains unchanged even under faults. Due to the complexity of that method and the need to provide full assurance of its fault-tolerance capabilities, we have formally certified the technique using the Coq proof assistant. The developed proof methodology can be applied to certify other fault-tolerance techniques implemented through circuit transformations at the netlist level.
62

Conception, simulation parallèle et implémentation de réseaux sur puce hautes performances tolérants aux fautes / Design, Parallel Simulation and Implementation of High-Performance Fault-Tolerant Network-on-Chip Architectures

Charif, Mohamed El Amir 17 November 2017 (has links)
Grâce à une réduction considérable dans les dimensions des transistors, les systèmes informatiques sont aujourd'hui capables d'intégrer un très grand nombre de cœurs de calcul en une seule puce (System-on-Chip, SoC). Faire communiquer les composants au sein d'une puce est aujourd'hui assuré par un réseau de commutation de paquet intégré, communément appelé Network-on-Chip (NoC). Cependant, le passage à des technologies de plus en plus réduites rend les circuits plus vulnérables aux fautes et aux défauts de fabrication. Le réseau sur puce peut donc se retrouver avec des routeurs ou des liens non-opérationnels, qui ne peuvent plus être utilisés pour le routage de paquets. Par conséquent, le niveau de flexibilité offert par l'algorithme de routage n'a jamais été aussi important. La première partie de cette thèse consiste à proposer une méthodologie généralisée, permettant de concevoir des algorithmes de routage hautement flexibles, combinant tolérance aux fautes et hautes performances, et ce pour n'importe quelle topologie réseau. Cette méthodologie est basée sur une nouvelle condition suffisante pour l'absence d'interblocages (deadlocks) qui, contrairement aux méthodes existantes qui imposent des restrictions importantes sur l'utilisation des buffers, s'évalue de manière dynamique en fonction de chaque paquet et ne requiert pas un partitionnement stricte des canaux virtuels (virtual channels). Il est montré que ce degré élevé de liberté dans l'utilisation des buffers a un impact positif à la fois sur les performances et sur la robustesse du NoC, sans pour autant augmenter la complexité en termes d'implémentation matérielle. La seconde partie de la thèse s'intéresse à une problématique plus spécifique, qui est celle du routage dans des topologies tri-dimensionnelles partiellement connectées, qui vont vraisemblablement être en vigueur à cause du coût important des connexions verticales, réalisées en utilisant la technologie TSV (Through-Silicon Via). Cette thèse introduit un nouvel algorithme de routage pour ce type d'architectures nommé "First-Last". Grâce à un placement original des canaux virtuels, cet algorithme est le seul capable de garantir la connectivité totale du réseau en présence d'un seul pilier de TSVs de coordonnées arbitraires, tout en ne requérant de canaux virtuels que sur deux des ports du routeur. Contrairement à d'autres algorithmes qui utilisent le même nombre total de canaux virtuels, First-Last n'impose aucune règle sur la position des piliers, ni sur les piliers à sélectionner durant l'exécution. De plus, l'algorithme proposé ayant été construit en utilisant la méthode décrite dans la première partie de la thèse, il offre une utilisation optimisée des canaux virtuels ajoutés. L'implémentation d'un nouvel algorithme de routage implique souvent des changements considérables au niveau de la microarchitecture des routeurs. L'évaluation de ces nouvelles solutions requiert donc une plateforme capable de simuler précisément l'architecture matérielle du réseau au cycle près. De plus, il est essentiel de tester les nouvelles architectures sur des tailles de réseau significativement grandes, pour s'assurer de leur scalabilité et leur applicabilité aux technologies émergentes (e.g. intégration 3D). Malheureusement, les simulateurs de réseaux sur puce existants ne sont pas capables d'effectuer des simulations sur de grands réseaux (milliers de cœurs) assez vite, et souvent, la précision des simulations doit être sacrifiée afin d'obtenir des temps de simulation raisonnables. En réponse à ce problème, la troisième et dernière partie de cette thèse est consacrée à la conception et au développement d'un modèle de simulation générique, extensible et parallélisable, exploitant la puissance des processeurs graphiques modernes (GPU). L'outil développé modélise l'architecture d'un routeur de manière très précise et peut simuler de très grands réseaux en des temps record. / Networks-on-Chip (NoCs) have proven to be a fast and scalable replacement for buses in current and emerging many-core systems. They are today an actively researched topic and various solutions are being explored to meet the needs of emerging applications in terms of performance, quality of service, power consumption, and fault-tolerance. This thesis presents contributions in two important areas of Network-on-Chip research:- The design of ultra-flexible high-performance deadlock-free routing algorithms for any topology.- The design and implementation of parallel cycle-accurate Network-on-Chip simulators for a fast evaluation of new NoC architectures.While aggressive technology scaling has its benefits in terms of delay, area and power, it is also known to increase the vulnerability of circuits, suggesting the need for fault-tolerant designs. Fault-tolerance in NoCs is directly tied to the degree of flexibility of the routing algorithm. High routing flexibility is also required in some irregular topologies, as is the case for TSV-based 3D Network-on-Chips, wherein only a subset of the routers are connected using vertical connections. Unfortunately, routing freedom is often limited by the deadlock-avoidance method, which statically restricts the set of virtual channels that can be acquired by each packet.The first part of this thesis tackles this issue at the source and introduces a new topology-agnostic methodology for designing ultra-flexible routing algorithms for Networks-on-Chips. The theory relies on a novel low-restrictive sufficient condition of deadlock-freedom that is expressed using the local information available at each router during runtime, making it possible to verify the condition dynamically in a distributed manner.A significant gain in both performance and fault-tolerance when using our methodology compared to the existing static channel partitioning methods is reported. Moreover, hardware synthesis results show that the newly introduced mechanisms have a negligible impact on the overall router area.In the second part, a novel routing algorithm for vertically-partially-connected 3D Networks-on-Chips called First-Last is constructed using the previously presented methodology.Thanks to a unique distribution of virtual channels, our algorithm is the only one capable of guaranteeing full connectivity in the presence of one TSV pillar in an arbitrary position, while requiring a low number of extra buffers (1 extra VC in the East and North directions). This makes First-Last a highly appealing cost-effective alternative to the state-of-the-art Elevator-First algorithm.Finally, the third and last part of this work presents the first detailed and modular parallel NoC simulator design targeting Graphics Processing Units (GPUs). First, a flexible task decomposition approach, specifically geared towards high parallelization is proposed. Our approach makes it easy to adapt the granularity of parallelism to match the capabilities of the host GPU. Second, all the GPU-specific implementation issues are addressed and several optimizations are proposed. Our design is evaluated through a reference implementation, which is tested on an NVidia GTX980Ti graphics card and shown to speed up 4K-node NoC simulations by almost 280x.
63

Modes de défaillance induits par l'environnement radiatif naturel dans les mémoires DRAMs : étude, méthodologie de test et protection / Failure modes induced by natural radiation environments on dram memories : study, test methodology and mitigation technique.

Bougerol, Antonin 16 May 2011 (has links)
Les DRAMs sont des mémoires fréquemment utilisées dans les systèmes aéronautiques et spatiaux. Leur tenue aux radiations doit être connue pour satisfaire les exigences de fiabilité des applications critiques. Ces évaluations sont traditionnellement faites en accélérateur de particules. Cependant, les composants se complexifient avec l'intégration technologique. De nouveaux effets apparaissent, impliquant l'augmentation des temps et des coûts de test. Il existe une solution complémentaire, le laser impulsionnel, qui déclenche des effets similaires aux particules. Grâce à ces deux moyens de test, il s'est agi d'étudier les principaux modes de défaillance des DRAMs liés aux radiations : les SEUs (Single Event Upset) dans les plans mémoire, et les SEFIs (Single Event Functional Interrupt) dans les circuits périphériques. L'influence des motifs de test sur les sensibilités SEUs et SEFIs selon la technologie utilisée a ainsi été démontrée. L'étude a de plus identifié l'origine des SEFIs les plus fréquents. En outre, des techniques de test laser ont été développées pour quantifier les surfaces sensibles des différents effets. De ces travaux a pu être dégagée une nouvelle méthodologie de test destinée à l'industrie. Son objectif est d'optimiser l'efficacité et le coût des caractérisations, grâce à l'utilisation de l'outil laser de façon complémentaire aux accélérateurs de particules. Enfin, une nouvelle solution de tolérance aux fautes est proposée : basée sur la propriété des cellules DRAMs d'être immune aux radiations lorsqu'elles sont déchargées, cette technique permet la correction de tous les bits d'un mot logique. / DRAMs are frequently used in space and aeronautic systems. Their sensitivity to cosmic radiations have to be known in order to satisfy reliability requirements for critical applications. These evaluations are traditionally done with particle accelerators. However, devices become more complex with technology integration. Therefore new effects appear, inducing longer and more expensive tests. There is a complementary solution: the pulsed laser, which trigger similar effects as particles. Thanks to these two test tools, main DRAM radiation failure modes were studied: SEUs (Single Event Upset) in memory blocks, and SEFIs (Single Event Functional Interrupt) in peripheral circuits. This work demonstrates the influence of test patterns on SEU and SEFI sensitivities depending on technology used. In addition, this study identifies the origin of the most frequent type of SEFIs. Moreover, laser techniques were developed to quantify sensitive surfaces of the different effects. This work led to a new test methodology for industry, in order to optimize test cost and efficiency using both pulsed laser beams and particle accelerators. Finally, a new fault tolerant technique is proposed: based on DRAM cell radiation immunity when discharged, this technique allows to correct all bits of a logic word.
64

Analyse structurelle de réseaux de capteurs pour la commande et l'observation / Structural analysis of networks of sensors for control and observation

Do, Trong Hieu 23 September 2011 (has links)
Dans ce travail, on s'intéresse aux problèmes de localisation et de classification des capteurs pour des propriétés de commande et d'observation de systèmes dynamiques. Lorsqu'une propriété considérée du système n'est pas vérifiée avec l'ensemble des capteurs initiaux, on cherche à implanter de nouveaux capteurs pour rendre cette propriété vraie. Lorsqu'une propriété du système est vérifiée avec l'ensemble des capteurs existants, on classe ces capteurs en différentes catégories en fonction de leur importance pour la préservation de cette propriété. On détermine les capteurs essentiels dont la défaillance fait perdre la propriété considérée et les capteurs inutiles qui peuvent tomber en panne sans aucun impact sur la propriété. Pour étudier ces deux problèmes, on utilise l'approche des systèmes linéaires structurés avec les graphes orientés associés. Les systèmes linéaires structurés sont une classe particulière de systèmes linéaires où les éléments des matrices d'état sont soit fixés à zéro soit des paramètres libres. Avec cette approche structurée, on étudie les problèmes de localisation et de classification des capteurs pour le rejet de perturbation par retour de mesure et la détection et localisation de défauts. Les résultats sont représentés en termes graphiques. Mots-Clés:Systèmes linéaires structurés ; Analyse structurelle ; Localisation de capteurs ; Classification de capteurs ; Rejet de perturbation; Détection et localisation de défaut. / In this work, we are interested in sensor location and classification problems for control and observation of dynamical systems. When a considered property of the system is not satisfied with the initial set of sensors, we seek to implement additional sensors to make this property true. When a property is satisfied with the existing sensors, these sensors are classified into different categories according to their importance for the preservation of this property. We determine the critical sensors whose failure implies the property loss and the useless sensors which can fail without impact on the property. To study these two problems, we use the structured system approach with the associated directed graphs. Structured linear systems are a particular class of linear systems where the elements of state matrices are either zero or free parameters. With this approach, we study the problems of location and classification of sensors for disturbance rejection by measurement feedback and fault detection and isolation. The results are given in graphic terms. Keywords: Structured linear systems ; Structural analysis ; Sensor location ; Sensor classification; Disturbance rejection ; Fault detection and isolation.
65

Gestion de l'activité et de la consommation dans les architectures multi-coeurs massivement parallèles / Activity and Power Management in Massively Parallel Multi-core Architectures

Bizot, Gilles 25 October 2012 (has links)
Les variabilités du processus de fabrication des technologies avancées (typ. < 32nm) sont de plus en plus difficile à maîtriser. Elles impactent plus sévèrement la fréquence de fonctionnement et la consommation d'énergie, et induisent de plus en plus de défaillances dans le circuit. Ceci est particulièrement vrai pour les MPSoCs, où le nombre de coeurs de calculs est très important. Les besoins (performances, fonctionnalités, faible consommation, tolérance aux fautes) ne cessent de croître et les caractéristiques hétérogènes (fréquence, énergie, défaillances) rendent difficile la mise en oeuvre de systèmes répondant à ces exigences. Ces travaux s'inscrivent dans l'optique de traiter ces problèmes pour des systèmes MPSoCs massivement parallèles, basés sur une topologie en maille 2D. Cette thèse propose une méthodologie automatisée qui permet le placement et l'ordonnancement d'applications dans les systèmes ciblés. Les aspects variabilité, consommation et performance sont pris en compte. D'autre part, cette thèse propose une technique de placement adaptatif tolérant aux fautes basée sur une stratégie de recouvrement des erreurs. Cette stratégie permet de garantir la terminaison de l'application en présence de défaillances, sans avoir recours à la prise de « check-points ». Cette technique est complété par des algorithmes adaptatifs distribués, prenant en compte la variabilité et la consommation d'énergie. / With the advanced technologies (typ. < 32nm), it is more and more difficult to control the manufacturing variabilities. It impacts more severely the working frequency and the consumed energy, and induces more and more failure inside the device. This is particularly true for MPSoC with a large number of computing cores. With the increasing needs (performance, functionalities, low power, fault tolerance) and heterogeneous characteristics (frequency, energy, failures) it becomes difficult to apply to systems able to meet these requirements. This work focus on this perspective to deal with these issues for the massively parallel MPSoC, based on 2D mesh topology. This thesis proposes an automated methodology, allowing the mapping and scheduling of application on the targeted system. It takes into account the variability, energy and computing power. Furthermore, this thesis proposes a fault tolerant adaptive mapping technique, paired with an original failure recovering strategy. This strategy allows to guarantee the termination of the application in the presence of failures, without the check-point requirement. The technique has been extended with an adaptive distributed algorithm, taking into account the manufacturing variability and aimed at reducing the consumed energy.
66

Détection et diagnostic des fautes dans des systèmes à base de réseaux de capteurs sans fils / Fault detection and diagnosis in wireless sensor networks

Hamdan, Dima 20 February 2013 (has links)
Les pannes sont la règle et non l'exception dans les réseaux de capteurs sans fil. Un nœud capteur est fragile et il peut échouer en raison de l'épuisement de la batterie ou de la destruction par un événement externe. En outre, le nœud peut capter et transmettre des valeurs incorrectes en raison de l'influence de l'environnement sur son fonctionnement. Les liens sont également vulnérables et leur panne peut provoquer un partitionnement du réseau et un changement dans la topologie du réseau, ce qui conduit à une perte ou à un retard des données. Dans le cas où les nœuds sont portés par des objets mobiles, ils peuvent être mis hors de portée de la communication. Les réseaux de capteurs sont également sujets à des attaques malveillantes, telles que le déni de service, l'injection de paquets défectueux, entraînant un comportement inattendu du système et ainsi de suite. En plus de ces défaillances prédéfinies (c'est-à-dire avec des types et symptômes connus), les réseaux de capteurs présentent aussi des défaillances silencieuses qui ne sont pas connues à l'avance, et qui sont très liées au système. En revanche, les applications de RCSF, en particulier les applications de sécurité critiques, telles que la détection d'incendie ou les systèmes d'alarme, nécessitent un fonctionnement continu et fiable du système. Cependant, la garantie d'un fonctionnement correct d'un système pendant l'exécution est une tâche difficile. Cela est dû aux nombreux types de pannes que l'on peut rencontrer dans un tel système vulnérable et non fiable. Une approche holistique de la gestion des fautes qui aborde tous les types de fautes n'existe pas. En effet, les travaux existants se focalisent sur certains états d'incohérence du système. La raison en est simple : la consommation d'énergie augmente en fonction du nombre d'éléments à surveiller, de la quantité d'informations à collecter et parfois à échanger. Dans cette thèse, nous proposons un «Framework » global pour la gestion des fautes dans un réseau de capteurs. Ce framework, appelé « IFTF », fournit une vision complète de l'état du système avec la possibilité de diagnostiquer des phénomènes anormaux. IFTF détecte les anomalies au niveau des données, diagnostique les défaillances de réseau, détecte les défaillances d'applications, et identifie les zones affectées du réseau. Ces objectifs sont atteints grâce à la combinaison efficace d'un service de diagnostic réseau (surveillance au niveau des composants), un service de test d'applications (surveillance au niveau du système) et un système de validation des données. Les deux premiers services résident sur chaque nœud du réseau et le système de validation des données réside sur chaque chef de groupe. Grâce à IFTF, les opérations de maintenance et de reconfiguration seront plus efficaces, menant à un système WSN (Wireless Sensor Network) plus fiable. Du point de vue conception, IFTF fournit de nombreux paramètres ajustables qui le rendent approprié aux divers types d'applications. Les résultats de simulation montrent que la solution présentée est efficace en termes de coût mémoire et d'énergie. En effet, le système de validation des données n'induit pas un surcoût de communication. De plus, le fonctionnement des deux services test et diagnostic augmente la consommation d'énergie de 4% en moyenne, par rapport au fonctionnement du service de diagnostic uniquement. / Sensor faults are the rule and not the exception in every Wireless Sensor Network (WSN) deployment. Sensor nodes are fragile, and they may fail due to depletion of batteries or destruction by an external event. In addition, nodes may capture and communicate incorrect readings because of environmental influence on their sensing components. Links are also failure-prone, causing network partitions and dynamic changes in network topology, leading to delays in data communications. Links may fail when permanently or temporarily blocked by an external or environmental condition. Packets may be corrupted due to the erroneous nature of communications. When nodes are embedded or carried by mobile objects, nodes can be taken out of the range of communications. WSNs are also prone to malicious attacks, such as denial of service, injection of faulty packets, leading to unexpected behavior of the system and so on. In addition to these predefined faults or failures (i.e., with known types and symptoms), many times the sensor networks exhibits silent failures that are unknown beforehand and highly system-related. Applications over WSNs, in particular safety critical applications, such as fire detection or burglar alarm systems, require continuous and reliable operation of the system. However, validating that a WSN system will function correctly at run time is a hard problem. This is due to the numerous faults that can be encountered in the resource constrained nature of sensor platforms together with the unreliability of the wireless links networks. A holistic fault management approach that addresses all fault issues does not exist. Existing work most likely misses some potential causes of system failures. The reason is simple : the more elements to monitor, the more information to be collected and sometimes to be exchanged, then the more the energy consumption becomes higher. In this thesis, we propose an Integrated Fault Tolerance Framework (IFTF) that provides a complete picture of the system health with possibility to zoom in on the fault reasons of abnormal phenomena. IFTF detects data anomalies, diagnoses network failures, detects application level failures, identifies affected areas of the network and may determine the root causes of application malfunctioning. These goals are achieved efficiently through combining a network diagnosis service (component/element level monitoring) with an application testing service (system level monitoring) and a data validation system. The first two services reside on each node in the network and the data validation system resides on each cluster head. Thanks to IFTF, the maintenance and reconfiguration operations will be more efficient leading to a more dependable WSN. From the design view, IFTF offers to the application many tunable parameters that make it suitable for various application needs. Simulation results show that the presented solution is efficient both in terms of memory use and power consumption. Data validation system does not incur power consumption (communication overhead). Using testing service combined to diagnosis service incurs a 4 %, on average, increase in power consumption compared to using solely network diagnosis solutions.
67

Conception d'un micro-réseau intégré NOC tolérant les fautes multiples statiques et dynamiques / Design of a network on chip (NoC) that tolerates multiple static and dynamic faults

Gang, Yi 05 November 2015 (has links)
Les progrès dans les technologies à base de semi-conducteurs et la demande croissante de puissance de calcul poussent vers une intégration dans une même puce de plus en plus de processeurs intégrés. Par conséquent les réseaux sur puce remplacent progressivement les bus de communication, ceux-ci offrant plus de débit et permettant une mise à l'échelle simplifiée. Parallèlement, la réduction de la finesse de gravure entraine une augmentation de la sensibilité des circuits au processus de fabrication et à son environnement d'utilisation. Les défauts de fabrication et le taux de défaillances pendant la durée de vie du circuit augmentent lorsque l'on passe d'une technologie à une autre. Intégrer des techniques de tolérance aux fautes dans un circuit devient indispensable, en particulier pour les circuits évoluant dans un environnement très sensible (aérospatial, automobile, santé, ...). Nous présentons dans ce travail de thèse, des techniques permettant d'améliorer la tolérance aux fautes des micro-réseaux intégrés dans des circuits évoluant dans un environnement difficile. Le NoC doit ainsi être capable de s'affranchir de la présence de nombreuses fautes. Les travaux publiés jusqu'ici proposaient des solutions pour un seul type de faute. En considérant les contraintes de surface et de consommation du domaine de l'embarqué, nous avons proposé un algorithme de routage adaptatif tolérant à la fois les fautes intermittentes, transitoires et permanentes. En combinant et adaptant des techniques existantes de retransmission de flits, de fragmentation et de regroupement de paquet, notre approche permet de s'affranchir de nombreuses fautes statiques et dynamiques. Les très nombreuses simulations réalisées ont permis de montrer entre autre que, l'algorithme proposé permet d'atteindre un taux de livraison de paquets de 97,68% pour un NoC 16x16 en maille 2D en présence de 384 liens défectueux simultanés, et 93,40% lorsque 103 routeurs sont défaillants. Nous avons étendu l'algorithme aux topologies de type tore avec des résultats bien meilleurs.Une autre originalité de cette thèse est que nous avons inclus dans cet algorithme une fonction de gestion de la congestion. Pour cela nous avons défini une nouvelle métrique de mesure de la congestion (Flit Remain) plus pertinente que les métriques utilisées et publiées jusqu'ici. Les expériences ont montré que l'utilisation de cette métrique permet de réduire la latence (au niveau du pic de saturation) de 2,5 % à 16,1 %, selon le type de trafic généré, par rapport à la plus efficace des métriques existante. La combinaison du routage adaptatif tolérant les fautes statiques et dynamiques et la gestion de la congestion offrent une solution qui permet d'avoir un NoC et par extension un circuit beaucoup plus résilient. / The quest for higher-performance and low-power consumption has driven the microelectronics' industry race towards aggressive technology scaling and multicore chip designs. In this many-core era, the Network-on-chip (NoCs) becomes the most promising solution for on-chip communication because of its performance scaling with the number of IPs integrated in the chip.Fault tolerance becomes mandatory as the CMOS technology continues shrinking down. The yield and the reliability are more and more affected by factors such as manufacturing defects, process variations, environment variations, cosmic radiations, and so on. As a result, the designs should be able to provide full functionality (e.g. critical systems), or at least allow degraded mode in a context of high failure rates. To accomplish this, the systems should be able to adapt to manufacturing and runtime failures.In this thesis, some techniques are proposed to improve the fault tolerance ability of NoC based circuits working in harsh environments. As previous works allow the handling of one type of fault at a time, we propose here a solution where different kinds of faults can be tolerated concurrently.Considering constraints such as area and power consumption, a fault tolerant adaptive routing algorithm was proposed, which can cope with transient, intermittent and permanent faults. Combined with some existing techniques, like flit retransmission and packet fragmentation, this approach allows tolerating numerous static and dynamic faults. Simulations results show that the proposed solution allows a high packet delivery success rate: for a 16x16 2D Mesh NoC, 97.68% in the presence of 384 simultaneous link faults, and 93.40% with the presence of 103 simultaneous router faults. This success rate is even higher when this algorithm is extended to NoCs with Tore topology. Another contribution of this thesis is the inclusion of a congestion management function in the proposed routing algorithm. For this purpose, we introduce a novel metric of congestion measurement named Flit Remain. The experimental results show that using this new congestion metric allows a reduction of the average latency of the Network on Chip from 2.5% to 16.1% when compared to the existing metrics.The combination of static and dynamic fault tolerant and adaptive routing and the congestion management offers a solution, which allows designing a NoC highly resilient.
68

Architecting Resilient Computing Systems : a Component-Based Approach / Conception et implémentation de systèmes résilients par une approche à composants

Stoicescu, Miruna 09 December 2013 (has links)
L'évolution des systèmes pendant leur vie opérationnelle est incontournable. Les systèmes sûrs de fonctionnement doivent évoluer pour s'adapter à des changements comme la confrontation à de nouveaux types de fautes ou la perte de ressources. L'ajout de cette dimension évolutive à la fiabilité conduit à la notion de résilience informatique. Parmi les différents aspects de la résilience, nous nous concentrons sur l'adaptativité. La sûreté de fonctionnement informatique est basée sur plusieurs moyens, dont la tolérance aux fautes à l'exécution, où l'on attache des mécanismes spécifiques (Fault Tolerance Mechanisms, FTMs) à l'application. A ce titre, l'adaptation des FTMs à l'exécution s'avère un défi pour développer des systèmes résilients. Dans la plupart des travaux de recherche existants, l'adaptation des FTMs à l'exécution est réalisée de manière préprogrammée ou se limite à faire varier quelques paramètres. Tous les FTMs envisageables doivent être connus dès le design du système et déployés et attachés à l'application dès le début. Pourtant, les changements ont des origines variées et, donc, vouloir équiper un système pour le pire scénario est impossible. Selon les observations pendant la vie opérationnelle, de nouveaux FTMs peuvent être développés hors-ligne, mais intégrés pendant l'exécution. On dénote cette capacité comme adaptation agile, par opposition à l'adaptation préprogrammée. Dans cette thèse, nous présentons une approche pour développer des systèmes sûrs de fonctionnement flexibles dont les FTMs peuvent s'adapter à l'exécution de manière agile par des modifications à grain fin pour minimiser l'impact sur l'architecture initiale. D'abord, nous proposons une classification d'un ensemble de FTMs existants basée sur des critères comme le modèle de faute, les caractéristiques de l'application et les ressources nécessaires. Ensuite, nous analysons ces FTMs et extrayons un schéma d'exécution générique identifiant leurs parties communes et leurs points de variabilité. Après, nous démontrons les bénéfices apportés par les outils et les concepts issus du domaine du génie logiciel, comme les intergiciels réflexifs à base de composants, pour développer une librairie de FTMs adaptatifs à grain fin. Nous évaluons l'agilité de l'approche et illustrons son utilité à travers deux exemples d'intégration : premièrement, dans un processus de développement dirigé par le design pour les systèmes ubiquitaires et, deuxièmement, dans un environnement pour le développement d'applications pour des réseaux de capteurs. / Evolution during service life is mandatory, particularly for long-lived systems. Dependable systems, which continuously deliver trustworthy services, must evolve to accommodate changes e.g., new fault tolerance requirements or variations in available resources. The addition of this evolutionary dimension to dependability leads to the notion of resilient computing. Among the various aspects of resilience, we focus on adaptivity. Dependability relies on fault tolerant computing at runtime, applications being augmented with fault tolerance mechanisms (FTMs). As such, on-line adaptation of FTMs is a key challenge towards resilience. In related work, on-line adaption of FTMs is most often performed in a preprogrammed manner or consists in tuning some parameters. Besides, FTMs are replaced monolithically. All the envisaged FTMs must be known at design time and deployed from the beginning. However, dynamics occurs along multiple dimensions and developing a system for the worst-case scenario is impossible. According to runtime observations, new FTMs can be developed off-line but integrated on-line. We denote this ability as agile adaption, as opposed to the preprogrammed one. In this thesis, we present an approach for developing flexible fault-tolerant systems in which FTMs can be adapted at runtime in an agile manner through fine-grained modifications for minimizing impact on the initial architecture. We first propose a classification of a set of existing FTMs based on criteria such as fault model, application characteristics and necessary resources. Next, we analyze these FTMs and extract a generic execution scheme which pinpoints the common parts and the variable features between them. Then, we demonstrate the use of state-of-the-art tools and concepts from the field of software engineering, such as component-based software engineering and reflective component-based middleware, for developing a library of fine-grained adaptive FTMs. We evaluate the agility of the approach and illustrate its usability throughout two examples of integration of the library: first, in a design-driven development process for applications in pervasive computing and, second, in a toolkit for developing applications for WSNs.
69

Test et Fiabilité des Mémoires SRAM / Test and Reliability of SRAM Memories

Alves Fonseca, Renan 21 July 2011 (has links)
Aujourd'hui, les mémoires SRAM sont faites avec les technologies les plus rapides et sont parmi les éléments les plus importants dans les systèmes complexes. Les cellules SRAM sont souvent conçues en utilisant les dimensions minimales du nœud technologique. En conséquence, les SRAM sont plus sensibles à de nouveaux phénomènes physiques qui se produisent dans ces technologies, et sont donc extrêmement vulnérables aux défauts physiques. Afin de détecter si chaque composant est défectueux ou non, des procédures de test de haut coût sont employées. Différentes questions liées à cette procédure de test sont compilées dans ce document. Un des principaux apports de cette thèse est d'établir une méthode pour définir les conditions environnementales lors de la procédure de test afin de capter des défauts non-déterministe. Puisque des simulations statistiques sont souvent utilisées pour étudier des défauts non-déterministes, une méthode de simulation statistique efficace a été spécialement conçue pour la cellule SRAM. Dans cette thèse, nous traitons aussi la caractérisation de fautes, la caractérisation de la variabilité et la tolérance aux fautes. / Nowadays, Static Random Access Memories (SRAM) are made with the fastest technologies and are among the most important components in complex systems. SRAM bit-cell transistors are often designed using the minimal dimensions of the technology node. As a consequence, SRAMs are more sensitive to new physical phenomena that occur in these technologies, and hence are extremely vulnerable to physical defects. In order to detect whether each component is defective or not, high cost test procedures are employed. Different issues related to this test procedure were studied during this thesis, and are compiled in this document. One of the main contributions of this thesis was to establish a method to set the environmental conditions during the test procedure in order to capture non-deterministic faults. Since statistical simulations are often used to deal with non-deterministic faults, an efficient statistical simulation method was specially conceived for the 6 transistors SRAM bit-cell. In this thesis, we equally deal with fault characterization, variability characterization and fault tolerance.
70

Contribution à la robustesse dans les CSPs distribués par réplication locale / Contribution to robustness in distributed CSPs by local replication

Chakchouk, Fadoua 19 November 2018 (has links)
Nous visons à garantir la résolution d’un DisCSP en présence d’un ou plusieurs agents défaillants. Les méthodes traitant la tolérance aux fautes au sein des SMAs visent la continuité du fonctionnement du système. Mais, aucune de ces méthodes n’est appliquée pour résoudre un DisCSP. La défaillance d’un agent au cours de la résolution d’un DisCSP engendre la perte d’une partie du DisCSP global, d’où l’obtention d’un résultat erroné. Donc pour obtenir les résultats attendus, il faut garantir la résolution du CSP local de l’agent défaillant. Nous proposons de répliquer les CSPs locaux des agents défaillants au sein des agents non défaillants. Cette réplication permet la résolution du CSP local de l’agent défaillant par un autre agent. Cette résolution est effectuée en fusionnant les réplicats de CSPs des agents défaillants avec les CSPs des autres agents. Cette fusion permet la conservation de la modélisation initiale du DisCSP. L’algorithme de distribution des réplicats proposé garantit que les CSPs des agents défaillants ne soient pas répliqués au sein du même agent. De cette façon, le problème conserve son aspect distribué. / We aim to ensure a DisCSP resolution in presence of failed agents. Methods handling fault tolerance in MASs aim to ensure the continuity of the system operation. But, none of these methods are applied to solve a DisCSP. The failure of an agent generates the loss of a part of the DisCSP providing wrong results. Therefore, to obtain expected results, it is necessary to ensure the resolution of the failed agent local CSP.We propose to replicate the local CSPs of the failed agents within active agents. This replication allows local CSP resolution of the failed agent by another agent. The resolution is done by merging the replicates of failed agents CSPs with the CSPs of other agents. This technique conserve the initial DisCSP modeling. The proposed replicates distribution algorithm ensures that the CSPs of failed agents are not replicated within the same agent. In this way, the problem keeps its distributed aspect.

Page generated in 0.1112 seconds