Spelling suggestions: "subject:"tolerancia a fallos"" "subject:"tolerancias a fallos""
1 |
P2P-VoD on Internet: Fault Tolerance and Control ArchitectureGodoi, Rodrigo 23 July 2009 (has links)
Un sistema de Vídeo bajo Demanda (Video on Demand - VoD) proporciona que un conjunto de clientes acceda a contenidos multimedia de manera independiente; los usuarios se conectan al sistema, eligen el contenido a visualizar y empiezan a disfrutar del servicio en cualquier instante de tiempo. El vídeo es enviado al cliente, que recibe, descodifica y visualiza el contenido siempre esperando garantía de Calidad de Servicio (Quality of Service - QoS) por parte del sistema. Uno de los objetivos principales en el diseño de servicios de VoD es soportar un gran número de peticiones concurrentes generadas por clientes geográficamente distribuidos; los sistemas de VoD deben conseguir un servicio factible a gran escala y de alta calidad, imponiendo bajos costes de operación y pocas restricciones de despliegue. Recientemente, la distribución de contenidos multimedia en forma de flujo de datos en Internet viene presentando un crecimiento espectacular. La Internet es el entorno más popular de usuarios interconectados y está presente en todo el mundo. Debido a las características de escala global y entorno publico de Internet, esta se ha hecho el ambiente más importante para desplegar el servicio de Vídeo bajo Demanda a gran escala (Large-scale Video on Demand - LVoD). Debido a las limitaciones del modelo cliente-servidor centralizado, los paradigmas peer-to-peer (P2P) y multicast son extensamente aplicados en la distribución multimedia para mejorar la escalabilidad y prestaciones del sistema a través de la compartición de recursos. El P2P está basado en la libre cooperación de iguales con vistas al desarrollo de una tarea común; aprovecha recursos disponibles en el lado del usuario final (almacenamiento, contenido, ancho de banda, poder de procesamiento etc.). El multicast a su vez es una estrategia de comunicación donde un origen tiene la capacidad de transmitir información que puede ser recibida simultáneamente por un grupo de destinos interesados en el mismo contenido. Sin embargo, los paradigmas P2P y multicast añaden nuevas cuestiones en el diseño servicios de VoD para Internet. Los peers son heterogéneos en sus recursos y actúan por su propio libre albedrío, llegando y dejando el sistema en cualquier momento; la carencia o el cambio de la fuente de datos provocada por fallos de peers afectan fuertemente la QoS en sistemas de VoD basados en técnicas de multicast y P2P. Así, la tolerancia a fallos se ha hecho una cuestión crucial en servicios de VoD basados en P2P a fin de garantizar QoS. El mecanismo de tolerancia a fallos se consigue a través del intercambio de mensajes de control; además, el tratamiento de fallos es limitado en el tiempo para proporcionar ausencia de errores y por consiguiente mantener la QoS. Un buen esquema de control se hace imprescindible y su diseño debe ser cuidadoso debido a la restricción de tiempo real del servicio multimedia y el overhead impuesto al sistema por los mensajes de control. Esta tesis presenta un Esquema de Tolerancia a Fallos (Fault Tolerance Scheme - FTS) que trabaja construyendo un sistema de backup distribuido, basado en las capacidades de los propios peers. El FTS está diseñado para organizar un pequeño conjunto de peers que almacenan estáticamente porciones de los archivos multimedia en un buffer llamado 'buffer altruista'. Los clientes que componen el backup distribuido colaboran en el mecanismo de tolerancia a fallos del sistema reservando espacio de almacenamiento (buffer) y capacidad de ancho de banda de subida; los peers seleccionados forman un Grupo de Tolerancia a Fallos (Fault Tolerance Group - FTG). Los resultados obtenidos muestran que el mecanismo de control tiene gran impacto sobre el sistema y exige un diseño cuidadoso; el Esquema de Tolerancia a Fallos propuesto colabora para reducir el overhead impuesto al sistema y es capaz de conseguir tiempos de respuesta bajos en el manejo de fallos; esto mejora la experiencia del usuario reduciendo el retraso en el inicio de la visualización y garantiza un mejor uso de recursos de almacenamiento (buffer). El FTS también distribuye las tareas de control proporcionando fiabilidad y robustez al sistema de VoD. / A Video on Demand (VoD) system provides multimedia content to a set of clients in independent manner; users connect to the system, choose the content to view and start enjoying the service at any given moment. The video is down-streamed to the client, who receives, decodes and displays the content always expecting guaranteed Quality of Service (QoS) from the system. One of the main goals in designing VoD services is to support a great number of concurrent requests generated by geographically distributed clients; VoD systems must achieve a feasible large-scale and high-quality service with the lower costs and fewer deployment restrictions. Recently, multimedia streaming distribution in the Internet presented a spectacular growing. The Internet is the most popular environment of connected users and is deployed throughout the world. Owing to the public and global scale features of Internet, it has become the most important environment to deploy large-scale Video on Demand service (LVoD). Owing to the limitations of centralised server-client model, Peer-to-Peer (P2P) and multicast approaches are widely applied in the multimedia distribution to improve system scalability and performance by sharing resources. P2P is based in the free cooperation of equals in view of the performance of a common task; it takes advantage of available resources at the end host side (storage, content, bandwidth, power processing etc.). The multicast is a communication strategy where a sender has the capability to transmit information that can be received concurrently by a group of interested destinations. Nevertheless, P2P and multicast paradigms add new issues in the design of Internet VoD services. Peers are heterogeneous in their resources and act by their own free will, coming and leaving the system at any time; the lack or the change of data source provoked by peer faults strongly affects the QoS in VoD systems based in P2P and multicast techniques. This way, fault tolerance has become a major issue in P2P-based VoD services in order to guarantee QoS. The fault tolerance mechanism is achieved through the exchange of control messages; moreover, the failure treatment is time limited for providing error absence and consequently maintaining the QoS. A good control scheme is needed and its design must be careful owing to the soft real-time restriction of multimedia service and the overhead imposed on the system. This thesis presents a Fault Tolerance Scheme (FTS) that works by constructing a backup system in a distributed manner, based in own peers' capabilities. The FTS is designed to organise a small set of peers to store portions of the multimedia files statically in a buffer called the 'altruist buffer'. The clients that make up the distributed backup collaborate in system fault tolerance mechanism by reserving buffer space and upload bandwidth capacity; the selected peers form a Fault Tolerance Group (FTG). Results show that the control mechanism has great impact over the system and demands a caution design; the proposed Fault Tolerance Scheme collaborates to reduce the overhead imposed on the system and is able to achieve low response times in dealing with failures; this improves user experience by reducing start-up delays and guarantees a better usage of buffer resources. The FTS also distributes the control tasks providing reliability and robustness to the VoD system.
|
2 |
FTDR: Tolerancia a fallos, en clusters de computadores geográficamente distribuidos, basada en Replicación de DatosRodrigues de Souza, Josemar 01 June 2006 (has links)
El crecimiento de los clusters de computadores, y en concreto de sistemas multicluster incrementa los potenciales puntos de fallos, exigiendo la utilización de esquemas de tolerancia a fallos que proporcionen la capacidad de terminar el procesamiento. El objetivo general planteado a sistemas de tolerancia a fallos es que el trabajo total se ejecute correctamente, aún cuando falle algún elemento del sistema, perdiendo el mínimo trabajo realizado posible, teniendo en cuenta que las prestaciones disminuyen debido al overhead necesario introducido para tolerar fallos y a la perdida de una parte del sistema. Esta Tesis presenta un modelo de tolerancia a fallos en clusters de computadores geográficamente distribuidos, utilizando Replicación de Datos denominado FTDR (Fault Tolerant Data Replication). Está basado en la replicación inicial de los procesos y una replicación de datos dinámica durante la ejecución, con el objetivo de preservar los resultados críticos. Está orientado a aplicaciones con un modelo de ejecución Master/Worker y ejecutado de forma transparente al usuario. El sistema de tolerancia a fallos diseñado, es configurable y cumple el requisito de escalabilidad. Se ha diseñado un modelo funcional, e implementado un Middleware. Se propone una metodología para incorporarlo en el diseño de aplicaciones paralelas. El modelo está basado en detectar fallos en cualquiera de los elementos funcionales del sistema (nodos de cómputo y redes de interconexión) y tolerar estos fallos a partir de la replicación de programas y datos realizada, garantizando la finalización del trabajo, y preservando la mayor parte del cómputo realizado antes del fallo, para ello es necesario, cuando se produce un fallo, recuperar la consistencia del sistema y reconfigurar el multicluster de una forma transparente al usuario. El Middleware desarrollado para la incorporación de la tolerancia a fallos en el entorno multicluster consigue un sistema más fiable, sin incorporar recursos hardware extra, de forma que partiendo de los elementos no fiables del cluster, permite proteger el cómputo realizado por la aplicación frente a fallos, de tal manera que si un ordenador falla otro se encarga de terminar su trabajo y el cómputo ya realizado está protegido por la Replicación de Datos. Este Middleware se puede configurar para soportar más de un fallo simultáneo, seleccionar un esquema centralizado o distribuido, también se pueden configurar parámetros relativos a aspectos que influyen en el overhead introducido, frente a la pérdida de más o menos computo realizado. Para validar el sistema se ha diseñado un sistema de inyección de fallos. Aunque añadir la funcionalidad de tolerancia a fallos, implica una pérdida de prestaciones, se ha comprobado experimentalmente, que utilizando este sistema, el overhead introducido sin fallos, es inferior al 3% y en caso de fallo, después de un tiempo de ejecución, es mejor el tiempo de ejecución (runtime) tolerando el fallo que relanzar la aplicación. / The growth of the clusters computers and in special multi-cluster systems increases the potential failures points, demanding the utilization of fault tolerance schemes that provide the capacity of finishing the processing. The general goal proposed for fault tolerance systems is that the total work executes correctly, still when it fails with some elements of the system, losing the minimum possible performed work, having in mind that performance decreases due to the necessary overhead introduced to tolerate failures and to the loss of a part of the system. This Thesis presents a fault tolerance model in clusters computers geographically distributed, using Data Replication denominated FTDR (Fault Tolerant Data Replication). It is based on initial process replication and a dynamic data replication during the execution, with the goal of preserving the critical results. It is guided to the applications with an execution model Master/Worker and executed in a transparent way to the user. The design of fault tolerance system is configurable and accomplishes scalability requisites. A functional model has been drawn, and a Middleware has been implemented. A methodology to incorporate it in the parallels applications design is proposed. The model is based on failures detection for any of the functional elements of the system (nodes of compute and network interconnection) and to tolerate these failures starting from programs replication and data, guaranteeing the conclusion of work, and preserving most of the compute performed before the fault, for that it is necessary, when a failure takes place, to recover the consistency of the system and recon figurate the multicluster in a transparent way to the user. The Middleware developed to incorporate fault tolerance in the multicluster environment gets a more reliable system, without incorporating extra hardware resources, so that starting from the non reliable elements of cluster, it allows to protect the computation performed by the application in front of failures, that is if a computer fails another takes care of finishing its work and compute yet performed is protected by Data Replication. This Middleware can be configured to tolerate more than one simultaneous failure, select a centralized or distributed scheme; relative parameters for aspects that influence in the introduced overhead can also be configured, adapting to the loss of more or less performed compute. To validate the system we drew a failure injection system. Despite adding the fault tolerance functionality implies a loss of installments, it is experimentally proved, that using this system, the overhead introduced without failures, is lower than 3% and in case of failure, after an execution time, the runtime is better tolerating the failure than relaunching the application.
|
3 |
Un sistema de vídeo bajo demanda a gran escala tolerante a fallos de redBalladini, Javier Aldo 17 July 2008 (has links)
Un sistema de vídeo bajo demanda a gran escala (LVoD, Large-Scale Video-on-Demand) brinda un servicio de visualización de vídeos a una gran cantidad de usuarios dispersos geográficamente. El tipo de servicio de vídeo bajo demanda (VoD, Video-on-Demand) más completo permite al usuario solicitar su vídeo preferido y reproducirlo casi instantáneamente, con la posibilidad de utilizar comandos interactivos (congelado de imagen, retroceso y avance lento/rápido, etc.) tal como si estuviese visualizando el vídeo con un reproductor de VHS o DVD. A este tipo de servicio se lo conoce como vídeo bajo demanda verdadero (T-VoD, True Video-on-Demand), e implica un diseño y desarrollo de elevada complejidad.La mayoría de los sistemas de VoD fueron diseñados para trabajar en redes dedicadas o que permiten hacer reserva de recursos. Sin embargo, las arquitecturas de estos sistemas no son aplicables a entornos LVoD, fundamentalmente debido a los nuevos requerimientos de escalabilidad, costo del sistema y tolerancia a fallos. Cuando el entorno de red pasa de ser de una red local a una red de área amplia (como Internet), aumenta la probabilidad de fallos, disminuye el ancho de banda, y la calidad y clasificación de servicios es suplantada por un modelo de servicio de "mejor esfuerzo".En el presente trabajo se propone una arquitectura de un sistema de LVoD distribuido, que permite ofrecer un servicio de T-VoD, con comunicaciones unicast sobre una red sin calidad de servicio como Internet. La nueva arquitectura, denominada VoD-NFR (Video-on-Demand with Network Fault Recovery) tiene como fin garantizar, ante fallos de la red y caídas de servidores, la entrega del contenido multimedia a los clientes sin disminuir la calidad de los mismos y sin sufrir interrupciones durante su visualización. Para alcanzar estos objetivos se ha diseñado y desarrollado una arquitectura que integra tres componentes claves:- Un planificador del tráfico de red, capaz de: 1) adaptarse a los estados de congestión de la red de una manera TCP-Friendly, 2) generar información del estado de las comunicaciones con los clientes, y 3) extremar el ahorro de recursos para soportar una elevada carga de trabajo.- Un planificador de canales lógicos, capaz de: 1) utilizar vídeos VBR, 2) adaptarse dinámicamente al ancho de banda disponible de las comunicaciones, 3) no degradar la calidad del vídeo para adaptarse a un ancho de banda menor al requerido por el vídeo, y 4) distribuir equitativamente el vídeo a los clientes priorizando a aquellos con mayor necesidad de media.- Un módulo de garantía de la calidad de servicio, capaz de: 1) detectar inconvenientes en la comunicación entre servidores y clientes utilizando dos mecanismos que colaboran en la detección de fallos por degradación de las comunicaciones, y 2) continuar prestando un servicio sin interrupciones a través de la migración de servicios.El sistema VoD-NFR ha sido implementado en entorno real y de simulación; en particular, la simulación ha permitido evaluar el sistema más extensivamente y a un bajo coste. Los resultados alcanzados muestran la aptitud del sistema para cumplir con sus objetivos, motivando la continuidad de la presente línea de investigación. / A Large Video-on-Demand system (LVoD) offers a large number of geographically distributed users access to video files. The most complete Video-on-Demand (VoD) service allows users to request their chosen video and reproduce it almost instantaneously, as well as the possibility of using interactive controls (pause, fast/ slow forward and rewind etc.) just as if you were watching a video using a VHS or DVD. This service is known as True Video-on-Demand (T-VoD) and implies a design and development of high complexity.Most VoD systems were designed for dedicated networks or networks which enable resource usage. However, the architecture of these systems is not applied to LVoD environments, mainly due to new scalability requirements, the cost of the system and fault tolerance. When the network environment changes from a Local Area Network (LAN) to Wide Area Network (WAN), the probability of faults increases, the bandwidth decreases and the quality and classification of services is replaced by a "best effort" service model.This thesis proposes a distributed LVoD system architecture which permits a T-VoD service with unicast communications on a network without quality of service (QoS) such as Internet. The new architecture, Video-on-Demand with Network Fault Recovery (VoD-NFR) aims to prevent network faults and server down, and guarantee delivery of multimedia content to clients without lowering its quality and without interruptions during viewing. To achieve these objectives, the model designed includes three key components:- A traffic scheduler with the ability to: 1) adapt the output traffic to the network congestion in a TCP-Friendly manner, 2) generate communication state information of the server with each client, and 3) maximise resources saving to resist a high workload.- A logical channel scheduler with the ability to: 1) use VBR videos, 2) continuously adapt to the bandwidth available of the communications, 3) not degrade the quality of the video in order to adapt to a lower bandwidth than that required by the video, and 4) fairly distribute the video to clients, prioritising those with a greater media need.- A module to guarantee quality of service with the ability to: 1) detect problems in the communication between servers and clients using two mechanisms which work together in detecting faults resulting from deterioration of communications, and 2) to continue offering a service without interruptions by service migration.The VoD-NFR system has been implemented in a real environment and a simulation; the system was evaluated more extensively and at a lower cost using the simulation. The results obtained show the system's ability to fulfil its objectives and they support continued investigation of the system.
|
4 |
Improvement of interconnection networks for clusters: direct-indirect hybrid topology and HoL-blocking reduction routingPeñaranda Cebrián, Roberto 03 March 2018 (has links)
Tesis por compendio / Nowadays, clusters of computers are used to solve computation intensive problems.
These clusters take advantage of a large number of computing nodes to provide a high degree of parallelization.
Interconnection networks are used to connect all these computing nodes.
The interconnection network should be able to efficiently handle the traffic generated by this large number of nodes.
Interconnection networks have different design parameters that define the behavior of the network.
Two of them are the topology and the routing algorithm.
The topology of a interconnection network defines how the different network elements are connected, while the routing algorithm determines the path that a packet must take from the source to the destination node.
The most commonly used topologies typically follow a regular structure and can be classified into direct and indirect topologies, depending on how the different network elements are interconnected.
On the other hand, routing algorithms can also be classified into two categories: deterministic and adaptive algorithms.
To evaluate interconnection networks, metrics such as latency or network productivity are often used.
Throughput refers to the traffic that the network is capable of accepting the network per time unit.
On the other hand, latency is the time that a packet requires to reach its destination.
This time can be divided into two parts.
The first part is the time taken by the packet to reach its destination in the absence of network traffic.
The second part is due to network congestion created by existing traffic.
One of the effects of congestion is the so-called Head-of-Line blocking, where the packet at the head of a queue blocks, causing the remaining queued packets can not advance, although they could advance if they were at the head of the queue.
Nowadays, there are other important factors to consider when interconnection networks are designed, such as cost and fault tolerance.
On the one hand, a high performance is desirable, but without a disproportionate increase in cost.
On the other hand, the fact of increasing the size of the network implies an increase in the network components, thus the probability of occurrence of a failure is higher.
For this reason, having some fault tolerance mechanism is vital in current interconnection networks of large machines.
Putting all in a nutshell, a good performance-cost ratio is required in the network, with a high level of fault-tolerance.
This thesis focuses on two main objectives. The first objective is to combine the advantages of the direct and indirect topologies to create a new family of topologies with the best of both worlds.
The main goal is the design of the new family of topologies capable of interconnecting a large number of nodes being able to get very good performance with a low cost hardware.
The family of topologies proposed, that will be referred to as k-ary n-direct s-indirect, has a n dimensional structure where the k different nodes of a given dimension are interconnected by a small indirect topology of s stages.
We will also focus on designing a deterministic and an adaptive routing algorithm for the family of topologies proposed.
Finally we will focus on analyzing the fault tolerance in the proposed family of topologies.
For this, the existing fault tolerance mechanism for similar topologies will be studied and a mechanism able to exploit the features of this new family will be designed.
The second objective is to develop routing algorithms specially deigned to reduce the pernicious effect of Head-of-Line blocking, which may shoot up in systems with a high number of computing nodes.
To avoid this effect, routing algorithms able of efficiently classifying the packets in the different available virtual channels are designed, thus preventing that the occurrence of a hot node (Hot-Spot) could saturate the network and affect the remaining network traffic. / Hoy en día, los clústers de computadores son usados para solucionar grandes problemas. Estos clústers aprovechan la gran cantidad de nodos de computación para ofrecer un alto grado de paralelización. Para conectar todos estos nodos de computación, se utilizan redes de interconexión de altas prestaciones capaces de manejar de forma eficiente el tráfico generado.
Estas redes tienen diferentes parámetros de diseño que definen su comportamiento, de los cuales podríamos destacar dos: la topología y el algoritmo de encaminamiento. La topología de una red de interconexión define como se conectan sus componentes, mientras que el algoritmo de encaminamiento determina la ruta que un paquete debe tomar desde su origen hasta su destino. Las topologías más utilizadas suelen seguir una estructura regular y pueden ser clasificadas en directas e indirectas, dependiendo de cómo estén interconectados los diferentes elementos de la red. Por otro lado, los algoritmos de encaminamiento también pueden clasificarse en dos categorías: deterministas y adaptativos.
Para evaluar estas redes se suelen utilizar medidas tales como la latencia o la productividad de la red. La productividad mide el tráfico que es capaz de aceptar la red por unidad de tiempo. La latencia mide el tiempo que utiliza un paquete para alcanzar su destino. Este tiempo se puede dividir en dos partes. La primera corresponde al tiempo utilizado por el paquete en alcanzar a su destino en ausencia de tráfico en la red. La segunda sería la debida a la congestión de la red creada por el tráfico existente. Uno de los efectos de la congestión es el denominado Head-of-Line blocking, donde el paquete que encabeza una cola se queda bloqueado, por lo que el resto de paquetes de la cola no pueden avanzar, aunque pudieran hacerlo si ellos encabezaran dicha cola.
Otros factores a tomar en cuenta son el coste y la tolerancia a fallos. Las prestaciones deben mantenerse conforme aumentamos el tamaño de la red, pero sin un aumento prohibitivo en el coste. Además, el hecho de aumentar el tamaño de la red implica un aumento en el número de elementos de dicha red, aumentando la probabilidad de la aparición de un fallo. Por ello, es vital contar con algún mecanismo de tolerancia a fallos en las redes para los grandes supercomputadores actuales. En otras palabras, es de esperar una buena relación coste-prestaciones con un alto nivel de tolerancia a fallos.
Esta tesis tiene dos objetivos principales. El primer objetivo combina las ventajas de las topologías directas e indirectas para crear una nueva familia de topologías con lo mejor de ambas. En concreto, nos centramos en el diseño de una nueva familia de topologías capaz de interconectar una gran cantidad de nodos siendo capaz de obtener muy buenas prestaciones con un bajo coste hardware.
La familia de topologías propuesta, que hemos llamado k-ary n-direct s-indirect, tiene una estructura n-dimensional, donde los diferentes k nodos de una dimensión se conectan entre sí mediante una pequeña topología indirecta con s etapas. También diseñaremos un algoritmo de encaminamiento determinista y otro adaptativo para la familia de topologías propuesta.
Finalmente, nos centraremos en estudiar la tolerancia a fallos para la familia de topologías propuesta. Para ello se estudiarán los mecanismos de tolerancia a fallos existentes en topologías similares y se diseñará un mecanismo capaz de aprovechar al máximo las características de esta nueva familia.
El segundo objetivo consiste en el desarrollo de algoritmos de encaminamiento capaces de evitar el pernicioso efecto Head-of-Line blocking, lo cual puede aumentar rápidamente en sistemas con un gran número de nodos de computación. Para evitar este efecto se diseñarán algoritmos de encaminamiento capaces de clasificar de forma eficiente los paquetes en los diferentes canales virtuales disponibles, evitando así que la aparición de un punto caliente (Hot-Spot) sat / Hui en dia, els clústers de computadors són utilitzats per solucionar grans problemes computacionals. Aquests clústers aprofiten la gran quantitat de nodes de computació per a oferir un alt grau de paral·lelització. Per a connectar tots aquests nodes de computació, s'utilitzen xarxes d'interconnexió d'altes prestacions capaços de manejar de manera eficient el trànsit generat.
Aquestes xarxes tenen diferents paràmetres de disseny que defineixen el seu comportament, dels quals podríem destacar dues: la topologia i l'algoritme d'encaminament. La topologia d'una xarxa d'interconnexió ens defineix com es connecten els seus components, mentre que l'algoritme d'encaminament determina la ruta que un paquet ha de prendre des del seu node origen fins al seu node destí. Les topologies més utilitzades solen seguir una estructura regular i poden ser classificades en directes i indirectes, depenent de com estiguen interconnectats els diferents elements de la xarxa. D'altra banda, els algoritmes d'encaminament també poden classificar-se en dues categories: deterministes i adaptatius.
Per avaluar estes xarxes es solen utilitzar mesures com ara la latència o la productivitat de la xarxa. La productivitat mesura el trànsit que és capaç d'acceptar la xarxa per unitat de temps. La latència mesura el temps que utilitza un paquet per arribar al seu destí. Aquest temps es pot dividir en dues parts. La primera correspon al temps emprat pel paquet a aconseguir al seu destí en absència de trànsit a la xarxa. La segona part seria la deguda a la congestió de la xarxa creada per el trànsit existent. Un dels efectes de la congestió és l'anomenat Head-of-line blocking, on el paquet que encapçala una cua es queda bloquejat, de manera que la resta de paquets de la cua no poden avançar, encara que poguessen fer-ho si ells encapçalessen la dita cua.
Altres factors a tenir en compte són el cost i la tolerància a fallades. Per tant, les prestacions s'han de mantenir d'acord augmentem la mida de la xarxa, però sense un augment prohibitiu en el cost. A més, el fet d'augmentar la mida de la xarxa implica un augment en el número de elements d'aquesta xarxa, de manera que la probabilitat de l'aparició d'una fallada és més gran. Per això, és vital comptar amb algun mecanisme de tolerància a fallades en les xarxes d'interconnexió per als gran supercomputadors actuals. En altres paraules, és d'esperar bona relació cost-prestacions amb una alta tolerància a fallades.
Aquesta tesi té dos objectius principals. El primer objectiu combina les avantatges de les topologies directes i indirectes per a crear una nova família de topologies amb el millor dels dos mons. En concret, ens centrem en el disseny de una nova família de topologies capaç d'interconnectar una gran quantitat de nodes sent capaç d'obtenir molt bones prestacions amb un baix cost hardware.
La família de topologies proposada, que hem nomenat k-ary n-direct s-indirect, té una estructura n-dimensional, on els diferents k nodes d'una dimensió se connecten entre si mitjançant una petita topologia indirecta amb s etapes.
També dissenyarem un algoritme d'encaminament determinista i un altre adaptatiu per a la família de topologies proposta.
Finalment, ens centrarem en estudiar la tolerància a fallades per a la família de topologies proposada. Per a això s'estudiaran els mecanismes de tolerància a fallades existents en topologies similars i es dissenyarà un mecanisme capaç d'aprofitar al màxim les característiques d'aquesta nova família.
El segon objectiu consisteix en la creació d'algoritmes d'encaminament capaços d'evitar el perniciós efecte Head-of-line blocking que pot créixer ràpidament amb un gran número de nodes de computació. Per a evitar aquest efecte es dissenyaran algoritmes d'encaminament capaços de classificar de forma eficient els paquets en els diferents canals virtuals disponibles, evitant així que l'aparició d'un punt calent ( / Peñaranda Cebrián, R. (2017). Improvement of interconnection networks for clusters: direct-indirect hybrid topology and HoL-blocking reduction routing [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/79550 / Compendio
|
5 |
Fault-tolerant Cache Coherence Protocols for CMPsFernández Pascual, Ricardo 23 July 2007 (has links)
We propose a way to deal with transient faults in the interconnection network of many-core CMPs that is different from the classic approach of building a fault-tolerant interconnection network. In particular, we provide fault tolerance mechanisms at the level of the cache coherence protocol so that it guarantees the correct execution of programs even when the underlying interconnection network does not deliver all messages correctly. This way, we can take advantage of the different meaning of each message to achieve fault tolerance with lower overhead than at the level of the interconnection network, which has to treat all messages alike with respect to reliability.We design several fault-tolerant cache coherence protocols using these techniques and evaluate them. This evaluation shows that, in absence of faults, our techniques do not increase significantly the execution time of the applications and their major cost is an increase in network traffic due to acknowledgment messages that ensure the reliable transference of ownership between coherence nodes, which are sent out of the critical path of cache misses. In addition, a system using our protocols degrades gracefully when transient faults actually happen and can support fault rates much higher than those expected in the real world with only a small performance degradation. / Se proponen una forma de tratar con los fallos transitorios en la red de interconexión de un CMP con gran número de núcleos que es diferente del enfoque clásico basado en construir una red de interconexión tolerante a fallos. En particular se proporcionan mecanismos de tolerancia a fallos al nivel del protocolo de coherencia. De esta forma, se puede aprovechar el conocimiento que el protocolo tiene sobre el significado de cada mensaje para obtener tolerancia a fallos con menor sobrecarga que en el nivel de red, que tiene que tratar todos los mensajes idénticamente.En la tesis se diseñan y evalúan varios protocolos de coherencia utilizando estas técnicas. Los resultados muestran que, cuando no hay fallos, nuestras técnicas no incrementan significativamente el tiempo de ejecución de las aplicaciones y su mayor coste es un incremento en el tráfico de red. Además, un sistema que use nuestros protocolos soporta tasas de fallos mucho mayores que las esperadas en circunstancias realistas y su rendimiento se degrada gradualmente cuando ocurren los fallos.
|
6 |
Fault tolerance in critical aerospace embedded systems: Multi-threaded mitigation, non-intrusive compiler-guided hardening, and early prediction of proton and neutron induced soft errorsSerrano-Cases, Alejandro 30 October 2020 (has links)
Hoy día, existe una creciente demanda de las capacidades computacionales en sistemas críticos, donde los estados inesperados o inoperantes no son aceptables. Algunos de estos sistemas funcionan en entornos hostiles, sufriendo un comportamiento anómalo (faults), tanto en el software como en el hardware. Con objeto de solucionar esta problemática, se está recurriendo a la utilización de soluciones de computación, que explotan las nuevas características presentes en los microprocesadores de última generación. Entre estas características, destaca un mayor número de núcleos, mejor rendimiento computacional y menor consumo energético. Esta evolución de los microprocesadores es debida, entre otros factores, a la mejora en el proceso de fabricación fotolitográfico, sin embargo, este proceso está reduciendo progresivamente la tolerancia de los nuevos microprocesadores a los fallos inducidos por la radiación, conocidos como Efecto de Evento Único (Single Event Effect - SEE). Destacando, entre las fuentes que generan un comportamiento anómalo, las fuentes naturales de radiación, como los rayos cósmicos, o las fuentes de radiación artificial, como las producidas por máquinas de radio-diagnóstico. En esta tesis, se propone varias estrategias para mejorar la fiabilidad de los sistemas críticos que operan en presencia de radiación ionizante, tanto en el espacio, como a nivel terrestre. En este contexto, la radiación ionizante puede alterar la salida de un sistema digital creando interferencias, fallos y alteraciones permanentes en los circuitos, entre otras muchas incidencias. Como resultado, los sistemas críticos pueden comportarse de manera inesperada, produciendo resultados erróneos o entrando en estados no operativos, que requieran un mecanismo externo para recuperar un funcionamiento correcto (watchdogs, interrupciones temporizadas). En la bibliografía, se encuentra que las técnicas basadas en redundancia, aplicables tanto a hardware como a software, son las soluciones más efectivas para detectar y mitigar este tipo de comportamiento inesperado. Estas técnicas basadas en redundancia, presentan una alta variabilidad, dado que puede aplicarse a estructuras de diferente complejidad. En el caso de redundancia software, se puede utilizar a nivel de instrucciones de ensamblador, accesos de memoria, funciones o métodos, incluso a nivel de procesos o hilos. Es importante destacar que, la variabilidad de las diferentes técnicas de mitigación de fallos, provoca una alta complejidad de la predicción del efecto de estas técnicas en el conjunto del sistema. De manera paradójica, la aplicación de estas técnicas de endurecimiento a algunos elementos de un sistema, en ocasiones, puede dar lugar a un aumento de la susceptibilidad del sistema a fallos inducidos por radiación, por consiguiente, a una reducción significativa de la fiabilidad. Esta paradoja, es debida, al aumento de los sobrecostes en los recursos utilizados, o al incremento computacional de dicha técnica de endurecimiento. De manera general, con objeto de reducir la susceptibilidad a fallos inducidos por la radiación, en diferentes sistemas críticos, en esta tesis, se pretende mejorar la fiabilidad, adaptando o proporcionando nuevas técnicas y herramientas para el endurecimiento software en microprocesadores de última generación. Para ello, se han desarrollo dos técnicas, la primera se centra en la búsqueda automática de soluciones maximizando la fiabilidad; la segunda técnica desarrollada, consiste en un endurecimiento software basado en redundancia, optimizado para obtener un mayor rendimiento computacional. Además, se ha desarrollado un nuevo modelo matemático semi-empírico, para evaluar y predecir los fallos inducidos por radiación. La primera de las técnicas desarrolladas, explora, de manera eficiente, soluciones que maximicen la fiabilidad, buscando optimizaciones y endurecimientos que aumenten el rendimiento del sistema, reduzcan los recursos utilizados y, al mismo tiempo, aumenten la cobertura frente a fallos. Con objeto de optimizar el rendimiento y el uso de recursos de las aplicaciones y circuitos, en esta tesis, se utilizan técnicas de aprendizaje automático y algoritmos de búsqueda meta-heurísticos, inspirados en los sistemas naturales (algoritmos genéticos), optimizados con técnicas de optimización multiobjetivo basadas en el concepto de eficiencia de Pareto. Este algoritmo de búsqueda optimizado, permite mejorar al mismo tiempo el rendimiento del sistema, el uso de los recursos y la cobertura de fallos, ya que es capaz de explorar un espacio de soluciones multidimensional de manera eficiente. La aplicación de este algoritmo, permite alterar la generación de las aplicaciones, por parte del compilador, logrando obtener aplicaciones más fiables de forma no intrusiva, es decir, sin necesidad de modificar el código. La segunda de las técnicas desarrolladas, propone una mejora de las técnicas de endurecimiento clásicas, empleando esquemas paralelos basados en el multiprocesamiento simétrico y asimétrico (SMP y AMP, respectivamente). Con objeto de lograr un incremento en la fiabilidad, se han utilizado sistemas mononúcleo y multinúcleo, a los que se les ha eliminado la necesidad de un sistema operativo, con el fin de reducir los sobrecostes de recursos y aumentar el rendimiento, manteniendo la cobertura frente a fallos. Por último, se ha desarrollado un modelo semi-empírico que permite la evaluación y selección de las configuraciones más fiables. Además, el modelo también permite realizar un endurecimiento selectivo de los recursos críticos, antes de acometer una campaña de radiación acelerada. En el desarrollo del modelo, se emplea tanto datos históricos de campañas de radiación real, como los resultados de las campañas de inyección simulada de las aplicaciones. Así, el modelo es capaz de realizar una predicción temprana de la fiabilidad de las nuevas soluciones, antes de probarlas bajo radiación real en aceleradores de partículas. Para verificar el modelo, se realizaron pruebas de radiación acelerada de varias soluciones, desarrolladas en esta tesis, empleando protones en el Centro Nacional de Aceleradores (CNA) de Sevilla, y empleando neutrones en Los Álamos National Laboratory (LANL - USA).
|
7 |
StreamCloud: un moteur de traitement de streams parallèle et distribuéGulisano, Vincenzo 20 December 2012 (has links) (PDF)
En los útimos años, aplicaciones en dominios tales como telecomunicaciones, seguridad de redes y redes de sensores de gran escala se han encontrado con múltiples limitaciones en el paradigma tradicional de bases de datos. En este contexto, los sistemas de procesamiento de flujos de datos han emergido como solución a estas aplicaciones que demandan una alta capacidad de procesamiento con una baja latencia. En los sistemas de procesamiento de flujos de datos, los datos no se persisten y luego se procesan, en su lugar los datos son procesados al vuelo en memoria produciendo resultados de forma continua. Los actuales sistemas de procesamiento de flujos de datos, tanto los centralizados, como los distribuidos, no escalan respecto a la carga de entrada del sistema debido a un cuello de botella producido por la concentración de flujos de datos completos en nodos individuales. Por otra parte, éstos están basados en configuraciones estáticas lo que conducen a un sobre o bajo aprovisionamiento. Esta tesis doctoral presenta StreamCloud, un sistema elástico paralelo-distribuido para el procesamiento de flujos de datos que es capaz de procesar grandes volúmenes de datos. StreamCloud minimiza el coste de distribución y paralelización por medio de una técnica novedosa la cual particiona las queries en subqueries paralelas repartiéndolas en subconjuntos de nodos independientes. Ademas, Stream- Cloud posee protocolos de elasticidad y equilibrado de carga que permiten una optimización de los recursos dependiendo de la carga del sistema. Unidos a los protocolos de paralelización y elasticidad, StreamCloud define un protocolo de tolerancia a fallos que introduce un coste mínimo mientras que proporciona una rápida recuperación. StreamCloud ha sido implementado y evaluado mediante varias aplicaciones del mundo real tales como aplicaciones de detección de fraude o aplicaciones de análisis del tráfico de red. La evaluación ha sido realizada en un cluster con más de 300 núcleos, demostrando la alta escalabilidad y la efectividad tanto de la elasticidad, como de la tolerancia a fallos de StreamCloud.
|
8 |
Una Nueva Familia de Topologías Indirectas, Eficientes y Tolerantes a FallosBermúdez Garzón, Diego Fernando 07 January 2016 (has links)
[EN] Large parallel computers are currently adopting the cluster architecture as the basis for their construction. These machines are being built with thousands of processing nodes that are interconnected through high-speed interconnection networks.
Performance, fault tolerance and network cost are key factors in the overall design of these systems. The levels of computing power required can only be reached by increasing the number of network nodes. As systems grow, however, so does the amount of network components and with it, the probability of network faults. Since availability is important with these computer systems, fault-tolerance mechanisms are often implemented that are based on increasing network size and duplicating components, which directly affects cost.
In the field of interconnection networks, indirect topologies are often the design of choice for HPC systems. The most commonly used indirect topology is the fat-tree, which is a multi-stage bidirectional-link topology providing good network performance and high fault-tolerance levels, but at a high cost. To reduce cost, RUFT has been proposed, a multi-stage unidirectional topology providing network performance similar to that of the fat-tree but using fewer hardware resources (approximately half). RUFTs weak point, however, is that it has zero fault tolerance.
This work focuses on designing a simple indirect topology that offers high performance and fault tolerance while keeping hardware cost as low as possible. In particular, we propose a set of new topologies with different properties in terms of cost, performance and fault tolerance. All of them are capable of achieving performances similar to or better than that of the fat-tree, while also providing good fault tolerance levels and tolerating faults in the links connecting to end nodes, which most available topologies cannot do.
Our first contribution is RUFT-PL, a topology that duplicates the number of injection, network and ejection links, while using the RUFT connection pattern to interconnect all network elements. This topology provides high network performance and a slight level of fault tolerance, using the same hardware resources as a fat-tree.
Our second contribution is the FT-RUFT-212 topology, which provides better network performance than the fat-tree, as well as good fault tolerance for a low design cost, thanks to the proposed injection/ejection system implemented by the processing nodes.
The third contribution, FT-RUFT-222, is a topology combining the best properties of the previous two proposals. In particular, this topology implements the injection/ejection used by FT-RUFT-212 and the double network links used by RUFT-PL to interconnect the switches. It provides high performance and fault-tolerance levels while using the same hardware resources required by a fat-tree.
Our fourth and last contribution is FT-RUFT-XL, a topology in which both the injection/ejection and the connection between the switches have been redesigned. It offers a significant improvement on the other proposals' fault-tolerance levels, and also provides high network performance. Furthermore, unlike many unidirectional topologies, it allows packets to take different routes at every network stage, always bringing them closer to their destination with each hop. / [ES] Actualmente, los grandes sistemas de cómputo paralelo están adoptando la arquitectura de cluster como base de su construcción (lista Top500). Estos clusters están siendo construidos con miles de nodos de procesamiento, los cuales se conectan a través de una red de interconexión de altas prestaciones.
En estos sistemas, el rendimiento, la tolerancia a fallos y el coste de la red juegan un factor clave en el diseño de todo el sistema. Los niveles de cómputo requeridos solo pueden ser alcanzados incrementando el número de nodos que lo componen. Sin embargo, a medida que el sistema crece también lo hace la cantidad de componentes de la red, y con ello la probabilidad de un fallo en la misma. Dado que la disponibilidad de estos sistemas es una preocupación, los mecanismos de tolerancia a fallos son implementados regularmente basados en el aumento y replicación de componentes, afectando de forma directa a su coste.
En este campo, las topologías indirectas a menudo son elegidas en el diseño de clusters de alto rendimiento. Entre ellas, la más utilizada es el fat-tree, la cual es una topología bidireccional multietapa que provee un buen rendimiento de red y un buen nivel de tolerancia a fallos, pero a un alto coste. Para reducir su coste, se propuso RUFT, una topología unidireccional multietapa que obtiene un rendimiento de red similar al fat-tree, utilizando menos recursos de hardware (aproximadamente la mitad). Sin embargo, el punto débil de RUFT es que no ofrece ningún tipo de tolerancia a fallos.
En este trabajo, nos enfocamos en diseñar una topología indirecta que ofrezca un alto rendimiento de red y sea tolerante a fallos, a la vez que mantiene un bajo coste del hardware.
En particular, proponemos una nueva familia de topologías indirectas con diferentes propiedades en términos de coste, rendimiento y tolerancia a fallos. Estas nuevas topologías son capaces de alcanzar un rendimiento similar o mejor al ofrecido por el fat-tree, además de ofrecer un buen nivel de tolerancia a fallos y, a diferencia de la mayoría de topologías disponibles, también son capaces de tolerar fallos en los enlaces que conectan con los nodos de procesamiento.
Nuestra primera contribución es RUFT-PL, una topología que duplica los enlaces de inyección, red y eyección, siguiendo el mismo patrón de conexión utilizado por RUFT para interconectar todos los elementos de la red. Esta topología obtiene un alto rendimiento de red y un ligero grado de tolerancia a fallos, usando los mismos recursos de hardware que el fat-tree.
Como segunda contribución, proponemos la topología FT-RUFT-212. Esta topología incrementa el rendimiento de red con respecto al fat-tree, ofreciendo además un buen nivel de tolerancia a fallos a un bajo coste de diseño, gracias al sistema de inyección/eyección propuesto que implementan los nodos de procesamiento.
La tercera contribución, FT-RUFT-222, es una topología que aprovecha las mejores propiedades de las dos propuestas anteriores. En particular, esta topología implementa la inyección/eyección utilizada por FT-RUFT-212 y los dobles enlaces de red de RUFT-PL para conectar los conmutadores. Esta propuesta ofrece un alto rendimiento de red y de tolerancia a fallos, utilizando los mismos recursos de hardware requeridos por el fat-tree.
Nuestra última contribución es FT-RUFT-XL, una topología que rediseña tanto la inyección/eyección como la conexión entre los conmutadores. Esta topología incrementa notablemente el nivel de tolerancia a fallos ofrecido por las demás propuestas, ofreciendo también un alto rendimiento de red. Además, a diferencia de muchas topologías unidireccionales, ésta permite que los paquetes tomen diferentes rutas en cada etapa de la red, acercándolos siempre a su destino en cada salto. / [CA] Actualment, els grans sistemes de còmput paral¿lel estan adoptant l'arquitectura cluster com a base per la seua construcció (Llista Top500). Aquests clusters estan sent construïts amb milers de nodes de processament, els quals es connecten mitjançant una xarxa d'interconnexió d'altes prestacions.
En aquests sistemes, el rendiment, la tolerància a fallades i el cost de la xarxa són un factor clau en el disseny de tot el sistema. Per altra banda, els nivells de còmput requerits només poden ser aconseguits incrementant el nombre de nodes que componen el cluster. Per tant, a mesura que el sistema creix també ho fa la quantitat de components de la xarxa, i amb això la probabilitat d'una fallada en la mateixa. Atès que la disponibilitat d'aquests sistemes és una gran preocupació, és habitual que les xarxes d'interconnexió implementen mecanismes de tolerància a fallades, que solen consistir en l'augment i replicació de components, incrementant el cost total de la xarxa.
En aquest camp, les topologies indirectes sovint són triades en el disseny de clusters d'alt rendiment. Entre elles, la més utilitzada és el fat-tree, una topologia bidireccional multietapa que presenta un bon rendiment de xarxa i un bon nivell de tolerància a fallades, però a un alt cost. Per reduir aquest cost, es va proposar RUFT, una topologia unidireccional multietapa que obté un rendiment de xarxa similar al fat-tree utilitzant menys recursos hardware (aproximadament la meitat). No obstant això, el punt feble de RUFT és que no ofereix cap tipus de tolerància a fallades.
En aquest treball, ens centrem en dissenyar una topologia indirecta que, per una banda, aconseguisca un alt rendiment de xarxa i siga tolerant a fallades i, per altra banda, tinga un baix cost.
Concretament, proposem una nova família de topologies indirectes amb diferents propietats pel que fa a cost, rendiment i tolerància a fallades. Aquestes noves topologies obtenen un rendiment similar o millor al que ofereix el fat-tree, a més d'oferir un bon nivell de tolerància a fallades. A més, a diferència de la majoria de topologies disponibles, toleren fallades en els enllaços que connecten amb els nodes de processament.
La nostra primera contribució és RUFT-PL, una topologia que duplica els enllaços d'injecció, xarxa i ejecció, seguint el mateix patró de connexió utilitzat per RUFT per interconnectar tots els elements de la xarxa. Aquesta topologia obté un alt rendiment de xarxa i un lleuger grau de tolerància a fallades, emprant els mateixos recursos de hardware que el fat-tree.
Com a segona contribució, proposem la topologia FT-RUFT-212. Aquesta topologia incrementa el rendiment de xarxa respecte al fat-tree, oferint a més a més un bon nivell de tolerància a fallades amb un baix cost de disseny, gràcies al sistema d'injecció/ejecció proposat que implementen els nodes de processament.
La tercera contribució, FT-RUFT-222, és una topologia que aprofita les millors propietats de les dues propostes anteriors. En particular, aquesta topologia implementa la injecció/ejecció utilitzada per FT-RUFT-212 i els dobles enllaços de xarxa de RUFT-PL per a connectar els commutadors. Aquesta proposta ofereix un alt rendiment de xarxa i de tolerància a fallades, utilitzant els mateixos recursos hardware requerits pel fat-tree.
La nostra última contribució és FT-RUFT-XL, una topologia que redissenya tant la injecció / ejecció com la connexió entre els commutadors. Aquesta topologia incrementa notablement el nivell de tolerància a fallades oferit per les altres propostes, presentant alhora un elevat rendiment de xarxa. A més a més, a diferència de moltes topologies unidireccionals, aquesta permet que els paquets prenguin rutes diferents en cada etapa de la xarxa, acostant-se sempre al seu destí en cada salt. / Bermúdez Garzón, DF. (2015). Una Nueva Familia de Topologías Indirectas, Eficientes y Tolerantes a Fallos [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/59386
|
9 |
Fallos intermitentes: análisis de causas y efectos, nuevos modelos de fallos y técnicas de mitigaciónSaiz Adalid, Luis José 07 January 2016 (has links)
[EN] From the first integrated circuit was developed to very large scale integration (VLSI) technology, the hardware of computer systems has had an immense evolution. Moore's Law, which predicts that the number of transistors that can be integrated on a chip doubles every year, has been accomplished for decades thanks to the aggressive reduction of transistors size. This has allowed increasing its frequency, achieving higher performance with lower consumption, but at the expense of a reliability penalty. The number of defects are raising due to variations in the increasingly complex manufacturing process.
Intermittent faults, one of the fundamental issues affecting the reliability of current and future digital VLSI circuits technologies, are studied in this thesis. In the past, intermittent faults have been considered the prelude to permanent faults. Nowadays, the occurrence of intermittent faults caused by variations in the manufacturing process not affecting permanently has increased. Errors induced by intermittent and transient faults manifest similarly, although intermittent faults are usually grouped in bursts and they are activated repeatedly and non-deterministically in the same place. In addition, intermittent faults can be activated and deactivated by changes in temperature, voltage and frequency.
In this thesis, the effects of intermittent faults in digital systems have been analyzed by using simulation-based fault injection. This methodology allows introducing faults in a controlled manner. After an extensive literature review to understand the physical mechanisms of intermittent faults, new intermittent fault models at gate and register transfer levels have been proposed. These new fault models have been used to analyze the effects of intermittent faults in different microprocessors models, as well as the influence of several parameters.
To mitigate these effects, various fault tolerance techniques have been studied in this thesis, in order to determine whether they are suitable to tolerate intermittent faults. Results show that the error detection mechanisms work properly, but the error recovery mechanisms need to be improved.
Error correction codes (ECC) is a well-known fault tolerance technique. This thesis proposes a new family of ECCs specially designed to tolerate faults when the fault rate is not equal in all bits in a word, such as in the presence of intermittent faults. As these faults may also present a fault rate variable along time, a fault tolerance mechanism whose behavior adapts to the temporal evolution of error conditions can use the new ECCs proposed. / [ES] Desde la invención del primer circuito integrado hasta la tecnología de muy alta escala de integración (VLSI), el hardware de los sistemas informáticos ha evolucionado enormemente. La Ley de Moore, que vaticina que el número de transistores que se pueden integrar en un chip se duplica cada año, se ha venido cumpliendo durante décadas gracias a la agresiva reducción del tamaño de los transistores. Esto ha permitido aumentar su frecuencia de trabajo, logrando mayores prestaciones con menor consumo, pero a costa de penalizar la confiabilidad, ya que aumentan los defectos producidos por variaciones en el cada vez más complejo proceso de fabricación.
En la presente tesis se aborda el estudio de uno de los problemas fundamentales que afectan a la confiabilidad en las actuales y futuras tecnologías de circuitos integrados digitales VLSI: los fallos intermitentes. En el pasado, los fallos intermitentes se consideraban el preludio de fallos permanentes. En la actualidad, ha aumentado la aparición de fallos intermitentes provocados por variaciones en el proceso de fabricación que no afectan permanentemente. Los errores inducidos por fallos intermitentes se manifiestan de forma similar a los provocados por fallos transitorios, salvo que los fallos intermitentes suelen agruparse en ráfagas y se activan repetitivamente y de forma no determinista en el mismo lugar. Además, los fallos intermitentes se pueden activar y desactivar por cambios de temperatura, tensión y frecuencia.
En esta tesis se han analizado los efectos de los fallos intermitentes en sistemas digitales utilizando inyección de fallos basada en simulación, que permite introducir fallos en el sistema de forma controlada. Tras un amplio estudio bibliográfico para entender los mecanismos físicos de los fallos intermitentes, se han propuesto nuevos modelos de fallo en los niveles de puerta lógica y de transferencia de registros, que se han utilizado para analizar los efectos de los fallos intermitentes y la influencia de diversos factores.
Para mitigar esos efectos, en esta tesis se han estudiado distintas técnicas de tolerancia a fallos, con el objetivo de determinar si son adecuadas para tolerar fallos intermitentes, ya que las técnicas existentes están generalmente diseñadas para tolerar fallos transitorios o permanentes. Los resultados muestran que los mecanismos de detección funcionan adecuadamente, pero hay que mejorar los de recuperación.
Una técnica de tolerancia a fallos existente son los códigos correctores de errores (ECC). Esta tesis propone nuevos ECC diseñados para tolerar fallos cuando su tasa no es la misma en todos los bits de una palabra, como en el caso de los fallos intermitentes. Éstos, además, pueden presentar una tasa de fallo variable en el tiempo, por lo que sería necesario un mecanismo de tolerancia a fallos cuyo comportamiento se adapte a la evolución temporal de las condiciones de error, y que utilice los nuevos ECC propuestos. / [CA] Des de la invenció del primer circuit integrat fins a la tecnologia de molt alta escala d'integració (VLSI), el maquinari dels sistemes informàtics ha evolucionat enormement. La Llei de Moore, que vaticina que el nombre de transistors que es poden integrar en un xip es duplica cada any, s'ha vingut complint durant dècades gràcies a l'agressiva reducció de la mida dels transistors. Això ha permès augmentar la seua freqüència de treball, aconseguint majors prestacions amb menor consum, però a costa de penalitzar la fiabilitat, ja que augmenten els defectes produïts per variacions en el cada vegada més complex procés de fabricació.
En la present tesi s'aborda l'estudi d'un dels problemes fonamentals que afecten la fiabilitat en les actuals i futures tecnologies de circuits integrats digitals VLSI: les fallades intermitents. En el passat, les fallades intermitents es consideraven el preludi de fallades permanents. En l'actualitat, ha augmentat l'aparició de fallades intermitents provocades per variacions en el procés de fabricació que no afecten permanentment. Els errors induïts per fallades intermitents es manifesten de forma similar als provocats per fallades transitòries, llevat que les fallades intermitents solen agrupar-se en ràfegues i s'activen repetidament i de forma no determinista en el mateix lloc. A més, les fallades intermitents es poden activar i desactivar per canvis de temperatura, tensió i freqüència.
En aquesta tesi s'han analitzat els efectes de les fallades intermitents en sistemes digitals utilitzant injecció de fallades basada en simulació, que permet introduir errors en el sistema de forma controlada. Després d'un ampli estudi bibliogràfic per entendre els mecanismes físics de les fallades intermitents, s'han proposat nous models de fallada en els nivells de porta lògica i de transferència de registres, que s'han utilitzat per analitzar els efectes de les fallades intermitents i la influència de diversos factors.
Per mitigar aquests efectes, en aquesta tesi s'han estudiat diferents tècniques de tolerància a fallades, amb l'objectiu de determinar si són adequades per tolerar fallades intermitents, ja que les tècniques existents estan generalment dissenyades per tolerar fallades transitòries o permanents. Els resultats mostren que els mecanismes de detecció funcionen adequadament, però cal millorar els de recuperació.
Una tècnica de tolerància a fallades existent són els codis correctors d'errors (ECC). Aquesta tesi proposa nous ECC dissenyats per tolerar fallades quan la seua taxa no és la mateixa en tots els bits d'una paraula, com en el cas de les fallades intermitents. Aquests, a més, poden presentar una taxa de fallada variable en el temps, pel que seria necessari un mecanisme de tolerància a fallades on el comportament s'adapte a l'evolució temporal de les condicions d'error, i que utilitze els nous ECC proposats. / Saiz Adalid, LJ. (2015). Fallos intermitentes: análisis de causas y efectos, nuevos modelos de fallos y técnicas de mitigación [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/59452
|
10 |
Protocolos de pertenencia a grupos para entornos dinámicosBañuls Polo, María del Carmen 06 May 2008 (has links)
Los sistemas distribuidos gozan hoy de fundamental importancia entre los sistemas de información, debido a sus potenciales capacidades de tolerancia a fallos y escalabilidad, que permiten su adecuación a
las aplicaciones actuales, crecientemente exigentes. Por otra parte, el desarrollo de aplicaciones distribuidas presenta también dificultades específicas, precisamente para poder ofrecer la escalabilidad, tolerancia a fallos y alta disponibilidad que constituyen sus ventajas. Por eso es de gran utilidad contar con componentes distribuidas específicamente diseñadas para proporcionar, a más bajo nivel, un conjunto de servicios bien definidos, sobre los cuales las aplicaciones de más alto nivel puedan construir su propia semántica más fácilmente.
Es el caso de los servicios orientados a grupos, de uso muy extendido por las aplicaciones distribuidas, a las que permiten abstraerse de los detalles de las comunicaciones. Tales servicios proporcionan primitivas básicas para la comunicación entre dos miembros del grupo o, sobre todo, las transmisiones de mensajes a todo el grupo, con garantías
concretas. Un caso particular de servicio orientado a grupos lo constituyen los servicios de pertenencia a grupos, en los cuales se centra esta tesis. Los servicios de pertenencia a grupos proporcionan a sus usuarios una imagen del conjunto de procesos o máquinas del sistema que permanecen simultáneamente conectados y correctos. Es más, los diversos participantes reciben esta información con garantías concretas de consistencia. Así pues, los servicios de pertenencia constituyen una componente fundamental para el desarrollo de sistemas de comunicación a grupos y otras aplicaciones distribuidas.
El problema de pertenencia a grupos ha sido ampliamente tratado en la literatura tanto desde un punto de vista teórico como práctico, y existen múltiples realizaciones de servicios de pertenencia utilizables. A pesar de ello, la definición del problema no es única.
Por el contrario, dependien / Bañuls Polo, MDC. (2006). Protocolos de pertenencia a grupos para entornos dinámicos [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/1886
|
Page generated in 0.0738 seconds