Global ETD Search

21	Fault tolerance in critical aerospace embedded systems: Multi-threaded mitigation, non-intrusive compiler-guided hardening, and early prediction of proton and neutron induced soft errors Serrano-Cases, Alejandro 30 October 2020 (has links) Hoy día, existe una creciente demanda de las capacidades computacionales en sistemas críticos, donde los estados inesperados o inoperantes no son aceptables. Algunos de estos sistemas funcionan en entornos hostiles, sufriendo un comportamiento anómalo (faults), tanto en el software como en el hardware. Con objeto de solucionar esta problemática, se está recurriendo a la utilización de soluciones de computación, que explotan las nuevas características presentes en los microprocesadores de última generación. Entre estas características, destaca un mayor número de núcleos, mejor rendimiento computacional y menor consumo energético. Esta evolución de los microprocesadores es debida, entre otros factores, a la mejora en el proceso de fabricación fotolitográfico, sin embargo, este proceso está reduciendo progresivamente la tolerancia de los nuevos microprocesadores a los fallos inducidos por la radiación, conocidos como Efecto de Evento Único (Single Event Effect - SEE). Destacando, entre las fuentes que generan un comportamiento anómalo, las fuentes naturales de radiación, como los rayos cósmicos, o las fuentes de radiación artificial, como las producidas por máquinas de radio-diagnóstico. En esta tesis, se propone varias estrategias para mejorar la fiabilidad de los sistemas críticos que operan en presencia de radiación ionizante, tanto en el espacio, como a nivel terrestre. En este contexto, la radiación ionizante puede alterar la salida de un sistema digital creando interferencias, fallos y alteraciones permanentes en los circuitos, entre otras muchas incidencias. Como resultado, los sistemas críticos pueden comportarse de manera inesperada, produciendo resultados erróneos o entrando en estados no operativos, que requieran un mecanismo externo para recuperar un funcionamiento correcto (watchdogs, interrupciones temporizadas). En la bibliografía, se encuentra que las técnicas basadas en redundancia, aplicables tanto a hardware como a software, son las soluciones más efectivas para detectar y mitigar este tipo de comportamiento inesperado. Estas técnicas basadas en redundancia, presentan una alta variabilidad, dado que puede aplicarse a estructuras de diferente complejidad. En el caso de redundancia software, se puede utilizar a nivel de instrucciones de ensamblador, accesos de memoria, funciones o métodos, incluso a nivel de procesos o hilos. Es importante destacar que, la variabilidad de las diferentes técnicas de mitigación de fallos, provoca una alta complejidad de la predicción del efecto de estas técnicas en el conjunto del sistema. De manera paradójica, la aplicación de estas técnicas de endurecimiento a algunos elementos de un sistema, en ocasiones, puede dar lugar a un aumento de la susceptibilidad del sistema a fallos inducidos por radiación, por consiguiente, a una reducción significativa de la fiabilidad. Esta paradoja, es debida, al aumento de los sobrecostes en los recursos utilizados, o al incremento computacional de dicha técnica de endurecimiento. De manera general, con objeto de reducir la susceptibilidad a fallos inducidos por la radiación, en diferentes sistemas críticos, en esta tesis, se pretende mejorar la fiabilidad, adaptando o proporcionando nuevas técnicas y herramientas para el endurecimiento software en microprocesadores de última generación. Para ello, se han desarrollo dos técnicas, la primera se centra en la búsqueda automática de soluciones maximizando la fiabilidad; la segunda técnica desarrollada, consiste en un endurecimiento software basado en redundancia, optimizado para obtener un mayor rendimiento computacional. Además, se ha desarrollado un nuevo modelo matemático semi-empírico, para evaluar y predecir los fallos inducidos por radiación. La primera de las técnicas desarrolladas, explora, de manera eficiente, soluciones que maximicen la fiabilidad, buscando optimizaciones y endurecimientos que aumenten el rendimiento del sistema, reduzcan los recursos utilizados y, al mismo tiempo, aumenten la cobertura frente a fallos. Con objeto de optimizar el rendimiento y el uso de recursos de las aplicaciones y circuitos, en esta tesis, se utilizan técnicas de aprendizaje automático y algoritmos de búsqueda meta-heurísticos, inspirados en los sistemas naturales (algoritmos genéticos), optimizados con técnicas de optimización multiobjetivo basadas en el concepto de eficiencia de Pareto. Este algoritmo de búsqueda optimizado, permite mejorar al mismo tiempo el rendimiento del sistema, el uso de los recursos y la cobertura de fallos, ya que es capaz de explorar un espacio de soluciones multidimensional de manera eficiente. La aplicación de este algoritmo, permite alterar la generación de las aplicaciones, por parte del compilador, logrando obtener aplicaciones más fiables de forma no intrusiva, es decir, sin necesidad de modificar el código. La segunda de las técnicas desarrolladas, propone una mejora de las técnicas de endurecimiento clásicas, empleando esquemas paralelos basados en el multiprocesamiento simétrico y asimétrico (SMP y AMP, respectivamente). Con objeto de lograr un incremento en la fiabilidad, se han utilizado sistemas mononúcleo y multinúcleo, a los que se les ha eliminado la necesidad de un sistema operativo, con el fin de reducir los sobrecostes de recursos y aumentar el rendimiento, manteniendo la cobertura frente a fallos. Por último, se ha desarrollado un modelo semi-empírico que permite la evaluación y selección de las configuraciones más fiables. Además, el modelo también permite realizar un endurecimiento selectivo de los recursos críticos, antes de acometer una campaña de radiación acelerada. En el desarrollo del modelo, se emplea tanto datos históricos de campañas de radiación real, como los resultados de las campañas de inyección simulada de las aplicaciones. Así, el modelo es capaz de realizar una predicción temprana de la fiabilidad de las nuevas soluciones, antes de probarlas bajo radiación real en aceleradores de partículas. Para verificar el modelo, se realizaron pruebas de radiación acelerada de varias soluciones, desarrolladas en esta tesis, empleando protones en el Centro Nacional de Aceleradores (CNA) de Sevilla, y empleando neutrones en Los Álamos National Laboratory (LANL - USA).
22	Propuesta de plan de mantenimiento preventivo basado en confiabilidad en la empresa Procode S. A. C. para la reducción de pérdidas económicas Galarreta Cabanillas, Maria del Carmen January 2019 (has links) El presente trabajo de investigación está centrado en realizar una propuesta de plan de mantenimiento preventivo basado en confiabilidad para la empresa Procesadora y Comercializado Delgado S. A. C. Dicha empresa se dedica a la producción de sacos de polipropileno, pero durante el desarrollo de sus actividades se presentan continuamente fallas y averías por motivo de la aplicación de mantenimiento correctivo, generando un elevado tiempo de paradas no programadas y pérdidas económicas de S/ 101 897, 08. Para la realización de la investigación, se identificaron las fallas y paradas no programadas que afectan la situación actual de las máquinas, donde se obtuvo un total de 16 678 fallas y 17 236 horas respectivamente. Posteriormente, se realizó el análisis de criticidad para determinar las máquinas más críticas, árbol de fallas y el análisis de modo y efecto de fallas que permitió elaborar el plan de mantenimiento preventivo enfocado en la confiabilidad de RCM. De implementarse la propuesta, el tiempo de paradas programadas destinadas a mantenimiento sería 1733 horas y las pérdidas económicas que se traducen en utilidades no percibidas se reducirán a S/ 5 241,95. Por último, se realizó el análisis costo – beneficio de la propuesta, obteniendo como resultado que por cada sol invertido la empresa obtendría 1,58 soles de ganancia. Mantenimiento industrial Máquinas Mantenibilidad (Ingeniería) Fiabilidad (Ingeniería) Fallos (Ingeniería) Lambayeque
23	Estudio Teórico-Experimental de la Dinámica Rotacional de Turbocompresores de MCIA. Aplicación al Diagnóstico de Fallos López Hidalgo, Miguel Andrés 26 May 2014 (has links) En este trabajo, el movimiento de giro del eje de un turbocompresor motor de combustión interna se mide mediante dos técnicas novedosas, la primera con el procesamiento digital de imágenes del eje del rotor durante el funcionamiento normal y anormal y la segunda técnica con sensores infrarrojos que basan su funcionamiento en el principio de albedo. Cada técnica aporta con información relevante para el conocimiento general de la dinámica rotacional en turbocompresores de MCIA, sin embargo la primera técnica aporta información más visual, como la aparición de aceite en el lado del compresor o la deformación de la punta del eje. La segunda técnica permita tener información con mayor resolución de frecuencia y datos más exactos acerca de las diferentes frecuencias de movimiento del eje. Estas técnicas son aplicadas para el estudio del comportamiento del turbocompresor en condiciones críticas de funcionamiento, las técnicas permiten la determinación de las condiciones más críticas en las que un turbocompresor de serie puede llegar a trabajar. Los ensayos experimentales siempre implican costos adicionales por lo tanto se pretende desarrollar un modelo de dinámica rotacional con el que se puedan identificar diferentes modos de vibración del turbocompresor sin la necesidad de un ensayo experimental. Dentro de la dinámica rotacional de turbocompresores un factor muy importante son los apoyos del rotor, es por esto que se ha realizado el cálculo de los coeficientes de amortiguación y rigidez de la película de lubricación con modelos sencillos analíticos, y modelos más complejos 2D y 3D con CFD. Al final se pretende realizar un ajuste del modelo de dinámica rotacional con los resultados experimentales y se realiza un estudio de sensibilidad de las variables que intervienen en la dinámica del eje. / López Hidalgo, MA. (2014). Estudio Teórico-Experimental de la Dinámica Rotacional de Turbocompresores de MCIA. Aplicación al Diagnóstico de Fallos [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/37746 Fallos Diagnóstico Lubricación Dinámica rotacional Turbocompresores Condiciones críticas Movimiento del eje. INGENIERIA AEROESPACIAL
24	Identificación y Diagnóstico de Fallos en Sistemas de Eventos Discretos Estocásticos Muñoz Añasco, Doyra Mariela 29 July 2015 (has links) [EN] This work presents a fault diagnosis method for stochastic discrete event systems without previous model. To achieve this goal, the method identifies the normal behavior from to online input/output system signals. Each signal is discretized through an event generator, so the system is modelled from the language theory. Besides the pure event generation, the method also identifies the time between events, so the normal behaviour language can be modeled with a stochastic, timed, interpreted Petri net which represents only the observed language and avoids the non-determinism. Once the normal behavior has been identified, the diagnostic method compares the identified language with on-line observed language. If there is any deviation, then a fault has been detected. This work presents a diagnoser that is able to use that information to detect the fault and to learn the faulty behavior. The system is modular and it includes tools to locate the fault. The collected information is a good base for an expert to fully diagnose the fault. / [ES] Este trabajo presenta un método de diagnóstico de fallos para sistemas de eventos discretos estocásticos, sin modelo previo. Para lograr el objetivo, el método identifica el comportamiento normal a partir de las señales de entrada / salida (E/S) del sistema obtenidas on-line. Cada señal es discretizada mediante un generador de eventos, así el sistema es modelado bajo la teoría de lenguajes. Además de la generación de eventos, el método también identifica el tiempo entre eventos, de esta manera el lenguaje del comportamiento normal puede ser modelado como una red de Petri, interpretada, temporizada, estocástica; la cual solo representa el lenguaje observado y evita el no-determinismo. Una vez se ha identificado el comportamiento normal, el método de diagnóstico propuesto compara el lenguaje identificado con el lenguaje observado on-line; si hay desviación entre los lenguajes, se ha detectado un fallo. Este trabajo presenta un diagnosticador que es capaz de usar esa información para detectar el fallo y aprender el comportamiento fallido. El sistema es modular y esto incluye herramientas para localizar el fallo. La información recolectada es una buena base para que un experto diagnostique totalmente el fallo. / [CA] Aquest treball presenta un mètode de diagnosi de fallades per a sistemes de esdeveniments discrets estocàstics sense model anterior. Per aconseguir aquest objectiu, el mètode identifica el comportament normal observant les senyals de eixida/entrada en línias. Cada senyal és discretiza amb un generador d'esdeveniment, així doncs, el sistema es modela amb la teoria de llenguatges. A més de la generació d'esdeveniment pura, el mètode també identifica el temps entre esdeveniments, així que el comportament normal es pot modelar amb una Xarxa de Petri estocàstica, temporitzada e intrepretada que representa només el llenguatge observat i evita el no-determinisme. Una vegada que el comportament normal ha estat identificat, el mètode de diagnòstic compara el llenguatge identificat amb el observat en línia. Si hi ha qualsevol desviació llavors una fallada ha estat detectada. El diagnosticador és capaç d'utilitzar aquesta informació per detectar la fallada i per aprendre el seu comportament. El sistema és modular i inclou eines per localitzar la fallada. La informació recollida és una bona base per a que un expert puga plenament diagnosticar la fallada. / Muñoz Añasco, DM. (2015). Identificación y Diagnóstico de Fallos en Sistemas de Eventos Discretos Estocásticos [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/53915 Diagnóstico de Fallos Red de Petri interpretada temporizada Observabilidad Identificabilidad Detectabilidad. INGENIERIA DE SISTEMAS Y AUTOMATICA
25	Técnicas optimizadas de análisis de señal en dominio tiempo-frecuencia para el diagnóstico de máquinas de inducción en régimen transitorio Cortés López, José Miguel 21 March 2016 (has links) [EN] After making a review of the state of the art, present laboratory equipment, types of trials and signs that have been used to experimentally validate diagnostic techniques proposed in this paper as well as justify drawbacks or limitations transform short time Fourier (STFT) with classic windows for analyzing transient signals whith diagnostic finnish rotating electrical machines in the field, selecting the prolate spheroidal function is proposed, assessing the effect of the parameters that for your definition, as optimal window for time-frequency analysis of the stator current using said transformed, so it makes a proposal to reduce the computation time and memory capacity calculation of this analysis of this signal by moving the window in the domain frequency rather than the temporary. Thus it contributes to the reduction in terms of processing times and memory requirements without losing quality when it comes to the information about the failure is both essential factors for achieving the goal that solutions for its implementation in real industrial environments with limited memory or communication if it is isolated or remote systems. / [ES] Tras hacer una revisión del estado del arte, presentar el equipamiento de laboratorio, los tipos de ensayos y señales que se han empleado para validar experimentalmente las técnicas de diagnosis propuestas en este trabajo, así como justifi car los inconvenientes o limitaciones de la transformada short time Fourier (STFT) con las ventanas clásicas para el análisis de señales en régimen transitorio con fi nes de diagnóstico en máquinas eléctricas rotativas en campo, se propone la selección de la función prolate esferoidal, valorando el efecto de los parámetros que la defi nen, como ventana óptima para el análisis tiempo-frecuencia de la corriente estatórica empleando dicha transformada, así mismo se formula una propuesta para reducir el tiempo de cómputo y la capacidad de memoria de cálculo de este análisis de esta señal moviendo la ventana en el dominio de la frecuencia en lugar del temporal. De esta forma se contribuye a la reducción en cuanto a tiempos de procesado y a los requisitos de memoria necesarios sin perder calidad en lo que a la información referente al fallo se trata, ambos factores esenciales para alcanzar la meta de que las soluciones permitan su implementación en entornos industriales reales, con limitaciones de memoria o comunicación si se trata de sistemas aislados o remotos. / [CA] Després de fer una revisió de l'estat de l'art, presentar l'equipament de laboratori, els tipus d'assajos i senyals que s'han empleat per a validar experimentalment les tècniques de diagnosis proposades en este treball, així com justi car els inconvenients o limitacions de la transformada short time Fourier transform (STFT) amb les finestres clàssiques per a l'anàlisi de senyals en règim transitori amb fi ns de diagnòstic en Màquines elèctriques rotatives en camp, es proposa la selecció de la funció prolate esferoïdal, valorant l'efecte dels paràmetres que la de finixen, com a fi nestra òptima per a l'anàlisi temps-freqüència del corrent estatórica emprant dita transformada, així mateix es formula una proposta per a reduir el temps de còmput i la capacitat de memòria de càlcul d'esta anàlisi d'este senyal movent la finestra en el domini de la freqüència en lloc del temporal. D'esta manera es contribuïx a la reducció quant a temps de processat i als requisits de memòria necessaris sense perdre qualitat en el que a la informació referent a la fallada es tracta, ambdós factors essencials per a aconseguir la meta que les solucions permeten la seua implementació en entorns industrials reals, amb limitacions de memòria o comunicació si es tracta de sistemes aïllats o remots. / Cortés López, JM. (2016). Técnicas optimizadas de análisis de señal en dominio tiempo-frecuencia para el diagnóstico de máquinas de inducción en régimen transitorio [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/61976 Máquinas eléctricas rotativas Diagnóstico de fallos Mantenimiento por condición Prolate spheroidal wave function INGENIERIA ELECTRICA
26	Discovering frequent and significant episodes. Application to sequences of events recorded in power distribution networks Quiroga Quiroga, Oscar Arnulfo 18 December 2012 (has links) This thesis proposes a formalism to analyse and automatically exploit sequences of events, which are related with faults occurred in power distribution networks and are recorded by power quality monitors at substations. This formalism allows to find dependencies or relationships among events, looking for meaningful patterns. Once those patterns are found, they can be used to better describe fault situations and their temporal evolution or can be also useful to predict future failures by recognising the events that match the early stages of a pattern. / En aquesta tesi es proposa un formalisme per analitzar conjunts de dades d'esdeveniments relacionats amb les fallades que es produeixen en les xarxes de distribució elèctrica, i explotar automàticament seqüències d'esdeveniments registrats pels monitors de qualitat d'ona instal•lats en substacions. Aquest formalisme permet cercar dependencies o relacions entre esdeveniments per trobar patrons significatius. Quan els patrons es troben, es poden utilitzar per descriure millor les situacions de fallada i la seva evolució. Els patrons també poden ser útils per a predir fallades futures mitjançant el reconeixement dels successos que coincideixin amb les primeres etapes d'un patró. Xarxes de distribució elèctrica Power distribution networks Redes de distribución eléctrica Seqüències d'esdeveniments Event sequences Secuencias de eventos Diagnòstic de fallades Fault diagnosis Diagnóstico de fallos Pronòstic de fallades Fault prognosis Pronóstico de fallos Fallades del sistema de potència Power system faults Fallos del sistema de potencia Mineria de patrons Pattern mining Minería de patrones Mineria de dades Data mining Minería de datos 68
27	StreamCloud: un moteur de traitement de streams parallèle et distribué Gulisano, Vincenzo 20 December 2012 (has links) (PDF) En los útimos años, aplicaciones en dominios tales como telecomunicaciones, seguridad de redes y redes de sensores de gran escala se han encontrado con múltiples limitaciones en el paradigma tradicional de bases de datos. En este contexto, los sistemas de procesamiento de flujos de datos han emergido como solución a estas aplicaciones que demandan una alta capacidad de procesamiento con una baja latencia. En los sistemas de procesamiento de flujos de datos, los datos no se persisten y luego se procesan, en su lugar los datos son procesados al vuelo en memoria produciendo resultados de forma continua. Los actuales sistemas de procesamiento de flujos de datos, tanto los centralizados, como los distribuidos, no escalan respecto a la carga de entrada del sistema debido a un cuello de botella producido por la concentración de flujos de datos completos en nodos individuales. Por otra parte, éstos están basados en configuraciones estáticas lo que conducen a un sobre o bajo aprovisionamiento. Esta tesis doctoral presenta StreamCloud, un sistema elástico paralelo-distribuido para el procesamiento de flujos de datos que es capaz de procesar grandes volúmenes de datos. StreamCloud minimiza el coste de distribución y paralelización por medio de una técnica novedosa la cual particiona las queries en subqueries paralelas repartiéndolas en subconjuntos de nodos independientes. Ademas, Stream- Cloud posee protocolos de elasticidad y equilibrado de carga que permiten una optimización de los recursos dependiendo de la carga del sistema. Unidos a los protocolos de paralelización y elasticidad, StreamCloud define un protocolo de tolerancia a fallos que introduce un coste mínimo mientras que proporciona una rápida recuperación. StreamCloud ha sido implementado y evaluado mediante varias aplicaciones del mundo real tales como aplicaciones de detección de fraude o aplicaciones de análisis del tráfico de red. La evaluación ha sido realizada en un cluster con más de 300 núcleos, demostrando la alta escalabilidad y la efectividad tanto de la elasticidad, como de la tolerancia a fallos de StreamCloud. Data Streaming Escalabilidad Elasticidad Equilibrado de Carga Tolerancia a fallos
28	Diagnóstico de fallos en sistemas industriales basado en razonamiento borroso y posibilístico Ramírez Valenzuela, Julio César 07 May 2008 (has links) Esta tesis aborda el diagnóstico de fallos en sistemas industriales por técnicas de Inteligencia Artificial, tratando en particular el razonamiento borroso y posibilístico. Inicialmente, se presentan los problemas a resolver en el diagnóstico de sistemas y después se plantean estrategias para abordarlos a partir de diferentes técnicas de Inteligencia Artificial, en donde destacamos los métodos relacionales borrosos que serán la base para nuestra aportación principal. También se han estudiado los sistemas expertos basados en lógica borrosa y que usan tablas de decisión, los sistemas expertos que combinan lógica borrosa con probabilidad y los sistemas de diagnóstico basados en redes Bayesianas. Se experimenta con varias técnicas de diagnóstico descritas en el estado del arte, haciendo combinaciones entre ellas. Una vez experimentadas y evaluadas las anteriores técnicas, vistos los inconvenientes que surgían, se decidió implementar una nueva metodología que diera una mejor solución al problema del diagnóstico. Esta metodología es el diagnóstico posibilístico borroso visto como un problema de optimización lineal. La metodología convierte los enunciados lingüísticos, que componen una base de reglas de un sistema experto borroso, en un conjunto de ecuaciones lineales a través de técnicas relacionales. Luego, estas ecuaciones se utilizan con algoritmos de programación lineal. Algunas modificaciones requieren programación cuadrática. Los resultados obtenidos en esta última aportación en una aplicación de análisis de aceites fueron satisfactorios, presentando al usuario una salida de diagnóstico fácil de interpretar, suficientemente exacta y teniendo en cuenta la incertidumbre en reglas y medidas. / Ramírez Valenzuela, JC. (2007). Diagnóstico de fallos en sistemas industriales basado en razonamiento borroso y posibilístico [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/1922 Diagnóstico Fallos Sistemas Industriales Expertos Lógica Borrosa Posibilidad Inteligencia Artificial Conocimiento Inferencia Razonamiento Incertidumbre Probabilidad INGENIERIA DE SISTEMAS Y AUTOMATICA 331102 - Ingeniería de control
29	Una Nueva Familia de Topologías Indirectas, Eficientes y Tolerantes a Fallos Bermúdez Garzón, Diego Fernando 07 January 2016 (has links) [EN] Large parallel computers are currently adopting the cluster architecture as the basis for their construction. These machines are being built with thousands of processing nodes that are interconnected through high-speed interconnection networks. Performance, fault tolerance and network cost are key factors in the overall design of these systems. The levels of computing power required can only be reached by increasing the number of network nodes. As systems grow, however, so does the amount of network components and with it, the probability of network faults. Since availability is important with these computer systems, fault-tolerance mechanisms are often implemented that are based on increasing network size and duplicating components, which directly affects cost. In the field of interconnection networks, indirect topologies are often the design of choice for HPC systems. The most commonly used indirect topology is the fat-tree, which is a multi-stage bidirectional-link topology providing good network performance and high fault-tolerance levels, but at a high cost. To reduce cost, RUFT has been proposed, a multi-stage unidirectional topology providing network performance similar to that of the fat-tree but using fewer hardware resources (approximately half). RUFTs weak point, however, is that it has zero fault tolerance. This work focuses on designing a simple indirect topology that offers high performance and fault tolerance while keeping hardware cost as low as possible. In particular, we propose a set of new topologies with different properties in terms of cost, performance and fault tolerance. All of them are capable of achieving performances similar to or better than that of the fat-tree, while also providing good fault tolerance levels and tolerating faults in the links connecting to end nodes, which most available topologies cannot do. Our first contribution is RUFT-PL, a topology that duplicates the number of injection, network and ejection links, while using the RUFT connection pattern to interconnect all network elements. This topology provides high network performance and a slight level of fault tolerance, using the same hardware resources as a fat-tree. Our second contribution is the FT-RUFT-212 topology, which provides better network performance than the fat-tree, as well as good fault tolerance for a low design cost, thanks to the proposed injection/ejection system implemented by the processing nodes. The third contribution, FT-RUFT-222, is a topology combining the best properties of the previous two proposals. In particular, this topology implements the injection/ejection used by FT-RUFT-212 and the double network links used by RUFT-PL to interconnect the switches. It provides high performance and fault-tolerance levels while using the same hardware resources required by a fat-tree. Our fourth and last contribution is FT-RUFT-XL, a topology in which both the injection/ejection and the connection between the switches have been redesigned. It offers a significant improvement on the other proposals' fault-tolerance levels, and also provides high network performance. Furthermore, unlike many unidirectional topologies, it allows packets to take different routes at every network stage, always bringing them closer to their destination with each hop. / [ES] Actualmente, los grandes sistemas de cómputo paralelo están adoptando la arquitectura de cluster como base de su construcción (lista Top500). Estos clusters están siendo construidos con miles de nodos de procesamiento, los cuales se conectan a través de una red de interconexión de altas prestaciones. En estos sistemas, el rendimiento, la tolerancia a fallos y el coste de la red juegan un factor clave en el diseño de todo el sistema. Los niveles de cómputo requeridos solo pueden ser alcanzados incrementando el número de nodos que lo componen. Sin embargo, a medida que el sistema crece también lo hace la cantidad de componentes de la red, y con ello la probabilidad de un fallo en la misma. Dado que la disponibilidad de estos sistemas es una preocupación, los mecanismos de tolerancia a fallos son implementados regularmente basados en el aumento y replicación de componentes, afectando de forma directa a su coste. En este campo, las topologías indirectas a menudo son elegidas en el diseño de clusters de alto rendimiento. Entre ellas, la más utilizada es el fat-tree, la cual es una topología bidireccional multietapa que provee un buen rendimiento de red y un buen nivel de tolerancia a fallos, pero a un alto coste. Para reducir su coste, se propuso RUFT, una topología unidireccional multietapa que obtiene un rendimiento de red similar al fat-tree, utilizando menos recursos de hardware (aproximadamente la mitad). Sin embargo, el punto débil de RUFT es que no ofrece ningún tipo de tolerancia a fallos. En este trabajo, nos enfocamos en diseñar una topología indirecta que ofrezca un alto rendimiento de red y sea tolerante a fallos, a la vez que mantiene un bajo coste del hardware. En particular, proponemos una nueva familia de topologías indirectas con diferentes propiedades en términos de coste, rendimiento y tolerancia a fallos. Estas nuevas topologías son capaces de alcanzar un rendimiento similar o mejor al ofrecido por el fat-tree, además de ofrecer un buen nivel de tolerancia a fallos y, a diferencia de la mayoría de topologías disponibles, también son capaces de tolerar fallos en los enlaces que conectan con los nodos de procesamiento. Nuestra primera contribución es RUFT-PL, una topología que duplica los enlaces de inyección, red y eyección, siguiendo el mismo patrón de conexión utilizado por RUFT para interconectar todos los elementos de la red. Esta topología obtiene un alto rendimiento de red y un ligero grado de tolerancia a fallos, usando los mismos recursos de hardware que el fat-tree. Como segunda contribución, proponemos la topología FT-RUFT-212. Esta topología incrementa el rendimiento de red con respecto al fat-tree, ofreciendo además un buen nivel de tolerancia a fallos a un bajo coste de diseño, gracias al sistema de inyección/eyección propuesto que implementan los nodos de procesamiento. La tercera contribución, FT-RUFT-222, es una topología que aprovecha las mejores propiedades de las dos propuestas anteriores. En particular, esta topología implementa la inyección/eyección utilizada por FT-RUFT-212 y los dobles enlaces de red de RUFT-PL para conectar los conmutadores. Esta propuesta ofrece un alto rendimiento de red y de tolerancia a fallos, utilizando los mismos recursos de hardware requeridos por el fat-tree. Nuestra última contribución es FT-RUFT-XL, una topología que rediseña tanto la inyección/eyección como la conexión entre los conmutadores. Esta topología incrementa notablemente el nivel de tolerancia a fallos ofrecido por las demás propuestas, ofreciendo también un alto rendimiento de red. Además, a diferencia de muchas topologías unidireccionales, ésta permite que los paquetes tomen diferentes rutas en cada etapa de la red, acercándolos siempre a su destino en cada salto. / [CA] Actualment, els grans sistemes de còmput paral¿lel estan adoptant l'arquitectura cluster com a base per la seua construcció (Llista Top500). Aquests clusters estan sent construïts amb milers de nodes de processament, els quals es connecten mitjançant una xarxa d'interconnexió d'altes prestacions. En aquests sistemes, el rendiment, la tolerància a fallades i el cost de la xarxa són un factor clau en el disseny de tot el sistema. Per altra banda, els nivells de còmput requerits només poden ser aconseguits incrementant el nombre de nodes que componen el cluster. Per tant, a mesura que el sistema creix també ho fa la quantitat de components de la xarxa, i amb això la probabilitat d'una fallada en la mateixa. Atès que la disponibilitat d'aquests sistemes és una gran preocupació, és habitual que les xarxes d'interconnexió implementen mecanismes de tolerància a fallades, que solen consistir en l'augment i replicació de components, incrementant el cost total de la xarxa. En aquest camp, les topologies indirectes sovint són triades en el disseny de clusters d'alt rendiment. Entre elles, la més utilitzada és el fat-tree, una topologia bidireccional multietapa que presenta un bon rendiment de xarxa i un bon nivell de tolerància a fallades, però a un alt cost. Per reduir aquest cost, es va proposar RUFT, una topologia unidireccional multietapa que obté un rendiment de xarxa similar al fat-tree utilitzant menys recursos hardware (aproximadament la meitat). No obstant això, el punt feble de RUFT és que no ofereix cap tipus de tolerància a fallades. En aquest treball, ens centrem en dissenyar una topologia indirecta que, per una banda, aconseguisca un alt rendiment de xarxa i siga tolerant a fallades i, per altra banda, tinga un baix cost. Concretament, proposem una nova família de topologies indirectes amb diferents propietats pel que fa a cost, rendiment i tolerància a fallades. Aquestes noves topologies obtenen un rendiment similar o millor al que ofereix el fat-tree, a més d'oferir un bon nivell de tolerància a fallades. A més, a diferència de la majoria de topologies disponibles, toleren fallades en els enllaços que connecten amb els nodes de processament. La nostra primera contribució és RUFT-PL, una topologia que duplica els enllaços d'injecció, xarxa i ejecció, seguint el mateix patró de connexió utilitzat per RUFT per interconnectar tots els elements de la xarxa. Aquesta topologia obté un alt rendiment de xarxa i un lleuger grau de tolerància a fallades, emprant els mateixos recursos de hardware que el fat-tree. Com a segona contribució, proposem la topologia FT-RUFT-212. Aquesta topologia incrementa el rendiment de xarxa respecte al fat-tree, oferint a més a més un bon nivell de tolerància a fallades amb un baix cost de disseny, gràcies al sistema d'injecció/ejecció proposat que implementen els nodes de processament. La tercera contribució, FT-RUFT-222, és una topologia que aprofita les millors propietats de les dues propostes anteriors. En particular, aquesta topologia implementa la injecció/ejecció utilitzada per FT-RUFT-212 i els dobles enllaços de xarxa de RUFT-PL per a connectar els commutadors. Aquesta proposta ofereix un alt rendiment de xarxa i de tolerància a fallades, utilitzant els mateixos recursos hardware requerits pel fat-tree. La nostra última contribució és FT-RUFT-XL, una topologia que redissenya tant la injecció / ejecció com la connexió entre els commutadors. Aquesta topologia incrementa notablement el nivell de tolerància a fallades oferit per les altres propostes, presentant alhora un elevat rendiment de xarxa. A més a més, a diferència de moltes topologies unidireccionals, aquesta permet que els paquets prenguin rutes diferents en cada etapa de la xarxa, acostant-se sempre al seu destí en cada salt. / Bermúdez Garzón, DF. (2015). Una Nueva Familia de Topologías Indirectas, Eficientes y Tolerantes a Fallos [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/59386 Topologías MIN Redes de interconexión Redes de altas prestaciones Redes irregulares indirectas Tolerancia a fallos Encaminamiento adaptativo y determinista RUFF Fat-tree
30	Detección concurrente de errores en el flujo de ejecución de un procesador Rodríguez Ballester, Francisco 02 May 2016 (has links) Tesis por compendio / [EN] Incorporating error detection mechanisms is a key element in the design of fault tolerant systems. For many of those systems the detection of an error (whether temporary or permanent) triggers a bunch of actions or activation of elements pursuing any of these objectives: continuation of the system operation despite the error, system recovery, system stop into a safe state, etc. Objectives ultimately intended to improve the characteristics of reliability, security, and availability, among others, of the system in question. One of these error detection elements is a watchdog processor; it is responsible to monitor the system processor and check that no errors occur during the program execution. The main drawback of the existing proposals in this regard and that prevents a more widespread use of them is the loss of performance and the increased memory consumption suffered by the monitored system. In this PhD a new technique to embed signatures is proposed. The technique is called ISIS - Interleaved Signature Instruction Stream - and it embeds the watchdog signatures interspersed with the original program instructions in the memory. With this technique it is a separate element of the system processor (a watchdog processor as such) who carries out the operations to detect errors. Although signatures are mixed with program instructions, and unlike previous proposals, the main system processor is not involved neither in the recovery of these signatures from memory nor in the corresponding calculations, reducing the performance loss. A novel technique is also proposed that enables the watchdog processor verification of the structural integrity of the monitored program checking the jump addresses used. This jump address processing technique comes to largely solve the problem of verifying a jump to a new program area when there are multiple possible valid destinations of the jump. This problem did not have an adequate solution so far, and although the proposal made here can not solve every possible jump scenario it enables the inclusion of a large number of them into the set verifiable jumps. The theoretical ISIS proposal and its error detection mechanisms are complemented by the contribution of a complete system (processor, watchdog processor, cache memory, etc.) based on ISIS which incorporates the detection mechanisms proposed here. This system has been called HORUS, and is developed in the synthesizable subset of the VHDL language, so it is possible not only to simulate the behavior of the system at the occurrence of a fault and analyze its evolution from it but it is also possible to program a programmable logic device like an FPGA for its inclusion in a real system. To program the HORUS system in this PhD a modified version of the gcc compiler has been developed which includes the generation of signatures for the watchdog processor as an integral part of the process to create the executable program (compilation, assembly, and link) from a source code written in the C language. Finally, another work developed in this PhD is the development of FIASCO (Fault Injection Aid Software Components), a set of scripts using the Tcl/Tk language that allow the injection of a fault during the simulation of HORUS in order to study its behavior and its ability to detect subsequent errors. With FIASCO it is possible to perform hundreds or thousands of simulations in a distributed system environment to reduce the time required to collect the data from large-scale injection campaigns. Results show that a system using the techniques proposed here is able to detect errors during the execution of a program with a minimum loss of performance, and that the penalty in memory consumption when using a watchdog processor is similar to previous proposals. / [ES] La incorporación de mecanismos de detección de errores es un elemento fundamental en el diseño de sistemas tolerantes a fallos en los que, en muchos casos, la detección de un error (ya sea transitorio o permanente) es el punto de partida que desencadena toda una serie de acciones o activación de elementos que persiguen alguno de estos objetivos: la continuación de las operaciones del sistema a pesar del error, la recuperación del mismo, la parada de sus operaciones llevando al sistema a un estado seguro, etc. Objetivos, en definitiva, que pretenden la mejora de las características de fiabilidad, seguridad y disponibilidad, entre otros, del sistema en cuestión. Uno de estos elementos de detección de errores es un procesador de guardia; su trabajo consiste en monitorizar al procesador del sistema y comprobar que no se producen errores durante la ejecución del programa. El principal inconveniente de las propuestas existentes a este respecto y que impiden una mayor difusión de su uso es la pérdida de prestaciones y el aumento de consumo de memoria que sufre el sistema monitorizado. En este trabajo se propone una nueva técnica de empotrado de firmas (ISIS -Interleaved Signature Instruction Stream) intercaladas dentro del espacio de la memoria del programa. Con ella un elemento separado del procesador del sistema realiza las operaciones encaminadas a detectar los errores. A pesar de que las firmas se encuentran mezcladas con las instrucciones del programa que está ejecutando, y a diferencia de las propuestas previas, el procesador principal del sistema no se involucra ni en la recuperación de las firmas ni en las operaciones de cálculo correspondientes, lo que reduce la pérdida de prestaciones. También se propone una novedosa técnica para que el procesador de guardia pueda verificar la integridad estructural del programa que monitoriza comprobando las direcciones de salto empleadas. Esta técnica de procesado de las direcciones de salto viene a resolver en gran medida el problema de la comprobación de un salto a una nueva zona del programa cuando existen múltiples posibles destinos válidos. Este problema no tenía una solución adecuada hasta el momento, y aunque la propuesta que aquí se hace no consigue resolver todos los posibles escenarios de salto sí permite incorporar un buen números de ellos al conjunto de saltos verificables. ISIS y sus mecanismos de detección de errores se complementan con la aportación de un sistema completo (procesador, procesador de guardia, memoria caché, etc.) basado en ISIS denominado HORUS. Está desarrollado en lenguaje VHDL sintetizable, de manera que es posible tanto simular el comportamiento del sistema ante la aparición de un fallo y analizar su evolución a partir de éste como programar un dispositivo lógico programable tipo FPGA para su inclusión en un sistema real. Para programar el sistema HORUS se ha desarrollado una versión modificada del compilador gcc que incluye la generación de las firmas de referencia para el procesador de guardia como parte del proceso de creación del programa ejecutable a partir de código fuente escrito en lenguaje C. Finalmente, otro trabajo desarrollado en esta tesis es el desarrollo de FIASCO (Fault Injection Aid Software COmponents), un conjunto de scripts en lenguaje Tcl/Tk que permiten la inyección de un fallo durante la simulación de HORUS con el objetivo de estudiar su comportamiento y su capacidad para detectar los errores subsiguientes. Con FIASCO es posible lanzar cientos o miles de simulaciones en un entorno distribuido para reducir el tiempo necesario para obtener los datos de campañas de inyección a gran escala. Los resultados demuestran que un sistema que utilice las técnicas que aquí se proponen es capaz de detectar errores durante la ejecución del programa con una mínima pérdida de prestaciones, y que la penalización en el consumo de memoria al usar un procesador de guardia es similar a la de las propu / [CA] La incorporació de mecanismes de detecció d'errors és un element fonamental en el disseny de sistemes tolerants a fallades. En aquests sistemes la detecció d'un error, tant transitori com permanent, sovint significa l'inici d'una sèrie d'accions o activació d'elements per assolir algun del objectius següents: mantenir les operacions del sistema malgrat l'error, la recuperació del sistema, aturar les operacions situant el sistema en un estat segur, etc. Aquests objectius pretenen, fonamentalment, millorar les característiques de fiabilitat, seguretat i disponibilitat del sistema. El processador de guarda és un dels elements emprats per a la detecció d'errors. El seu treball consisteix en monitoritzar el processador del sistema i comprovar que no es produeixen error durant l'execució de les instruccions. Els principals inconvenients de l'ús del processadors de guarda és la pèrdua de prestacions i l'increment de les necessitats de memòria del sistema que monitoritza, per la qual cossa la seva utilització no està molt generalitzada. En aquest treball es proposa una nova tècnica de encastat de signatures (ISIS - Interleaved Signature Instruction Stream) intercalant-les en l'espai de memòria del programa. D'aquesta manera és possible que un element extern al processador realitze les operacions dirigides a detectar els errors, i al mateix temps permet que el processador execute el programa original sense tenir que processar les signatures, encara que aquestes es troben barrejades amb les instruccions del programa que s'està executant. També es proposa en aquest treball una nova tècnica que permet al processador de guarda verificar la integritat estructural del programa en execució. Aquesta verificació permet resoldre el problema de com comprovar que, al executar el processador un salt a una nova zona del programa, el salt es realitza a una de les possibles destinacions que són vàlides. Fins el moment no hi havia una solució adequada per a aquest problema i encara que la tècnica presentada no resol tots el cassos possibles, sí afegeix un bon nombre de salts al conjunt de salts verificables. Les tècniques presentades es reforcen amb l'aportació d'un sistema complet (processador, processador de guarda, memòria cache, etc.) basat en ISIS i que incorpora els mecanismes de detecció que es proposen en aquest treball. A aquest sistema se li ha donat el nom de HORUS, i està desenvolupat en llenguatge VHDL sintetitzable, la qual cosa permet no tan sols simular el seu comportament davant la aparició d'un error i analitzar la seva evolució, sinó també programar-lo en un dispositiu FPGA per incloure'l en un sistema real. Per poder programar el sistema HORUS s'ha desenvolupat una versió modificada del compilador gcc. Aquesta versió del compilador inclou la generació de les signatures de referència per al processador de guarda com part del procés de creació del programa executable (compilació, assemblat i enllaçat) des del codi font en llenguatge C. Finalment en aquesta tesis s'ha desenvolupat un altre treball anomenat FIASCO (Fault Injection Aid Software COmponents), un conjunt d'scripts en llenguatge Tcl/Tk que permeten injectar fallades durant la simulació del funcionament d'HORUS per estudiar la seua capacitat de detectar els errors i el seu comportament posterior. Amb FIASCO és possible llançar centenars o milers de simulacions en entorns distribuïts per reduir el temps necessari per obtenir les dades d'una campanya d'injecció de fallades de grans proporcions. Els resultats obtinguts demostren que un sistema que utilitza les tècniques descrites és capaç de detectar errors durant l'execució del programa amb una pèrdua mínima de prestacions, i amb un requeriments de memòria similars als de les propostes anteriors. / Rodríguez Ballester, F. (2016). Detección concurrente de errores en el flujo de ejecución de un procesador [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/63254 / Compendio Sistemas tolerantes a fallos Detección de errores Procesador de guardia Microprocesador VHDL FPGA Dependable systems Error detection Watchdog processor Microprocessor

Search results