Global ETD Search

11	Toler?ncia a falhas em elementos de processamento de MPSoCs Barreto, Francisco Favorino da Silva 13 March 2015 (has links) Submitted by Setor de Tratamento da Informa??o - BC/PUCRS (tede2@pucrs.br) on 2015-12-14T20:02:04Z No. of bitstreams: 1 476711 - Texto Completo.pdf: 1459361 bytes, checksum: 48f64a1e41d4416a6b1e434eaf5ed4d3 (MD5) / Made available in DSpace on 2015-12-14T20:02:04Z (GMT). No. of bitstreams: 1 476711 - Texto Completo.pdf: 1459361 bytes, checksum: 48f64a1e41d4416a6b1e434eaf5ed4d3 (MD5) Previous issue date: 2015-03-13 / The need of more processing capacity for embedded systems nowadays is pushing the research of MPSoCs with tens or hundreds of processors. These characteristics bring design challenges such as scalability and dependability. Such complex systems must have fault tolerant methods to ensure acceptable reliability and availability. This way, the user is not exposed to significant data losses, malfunctioning and even the total system failure. Considering this technology trend, the present work proposes a fault tolerance method with focus in fault recovery. The method uses concepts largely explored in distributed systems to solve the problem of permanent failures in the processing elements of MPSoCs. The implementation is exclusively in software, and recovers the system exposed to a permanent failure on processing elements, reallocating all tasks that were executing in the faulty element to a healthy processing element. The failed application tasks restart their executions since there is no context saving, enabling a lightweight method. The experiments are performed in the HeMPS platform, evaluating the most relevant parameters as recovery time, communication bandwidth impact, scalability and others. In the absence of faults, the proposed protocol has 21 Kbytes of memory area (20% more compared to the original kernel) and no overhead in terms of execution time. In the presence of faults, the results demonstrate total recovery times from 0.2ms to 1ms, depending on the number of reallocated tasks (1 to 7). The biggest impact in the protocol time is related with the reallocation task phase. / A pesquisa em MPSoCs (do ingl?s, Multiprocessor System on Chip) tem sido motivada pela necessidade crescente de maior capacidade de processamento das aplica??es de sistemas embarcados. Devido ? esta tend?ncia, os MPSoCs tornam-se cada vez mais complexos e miniaturizados. Estas caracter?sticas trazem associados desafios como escalabilidade e dependabilidade. O sistema que tem a necessidade de ser confi?vel e estar dispon?vel em todo o seu tempo opera??o precisa ser tolerante a falhas a ponto de recuperar-se automaticamente. Dessa forma o usu?rio n?o ser? exposto a perdas de informa??o, execu??o malsucedida ou at? mesmo a falha total do sistema. Este trabalho prop?e um m?todo de toler?ncia a falhas com foco na recupera??o de falhas. O m?todo utiliza conceitos utilizados em computa??o distribu?da para solucionar o problema de falhas permanentes em elementos de processamento de um MPSoCs. O m?todo proposto, implementado exclusivamente em software, recupera um sistema exposto a uma falha permanente de um elemento de processamento, realizando uma realoca??o das tarefas que estavam sendo executadas pelo elemento que falhou para um elemento de processamento saud?vel do sistema. As tarefas da aplica??o que falharam devem reiniciar suas execu??es do ponto de partida dado que o contexto da execu??o n?o ? salvo, mantendo assim um baixo overhead no sistema, como demonstrado nos resultados obtidos. Os experimentos foram realizados na plataforma HeMPS com uma avalia??o dos par?metros mais relevantes como tempo de recupera??o, impacto em banda de comunica??o, escala e outros, que justificam a viabilidade e as vantagens do m?todo proposto. Na aus?ncia de falhas, o protocolo proposto n?o altera o tempo de execu??o, por?m aumenta o tamanho de mem?ria do kernel para 21 Kbytes, 20% de acr?scimo comparado com o kernel original. Os resultados obtidos na presen?a de falhas mostram que o tempo total de recupera??o de falhas do m?todo ? de 0,2ms a 1ms, dependendo do n?mero de tarefas realocadas devido ao PE defeituoso. O maior impacto de tempo no protocolo se d? com a etapa de realoca??o de tarefas. INFORM?TICA MULTIPROCESSADORES TOLER?NCIA A FALHAS (INFORM?TICA)
12	Fast recovery in parallel state machine replication Mendizabal, Odorico Machado 16 May 2016 (has links) Submitted by Setor de Tratamento da Informa??o - BC/PUCRS (tede2@pucrs.br) on 2016-08-04T16:39:32Z No. of bitstreams: 1 TES_ODORICO_MACHADO_MENDIZABAL_COMPLETO.pdf: 1253774 bytes, checksum: 8ab2360ff12ca83b15b415cba7eda7de (MD5) / Made available in DSpace on 2016-08-04T16:39:32Z (GMT). No. of bitstreams: 1 TES_ODORICO_MACHADO_MENDIZABAL_COMPLETO.pdf: 1253774 bytes, checksum: 8ab2360ff12ca83b15b415cba7eda7de (MD5) Previous issue date: 2016-05-16 / A well-established technique used to design fault-tolerant systems is state machine replication. In part, this is explained by the simplicity of the approach and its strong consistency guarantees. The traditional state machine replication model builds on the sequential execution of requests to ensure consistency among the replicas. Sequentiality of execution, however, threatens the scalability of replicas. Recently, some proposals have suggested parallelizing the execution of replicas to achieve higher performance. Despite the success of parallel state machine replication in accomplishing high performance, the implication of such models on the recovery is mostly left unaddressed. Even for the traditional state machine replication approach, relatively few studies have considered the issues involved in recovering faulty replicas. The motivation of this thesis is clarifying the challenges and performance implications involved in checkpointing and recovery for parallel state machine replication. The thesis also aims to advance the state-of-the-art by proposing novel algorithms for checkpointing and recovery in the context of parallel state machine replication. Performing checkpoints efficiently in such parallel models is more challenging than in classic state machine replication because the checkpoint operation must account for the execution of concurrent commands. In this thesis, we review checkpointing techniques for parallel approaches to state machine replication and compare their impact on performance through simulation. Furthermore, we propose two checkpoint techniques for one of these parallel models. Recovering a replica requires (a) retrieving and installing an up-to-date replica checkpoint, and (b) restoring and re-executing the log of commands not reflected in the checkpoint. Parallel state machine replication render recovery particularly challenging since throughput under normal execution (i.e., in the absence of failures) is very high. Consequently, the log of commands that need to be applied until the replica is available is typically large, which delays the recovery. We present two novel techniques to optimize recovery in parallel state machine replication. The first technique allows new commands to execute concurrently with the execution of logged commands, before replicas are completely updated. The second technique introduces ondemand state recovery, which allows segments of a checkpoint to be recovered concurrently. We experimentally assess the performance of our recovery techniques using a full-fledged parallel state machine replication prototype and compare the performance of these techniques to traditional recovery mechanisms under different scenarios. / A replica??o m?quina de estados ? uma t?cnica bem estabelecida para desenvolvimento de sistemas tolerantes a faltas. Em parte, isso ? explicado pela simplicidade da abordagem e sua garantia de consist?ncia forte. O modelo de replica??o m?quina de estados tradicional baseia-se na execu??o sequencial de requisi??es para garantir consist?ncia forte entre as r?plicas. A sequencialidade da execu??o, no entanto, compromete a escalabilidade. Recentemente, algumas propostas sugeriram paralelizar a execu??o de algumas requisi??es visando um aumento na vaz?o. Apesar do sucesso da replica??o m?quina de estados paralela em obter alto desempenho, as implica??es deste modelo em procedimentos de recupera??o s?o desprezadas. Mesmo para a abordagem de replica??o m?quina de estados tradicional, poucos estudos t?m considerado as quest?es envolvidas na recupera??o de r?plicas defeituosas. A motiva??o desta tese ? elucidar os desafios e implica??es no desempenho decorrentes de mecanismos de pontos de verifica??o e recupera??o em replica??o m?quina de estados paralela. A tese tamb?m avan?a no estado-da-arte, propondo novos algoritmos para pontos de verifica??o e recupera??o no contexto de replica??o m?quina de estados paralela. Criar pontos de verifica??o de forma eficiente em tais modelos ? mais desafiador do que na replica??o m?quina de estados cl?ssica porque deve-se considerar a execu??o concorrente de comandos. Nesta tese, n?s revisitamos as t?cnicas para pontos de verifica??o em abordagens paralelas de replica??o m?quina de estados e comparamos o impacto destas no desempenho atrav?s de simula??o. Al?m disso, n?s propomos duas t?cnicas de ponto de verifica??o para um destes modelos paralelos. Recuperar uma r?plica requer: (a) obter e instalar o estado de um ponto de verifica??o de uma r?plica atualizada, e (b) recuperar e re-executar os comandos n?o refletidos no ponto de verifica??o. T?cnicas paralelas para replica??o m?quina de estado tornam a recupera??o de r?plicas particularmente dif?cil uma vez que a vaz?o de processamento durante a execu??o normal (isto ?, na aus?ncia de falhas) ? muito alta. Consequentemente, o registo de comandos que precisa ser re-executado ? tipicamente grande, o que atrasa a recupera??o. N?s apresentamos duas novas t?cnicas para otimizar a recupera??o em replica??o m?quina de estados paralela. A primeira t?cnica permite que novos comandos sejam executados em paralelo com a re-execu??o dos comandos n?o refletidos no ponto de verifica??o. Isto ocorre antes da r?plica estar completamente atualizada. A segunda t?cnica introduz recupera??o de estado sob-demanda, permitindo que segmentos de um ponto de verifica??o possam ser recuperados apenas quando necess?rios, ou ainda, concorrentemente. N?s avaliamos o desempenho de nossas t?cnicas de recupera??o usando um prot?tipo completo para replica??o m?quina de estados paralela e comparamos o desempenho destas t?cnicas com mecanismos tradicionais de recupera??o em diferentes cen?rios. PROCESSAMENTO DISTRIBU?DO TOLER?NCIA A FALHAS (INFORM?TICA) INFORM?TICA
13	Explorando uma solu??o h?brida : hardware+software para a detec??o de falhas tempo real em systems-on-chip (SoCs) Bolzani, Leticia Maria Veiras 26 January 2005 (has links) Made available in DSpace on 2015-04-14T13:56:12Z (GMT). No. of bitstreams: 1 407189.pdf: 10947559 bytes, checksum: 226c6d99586bd813d912db1bc9d505c2 (MD5) Previous issue date: 2005-01-26 / Nos ?ltimos anos, o crescente aumento do n?mero de aplica??es cr?ticas baseadas em sistemas eletr?nicos, intensificou a pesquisa sobre t?cnicas de toler?ncia ? falhas. Durante o per?odo de funcionamento destes sistemas, a probabilidade de ocorrerem falhas transientes e permanentes devido ? presen?a de interfer?ncias dos mais variados tipos ? bastante grande. Dentre as falhas mais freq?entes, salientam-se as falhas que corrompem os dados e as falhas que alteram o fluxo de controle do processador que executa a aplica??o. Assim, a utiliza??o de t?cnicas capazes de detectarem estes tipos de falhas evita que as mesmas se propaguem pelo sistema e acabem gerando sa?das incorretas. Basicamente, estas t?cnicas s?o classificadas em dois grandes grupos: solu??es baseadas em software e solu??es baseadas em hardware. Neste contexto, o objetivo principal deste trabalho ? especificar e implementar uma solu??o h?brida, parte em software e parte em hardware, capaz de detectar em tempo de execu??o eventuais falhas em dados e no fluxo de controle do algoritmo. Esta solu??o baseia-se nas t?cnicas propostas em (REBAUDENGO, 2004) e (GOLOUBEVA, 2003) e implementa parte de suas regras de transforma??o de c?digo via software e parte via hardware. Assim, informa??es redundantes s?o agregadas ao c?digo da aplica??o e testes de consist?ncia s?o implementados via hardware. Em resumo, este trabalho prop?e o desenvolvimento de um n?cleo I-IP (infrastructure intellectual property), tal como um watchdog, para executar os testes de consist?ncia concorrentemente ? execu??o da aplica??o. Para isto, tr?s vers?es diferentes do I-IP foram implementadas em linguagem de descri??o de hardware (VHDL) e avaliadas atrav?s de experimentos de inje??o de falhas. A primeira vers?o implementada prov? a detec??o de falhas em dados e, como todo prot?tipo, este tamb?m apresenta algumas restri??es e limita??es. A segunda vers?o tamb?m detecta falhas em dados, entretanto, supera todos os problemas da vers?o anterior. A terceira vers?o do I-IP agrega ? vers?o anterior a capacidade de detectar falhas de fluxo de controle. Finalmente, ap?s a implementa??o das vers?es anteriores, foi especificada uma quarta vers?o que agrega confiabilidade e robustez ao I-IP desenvolvido atrav?s da utiliza??o de algumas t?cnicas de toler?ncia a falhas e da especifica??o de um auto-teste funcional. Os resultados obtidos a partir da avalia??o das vers?es do I-IP garantem que a metodologia proposta neste trabalho ? bastante eficiente, pois apresenta uma alta cobertura de falhas e supera os principais problemas presentes nas solu??es baseadas em software propostas na literatura, ou seja, degrada??o de desempenho e maior consumo de mem?ria. Finalmente, cabe mencionar que esta disserta??o ? o resultado parcial de atividades que fazem parte do escopo do Projeto Alfa (#AML/B7-311-97/0666/II-0086-FI) mantido entre os Grupos SiSC PUCRS (Brasil) e CAD Politecnico di Torino (It?lia) no per?odo de 2002-2005. INFORM?TICA TOLER?NCIA A FALHAS (COMPUTA??O) DADOS DE TESTE (INFORM?TICA) SISTEMAS ELETR?NICOS HARDWARE SOFTWARE CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
14	Solu??es h?bridas de hardware/software para a detec??o de erros em systems-on-chip (SoC) de tempo real Piccoli, Leonardo Bisch 29 August 2006 (has links) Made available in DSpace on 2015-04-14T13:56:13Z (GMT). No. of bitstreams: 1 385283.pdf: 3365473 bytes, checksum: 6d08f2f5bffa95bda247cae13c41e5d7 (MD5) Previous issue date: 2006-08-29 / Nos ?ltimos anos, o crescente aumento do n?mero de aplica??es cr?ticas envolvendo sistemas de tempo real aliado ao aumento da densidade dos circuitos integrados e a redu??o progressiva da tens?o de alimenta??o, tornou os sistemas embarcados cada vez mais suscept?veis ? ocorr?ncia de falhas transientes. T?cnicas que exploram o aumento da robustez de sistemas em componentes integrados (SoC) atrav?s do aumento do ciclo de trabalho do sinal de rel?gio gerado por um bloco PLL para acomodar eventuais atrasos indesejados da l?gica [1] s?o poss?veis solu??es para aumentar a confiabilidade de sistemas eletr?nicos. Diz-se que estes sistemas utilizam t?cnicas de error avoidance. Outras t?cnicas cujo objetivo n?o ? o de evitar falhas, mas sim o de detect?-las, s?o ditas t?cnicas de error detection. Este trabalho aborda esse segundo tipo de t?cnica para aumentar a confiabilidade de sistemas eletr?nicos; ou seja, aborda o desenvolvimento de t?cnicas que realizam a detec??o de erros em tempo de execu??o do sistema. Sistemas de tempo real n?o dependem somente do resultado l?gico de computa??o, mas tamb?m no tempo em que os resultados s?o produzidos. Neste cen?rio, diversas tarefas s?o executadas e o escalonamento destas em fun??o de restri??es temporais ? um tema de grande import?ncia. Durante o funcionamento destes sistemas em ambientes expostos ? interfer?ncia eletromagn?tica (EMI), existe a enorme probabilidade de ocorrerem falhas transientes. Assim, a utiliza??o de t?cnicas capazes de detectar erros evita que dados err?neos se propaguem pelo sistema at? atingir as sa?das e portanto, produzindo um defeito e/ou comprometendo a caracter?stica temporal do sistema. Basicamente, as t?cnicas de detec??o s?o classificadas em duas categorias: solu??es baseadas em software e solu??es baseadas em hardware. Neste contexto, o objetivo principal deste trabalho ? especificar e implementar uma solu??o baseada em software (descrito em linguagem C e inserida no n?cleo do Sistema Operacional de Tempo Real - RTOS) ou baseada em hardware (descrito em linguagem VHDL e conectada no barramento do processador) capaz de detectar em tempo de execu??o eventuais erros devido a falhas ocorridas no sistema. As falhas consideradas neste trabalho s?o aquelas que afetam a execu??o correta do fluxo de controle do programa. A solu??o proposta ? inovadora no sentido de se ter como alvo sistemas SoC com RTOS multitarefa em ambiente preemptivo. A solu??o proposta associa a estes sistemas, t?cnicas h?bridas de detec??o de erros: baseadas em software (YACCA [2,3]) e em hardware (WDT [4,5], OSLC [6,7] e SEIS [8,9,10]). Diferentes vers?es do sistema proposto foram implementadas. Em seguida, foram validadas em um ambiente de interfer?ncia eletromagn?tica (EMI) segundo a norma IEC 62132-2 [11] que define regras para os testes de circuitos integrados expostos ? EMI irradiada. A an?lise dos resultados obtidos demonstra que a metodologia proposta ? bastante eficiente, pois apresenta uma alta cobertura de falhas e supera os principais problemas presentes nas solu??es propostas na literatura. Ou seja, associa uma menor degrada??o de desempenho com um menor consumo de mem?ria e uma maior cobertura de falhas. SISTEMAS ELETR?NICOS PROCESSAMENTO EM TEMPO REAL CIRCUITOS INTEGRADOS TOLER?NCIA A FALHAS (COMPUTA??O) HARDWARE SOFTWARE CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
15	Plataforma para inje??o de falhas em System-on-Chip (SOC) Dias, Marcelo Mallmann 31 August 2009 (has links) Made available in DSpace on 2015-04-14T13:56:21Z (GMT). No. of bitstreams: 1 434259.pdf: 861644 bytes, checksum: a1d7d01d86f05de127324b3bd5e5c832 (MD5) Previous issue date: 2009-08-31 / O aumento do n?mero de sistemas computacionais embarcados sendo utilizados em diversos segmentos de nossa sociedade, de simples bens de consumo at? aplica??es cr?ticas, intensificou o desenvolvimento de novas metodologias de teste e t?cnicas de toler?ncia a falhas capazes de garantir o grau de confiabilidade esperado os mesmos. A inje??o de falhas representa uma solu??o extremamente eficaz de avaliar metodologias de teste e t?cnicas de toler?ncia a falhas presentes em circuitos integrados complexos, tais como Systems-on-Chip (SoCs). Este trabalho prop?e uma nova plataforma de inje??o de falhas que combina conceitos relacionados a t?cnicas de inje??o de falhas baseadas em hardware e em simula??o. Esta nova plataforma proposta ? capaz de injetar diferentes tipos de falhas nos barramentos presentes em diversos componentes funcionais de um SoC descrito em VHDL. O uso de sabotadores controlados por um gerenciador de inje??o de falhas instanciado no mesmo FPGA que o sistema a ser avaliado ? capaz de prover uma alta controlabilidade aliada a baixa intrusividade e uma grande gama de modelos de falhas. Al?m disso, ? importante salientar que a plataforma proposta representa uma solu??o f?cil no que diz respeito ? configura??o e automa??o de experimentos de inje??o de falhas. ENGENHARIA EL?TRICA CIRCUITOS INTEGRADOS SISTEMAS (COMPUTA??O) CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
16	Detec??o de defeitos do tipo Resistive-Open em SRAM com o uso de l?gica comparadora de vizinhan?a Lavratti, Felipe de Andrade Neves 30 March 2012 (has links) Made available in DSpace on 2015-04-14T13:56:25Z (GMT). No. of bitstreams: 1 443096.pdf: 6133830 bytes, checksum: 908c7fe6bab5b7e729af71ec9803c982 (MD5) Previous issue date: 2012-03-30 / The world we live today is very dependent of the technology advance and the Systemson- Chip (SoC) are one of the most important actors of this advance. As a consequence, the Moore's law has been outperformed due to this strong demand on the SoCs for growth, so that new silicon technologies has emerged along with new fault models that decreased the reliability of these devices. SoCs built using Very Deep Sub-Micron technology have a great number of interconnections, increasing the occurrence of Resistive-Open defects that occur on these interconnections up to the point where Resistive-Open defects have become the most important responsible for defective SoCs escaping the manufacturing tests. According to SIA Roadmap's projection, the area consumed by the SRAM on the SoC will be around 95% of the available area, knowing these memory have a great number of interconnections there is also a great probability of occurring Resistive-Open defects on the SRAM circuits which will compromise the overall SoC reliability. When found on SRAMs cells, these defects are able to cause dynamic and static functional faults according to its size, where static faults are sensitized by performing only one operation at the SRAM cell, while dynamic are sensitized by two or more operations. The most common manufacturing tests used to detect defective SoCs are today unable to detect dynamic faults caused by weak Resistive-Open defects. March test performs access on the memory with the intention of sensitizing the faults and detect them as consequence. Due to the higher number of operations necessary to sensitize dynamics faults, this test is not able to detect them properly. Another test is the Iddq test, which is able to detect the presence of defects by monitoring the overall current consumption of a SoC while it's being excited by a known vector of data on its inputs. The consumed current is compared to thresholds or to another similar device that is being excited on the same way. Iddq test is not able to distinguish the variations on current caused by process variations or defects presence. There is an other type of test using On-Chip Current Sensors (OCCS) with March tests that performs current monitoring on the circuits of the SoC and compare them with a threshold in order to set a ag when the monitored current gets higher or lower than a con gured thresholds. Because the mentioned test uses threshold, it is not able to detect Resistive-Open defects that could happen in any node, with any size, in the SRAM cell performing any operation. In this scenario the current consumption could be higher or lower than the defectless current consumption of a cell, making impossible to detect defects using thresholds. By all that, the objective of this dissertation is to propose a defect detection technique able to overcome the three mentioned limitations of preview explained tests. For that, OCCS are along with March test, but a Neighborhood Comparator Logic (NCL) has been included with the objective to perform the detections itself, removing from the OCCS the mission of nding defects. Now the OCCS is only responsible in converting the monitored current consumption signal to a one bit PWM digital signal. In this form, no threshold will be required because the NCL will obtain the reference of the correct current consumption (behavior reference) within the SRAM circuits, by comparing the neighboring cells and adopting the most common behavior as the reference one, so that it will detect those cells that behave di erently from the reference as defective ones. The neighborhood's cells are excited in a parallel form by the test processor, which performs a March test algorithm. The NCL, the OCCS and the March test, together, compose the proposed Resistive-Open detection technique, which has been validated on this work. As result, the proposed technique has shown being able to detect all of the 10 million defective cells of a 1Gbit SRAM containing the hardest defect to detect (small ones). No defective cell has escaped the simulated test and there was only 294,890 good cells being wasted, which represents 0.029% of the simulated SRAM cells. All of that, by costing only the equivalent to the area of 56 SRAM cells per monitored column and a manufacturing test that performs 5 operations per line of the SRAM. / O mundo de hoje ? cada vez mais dependente dos avan?os tecnol?gicos sendo os sistemas em chip (SoC, do ingl?s System-on-Chip) um dos principais alicerces desse avan?o. Para tanto que a lei de Moore, que previu que a capacidade computacional dos SoCs dobraria a cada ano, j? foi ultrapassada. Devido a essa forte demanda por crescimento novas tecnologias surgiram e junto novos modelos de falhas passaram a afetar a con abilidade dos SoCs. Os SoCs produzidos nas tecnologias mais avan?adas (VDSM - Very Deep Sub-Micron), devido a sua alta integra??o de transistores em uma ?rea pequena, passaram a apresentar um grande n?mero de interconex?es fazendo com que os defeitos do tipo Resistive-Open, que ocorrem nessas interconex?es, se tornassem os maiores respons?veis por SoCs com defeitos escaparem os testes de manufaturas. Ainda, segundo proje??es da SIA Roadmap, a ?rea consumida pela SRAM ser? em torno de 95% da ?rea utilizada por um SoC. E sabendo que essas mem?rias possuem in?meras interconex?es, existe uma grande probabilidade de ocorrer defeitos do tipo Resistive-Open em seus circuitos. Esses defeitos s?o capazes de causar falhas funcionais do tipo est?ticas ou din?micas, de acordo com a sua intensidade. As falhas est?ticas s?o sensibilizadas com apenas uma opera??o e as din?micas necessitam de duas ou mais opera??es para que sejam sensibilizadas. Os testes de manufatura mais utilizados para aferir a sa?de dos SoCs durante o processo de manufatura s?o hoje ine cientes frente aos defeitos do tipo Resistive-Open. O mais comum deles ? o March Test, que efetua opera??es de escrita e leitura na mem?ria com o objetivo de sensibilizar falhas e por m detect?-las, entretanto ? ine ciente para detectar as falhas do tipo din?micas porque ? necess?rio efetuar mais opera??es que o tempo dispon?vel permite para que essas falhas sejam sensibilizadas. Outro teste utilizado durante a manufatura chama-se teste de corrente quiescente (teste de Iddq), este monitora a corrente consumida do SoC como um todo durante a inje??o de vetores nos sinais de entrada, o consumo de corrente do chip ? comparado com limiares ou outro chip id?ntico sob o mesmo teste para detectar defeitos, entretanto n?o ? poss?vel distinguir entre varia??es inseridas, nos sinais monitorados, pelos defeitos ou pelos corners, que s?o varia??es nas caracter?sticas dos transistores fruto do processo de manufatura. E, por m, o ?ltimo teste que ? apresentado ? uma mistura dos dois testes anteriores, utiliza sensores de correntes e algoritmos de opera??es como em March Test onde que o defeito ? detectado pelos sensores de corrente embutidos quando a corrente monitorada ultrapassa dado limiar, embora esse teste tenha condi??es de detectar defeitos que causam falhas din?micas e de n?o sofrerem in u?ncia dos corners, ele ? ine caz ao detectar defeitos do tipo Resistive-Open que possam ocorrer em qualquer local, com qualquer tamanho de imped?ncia em uma SRAM executando qualquer opera??o, porque os defeitos do tipo Resistive-Open ora aumentam o consumo de corrente e ora o diminui de acordo com essas tr?s caracter?sticas citadas. Compara??es por limiares n?o t?m condi??es de contornar esta di culdade. Com tudo isso, o objetivo desta disserta??o de mestrado ? propor uma t?cnica de detec ??o de defeitos que seja capaz de vencer as tr?s limita??es dos testes convencionais de manufatura apontadas. Para a tarefa, sensores de corrente s?o utilizados associadamente com March Test, entretanto com o acr?scimo de uma L?gica Comparadora de Vizinhan?a (LCV) que tomar? para si a fun??o de detectar defeitos, deixando os sensores apenas encarregados em transformar a corrente anal?gica em um sinal digital e que tem a capacidade de eliminar a necessidade do uso de limiares, junto com as demais limita??es apontadas. A LCV monitora o comportamento de uma vizinhan?a c?lulas e, comparando-os entre si, acusa aquela ou aquelas c?lulas que se comportarem diferentemente das suas vizinhas como defeituosas, desta maneira a refer?ncia de comportamento correto ? obtida da pr?- pria vizinhan?a durante a execu??o do teste de manufatura, eliminando a necessidade de conhecimento pr?vio do tipo de dist?rbio causado pelos defeitos do tipo Resistive-Open, trazendo facilidade na hora de projetar o sistema de detec??o de defeitos e adicionado o poder de detectar qualquer defeito que gere altera??es no sinal de corrente consumida das c?lulas da SRAM. Neste contexto, o sensor de corrente tem apenas a fun??o de gerar o sinal digital, que ? de 1 bit para cada sinal monitorado (V dd e Gnd) e modulado em largura de pulso (PWM), assim a LCV tamb?m tem sua complexidade diminu?da, pois ? constitu?da por apenas portas l?gicas. A LCV e os sensores de corrente s?o utilizados durante o teste de manufatura, as compara??es que ocorrem na vizinhan?a s?o efetuadas paralelamente nas c?lulas da mem ?ria, ent?o o teste de manufatura necessita efetuar opera??es de acesso para excitar semelhantemente todas as c?lulas que participam da mesma vizinhan?a. O March Test ? um teste que efetua opera??es desta natureza e, portanto, ? utilizado para controlar a execu??o do teste e recolher os dados proveniente da LCV, que cont?m o resultado da detec??o efetuada em cada vizinhan?a. A LCV, o sensor de corrente e o March Test juntos comp?em a t?cnica de detec??o de defeitos proposta nesta disserta??o, e foram validados quanto as suas fun??es para comprovar que operam como projetados. Por m, a t?cnica proposta se mostrou capaz de detectar as 10 milh?es de c?lulas defeituosas (com o defeito mais dif?cil de detectar que causa falha funcional din?mica) em uma SRAM de 1Gbit, sem deixar passar nenhuma c?lula defeituosa pelo teste de manufatura, junto a isso, 294.890 c?lulas boas foram desperdi?adas, isto-?, foram dadas como defeituosas enquanto n?o tinham defeitos, o que representa apenas 0,029% de desperd?cio. Tudo isso, ao custo de ?rea equivalente a ?rea consumida por 56 c?lulas de mem?ria, por coluna monitorada, e ao custo de um teste de manufatura que executa apenas 5 opera??es em cada linha da SRAM. ENGENHARIA EL?TRICA MICROELETR?NICA ALGORITMOS CIRCUITOS ELETR?NICOS TOLER?NCIA A FALHAS (INFORM?TICA) CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
17	Plataforma para inje??o de ru?do eletromagn?tico conduzido em circuitos integrados Prestes, Darcio Pinto 27 August 2010 (has links) Made available in DSpace on 2015-04-14T13:56:26Z (GMT). No. of bitstreams: 1 444651.pdf: 12436643 bytes, checksum: 55eac64fc740807199185f2d82272612 (MD5) Previous issue date: 2010-08-27 / Nowadays, it is possible to observe a growing number of embedded systems in applications ranging from simple consumer to safety critical uses. To cope with the actual situation, new test methodologies, fault tolerance techniques, as well as new paradigms that are capable of guaranteeing the robustness and reliability of the systems, have been developed. Therefore, it can be said that robustness and reliability represent two of the most important challenges for the design of integrated circuits and systems. Further, it is important to highlight that the environment hostility where embedded systems can be found has significantly increased due to different types of interference caused by several kind of sources. In this context, Electromagnetic Interference (EMI), that can interfere or degrade the proper behavior of the circuit, represents one of the principal problems when aiming for reliable and robust embedded systems. Therefore, it is necessary to introduce design techniques directly aimed to achieve Electromagnetic Compatibility (EMC), thus eliminating or reducing the effects of EMI to acceptable levels. This work proposes a new hardware-based fault injection platform able to inject Power Supply Disturbances (PSD) into integrated circuits and systems according to the IEC 61000-4-29 normative. The developed platform can be used as a support mechanism during the development of PSD-tolerant embedded systems. Moreover, it is important to note that the new fault injection platform represents a viable and easy-to-configure alternative that can be used to evaluate the robustness and reliability of embedded systems. / O crescente n?mero de sistemas computacionais embarcados nos mais diversos segmentos de nossa sociedade, desde simples bens de consumo at? aplica??es cr?ticas, intensificou o desenvolvimento de novas metodologias de teste, de t?cnicas de toler?ncia a falhas, bem como de novos paradigmas de implementa??o, capazes de garantirem a confiabilidade e a robustez desejada para os mesmos. Assim, caracter?sticas como confiabilidade e robustez de circuitos integrados e sistemas representam dois dos mais importantes desafios no projeto dos mesmos. Sistemas computacionais embarcados encontram-se inseridos em ambientes cada vez mais hostis devido a diferentes tipos de interfer?ncia gerados pelas mais variadas fontes. Neste contexto, a interfer?ncia eletromagn?tica (Electromagnetic Interference - EMI) representa um dos mais cr?ticos problemas no que diz respeito a confiabilidade e robustez em circuitos integrados e sistemas, podendo comprometer ou degradar o funcionamento dos mesmos. Assim, para eliminar ou reduzir esses efeitos ? n?veis aceit?veis, ? necess?rio introduzir o uso de t?cnicas de projeto visando ? compatibilidade eletromagn?tica (Electromagnetic Compatibility - EMC). Este trabalho prop?e uma nova plataforma de inje??o de falhas baseada em hardware, capaz de injetar ru?do eletromagn?tico conduzido nas linhas de alimenta??o (Power Supply Disturbances PSD) de circuitos integrados e sistemas de acordo com a norma IEC 61000-4-29. Desta forma, a plataforma desenvolvida serve como mecanismo de suporte ao desenvolvimento de circuitos e sistemas tolerantes ao ru?do eletromagn?tico conduzido, representando uma alternativa vi?vel para a avalia??o da confiabilidade e robustez de sistemas embarcados. ENGENHARIA EL?TRICA INTERFER?NCIAS ELETROMAGN?TICAS TOLER?NCIA A FALHAS (INFORM?TICA) CIRCUITOS INTEGRADOS CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
18	Implementa??o e avalia??o de m?todos para confiabilidade de redes intra-chip Silva, Alzemiro Henrique Lucas da 27 January 2010 (has links) Made available in DSpace on 2015-04-14T14:49:30Z (GMT). No. of bitstreams: 1 430304.pdf: 2164502 bytes, checksum: db47a771a28123bb6c1aa5df3d495e3b (MD5) Previous issue date: 2010-01-27 / As inova??es na fabrica??o de circuitos integrados t?m reduzido continuamente o tamanho dos componentes, permitindo um aumento na densidade l?gica de sistemas eletr?nicos complexos, denominados SoCs (Systems‐on‐a‐Chip), mas afetando tamb?m a confiabilidade destes componentes. Barramentos globais utilizados para interconex?o de componentes em um chip est?o cada vez mais sujeitos aos efeitos de crosstalk, que podem causar atrasos e picos nos sinais. Este trabalho apresenta e avalia diferentes t?cnicas para toler?ncia a falhas em redes intra‐chip, nos quais a rede ? capaz de manter o mesmo desempenho da rede original mesmo na ocorr?ncia de falhas. Quatro t?cnicas s?o apresentadas e avaliadas em termos de consumo adicional de ?rea, lat?ncia dos pacotes, consumo de pot?ncia e an?lise de defeitos residuais. Os resultados demonstram que o uso de codifica??o CRC nos enlaces ? vantajoso quando o m?nimo acr?scimo de ?rea e consumo de pot?ncia ? o principal objetivo. Entretanto, cada um dos m?todos apresentados neste trabalho tem as suas pr?prias vantagens e podem ser utilizados dependendo da aplica??o alvo. INFORM?TICA REDES DE COMPUTADORES ARQUITETURA DE REDES TOLER?NCIA A FALHAS (INFORM?TICA) CONFIABILIDADE DE SISTEMAS
19	Mecanismo de toler?ncia a falhas atrav?s de escalonamento para uma arquitetura reconfigur?vel de gr?o grosso Santos, Eliselma Vieira dos 16 March 2015 (has links) Submitted by Automa??o e Estat?stica (sst@bczm.ufrn.br) on 2016-03-09T23:06:17Z No. of bitstreams: 1 EliselmaVieiraDosSantos_DISSERT.pdf: 2170008 bytes, checksum: a21121290242fb8c43c3f7fe9a9cf8d0 (MD5) / Approved for entry into archive by Arlan Eloi Leite Silva (eloihistoriador@yahoo.com.br) on 2016-03-11T19:37:06Z (GMT) No. of bitstreams: 1 EliselmaVieiraDosSantos_DISSERT.pdf: 2170008 bytes, checksum: a21121290242fb8c43c3f7fe9a9cf8d0 (MD5) / Made available in DSpace on 2016-03-11T19:37:06Z (GMT). No. of bitstreams: 1 EliselmaVieiraDosSantos_DISSERT.pdf: 2170008 bytes, checksum: a21121290242fb8c43c3f7fe9a9cf8d0 (MD5) Previous issue date: 2015-03-16 / A evolu??o cont?nua da tecnologia de circuitos integrados tem permitido integrar milhares de transistores em uma ?nica pastilha de sil?cio. Devido ? miniaturiza??o desta tecnologia, a redu??o do di?metro do fio e do transistor os tornaram mais fr?geis e suscet?veis a quebras, tornando o circuito mais suscept?vel a falhas permanentes tanto durante o processo de fabrica??o quanto durante seu tempo de vida ?til. As arquiteturas reconfigur?veis de gr?o grosso, tamb?m chamadas de CGRAs (Coarse Grained Reconfigurable Architectures), t?m sido utilizadas como uma alternativa ?s arquiteturas tradicionais para tentar tolerar essas falhas, devido ? sua intr?nseca redund?ncia de hardware e ao alto desempenho obtido por essas arquiteturas. Essa disserta??o prop?e um mecanismo de toler?ncia a falhas numa CGRA com o objetivo de aumentar a toler?ncia da arquitetura mesmo considerando uma alta taxa de falhas. O mecanismo proposto foi adicionado ao escalonador da CGRA, que consiste no mecanismo respons?vel pelo mapeamento das instru??es na arquitetura. O mapeamento das instru??es ocorre em tempo de execu??o, traduzindo o c?digo bin?rio sem a necessidade de recompila??o. Al?m disso, para permitir a acelera??o da aplica??o, o mapeamento ? realizado atrav?s de um algoritmo guloso que faz uso do modulo scheduling, que consiste em uma t?cnica em software pipeline para acelera??o de la?os. Os resultados obtidos a partir de simula??es de inje??o de falhas e de execu??o do escalonador demonstram que, mesmo com o mecanismo de toler?ncia a falhas proposto, o tempo de mapeamento das instru??es se mant?m na ordem de microssegundos. Esse resultado permite que o mapeamento das instru??es continue sendo realizado em tempo de execu??o. Al?m disso, tamb?m foi realizado um estudo de taxa de mapeamento do escalonador. Os resultados demonstram que, mesmo com taxas acima de 50% de falhas em unidades funcionas e componentes de interconex?o, o escalonador conseguiu mapear instru??es na arquitetura em parte das aplica??es testadas. / The continuous evolution of integrated circuit technology has allowed integrating thousands of transistors on a single chip. This is due to the miniaturization process, which reduces the diameter of wires and transistors. One drawback of this process is that the circuit becomes more fragile and susceptible to break, making the circuit more susceptible to permanent faults during the manufacturing process as well as during their lifetime. Coarse Grained Reconfigurable Architectures (CGRAs) have been used as an alternative to traditional architectures in an attempt to tolerate such faults due to its intrinsic hardware redundancy and high performance. This work proposes a fault tolerance mechanism in a CGRA in order to increase the architecture fault tolerance even considering a high fault rate. The proposed mechanism was added to the scheduler, which is the mechanism responsible for mapping instructions onto the architecture. The instruction mapping occurs at runtime, translating binary code without the need for recompilation. Furthermore, to allow faster implementation, instruction mapping is performed using a greedy module scheduling algorithm, which consists of a software pipeline technique for loop acceleration. The results show that, even with the proposed mechanism, the time for mapping instructions is still in order of microseconds. This result allows that instruction mapping process remains at runtime. In addition, a study was also carried out mapping scheduler rate. The results demonstrate that even at fault rates over 50% in functional units and interconnection components, the scheduler was able to map instructions onto the architecture in most of the tested applications. Arquitetura reconfigur?vel Toler?ncia a falhas
20	Escalonador em hardware para dete??o de falhas em sistemas embarcados de tempo real Tarrillo Olano, Jimmy Fernando 31 March 2009 (has links) Made available in DSpace on 2015-04-14T13:56:16Z (GMT). No. of bitstreams: 1 417996.pdf: 4174866 bytes, checksum: 4a179b07ca438054c69ef666401f47d5 (MD5) Previous issue date: 2009-03-31 / O desenvolvimento de aplica??es cr?ticas de tempo real tolerantes a falhas representa um grande desafio para engenheiros e pesquisadores, visto que uma falha pode gerar efeitos catastr?ficos para o sistema, ocasionando grandes perdas financeiras e/ou de vidas humanas. Este tipo de sistema comumente utiliza processadores embarcados que processam dados de entrada e geram um determinado n?mero de sa?das de acordo com as especifica??es do mesmo. Entretanto, devido ? alta complexidade dos sistemas embarcados de tempo real, ? cada vez mais freq?ente o uso de um sistema operacional com o objetivo de simplificar o projeto do mesmo. Basicamente, o sistema operacional de tempo real (real-time operating system - RTOS) funciona como uma interface entre o hardware e o software. Contudo, sistemas embarcados de tempo real podem ser afetados por falhas transientes. Estas falhas podem degradar tanto o funcionamento da aplica??o quanto o do pr?prio sistema operacional embarcado. Em sistemas embarcados de tempo real, estas falhas podem afetar n?o somente as sa?das produzidas durante a execu??o da aplica??o, mas tamb?m as restri??es de tempo associadas ?s tarefas executadas pelo sistema operacional. Neste contexto, o presente trabalho prop?e uma nova t?cnica baseada em hardware capaz de aumentar a robustez de sistemas embarcados de tempo real. A t?cnica proposta ? baseada na implementa??o de um Infrastructure IP core (I-IP) denominado Escalonador- HW, que monitora a execu??o das tarefas e verifica se as mesmas est?o de acordo com as restri??es de tempo e seq??ncia de execu??o especificadas. Para validar a t?cnica proposta, foi desenvolvido um estudo-de-caso baseado em um microprocessador pipeline e um kernel de RTOS, al?m de um conjunto de benchmarks capazes de exercitar diferentes servi?os oferecidos pelo sistema operacional embarcado. Este estudo-de-caso foi mapeado em um dispositivo program?vel l?gico (FPGA). Experimentos de inje??o de falhas por Software e Hardware foram realizados para validar a capacidade de detec??o de falhas e estimar os overheads introduzidos pela t?cnica. Os resultados demonstram que a lat?ncia de detec??o de falhas ? menor que a lat?ncia de detec??o por parte do RTOS, sendo a cobertura de detec??o do Escalonador-HW maior que ? RTOS. Por ultimo, o overhead introduzido representa aproximadamente 6% do processador Plasma. SISTEMAS ELETR?NICOS CIRCUITOS INTEGRADOS TOLER?NCIA A FALHAS (COMPUTA??O) HARDWARE SOFTWARE SISTEMAS (COMPUTA??O) PROCESSAMENTO EM TEMPO REAL CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA

Search results