Return to search

Toler?ncia a falhas em elementos de processamento de MPSoCs

Submitted by Setor de Tratamento da Informa??o - BC/PUCRS (tede2@pucrs.br) on 2015-12-14T20:02:04Z
No. of bitstreams: 1
476711 - Texto Completo.pdf: 1459361 bytes, checksum: 48f64a1e41d4416a6b1e434eaf5ed4d3 (MD5) / Made available in DSpace on 2015-12-14T20:02:04Z (GMT). No. of bitstreams: 1
476711 - Texto Completo.pdf: 1459361 bytes, checksum: 48f64a1e41d4416a6b1e434eaf5ed4d3 (MD5)
Previous issue date: 2015-03-13 / The need of more processing capacity for embedded systems nowadays is pushing the research of MPSoCs with tens or hundreds of processors. These characteristics bring design challenges such as scalability and dependability. Such complex systems must have fault tolerant methods to ensure acceptable reliability and availability. This way, the user is not exposed to significant data losses, malfunctioning and even the total system failure. Considering this technology trend, the present work proposes a fault tolerance method with focus in fault recovery. The method uses concepts largely explored in distributed systems to solve the problem of permanent failures in the processing elements of MPSoCs. The implementation is exclusively in software, and recovers the system exposed to a permanent failure on processing elements, reallocating all tasks that were executing in the faulty element to a healthy processing element. The failed application tasks restart their executions since there is no context saving, enabling a lightweight method. The experiments are performed in the HeMPS platform, evaluating the most relevant parameters as recovery time, communication bandwidth impact, scalability and others. In the absence of faults, the proposed protocol has 21 Kbytes of memory area (20% more compared to the original kernel) and no overhead in terms of execution time. In the presence of faults, the results demonstrate total recovery times from 0.2ms to 1ms, depending on the number of reallocated tasks (1 to 7). The biggest impact in the protocol time is related with the reallocation task phase. / A pesquisa em MPSoCs (do ingl?s, Multiprocessor System on Chip) tem sido motivada pela necessidade crescente de maior capacidade de processamento das aplica??es de sistemas embarcados. Devido ? esta tend?ncia, os MPSoCs tornam-se cada vez mais complexos e miniaturizados. Estas caracter?sticas trazem associados desafios como escalabilidade e dependabilidade. O sistema que tem a necessidade de ser confi?vel e estar dispon?vel em todo o seu tempo opera??o precisa ser tolerante a falhas a ponto de recuperar-se automaticamente. Dessa forma o usu?rio n?o ser? exposto a perdas de informa??o, execu??o malsucedida ou at? mesmo a falha total do sistema. Este trabalho prop?e um m?todo de toler?ncia a falhas com foco na recupera??o de falhas. O m?todo utiliza conceitos utilizados em computa??o distribu?da para solucionar o problema de falhas permanentes em elementos de processamento de um MPSoCs. O m?todo proposto, implementado exclusivamente em software, recupera um sistema exposto a uma falha permanente de um elemento de processamento, realizando uma realoca??o das tarefas que estavam sendo executadas pelo elemento que falhou para um elemento de processamento saud?vel do sistema. As tarefas da aplica??o que falharam devem reiniciar suas execu??es do ponto de partida dado que o contexto da execu??o n?o ? salvo, mantendo assim um baixo overhead no sistema, como demonstrado nos resultados obtidos. Os experimentos foram realizados na plataforma HeMPS com uma avalia??o dos par?metros mais relevantes como tempo de recupera??o, impacto em banda de comunica??o, escala e outros, que justificam a viabilidade e as vantagens do m?todo proposto. Na aus?ncia de falhas, o protocolo proposto n?o altera o tempo de execu??o, por?m aumenta o tamanho de mem?ria do kernel para 21 Kbytes, 20% de acr?scimo comparado com o kernel original. Os resultados obtidos na presen?a de falhas mostram que o tempo total de recupera??o de falhas do m?todo ? de 0,2ms a 1ms, dependendo do n?mero de tarefas realocadas devido ao PE defeituoso. O maior impacto de tempo no protocolo se d? com a etapa de realoca??o de tarefas.

Identiferoai:union.ndltd.org:IBICT/oai:tede2.pucrs.br:tede/6435
Date13 March 2015
CreatorsBarreto, Francisco Favorino da Silva
ContributorsAmory, Alexandre de Morais
PublisherPontif?cia Universidade Cat?lica do Rio Grande do Sul, Programa de P?s-Gradua??o em Ci?ncia da Computa??o, PUCRS, Brasil, Faculdade de Inform?tica
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Formatapplication/pdf
Sourcereponame:Biblioteca Digital de Teses e Dissertações da PUC_RS, instname:Pontifícia Universidade Católica do Rio Grande do Sul, instacron:PUC_RS
Rightsinfo:eu-repo/semantics/openAccess
Relation1974996533081274470, 600, 600, 600, -3008542510401149144, 3671711205811204509

Page generated in 0.0016 seconds