Layered approach for runtime fault recovery in NOC-Based MPSOCS

Submitted by Setor de Tratamento da Informa??o - BC/PUCRS (tede2@pucrs.br) on 2015-08-31T11:15:37Z
No. of bitstreams: 1
474345 - Texto Completo.pdf: 3978955 bytes, checksum: aa0f35953c5bc355cef3bfc0576e2a44 (MD5) / Made available in DSpace on 2015-08-31T11:15:38Z (GMT). No. of bitstreams: 1
474345 - Texto Completo.pdf: 3978955 bytes, checksum: aa0f35953c5bc355cef3bfc0576e2a44 (MD5)
Previous issue date: 2015-06-10 / Coordena??o de Aperfei?oamento de Pessoal de N?vel Superior - CAPES / Mechanisms for fault-tolerance in MPSoCs are mandatory to cope with defects during
fabrication or faults during product lifetime. For instance, permanent faults on the interconnect network can stall or crash applications, even though the MPSoCs? network has alternative faultfree paths to a given destination. Runtime Fault Tolerance provide self-organization mechanisms to continue delivering their processing services despite defective cores due to the presence of permanent and/or transient faults throughout their lifetime. This Thesis presents a runtime layered approach to a fault-tolerant MPSoC, where each layer is responsible for solving one part of the problem. The approach is built on top of a novel small specialized network used to search fault-free paths. The first layer, named physical layer, is responsible for the fault detection and fault isolation of defective routers. The second layer, named the network layer, is responsible for replacing the
original faulty path by an alternative fault-free path. A fault-tolerant routing method executes a path search mechanism and reconfigures the network to use the faulty-free path. The third layer, named transport layer, implements a fault-tolerant communication protocol that triggers the path search in the network layer when a packet does not reach its destination. The last layer, application layer, is responsible for moving tasks from the defective processing element (PE) to a healthy PE, saving the task?s internal state, and restoring it in case of fault while executing a task. Results at the network layer, show a fast path finding method. The entire process of finding alternative paths takes typically less than 2000 clock cycles or 20 microseconds. In the transport layer, different approaches were evaluated being capable of detecting a lost message and start the retransmission. The results show that the overhead to retransmit the message is 2.46X compared to the time to transmit a message without fault, being all other messages transmitted with no
overhead. For the DTW, MPEG, and synthetic applications the average-case application execution overhead was 0.17%, 0.09%, and 0.42%, respectively. This represents less than 5% of the application execution overhead worst case. At the application layer, the entire fault recovery protocol executes fast, with a low execution time overhead with no faults (5.67%) and with faults (17.33% - 28.34%). / Mecanismos de toler?ncia a falhas em MPSoCs s?o obrigat?rios para enfrentar defeitos
ocorridos durante a fabrica??o ou falhas durante a vida ?til do circuito integrado. Por exemplo,
falhas permanentes na rede de interconex?o do MPSoC podem interromper aplica??es mesmo
que a rede tenha caminhos sem falha para um determinado destino. A toler?ncia a falhas em
tempo de execu??o fornece mecanismos de auto-organiza??o para continuar a oferecer servi?os
de processamento apesar de n?cleos defeituosos devido ? presen?a de falhas permanentes e/ou
transit?rias durante toda a vida dos chips. Esta Tese apresenta uma abordagem em camadas
para um MPSoC tolerante a falhas, onde cada camada ? respons?vel por resolver uma parte do
problema. O m?todo ? constru?do sobre uma nova proposta de rede especializada utilizada para
procurar caminhos livre de falha. A primeira camada, denominada camada f?sica, ? respons?vel
pela detec??o de falhas e isolamento das partes defeituosas da rede. A segunda camada,
denominada camada de rede, ? respons?vel por substituir um caminho defeituoso por um
caminho alternativo livre de falhas. Um m?todo de roteamento tolerante a falhas executa o
mecanismo de busca de caminhos e reconfigura a rede para usar este caminho livre de falhas. A
terceira camada, denominada camada de transporte, implementa um protocolo de comunica??o
tolerante a falhas que detecta quando pacotes n?o s?o entregues ao destino, acionando o m?todo
proposto na camada de rede. A ?ltima camada, camada de aplica??o, ? respons?vel por mover as
tarefas do elemento de processamento (PE) defeituoso para um PE saud?vel, salvar o estado
interno da tarefa, e restaur?-la em caso de falha durante a execu??o. Os resultados na camada de
rede mostram um m?todo r?pido para encontrar caminhos livres de falhas. O processo de procura
de caminhos alternativos leva tipicamente menos de 2000 ciclos de rel?gio (ou 20
microssegundos). Na camada de transporte, diferentes abordagens foram avaliadas para detectar
uma mensagem n?o entregue e acionar a retransmiss?o. Os resultados mostram que a
sobrecarga para retransmitir a mensagem ? 2,46 vezes maior quando comparado com o tempo
para transmitir uma mensagem sem falha, sendo que todas outras mensagens subsequentes s?o
transmitidas sem sobrecarga. Para as aplica??es DTW, MPEG e sint?tica, o caso m?dio de
sobrecarga no tempo de execu??o da aplica??o ? de 0,17%, 0,09% e 0,42%, respectivamente.
Isto representa menos do que 5% do tempo de execu??o de uma dada aplica??o no pior caso. Na
camada de aplica??o, todo o protocolo de recupera??o de falhas executa rapidamente, com uma
baixa sobrecarga no tempo de execu??o sem falhas (5,67%) e com falhas (17,33% - 28,34%).

Identiferoai:union.ndltd.org:IBICT/oai:tede2.pucrs.br:tede/6279
Date10 June 2015
CreatorsW?chter, Eduardo Weber
ContributorsMoraes, Fernando Gehm, Amory, Alexandre de Morais
PublisherPontif?cia Universidade Cat?lica do Rio Grande do Sul, Programa de P?s-Gradua??o em Ci?ncia da Computa??o, PUCRS, Brasil, Faculdade de Inform?tica
Source SetsIBICT Brazilian ETDs
LanguageEnglish
Detected LanguageEnglish
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis
Formatapplication/pdf
Sourcereponame:Biblioteca Digital de Teses e Dissertações da PUC_RS, instname:Pontifícia Universidade Católica do Rio Grande do Sul, instacron:PUC_RS
Rightsinfo:eu-repo/semantics/openAccess
Relation1974996533081274470, 600, 600, 600, 600, -3008542510401149144, 3671711205811204509, 2075167498588264571

Page generated in 0.0031 seconds