• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 85
  • 16
  • Tagged with
  • 101
  • 43
  • 36
  • 29
  • 29
  • 29
  • 28
  • 28
  • 28
  • 28
  • 28
  • 23
  • 18
  • 18
  • 13
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
71

Mapping applications onto cluster-based MPSOCS

Longhi, Oliver Bellaver 12 March 2014 (has links)
Made available in DSpace on 2015-04-14T14:50:11Z (GMT). No. of bitstreams: 1 457720.pdf: 1953741 bytes, checksum: 6ec1fd7c64db87bf06e50c9e430a7c7f (MD5) Previous issue date: 2014-03-12 / Durante d?cadas, a ind?stria aumentava a frequ?ncia de opera??o dos processores para responder ?s necessidades de desempenho. Ap?s atingir uma limita??o f?sica em termos de gera??o de calor, o novo eixo escolhido para explorar desempenho foi escalar o n?mero de elementos de processamento. Para lidar com o crescente n?mero de elementos de processamento, cada vez mais s?o importantes as metodologias para auxiliar os projetistas no desenvolvimento de sistemas multiprocessados. Abordagens baseadas em simula??o e prototipa??o em FPGA s?o onerosas pois demandam muitos recursos, tais como projetistas e tempo. Por isso, t?cnicas baseadas em modelos anal?ticos ganham visibilidade como alternativas para essas abordagens onerosas. Por?m, modelos anal?ticos possuem desvantagens, como a dificuldade de modelar e caracterizar diferentes arquiteturas. Al?m disso, topologias emergentes de sistemas multiprocessados carecem de modelos anal?ticos. Levando esse cen?rio em conta, este trabalho prop?e um modelo anal?tico que suporta atividades comuns de projetistas tais como mapeamento de aplica??es e gera??o de prot?tipos de sistemas multiprocessados. / The industry for decades has increased the clock rate to answer the need of performance. Reaching a physical limitations in terms of heat, the new chosen axis to increase performance is to scale the number of processing elements. To deal with that scaling number of processing elements, more and more important are the methodologies to support the design of MPSoCs. Approaches like simulation and FPGA-based prototyping are too expensive and timing consuming. Therefore, techniques like Analytical Models represent important alternatives to the previous consuming approaches. However, these architecture models are difficult to build and characterize. In addition, emerging MPSoC topologies lack analytical models. Due to that, this work proposes an analytical model to support designers in common tasks of the design process like application mapping and prototypes generation.
72

3D network-on-chip architectural exploration

Souza, Yan Ghidini de 12 March 2014 (has links)
Made available in DSpace on 2015-04-14T14:50:11Z (GMT). No. of bitstreams: 1 458144.pdf: 2848899 bytes, checksum: aca140c6eed44d36131ec75411489b42 (MD5) Previous issue date: 2014-03-12 / Communication plays a crucial role in high performance design of Multiprocessor Systems-on-Chips (MPSoCs). Accordingly, Networks-on-Chip (NoCs) have been proposed as a solution to deal with the global communication of complex MPSoCs. NoC-based architectures are characterized by various tradeoffs related to structural characteristics, performance specifications, and application demands. Additionally, wire delay and power dissipation are rising as the number of cores over a 2D (two-dimensional) plane increases. One of the reasons for that is the long network diameter and overall communication distance. In this scenario, 3D (three-dimensional) Integrated Circuit (IC) technology applied to NoC architectures allows greater device integration, shorter interconnection, and it aims to reduce the length and number of global interconnections (interconnections among every processing element), which directly influences on the communication performance and allows opportunities for chip architecture innovations. Moreover, 3D NoC-based architectures appear as alternative to reduce network latency, energy consumption and area footprint in comparison to 2D NoC topologies. Albeit a wide variety of technologies is available for 3D interconnection, the employment of Through Silicon Vias (TSVs) is a feasible approach for the interconnection between stacked layers. However, the drawback for current 3D technologies is that TSVs are usually very expensive in terms of silicon area limiting their usage. This work presents a 3D mesh NoC architecture called Lasio, exploring architectural impacts of 3D versus 2D NoC topologies on latency, throughput, and buffers occupancy. It also analyzes the influence of buffer depth on communication latency and on application latency. Such evaluations considered varied network parameters, such as traffic patterns, buffer depth, TSVs serialization level, and a range of packet sizes. Besides, during this work, it was implemented a TSV serialization scheme on the Lasio NoC, and it was analyzed the impact of such serialization scheme on area cost, power dissipation, network and application latency, and occupancy on buffers of input ports for a 4x4x4 3D mesh NoCs with different serialization degrees. Experimental results show that, in average, 3D topologies minimize 30% the application latency and increase 56% the packets throughput, when compared to 2D topologies. In addition, this work highlights that when applying an appropriate buffer depth, the application latency is reduced up to 3.4 times for 2D topologies and 2.3 times for 3D topologies. Additional results demonstrate that NoCs 3D approach reduce the links occupancy when compared to 2D counterpart, which potentially leads to higher throughput and more dissipation power and latency efficiency. Moreover, results also demonstrate that the proposed serialization scheme allows reducing TSVs usage with low performance cost, displaying the potential benefits of the scheme in 3D NoC-based MPSoCs. / Comunica??o desempenha papel fundamental em projetos de Sistemas Multiprocessados em Chips (MPSoCs, do ingl?s Multiprocessor Systems-on-Chips). Desta maneira, Redes Intrachip (NoCs, do ingl?s Networks-on-Chips) t?m sido propostas como solu??o para a comunica??o global em MPSoCs complexos. Arquiteturas baseadas em NoCs s?o caracterizadas por v?rios compromissos relacionados a caracter?sticas estruturais, a especifica??es de desempenho e a demandas da aplica??o. Adicionalmente, o atraso na comunica??o e a dissipa??o de pot?ncia est?o aumentando conforme o n?mero de n?cleos em uma camada 2D (bidimensional) aumenta. Uma das raz?es para isso ? o longo di?metro da rede e a dist?ncia de comunica??o entre n?cleos. Neste cen?rio, a tecnologia de Circuito Integrado (CI) 3D (tridimensional) aplicada ?s arquiteturas do tipo NoC permite maior integra??o entre dispositivos e com interconex?es menores, e possibilita tamb?m reduzir o tamanho e o n?mero de interconex?es globais (conex?es entre todos os elementos de uma rede), o que, por sua vez, influencia diretamente o desempenho da comunica??o e permite oportunidades para inova??es em arquiteturas de chips. Ademais, arquiteturas baseadas em NoCs 3D aparecem como alternativa ? redu??o de indicadores como lat?ncia, consumo de energia e ?rea quando comparadas ?s topologias de NoCs 2D. Embora existam diversas tecnologias dispon?veis para interconex?es em redes 3D, a utiliza??o de Through Silicon Vias (TSVs) ? uma abordagem vi?vel como interconex?o entre camadas empilhadas. Entretanto, a desvantagem que a TSV ocasiona nas atuais tecnologias 3D ? que tais interconex?es s?o geralmente custosas em termos de ?rea de sil?cio, o que acarreta limita??es no seu uso. Este trabalho apresenta uma arquitetura de NoC 3D do tipo malha chamada Lasio, explorando impactos arquiteturais e comparando duas topologias, uma 3D e outra 2D, em termos de lat?ncia, vaz?o e ocupa??o de buffers. O presente trabalho tamb?m analisa a influ?ncia da profundidade dos buffers de entrada das portas dos roteadores nas lat?ncias de comunica??o e de aplica??o. Tais avalia??es consideraram diferentes par?metros de rede, como por exemplo, padr?es de tr?fego, profundidade dos buffers, n?vel de serializa??o das TSVs e uma variedade de tamanhos de pacotes. Al?m disso, durante este trabalho, foi implementado um esquema de serializa??o de TSV na Lasio. Em seguida, foi analisado o impacto de diferentes n?veis de serializa??o no custo de ?rea, na dissipa??o de pot?ncia, nas lat?ncias de rede e de aplica??o e na ocupa??o dos buffers de entrada das portas de cada roteador em uma NoC 3D 4x4x4 do tipo malha. Dentre os resultados alcan?ados durante este trabalho, foi verificado que topologias 3D quando comparadas a topologias 2D minimizam em 30% a lat?ncia de aplica??o e aumentam 56% a vaz?o dos pacotes. Al?m disso, este trabalho salienta que quando ? aplicado um tamanho de buffer apropriado, a lat?ncia de aplica??o ? reduzida at? 3,4 vezes para topologias 2D e 2,3 vezes para topologias 3D. Resultados adicionais demonstram que NoCs 3D reduzem mais a ocupa??o das conex?es internas quando comparadas com NoCs equivalentes 2D, o que potencialmente permite maior vaz?o e maior efici?ncia com rela??o ? dissipa??o de pot?ncia e lat?ncia. Ademais, os resultados tamb?m demonstraram que o esquema de serializa??o proposto permite reduzir o uso de TSVs com uma baixa perda de desempenho, o que ressalta potenciais benef?cios do esquema em MPSoCs baseados em NoCs 3D.
73

Mecanismo de controle de QoS atrav?s de DFS em MPSOCS

Guindani, Guilherme Montez 14 July 2014 (has links)
Made available in DSpace on 2015-04-14T14:50:14Z (GMT). No. of bitstreams: 1 460169.pdf: 3081910 bytes, checksum: bda8ab1c3d4e5934b700c785cbc0617c (MD5) Previous issue date: 2014-07-14 / The quality of service (QoS) management in NoC-based MPSoCs, with dozens of applications executing simultaneously, is an open research challenge in the integrated circuit design area. Adaptability techniques, which use different QoS metrics, have been used at design time to guarantee the QoS of the applications. Designers include in their systems monitoring schema that guides embedded controllers in managing the resources of the MPSoC to satisfy the QoS requirements imposed to the applications. In order words, MPSoCs are able to self-adapt while running a set of applications. The self-adaptation capability is a fundamental characteristic to satisfy the QoS requirements on the systems with dynamic workload. The dynamic voltage and frequency scaling (DVFS) is the most used adaptation method for reducing the overall energy consumption of an MPSoC. However, this method does not take into account other QoS requirements such as throughput or latency. Another example of adaptation technique is task migration, whose main goal is to balance the workload of the MPSoC. The QoS control mechanism proposed in the scope of this Thesis uses the dynamic frequency scaling (DFS) technique to control the QoS parameters of the application, keeping energy consumption low profile. Each processor has a monitoring system, a QoS evaluation system and an adaptation module, which are used to control the QoS parameters to satisfy the QoS requirements imposed to the applications. At the system startup, each processor uses a DFS policy that tries to optimize the communication with its neighbor s processors. The processors use this policy up to the moment when they reach a steady frequency state. After reaching the steady frequency state the QoS monitoring starts, evaluating if they the requirements imposed at design time are respected. The proposed QoS control mechanism was evaluated using two synthetic and one real application, using the HeMPS MPSoC, with the throughput and latency parameters as the QoS parameters to be controlled. The presented results show that the proposed QoS control mechanism can satisfy the imposed QoS requirements using the DFS technique while maintaining low energy consumption on the HeMPS MPSoC. / O controle dos requisitos de qualidade de servi?o (QoS) em MPSoCs baseados em NoC, com dezenas de tarefas sendo executadas simultaneamente ainda ? um desafio na ?rea de projeto de circuitos integrados. T?cnicas de adaptabilidade que adotam diferentes m?tricas de QoS s?o utilizadas tanto em tempo de projeto quanto em tempo de execu??o. Os projetistas incluem em seus sistemas mecanismos de monitoramento que guiam os controladores embarcados na adapta??o dos recursos do MPSoC para atender os requisitos de QoS impostos a aplica??es. Em outras palavras, MPSoCs s?o capazes de se auto-adaptarem, enquanto executam um dado conjunto de aplica??es. A capacidade de auto-adapta??o ? uma caracter?stica fundamental para atender requisitos de QoS nos sistemas que apresentam carga din?mica de trabalho. O ajuste din?mico de tens?o e frequ?ncia (DVFS) ? a t?cnica de adapta??o mais utilizada para reduzir o consumo de energia geral de um MPSoC, por?m esta t?cnica n?o leva em considera??o outros requisitos de QoS, como vaz?o ou lat?ncia. Outro exemplo de t?cnica de adapta??o frequentemente utilizada ? a migra??o de tarefas, cujo foco ? o balanceamento de carga de uma aplica??o. O mecanismo de controle de QoS em MPSoCs proposto no escopo desta Tese de Doutorado utiliza a t?cnica de adapta??o de ger?ncia din?mica de frequ?ncia (DFS) para controlar os requisitos de QoS e aplica??es de um MPSoC, mantendo um baixo perfil de consumo de energia. Cada processador possui um sistema de monitoramento, um sistema de avalia??o de QoS e um m?dulo de adaptabilidade, que s?o utilizados para controlar os par?metros de QoS das aplica??es. Em um momento inicial, cada processador que executa uma tarefa de uma dada aplica??o utiliza uma pol?tica de DFS, onde a comunica??o com seus vizinhos ? otimizada. Ap?s atingir um estado de estabilidade de frequ?ncia, o desempenho da aplica??o ? monitorado e controlado, ajustando-se a frequ?ncia dos processadores da aplica??o de acordo com os requisitos de QoS impostos em tempo de projeto. O mecanismo proposto de controle de QoS em MPSoCs foi avaliado utilizando duas aplica??es sint?ticas e uma real, executadas sobre a plataforma HeMPS, e com a vaz?o e lat?ncia como requisitos de QoS controlados. Os resultados mostram que o mecanismo proposto de controle de QoS em MPSoCs consegue atender aos requisitos de QoS impostos a uma aplica??o, atrav?s da utiliza??o da t?cnica de DFS e manter um baixo consumo de energia.
74

Aloca??o de tarefas e comunica??o entre tarefas em MPSoCs

Woszezenki, Cristiane Raquel 28 February 2007 (has links)
Made available in DSpace on 2015-04-14T14:50:22Z (GMT). No. of bitstreams: 1 391904.pdf: 2090015 bytes, checksum: 1ffa43fc181390380d561b08c1d9f13e (MD5) Previous issue date: 2007-02-28 / MPSoCs (do ingl?s, Multiprocessor System On Chip) constituem uma tend?ncia no projeto de sistemas embarcados, pois possibilitam o melhor atendimento dos requisitos da aplica??o. Isso se deve ao fato de que a arquitetura desses sistemas ? composta por v?rios processadores, m?dulos de hardware dedicados, mem?ria e meio de interconex?o, fornecendo um maior poder computacional quando comparados a sistemas monoprocessados equivalentes. No entanto, estrat?gias que possibilitem o aproveitamento da capacidade de processamento destas arquiteturas precisam ser mais bem entendidas e exploradas. Para isso, ? necess?rio dispor de infra-estruturas de hardware e software que habilitem gerenciar a execu??o de tarefas no MPSoC. A partir destas infra-estruturas deve ser poss?vel, por exemplo, mapear tarefas dinamicamente nos processadores, balanceando a carga de trabalho do MPSoC atrav?s de estrat?gias de aloca??o din?mica de tarefas. O estado da arte da bibliografia no tema explora estrat?gias de aloca??o est?tica e din?mica de tarefas sobre MPSoCs e avalia a viabilidade e efici?ncia das mesmas. Contudo, a necessidade de cria??o das infra-estruturas de hardware e software para viabilizar a explora??o destas estrat?gias constitui-se um gargalo no avan?o desta tecnologia. Adicionalmente, a maioria dos trabalhos utiliza plataformas modeladas em n?veis muito abstratos de modelagem para avalia??o das abordagens pesquisadas, reduzindo a confiabilidade dos resultados relatados. A principal contribui??o do presente trabalho ? a proposta e implementa??o de uma plataforma MPSoC denominada HMPS (Hermes Multiprocessor System). HMPS conta com uma infra-estrutura de hardware e uma infra-estrutura de software, capazes de gerenciar a execu??o de tarefas no sistema. A plataforma HMPS ? baseada em multiprocessamento homog?neo, e possui uma arquitetura de processadores mestre-escravo. A plataforma utiliza como meio de interconex?o uma rede intra-chip (NoC) e possibilita que tarefas possam ser alocadas est?tica e/ou dinamicamente no sistema. Com isso, v?rias estrat?gias de aloca??o distintas podem ser implementadas e avaliadas. HMPS dever? ser um ponto de partida para v?rios trabalhos, contribuindo para a pesquisa na ?rea de MPSoCs. Este documento apresenta a proposta e a implementa??o da plataforma HMPS. Para a infra-estrutura de hardware utilizou-se a NoC HERMES, desenvolvida pelo grupo de pesquisa GAPH, e o processador de c?digo aberto Plasma dispon?vel no site OpenCores. M?dulos de hardware foram desenvolvidos e altera??es no c?digo do Plasma foram realizadas, visando conectar o processador ? NoC e realizar a aloca??o de tarefas na mem?ria do processador. Para a infraestrutura de software, foi desenvolvido um microkernel multitarefa que executa em cada processador escravo e a aplica??o de aloca??o de tarefas que executa no processador mestre. S?o exploradas duas estrat?gias de aloca??o de tarefas: uma est?tica e uma din?mica
75

T?cnicas de toler?ncia a falhas aplicadas a redes intra-chip

Fochi, Vinicius Morais 13 March 2015 (has links)
Submitted by Setor de Tratamento da Informa??o - BC/PUCRS (tede2@pucrs.br) on 2015-06-16T17:21:57Z No. of bitstreams: 1 470587 - Texto Completo.pdf: 6163395 bytes, checksum: b88f0389d39c7cc7f197b32966e6fe29 (MD5) / Made available in DSpace on 2015-06-16T17:21:57Z (GMT). No. of bitstreams: 1 470587 - Texto Completo.pdf: 6163395 bytes, checksum: b88f0389d39c7cc7f197b32966e6fe29 (MD5) Previous issue date: 2015-03-13 / The continuous development of the transistor technology has enabled hundreds of processors to work interconnected by a NoC (network-on-chip). Nanotechnology has enabled the development of complex systems, however, fault vulnerability also increased. The literature presents partial solutions for fault tolerance issues, targeting parts of the system. An important gap in the literature is an integrated method from the router-level fault detection to the correct execution of applications in the MPSoC. The main goal of this dissertation is to present a fault-tolerant method from the physical layer to the transport layer. The MPSoC is modeled at the RTL level using VHDL.This work proposes fault tolerance techniques applied to intra-chip networks. Related work on fault tolerance at a systemic level, router level, link level and routing algorithms are studied. This work presents the research and development of two techniques: (i) protocols to enable the correct communication between task with partial degradation of the link enabling the router to operate even with faulted physical channels; (ii) test recovery method and of the router. This Dissertation considers permanent and transient faults.The HeMPS platform is the reference platform to evaluate the proposed techniques, together with a fault injection campaign where up to five random failures were injected simultaneously at each simulated scenario. Two applications were used to evaluate the proposed techniques, MPEG encoder and a synthetic application, resulting in 2,000 simulated scenarios. The results demonstrated the effectiveness of the proposal, with most scenarios running correctly with routers operating in degraded mode, with an impact on the execution time below 1%, with a router area overhead around 30%. / O cont?nuo desenvolvimento na tecnologia de transistores possibilitou que centenas de processadores trabalhassem interconectados por NoCs (network-on-chip). A nanotecnologia permitiu o desenvolvimento de complexos sistemas, por?m a vulnerabilidade a falhas tamb?m aumentou. A literatura apresenta solu??es parciais para o tema de toler?ncia a falhas, tendo como alvo partes do sistema. Uma importante lacuna na literatura ? um m?todo integrado para detec??o de falhas do n?vel do roteador at? a correta execu??o das aplica??es em MPSoC reais. O objetivo principal desta disserta??o ? apresentar um m?todo com toler?ncia a falhas da camada f?sica at? a camada de transporte. O MPSoC ? modelado em n?vel de RTL, usando VHDL.O presente trabalho prop?e t?cnicas de toler?ncia a falhas aplicadas a redes intrachip. S?o estudadas t?cnicas de toler?ncia a falhas em n?vel sist?mico, n?vel do roteador, n?vel de enlace e algoritmos de roteamento tolerante a falhas. Este trabalho apresenta a pesquisa e o desenvolvimento de duas t?cnicas: (i) protocolos para permitir a correta transmiss?o dos dados com degrada??o parcial do enlace, de forma a permitir que o roteador opere mesmo com canais f?sicos falhos; (ii) m?todo de teste e recupera??o do roteador. O modelo de falhas utilizado nesta Disserta??o ? de falhas permanentes e transientes.Para avaliar as t?cnicas propostas, foi utilizada a plataforma HeMPS, juntamente com uma campanha de inje??o de falhas onde at? cinco falhas aleat?rias foram injetadas nos canais de comunica??o entre os roteadores simultaneamente em cada cen?rio. Foram utilizadas duas aplica??es para avaliar as t?cnicas: codificador MPEG e uma aplica??o sint?tica, com um total de 2,000 cen?rios simulados. Os resultados demonstram a efetividade da proposta, com a maioria dos cen?rios executando corretamente com roteadores operando em modo degradado, com um impacto no tempo de execu??o abaixo de 1% e um aumente do ?rea de 30% no roteador.
76

Toler?ncia a falhas em elementos de processamento de MPSoCs

Barreto, Francisco Favorino da Silva 13 March 2015 (has links)
Submitted by Setor de Tratamento da Informa??o - BC/PUCRS (tede2@pucrs.br) on 2015-12-14T20:02:04Z No. of bitstreams: 1 476711 - Texto Completo.pdf: 1459361 bytes, checksum: 48f64a1e41d4416a6b1e434eaf5ed4d3 (MD5) / Made available in DSpace on 2015-12-14T20:02:04Z (GMT). No. of bitstreams: 1 476711 - Texto Completo.pdf: 1459361 bytes, checksum: 48f64a1e41d4416a6b1e434eaf5ed4d3 (MD5) Previous issue date: 2015-03-13 / The need of more processing capacity for embedded systems nowadays is pushing the research of MPSoCs with tens or hundreds of processors. These characteristics bring design challenges such as scalability and dependability. Such complex systems must have fault tolerant methods to ensure acceptable reliability and availability. This way, the user is not exposed to significant data losses, malfunctioning and even the total system failure. Considering this technology trend, the present work proposes a fault tolerance method with focus in fault recovery. The method uses concepts largely explored in distributed systems to solve the problem of permanent failures in the processing elements of MPSoCs. The implementation is exclusively in software, and recovers the system exposed to a permanent failure on processing elements, reallocating all tasks that were executing in the faulty element to a healthy processing element. The failed application tasks restart their executions since there is no context saving, enabling a lightweight method. The experiments are performed in the HeMPS platform, evaluating the most relevant parameters as recovery time, communication bandwidth impact, scalability and others. In the absence of faults, the proposed protocol has 21 Kbytes of memory area (20% more compared to the original kernel) and no overhead in terms of execution time. In the presence of faults, the results demonstrate total recovery times from 0.2ms to 1ms, depending on the number of reallocated tasks (1 to 7). The biggest impact in the protocol time is related with the reallocation task phase. / A pesquisa em MPSoCs (do ingl?s, Multiprocessor System on Chip) tem sido motivada pela necessidade crescente de maior capacidade de processamento das aplica??es de sistemas embarcados. Devido ? esta tend?ncia, os MPSoCs tornam-se cada vez mais complexos e miniaturizados. Estas caracter?sticas trazem associados desafios como escalabilidade e dependabilidade. O sistema que tem a necessidade de ser confi?vel e estar dispon?vel em todo o seu tempo opera??o precisa ser tolerante a falhas a ponto de recuperar-se automaticamente. Dessa forma o usu?rio n?o ser? exposto a perdas de informa??o, execu??o malsucedida ou at? mesmo a falha total do sistema. Este trabalho prop?e um m?todo de toler?ncia a falhas com foco na recupera??o de falhas. O m?todo utiliza conceitos utilizados em computa??o distribu?da para solucionar o problema de falhas permanentes em elementos de processamento de um MPSoCs. O m?todo proposto, implementado exclusivamente em software, recupera um sistema exposto a uma falha permanente de um elemento de processamento, realizando uma realoca??o das tarefas que estavam sendo executadas pelo elemento que falhou para um elemento de processamento saud?vel do sistema. As tarefas da aplica??o que falharam devem reiniciar suas execu??es do ponto de partida dado que o contexto da execu??o n?o ? salvo, mantendo assim um baixo overhead no sistema, como demonstrado nos resultados obtidos. Os experimentos foram realizados na plataforma HeMPS com uma avalia??o dos par?metros mais relevantes como tempo de recupera??o, impacto em banda de comunica??o, escala e outros, que justificam a viabilidade e as vantagens do m?todo proposto. Na aus?ncia de falhas, o protocolo proposto n?o altera o tempo de execu??o, por?m aumenta o tamanho de mem?ria do kernel para 21 Kbytes, 20% de acr?scimo comparado com o kernel original. Os resultados obtidos na presen?a de falhas mostram que o tempo total de recupera??o de falhas do m?todo ? de 0,2ms a 1ms, dependendo do n?mero de tarefas realocadas devido ao PE defeituoso. O maior impacto de tempo no protocolo se d? com a etapa de realoca??o de tarefas.
77

Improving QoS by employing multiple physical NoCs on MPSoCs / Aprimorando QoS utilizando m?ltiplas NoCs f?sicas em MPSoCs

Silva, Douglas Roberto Guarani da 03 March 2016 (has links)
Submitted by Setor de Tratamento da Informa??o - BC/PUCRS (tede2@pucrs.br) on 2016-05-03T16:38:28Z No. of bitstreams: 1 DIS_DOUGLAS_ROBERTO_GUARANI_DA_SILVA_COMPLETO.pdf: 3535458 bytes, checksum: a287a27f46a74cc898a15dccbe61ef44 (MD5) / Made available in DSpace on 2016-05-03T16:38:28Z (GMT). No. of bitstreams: 1 DIS_DOUGLAS_ROBERTO_GUARANI_DA_SILVA_COMPLETO.pdf: 3535458 bytes, checksum: a287a27f46a74cc898a15dccbe61ef44 (MD5) Previous issue date: 2016-03-03 / Conselho Nacional de Pesquisa e Desenvolvimento Cient?fico e Tecnol?gico - CNPq / Embedded systems adopt NoC-based MPSoCs since a large number of processing elements (PEs) enables the simultaneous execution of several applications, where some of these applications require real-time (RT) constraints. PEs communicate using messages in distributed memory MPSoCs. These messages can be classified as application messages, being the data generated by the applications, and management messages, used to ensure the correct operation of the platform. As the communication has a large impact on the application performance, an important concern in the design of MPSoCs is to improve the performance of the applications? communication, particularly for RT applications. Two possible methods to optimize the communication performance includes: (i) prioritize the RT application messages over the messages generated by best-effort (BE) applications; (ii) isolate the application messages from the management messages, considering that complex MPSoCs require a large number of management services to meet the performance constraints. The NoC literature contains several works that differentiate traffic classes, proposing the isolation of these traffic classes by the use of multiple physical (MP) NoCs, reducing interferences among the flows belonging to different classes. The main goal of this work is to propose and to evaluate MP NoCs, with one network dedicated to the application messages and a second network for the management messages (MNoC). Based on the evaluation of the impact of the management traffic in the overall NoC communication, two different versions of M-NoCs are implemented and evaluated. Another important consideration for RT applications is to ensure that these applications meet their deadlines. The execution of these applications must have higher priority over the BE applications by dedicating more processing resources using a specialized RT scheduler. This work presents and evaluates an MPSoC platform capable of supporting both communication and computation QoS, being extensible for a large number of management services by to the use of MP NoCs. Results show that M-NoCs may be customized to have a small area overhead. The adoption of M-NoCs improves the communication performance, latency and jitter, even when the network used in the platform has QoS mechanisms (e.g. priority flows and circuit switching), by isolating the management traffic from the application traffic. / Sistemas embarcados adotam MPSoCs baseados em NoCs visto que um n?mero grande de elementos de processamento (PEs) permitem a execu??o simult?nea de v?rias aplica??es, onde algumas dessas aplica??es necessitam de restri??es de tempo real (RT). PEs comunicam-se utilizando troca de mensagens em MPSoCs com mem?ria distribu?da. Essas mensagens podem ser classificadas como mensagens de aplica??o, sendo os dados gerados pelas aplica??es, e mensagens de ger?ncia, utilizadas para garantir a opera??o correta da plataforma. Visto que a comunica??o possui um forte impacto no desempenho da aplica??o, uma preocupa??o importante no projeto de MPSoCs ? de melhorar o desempenho da comunica??o das aplica??es, especialmente para aplica??es RT. Dois m?todos poss?veis para otimizar o desempenho de comunica??o incluem: (i) priorizar as mensagens das aplica??es de RT sobre as mensagens geradas por aplica??es de melhor esfor?o (do ingl?s, best effort, BE); (ii) isolar as mensagens de aplica??es das mensagens de ger?ncia, considerando que MPSoCs complexos necessitam de um grande n?mero de servi?os de ger?ncia para satisfazer os requisitos de desempenho. Na literatura sobre NoCs h? v?rios trabalhos que diferenciam classes de tr?fego, propondo o isolamento dessas classes de tr?fego pela utiliza??o de m?ltiplas NoCs f?sicas (do ingl?s, multiple physical NoCs, MP NoCs), reduzindo interfer?ncias entre fluxos pertencentes a classes diferentes. O principal objetivo deste trabalho ? propor e avaliar MP NoCs, onde uma rede ? dedicada para mensagens de aplica??o e uma segunda rede ? utilizada para mensagens de ger?ncia (M-NoC). Baseado na avalia??o do impacto do tr?fego de ger?ncia na comunica??o da NoC, duas vers?es da M-NoC s?o implementadas e avaliadas. Outra considera??o importante para aplica??es RT ? garantir que os deadlines dessas aplica??es sejam satisfeitos. A execu??o dessas aplica??es deve ser priorizada sobre as aplica??es BE atrav?s do fornecimento de mais recursos de processamento utilizando um escalonador RT especializado. Esse trabalho apresenta e avalia uma plataforma MPSoC capaz de suportar QoS de comunica??o e de computa??o, sendo extens?vel para um n?mero grande de servi?os de ger?ncia pelo uso de MP NoCs. Resultados mostram que as M-NoCs podem ser personalizadas para terem um pequeno impacto de ?rea. A utiliza??o de M-NoCs melhora o desempenho de comunica??o, lat?ncia e jitter, mesmo considerando que a plataforma j? possui mecanismos de QoS (como fluxos priorit?rios e chaveamento de circuitos), pelo isolamento do tr?fego de ger?ncia do tr?fego de aplica??o.
78

Extending FreeRTOS to support dynamic and distributed task mapping in multiprocessor systems / Extensão do FreeRTOS para Suporte ao mapeamento dinâmico e distribuído de tarefas em sistemas multiprocessados

Abich, Geancarlo January 2017 (has links)
Sistemas de Multiprocessados Embarcados são uma realidade, tanto no setor da indústria e quanto no setor acadêmico. Esses dispositivos oferecem capacidades de processamento paralelo objetivando cobrir requisitos cada vez maiores de aplicações complexas. A carga de trabalho subjacente das aplicações é suscetível a variação em tempo de execução o que, se não for tratada adequadamente, pode levar a degradação de eficiência em desempenho e energia. O aumento contínuo da complexidade da carga de trabalho das aplicações, bem como do tamanho dos sistemas multiprocessados emergentes, requer soluções de mapeamento dinâmicas e distribuídas. A maioria das técnicas de mapeamento propostas são implementações personalizadas, considerando um sistema operacional interno desenvolvido para uma arquitetura de processador específica. Essa prática restringe sua aplicação em outras plataformas, levando a um design extra, revalidação e, consequentemente, um custo oculto que pode ser um tanto quanto alto. Neste cenário, esta dissertação propõe a extensão do FreeRTOS para suportar mapeamento dinâmico e distribuído de tarefas em sistemas multiprocessados. O FreeRTOS tem portabilidade para mais de 30 arquiteturas de processadores embarcados, aumentando a portabilidade de software e reduzindo o tempo de desenvolvimento. A extensão proposta utiliza técnicas de mapeamento que permitem ao FreeRTOS atender a altas demandas de mapeamento de aplicações em tempo de execução. Outra contribuição deste trabalho é o desenvolvimento de um framework que permite a exploração de grandes sistemas fornecendo, simultaneamente, resultados para depuração. O framework proposto possibilita a geração automática de plataformas multiprocessadas considerando seu tamanho, a arquitetura do processador e um conjunto de aplicações. A descrição da plataforma resultante é altamente escalável permitindo extração de dados em tempo de execução e alta depuração. Estas características permitiram validar a extensão do FreeRTOS proposta em mais de uma arquitetura de processador da família ARM Cortex-M. Os casos de teste foram executados em plataformas de grande escala e em diferentes níveis de abstração com casos de mais de 120 aplicações incorporando mais de 600 tarefas processadas. Os resultados mostram que a extensão proposta apresenta resultados melhores ou iguais à literatura. / Embedded Multiprocessor systems are a reality, in both industry and academia sectors. Such devices offer parallel processing capabilities, aiming at covering the increasing requirements of complex applications. Underlying application workloads are susceptible to variation at runtime, which if not properly handled, may lead to the performance and power efficiency degradation. The continuous increase in the complexity of application workload and the size of emerging multiprocessor systems, calls for dynamic and distributed mapping solutions. The majority of the promoted mapping techniques are bespoke implementations, which consider an in-house operating system developed to a particular processor architecture. This practice restricts its adoption in other platforms, leading to extra design time, re-validation and, consequentially, a hidden cost that may well be quite high. In this scenario, this dissertation proposes a FreeRTOS extension that integrates the support to dynamic and distributed tasks mapping in multiprocessor systems. FreeRTOS is portable to more than 30 embedded processors architectures, increasing software portability and reducing development time. The proposed extension employs mapping techniques allowing FreeRTOS for handle high demands of application mapping in runtime. Another contribution of this work is the development of a framework, which enables the exploration of large systems while providing debugging facilities. The proposed framework provides the automatic generation of multiprocessor platforms, considering parameters of size, processor architecture, and an application set. The resulting platform description is high scalable while allows runtime data extraction and high debugging. These features allowed to validate the proposed FreeRTOS extension in more than one processor architecture from ARM Cortex-M family. Test cases were executed on large-scale platforms and at different levels of abstraction with cases of more than 120 applications incorporating more than 600 tasks processed. The results show that the proposed extension presents better or equal results to the literature.
79

Design and exploration of 3D MPSoCs with on-chip cache support / Projeto e explora??o de MPSoCs 3D com suporte a caches intrachip

Cataldo, Rodrigo Cadore 04 March 2016 (has links)
Submitted by Setor de Tratamento da Informa??o - BC/PUCRS (tede2@pucrs.br) on 2016-08-25T16:13:03Z No. of bitstreams: 1 DIS_RODRIGO_CADORE_CATALDO_COMPLETO.pdf: 7126312 bytes, checksum: ce5099664b8e90c2cb1206af9f3c6cc4 (MD5) / Made available in DSpace on 2016-08-25T16:13:03Z (GMT). No. of bitstreams: 1 DIS_RODRIGO_CADORE_CATALDO_COMPLETO.pdf: 7126312 bytes, checksum: ce5099664b8e90c2cb1206af9f3c6cc4 (MD5) Previous issue date: 2016-03-04 / Avan?os na tecnologia de fabrica??o de semicondutores permitiram implementar um sistema computacional completo em um ?nico chip, em ingl?s de System-on-Chip (SoC). SoCs integram m?ltiplos elementos de processamento (PEs), componentes de mem?ria e dispositivos de entrada/sa?da. Este trabalho emprega o termo ingl?s Multiprocessor System-on-Chip (MPSoCs) para um SoC que integra m?ltiplos PEs cooperantes. ? medida que o n?mero de PEs aumenta em um MPSoC, torna-se necess?rio o uso de arquiteturas que proveem escalabilidade e concorr?ncia da comunica??o. A rede intrachip, em ingl?s Network-on-Chip (NoC), que interconecta o sistema atrav?s de roteadores distribu?dos no chip foi proposta para atender estes requisitos. O sistema de interconex?o tamb?m deve prover recursos para atender a comunica??o entre PEs e m?dulos de mem?ria. Infelizmente, trabalhos pr?vios demonstraram que basear toda a comunica??o de mem?ria com uma NoC n?o ? adequado para atender os requisitos de lat?ncia. Al?m disso, muitas propostas baseadas em NoC descartam o suporte ? programa??o do tipo mem?ria compartilhada que permanece um requisito b?sico de aplica??es paralelas. A principal contribui??o deste trabalho ? o projeto e explora??o experimental de MPSoCs 3D com suporte a caches intrachip que empregam uma matriz de chaveamento com suporte ? coer?ncia de cache para comunica??o entre PEs e a hierarquia de mem?ria, e uma NoC para a intercomunica??o de PEs, devido ? sua efici?ncia em transmitir pequenos pacotes e sua escalabilidade. Resultados experimentais foram realizados com o simulador Gem5 utilizando o conjunto de instru??es da ARM e dois benchmarks: PARSEC e NASA NAS. Os resultados foram organizados em tr?s conjuntos de avalia??o: 1. Avalia??o da mem?ria principal utilizando mem?rias emergentes baseadas em tecnologias 3D e duas mem?rias tradicionais para desktops: Double Data Rate (DDR) e Low Power (LP) DDR. Para a pluralidade das aplica??es, mem?rias emergentes resultaram em um impacto igual ou menor que 10% de acr?scimo no tempo de execu??o provendo significativa redu??o no consumo de energia, quando comparadas ?s mem?rias tipo DDR; 2. Avalia??o de caches utilizando cinco arquiteturas de cache e explorando seus efeitos no tempo de execu??o de aplica??es e consumo de energia. Foram exploradas tr?s arquiteturas compartilhadas e duas arquiteturas privadas em caches L2. Para a maioria das aplica??es, a tradicional arquitetura compartilhada da L2 mostrou o melhor tempo de execu??o. Entretanto, para o consumo de energia, as arquiteturas L2 privadas obtiveram os melhores resultados; 3. Avalia??o da escalabilidade do sistema proposto. Os experimentos utilizaram v?rios tamanhos de clusters e aplica??es baseadas em troca de mensagens. / Advances in semiconductor manufacturing technology have allowed implement the whole computing system into a single chip, which is namely System-on-Chip (SoC). SoCs integrate several processing elements (PE), memory components and I/O devices. This work employs the term Multiprocessor Systems-on-Chip (MPSoCs) to SoCs that integrate several cooperating PEs. The increasing quantity of PEs in an MPSoC demands the use of architectures that provide scalability and concurrent communication. The Network-on-Chip (NoC) that interconnects the system through distributed routers has come to tackle these requirements. The interconnection system must also provide resources to fulfil the communication between PEs and memory modules. Unfortunately, previous works have shown that a single packet-based NoC is not well-suited to provide scalability and low latency for cache supported systems. Additionally, many NoC-based designs lack support for a shared-memory programming model that is an essential requirement for most of the parallel applications. The main contribution of this work is the design and experimental exploration of 3D MPSoCs with on-chip cache support that employ a crossbar-based infrastructure for the cache-coherent memory hierarchy, and a packet-based NoC for inter-processor communication, due to its efficiency in travelling small packets and its benefits to ever-increasing scalability requirements. Experimental results performed on the Gem5 simulator using the ARM?s ISA and PARSEC and NASA NAS benchmarks were conducted under three evaluations scenarios: 1. Main memory evaluation using emerging 3D memory technologies and two traditional desktop memories: Double Data Rate (DDR) and mobile Low Power (LP) DDR. For the plurality of the applications, the emerging 3D memory technologies had less or equal than 10% of runtime execution increase providing significant energy saving when compared with DDR memories; 2. Cache evaluation using five cache architectures and exploring its effects on execution runtime and energy consumption. Three shared L2 cache designs and two private L2 cache design were explored. For the majority of the applications evaluated, the traditional shared L2 design had the lowest execution runtime. However, the private L2 designs showed the lowest energy consumption; 3. Scalability evaluation of the proposed system. Experiments using various sizes of clusters and applications based on message exchange.
80

A transparent and energy aware reconfigurable multiprocessor platform for efficient ILP and TLP exploitation

Rutzig, Mateus Beck January 2012 (has links)
As the number of embedded applications is increasing, the current strategy of several companies is to launch a new platform within short periods, to execute the application set more efficiently, with low energy consumption. However, for each new platform deployment, new tool chains must come along, with additional libraries, debuggers and compilers. This strategy implies in high hardware redesign costs, breaks binary compatibility and results in a high overhead in the software development process. Therefore, focusing on area savings, low energy consumption, binary compatibility maintenance and mainly software productivity improvement, we propose the exploitation of Custom Reconfigurable Arrays for Multiprocessor System (CReAMS). CReAMS is composed of multiple adaptive reconfigurable systems to efficiently explore Instruction and Thread Level Parallelism (ILP and TLP) at hardware level, in a totally transparent fashion. Conceived as homogeneous organization, CReAMS shows a reduction of 37% in energy-delay product (EDP) compared to an ordinary multiprocessing platform when assuming the same chip area. When a variety of processor with different capabilities on exploiting ILP are coupled in a single die, conceiving CReAMS as a heterogeneous organization, performance improvements of up to 57% and energy savings of up to 36% are showed in comparison with the homogenous platform. In addition, the efficiency of the adaptability provided by CReAMS is demonstrated in a comparison to a multiprocessing system composed of 4- issue Out-of-Order SparcV8 processors, 28% of performance improvements are shown considering a power budget scenario.

Page generated in 0.0786 seconds