Global ETD Search

11	Exploration of runtime distributed mapping techniques for emerging large scale MPSoCs Mandelli, Marcelo Grandi January 2015 (has links) Made available in DSpace on 2015-09-19T02:04:34Z (GMT). No. of bitstreams: 1 000475052-Texto+Completo-0.pdf: 8325686 bytes, checksum: 5d74943dc9ee311c90eb182fb022e539 (MD5) Previous issue date: 2015 / MPSoCs with hundreds of cores are already available in the market. According to the ITRS roadmap, such systems will integrate thousands of cores by the end of the decade. The definition of where each task will execute in the system is a major issue in the MPSoC design. In the literature, this issue is defined as task mapping. The growth in the number of cores increases the complexity of the task mapping. The main concerns in task mapping in large systems include: (i) scalability; (ii) dynamic workload; and (iii) reliability. It is necessary to distribute the mapping decision across the system to ensure scalability. The workload of emerging large MPSoCs may be dynamic, i. e., new applications may start at any moment, leading to different mapping scenarios. Therefore, it is necessary to execute the mapping process at runtime to support a dynamic workload. Reliability is tightly connected to the system workload distribution. Load imbalance may generate hotspots zones and consequently thermal implications, which may result in unreliable system operation. In large scale MPSoCs, reliability issues get worse since the growing number of cores on the same die increases power densities and, consequently, the system temperature. The literature presents different task mapping techniques to improve system reliability. However, such approaches use a centralized mapping approach, which are not scalable. To address these three challenges, the main goal of this Thesis is to propose and evaluate distributed mapping heuristics, executed at runtime, ensuring scalability and a fair workload distribution. Distributing the workload and the traffic inside the NoC increases the system reliability in long-term, due to the minimization of hotspot regions. To enable the design space exploration of large MPSoCs the first contribution of the Thesis lies in a multi-level modeling framework, which supports different models and debugging capabilities that enrich and facilitate the design of MPSoCs. The simulation of lower level models (e. g. RTL) generates performance parameters used to calibrate abstract models (e. g. untimed models). The abstract models pave the way to explore mapping heuristics in large systems. Most mapping techniques focus on optimizing communication volume in the NoC, which may compromise reliability due to overload processors. On the other hand, a heuristic optimizing only the workload distribution may overload NoC links, compromising its reliability. The second significant contribution of the Thesis is the proposition of dynamic and distributed mapping heuristics, making a tradeoff between communication volume (NoC links) and workload distribution (CPU usage). Results related to execution time, communication volume, energy consumption, power traces and temperature distribution in large MPSoCs (144 processors) confirm the tradeoff hypothesis. Trading off workload and communication volume improves system reliably through the reduction of hotspots regions, without compromising system performance. / MPSoCs com centenas de processadores já estão disponíveis no mercado. De acordo com o ITRS, tais sistemas integrarão milhares de processadores até o final da década. A definição de onde cada tarefa será executada no sistema é um desafio importante na concepção de MPSoCs. Na literatura, tal desafio é definido como mapeamento de tarefas. O aumento do número de processadores aumenta a complexidade do mapeamento de tarefas. As principais preocupações em mapeamento de tarefas em grandes sistemas incluem: (i) escalabilidade; (ii) carga dinâmica de trabalho; e (iii) confiabilidade. É necessário distribuir a decisão do mapeamento pelo sistema para garantir escalabilidade. A carga de trabalho em MPSoCs pode ser dinâmica, ou seja, novas aplicações podem iniciar a execução a qualquer momento, levando a diferentes cenários de mapeamento. Portanto, é necessário executar o processo de mapeamento em tempo de execução para suportar uma carga de trabalho dinâmica. Confiabilidade é diretamente relacionada à distribuição da carga de trabalho no sistema. Desequilíbrio de carga pode gerar zonas de hotspots e implicações termais, que podem resultar em uma operação do sistema não confiável. Em MPSoCs de grande dimensão problemas de confiabilidade se agravam, uma vez que o crescente número de processadores no mesmo chip aumenta o consumo de energia e, consequentemente, a temperatura do sistema. A literatura apresenta diferentes técnicas de mapeamento de tarefas para melhorar a confiabilidade do sistema. No entanto, tais técnicas utilizam uma abordagem de mapeamento centralizado, a qual não é escalável. Em função destes três desafios, o principal objetivo desta Tese é propor e avaliar heurísticas de mapeamento distribuído, executadas em tempo de execução, garantindo escalabilidade e uma distribuição de carga de trabalho uniforme. Distribuir a carga de trabalho e o tráfego da NoC aumenta a confiabilidade do sistema no longo prazo, devido à minimização das regiões de hotspot. Para permitir a exploração do espaço de projeto em MPSoCs, a primeira contribuição desta Tese consiste em um ambiente de modelagem multi-nível, que suporta diferentes modelos e capacidades de depuração que enriquecem e facilitam o projeto de MPSoCs. A simulação de modelos de mais baixo nível (por exemplo, RTL) gera parâmetros de desempenho utilizados para calibrar modelos mais abstratos. Os modelos abstratos facilitam a exploração de heurísticas de mapeamento em grandes sistemas. A maioria das técnicas de mapeamento se concentram na otimização do volume comunicação na NoC, o que pode comprometer a confiabilidade, devido à sobrecarga de processadores. Por outro lado, uma heurística que visa a otimização apenas da distribuição de carga de trabalho pode sobrecarregar canais da NoC, comprometendo a sua confiabilidade. A segunda contribuição significativa desta Tese é a proposição de heurísticas de mapeamento dinâmico e distribuídos, fazendo um compromisso entre o volume de comunicação (canais da NoC) e distribuição de carga de trabalho (uso da CPU). Os resultados relacionados a tempo de execução, volume de comunicação, consumo de energia, distribuição de potência e temperatura em grandes MPSoCs (256 processadores) confirmam a hipótese deste compromisso. Fazer um compromisso entre carga de trabalho e volume de comunicação melhora a confiabilidade do sistema através da redução de regiões hotspots, sem comprometer o desempenho do sistema. INFORMÁTICA MULTIPROCESSADORES ARQUITETURA DE COMPUTADOR
12	Layered approach for runtime fault recovery in NOC-Based MPSOCS Wächter, Eduardo Weber January 2015 (has links) Made available in DSpace on 2015-09-01T02:05:15Z (GMT). No. of bitstreams: 1 000474345-Texto+Completo-0.pdf: 3978955 bytes, checksum: aa0f35953c5bc355cef3bfc0576e2a44 (MD5) Previous issue date: 2015 / Mechanisms for fault-tolerance in MPSoCs are mandatory to cope with defects during fabrication or faults during product lifetime. For instance, permanent faults on the interconnect network can stall or crash applications, even though the MPSoCs’ network has alternative faultfree paths to a given destination. Runtime Fault Tolerance provide self-organization mechanisms to continue delivering their processing services despite defective cores due to the presence of permanent and/or transient faults throughout their lifetime. This Thesis presents a runtime layered approach to a fault-tolerant MPSoC, where each layer is responsible for solving one part of the problem. The approach is built on top of a novel small specialized network used to search fault-free paths. The first layer, named physical layer, is responsible for the fault detection and fault isolation of defective routers. The second layer, named the network layer, is responsible for replacing the original faulty path by an alternative fault-free path. A fault-tolerant routing method executes a path search mechanism and reconfigures the network to use the faulty-free path. The third layer, named transport layer, implements a fault-tolerant communication protocol that triggers the path search in the network layer when a packet does not reach its destination. The last layer, application layer, is responsible for moving tasks from the defective processing element (PE) to a healthy PE, saving the task’s internal state, and restoring it in case of fault while executing a task. Results at the network layer, show a fast path finding method. The entire process of finding alternative paths takes typically less than 2000 clock cycles or 20 microseconds. In the transport layer, different approaches were evaluated being capable of detecting a lost message and start the retransmission. The results show that the overhead to retransmit the message is 2. 46X compared to the time to transmit a message without fault, being all other messages transmitted with no overhead. For the DTW, MPEG, and synthetic applications the average-case application execution overhead was 0. 17%, 0. 09%, and 0. 42%, respectively. This represents less than 5% of the application execution overhead worst case. At the application layer, the entire fault recovery protocol executes fast, with a low execution time overhead with no faults (5. 67%) and with faults (17. 33% - 28. 34%). / Mecanismos de tolerância a falhas em MPSoCs são obrigatórios para enfrentar defeitos ocorridos durante a fabricação ou falhas durante a vida útil do circuito integrado. Por exemplo, falhas permanentes na rede de interconexão do MPSoC podem interromper aplicações mesmo que a rede tenha caminhos sem falha para um determinado destino. A tolerância a falhas em tempo de execução fornece mecanismos de auto-organização para continuar a oferecer serviços de processamento apesar de núcleos defeituosos devido à presença de falhas permanentes e/ou transitórias durante toda a vida dos chips. Esta Tese apresenta uma abordagem em camadas para um MPSoC tolerante a falhas, onde cada camada é responsável por resolver uma parte do problema. O método é construído sobre uma nova proposta de rede especializada utilizada para procurar caminhos livre de falha. A primeira camada, denominada camada física, é responsável pela detecção de falhas e isolamento das partes defeituosas da rede. A segunda camada, denominada camada de rede, é responsável por substituir um caminho defeituoso por um caminho alternativo livre de falhas. Um método de roteamento tolerante a falhas executa o mecanismo de busca de caminhos e reconfigura a rede para usar este caminho livre de falhas. A terceira camada, denominada camada de transporte, implementa um protocolo de comunicação tolerante a falhas que detecta quando pacotes não são entregues ao destino, acionando o método proposto na camada de rede.A última camada, camada de aplicação, é responsável por mover as tarefas do elemento de processamento (PE) defeituoso para um PE saudável, salvar o estado interno da tarefa, e restaurá-la em caso de falha durante a execução. Os resultados na camada de rede mostram um método rápido para encontrar caminhos livres de falhas. O processo de procura de caminhos alternativos leva tipicamente menos de 2000 ciclos de relógio (ou 20 microssegundos). Na camada de transporte, diferentes abordagens foram avaliadas para detectar uma mensagem não entregue e acionar a retransmissão. Os resultados mostram que a sobrecarga para retransmitir a mensagem é 2,46 vezes maior quando comparado com o tempo para transmitir uma mensagem sem falha, sendo que todas outras mensagens subsequentes são transmitidas sem sobrecarga. Para as aplicações DTW, MPEG e sintética, o caso médio de sobrecarga no tempo de execução da aplicação é de 0,17%, 0,09% e 0,42%, respectivamente. Isto representa menos do que 5% do tempo de execução de uma dada aplicação no pior caso. Na camada de aplicação, todo o protocolo de recuperação de falhas executa rapidamente, com uma baixa sobrecarga no tempo de execução sem falhas (5,67%) e com falhas (17,33% - 28,34%). INFORMÁTICA ARQUITETURA DE COMPUTADOR MICROPROCESSADORES
13	HC-MPSOC: plataforma do tipo cluster para sistemas embarcados Magalhães, Felipe Göhring de January 2013 (has links) Made available in DSpace on 2013-10-11T13:35:23Z (GMT). No. of bitstreams: 1 000449349-Texto+Completo-0.pdf: 2535064 bytes, checksum: 9bc52234ef8a5c4987806932ce5619c9 (MD5) Previous issue date: 2013 / Multiprocessor System-on-Chip (MPSoC) can be found in virtually all market branches and the design of such systems typically has several restrictions such as chip area used, which hampers. State-of-art MPSoCs uses networks-on-chip as the primary means of communication, and the trend is that systems based on networks intrachip continue to be used for a long time, thanks to greater flexibility in their design and also a high capacity communication. However, such systems also have certain restrictions on its use, such as the location of the tasks that compose it. Mapping and partitioning techiniques seek to solve these problem, or at least decrease it to a non critical point, but are not always successful in this job. In this context, cluster-based architectures emerges as a viable alternative to MPSoCs. Such systems typically have a hybrid architecture in its constitution, using more than one communication medium, thus being able to group elements by questions of "affinity" and still using high-speed communication medias, such as networks-on-chip. Thus, this work introduces the HC-MPSoC, an architecture for cluster-based intrachip systems, which uses buses and networks-on-chip in a joint way, forming groups of elements independently distributed throughout the system. The HellfireOS is also presented, a real time operating system adapted to run on the platform, counting with a full set of drivers throughout a high-level API. All HC-MPSoC modules as well as the HellfireOS modules, and the results obtained using the platform are presented along the text. / Sistemas intrachip multiprocessados (MPSoCs) podem ser encontrados em praticamente todos os ramos do mercado e o projeto desses sistemas normalmente apresenta diversas restrições, como por exemplo área do chip utilizada, o que o dificulta. MPSoCs do estado da arte utilizam redes intrachip como meio de comunicação principal, e a tendência é que sistemas baseados em redes intrachip continuem a ser utilizados por um longo tempo, graças a uma maior flexibilidade em seu projeto e também uma alta capacidade de comunicação. Porém, tais sistemas ainda apresentam certas restrições em seu uso, como por exemplo a localização das tarefas que o compõem. Técnicas de mapeamento e particionamento de tarefas de uma aplicação buscam solucionar tais problemas, ou ao menos diminui-los a um ponto não crítico, mas nem sempre são bem sucedidos. Neste contexto, arquiteturas do tipo cluster surgem como uma alternativa viável para MPSoCs, normalmente apresentando uma arquitetura híbrida em sua constituição, utilizando mais de um meio de comunicação, podendo assim agrupar elementos por questões de "afinidade" e ainda assim utilizando meios de comunicação com grande paralelismo, como redes intrachip. Desta maneira, este trabalho introduz o HC-MPSoC, uma arquitetura clusterizada para sistemas intrachip, que utiliza redes intrachip e barramentos de uma maneira conjunta, formando grupos de elementos distribuídos de forma independente por todo sistema. É apresentando ainda, o HellfireOS, sistema operacional de tempo real adaptado para executar sobre a arquitetura, com drivers disponibilizados para uso. Todos os módulos do HC-MPSoC, assim como do HellfireOS, e os resultados obtidos utilizando a arquitetura, são apresentados no decorrer do texto. INFORMÁTICA MULTIPROCESSADORES ARQUITETURA DE COMPUTADOR
14	Modelagem e projeto de um gerador de relógio local baseado em DCO para MPSoCs GALS Heck, Leandro Sehnem January 2013 (has links) Made available in DSpace on 2014-01-25T01:01:05Z (GMT). No. of bitstreams: 1 000453324-Texto+Completo-0.pdf: 2410209 bytes, checksum: f4e4dbdab0416563f7afc5fbe9905155 (MD5) Previous issue date: 2013 / Currently, the use of multiprocessor systems on chip or MPSoCs are a trend in the electronic industry. Increasing numbers of processors and other Intellectual Property Cores (IP Cores) are integrated, which enable massive parallel processing, and allow achieving devices with increased performance. This trend to employ MPSoCs is driven, among other factors, by advances in networks on chip research, due to their higher scalability, when compared to other types of interconnection architectures. On the other hand, there is a growing demand for portable devices, with fierce competition for market shares of smartphones, tablets and ultrabooks, among other devices. However, increased performance in these devices leads to greater energy consumption. Such high consumption rates become a serious problem, because mobile platforms have limited amounts of energy available for immediate use. Therefore, the research of design techniques aimed at energy savings becomes relevant, once the evolution of energy source characteristics does not follow the evolution of electronic devices. Because a considerable amount of energy consumption in synchronous circuits is required for the generation, distribution and maintenance of the clock signal, this work capitalizes on the use of design techniques that avoid employing global clocks. One option to this consists in partitioning a complex electronic system into a set of synchronous modules that communicate asynchronously, in what are called globally asynchronous locally synchronous (GALS) systems. This Dissertation describes a proposal and the detailed design of a local clock generator circuit, which allows to produce and control the operating frequency of each module in a GALS system, the so called processing elements (PEs). This generator provides a mechanism for dynamically changing the module operating frequency (dynamic frequency scaling or DFS), which makes it able to save energy through the elimination of global clock distribution trees, as well as enabling localized reduction of the frequency of modules subject to reduced instantaneous computational demand. The generator was designed in a 65 nm technology from STMicroelectronics. Results from preliminary design evaluation show that the proposed circuit dissipates only 0,058 μW of static power and presents an average dynamic power dissipation around 159 μW. The area taken by the clock generator control circuit is 0,0024 mm2. This represents an area overhead which is only 5% of the area of a minimalist network on chip router. Such results indicate the feasibility of using the proposed generator for driving relatively small MPSoC modules. Thus, the work especially contributes to consolidate the viability of GALS systems. / Atualmente, o uso de sistemas multiprocessados em chip (do inglês Multiprocessor System-on- Chip ou MPSoCs) são uma tendência na indústria eletrônica. Integram-se números crescentes de processadores e outros módulos de propriedade intelectual (do inglês Intellectual Property Cores ou IPs), o que habilita processamento paralelo maciço, e permite o aumento de desempenho de dispositivos. Esta tendência pela utilização de MPSoCs é movida entre outros fatores pelos avanços nas pesquisas em redes intrachip, devido à maior escalabilidade destas, se comparadas a outras arquiteturas de interconexão. Por outro lado, há uma crescente demanda por dispositivos portáteis, com competição acirrada por fatias nos mercados de smartphones, tablets e ultrabooks, entre outros equipamentos. Contudo, o aumento do desempenho nestes dispositivos leva necessariamente a um maior consumo de energia. Este consumo elevado é um problema sério, pois plataformas portáteis atualmente dispõem de quantidade limitada de energia prontamente disponível. Assim, a pesquisa de técnicas de projeto com foco na economia de energia é necessária, visto que a evolução da capacidade de fontes de energia não acompanha o progresso de dispositivos eletrônicos no mesmo passo. Dado que parte significativa da energia consumida em circuitos síncronos reside na geração, distribuição e manutenção do sinal de relógio, este trabalho baseia-se no uso de técnicas de projeto que prescindem do uso de um relógio global. Uma opção consiste em dividir um sistema eletrônico complexo em um conjunto de módulos síncronos que se comunicam assincronamente, no que se denomina sistemas globalmente assíncronos e localmente síncronos (do inglês Globally Asynchronous Locally Synchronous ou GALS). Esta dissertação descreve a proposta e o projeto detalhado de um circuito gerador de relógio local, que permite produzir e controlar a frequência de operação de cada módulo processador de um sistema GALS, os chamados elementos de processamento (em inglês Processing Elements ou PEs). Este gerador disponibiliza um mecanismo para alteração dinâmica de frequência (em inglês Dynamic Frequency Scaling ou DFS), que o torna capaz de economizar energia através da eliminação de árvores globais de distribuição de relógio e da redução localizada da frequência em módulos com pouca demanda computacional instantânea.O gerador foi projetado em tecnologia 65 nm da STMicroelectronics. Resultados de avaliações preliminares mostram que o circuito proposto dissipa uma potência estática de apenas 0,058 μW e uma potência dinâmica média de apenas 159 μW. A área ocupada pelo circuito de controle do gerador é de 0,0024 mm2. Esta sobrecarga de área representa menos de 5% da área de um roteador de rede intrachip minimalista. Tais resultados indicam a factibilidade de uso do gerador proposto em módulos relativamente pequenos de MPSoCs. Assim, o trabalho contribui sobretudo para consolidar a viabilidade de sistemas GALS. INFORMÁTICA ARQUITETURA DE COMPUTADOR MULTIPROCESSADORES
15	Runtime adaptive QOS management in NOC-based MPSOCS Ruaro, Marcelo January 2014 (has links) Made available in DSpace on 2014-05-10T02:01:10Z (GMT). No. of bitstreams: 1 000457714-Texto+Completo-0.pdf: 3058681 bytes, checksum: bf5c8f69d28b7aecb5cc89b8993abbc3 (MD5) Previous issue date: 2014 / Multiprocessor systems on chip (MPSoCs), using networks on chip (NoC) as the communication infrastructure, result from the continuous reduction in the transistors size and the need for increasing computational power. This increased computing capacity is obtained through the reuse of components (processors, memories, routers, etc. ), which also provides scalability, and simplifies the design process. MPSoCs with hundreds of processing elements (PEs) follows the Moore's law, and according to the ITRS 2011 it is predicted up to 1000 PEs in a single chip at the end of 2025. This estimation is driven mainly by the telecommunications and multimedia market, which includes devices such as smartphones and mobile computers. Such devices require systems able to execute a wide range of applications, with different performance requirements. Thus, the system must be able to provide quality of service (QoS) to applications, and adjust the resources usage at runtime. Literature proposais provide runtime QoS adaptation taking finto consideration the use of only one or two QoS techniques. Considering the application diversity that may execute in MPSoCs, applications may have different QoS requirements, requiring more computing resources, communication resources, or both simultaneously. Therefore, this work aims to explore different QoS levels addressing four different adaptive QoS techniques managed at runtime according to the soft real-time applications' requirements. It is assumed that the MPSoC is partitioned in regions, named clusters, with one manager PE per cluster. This adaptive management is controlled through a heuristic that is executed by the OS of each cluster manager. A hybrid monitoring infrastructure provides the necessary information for the adaptive heuristic. This infrastructure is divided in two hierarchical levels, being scalable and with an intrusion levei that corresponda, in the worst case, to 0. 8% of the link utilization. The runtime adaptive QoS management acta in computing, communication, or both, enabling soft real time applications to restore their performance after detected a performance decrease by monitoring. Furthermore, a debugging tool for NoC-based MPSoCs is proposed in this work. This tool provides a communication protocol level debugging, and helps the process of implementation, validation and extraction of results of new system protocols. / Sistemas multiprocessados em chip (MPSoCs), baseados em redes em chip (NoCs), são resultados da contínua redução no tamanho dos transistores e na busca por um crescente poder computacional. Este aumento da capacidade de computação é alcançado através da replicação de componentes (processadores, memórias, roteadores, etc. ),o que também fornece escalabilidade e simplifica o projeto. A estimativa de MPSoCs com elevado número de processadores acompanha a lei de Moore, e segundo o ITRS 2011 são previstos até 1000 elementos de processamento (PE) em um único chip até o ano de 2025. Esta estimativa é impulsionada principalmente pela mercado de telecomunicações e multimídia, que inclui dispositivos como smarthphones e computadores móveis. Este tipo de emprego de MPSoCs exige que tais sistemas sejam capazes de suportar uma variada gama de aplicações e com diversos requisitos de desempenho. Assim, o sistema deve ser capaz de fornecer qualidade de serviço (QoS) para as aplicações e ajustá-la em tempo de execução. As propostas atuais da literatura visam fornecer adaptação de QoS em tempo de execução levando em consideração o uso de poucas ou de somente uma técnica de QoS. Observada a variedade de aplicações é claramente perceptível que certas aplicações possuem requisitos diferenciados de QoS, podendo requisitar mais recursos de computação, comunicação, ou ambos simultaneamente. Portanto, este trabalho propõe explorar diferentes níveis de QoS através do uso de quatro diferentes técnicas adaptativas de QoS que são gerenciadas em tempo de execução de acordo com os requisitos das aplicações. O gerenciamento é distribuído através do particionamento do MPSoC em regiões, denominadas clusters, havendo um PE responsável pela gerência de cada cluster. Este gerenciamento adaptativo é realizado através de uma heurística que é executada em cada sistema operacional gerente de cluster. Uma infraestrutura de monitoramento híbrido fornece as informações necessárias para a heurística adaptativa. Esta infraestrutura é dividida em dois níveis hierárquicos, sendo escalável e com um nível de intrusão que corresponde no pior caso a 0,8% de utilização do enlace da NoC. O gerenciamento adaptativo de QoS em tempo de execução age na computação, comunicação ou em ambos e faz com que aplicações de tempo real flexíveis possam restaurar seu desempenho após detectado uma queda do mesmo pelo monitoramento. Neste trabalho é também proposta uma ferramenta de depuração para MPSoCs baseados em NoC, esta ferramenta fornece depuração no nível de protocolo de comunicação ente os PEs, e facilita o processo de implementação, validação e obtenção de resultados de novos protocolos para o sistema. INFORMÁTICA ARQUITETURA DE COMPUTADOR MULTIPROCESSADORES
16	Mapping applications onto cluster-based MPSOCS Longhi, Oliver Bellaver January 2014 (has links) Made available in DSpace on 2014-05-10T02:01:11Z (GMT). No. of bitstreams: 1 000457720-Texto+Completo-0.pdf: 1953741 bytes, checksum: 6ec1fd7c64db87bf06e50c9e430a7c7f (MD5) Previous issue date: 2014 / The industry for decades has increased the clock rate to answer the need of performance. Reaching a physical limitations in terms of heat, the new chosen axis to increase performance is to scale the number of processing elements. To deal with that scaling number of processing elements, more and more important are the methodologies to support the design of MPSoCs. Approaches like simulation and FPGA-based prototyping are too expensive and timing consuming. Therefore, techniques like Analytical Models represent important alternatives to the previous consuming approaches. However, these architecture models are difficult to build and characterize. In addition, emerging MPSoC topologies lack analytical models. Due to that, this work proposes an analytical model to support designers in common tasks of the design process like application mapping and prototypes generation. / Durante décadas, a indústria aumentava a frequência de operação dos processores para responder às necessidades de desempenho. Após atingir uma limitação física em termos de geração de calor, o novo eixo escolhido para explorar desempenho foi escalar o número de elementos de processamento. Para lidar com o crescente número de elementos de processamento, cada vez mais são importantes as metodologias para auxiliar os projetistas no desenvolvimento de sistemas multiprocessados. Abordagens baseadas em simulação e prototipação em FPGA são onerosas pois demandam muitos recursos, tais como projetistas e tempo. Por isso, técnicas baseadas em modelos analíticos ganham visibilidade como alternativas para essas abordagens onerosas. Porém, modelos analíticos possuem desvantagens, como a dificuldade de modelar e caracterizar diferentes arquiteturas. Além disso, topologias emergentes de sistemas multiprocessados carecem de modelos analíticos. Levando esse cenário em conta, este trabalho propõe um modelo analítico que suporta atividades comuns de projetistas tais como mapeamento de aplicações e geração de protótipos de sistemas multiprocessados. INFORMÁTICA ARQUITETURA DE COMPUTADOR MULTIPROCESSADORES
17	3D network-on-chip architectural exploration Souza, Yan Ghidini de January 2014 (has links) Made available in DSpace on 2014-05-21T02:01:42Z (GMT). No. of bitstreams: 1 000458144-Texto+Completo-0.pdf: 2848899 bytes, checksum: aca140c6eed44d36131ec75411489b42 (MD5) Previous issue date: 2014 / Communication plays a crucial role in high performance design of Multiprocessor Systems-on-Chips (MPSoCs). Accordingly, Networks-on-Chip (NoCs) have been proposed as a solution to deal with the global communication of complex MPSoCs. NoC-based architectures are characterized by various tradeoffs related to structural characteristics, performance specifications, and application demands. Additionally, wire delay and power dissipation are rising as the number of cores over a 2D (two-dimensional) plane increases. One of the reasons for that is the long network diameter and overall communication distance. In this scenario, 3D (three-dimensional) Integrated Circuit (IC) technology applied to NoC architectures allows greater device integration, shorter interconnection, and it aims to reduce the length and number of global interconnections (interconnections among every processing element), which directly influences on the communication performance and allows opportunities for chip architecture innovations. Moreover, 3D NoC-based architectures appear as alternative to reduce network latency, energy consumption and area footprint in comparison to 2D NoC topologies. Albeit a wide variety of technologies is available for 3D interconnection, the employment of Through Silicon Vias (TSVs) is a feasible approach for the interconnection between stacked layers. However, the drawback for current 3D technologies is that TSVs are usually very expensive in terms of silicon area limiting their usage. This work presents a 3D mesh NoC architecture called Lasio, exploring architectural impacts of 3D versus 2D NoC topologies on latency, throughput, and buffers occupancy. It also analyzes the influence of buffer depth on communication latency and on application latency. Such evaluations considered varied network parameters, such as traffic patterns, buffer depth, TSVs serialization level, and a range of packet sizes. Besides, during this work, it was implemented a TSV serialization scheme on the Lasio NoC, and it was analyzed the impact of such serialization scheme on area cost, power dissipation, network and application latency, and occupancy on buffers of input ports for a 4x4x4 3D mesh NoCs with different serialization degrees. Experimental results show that, in average, 3D topologies minimize 30% the application latency and increase 56% the packets throughput, when compared to 2D topologies. In addition, this work highlights that when applying an appropriate buffer depth, the application latency is reduced up to 3. 4 times for 2D topologies and 2. 3 times for 3D topologies. Additional results demonstrate that NoCs 3D approach reduce the links occupancy when compared to 2D counterpart, which potentially leads to higher throughput and more dissipation power and latency efficiency. Moreover, results also demonstrate that the proposed serialization scheme allows reducing TSVs usage with low performance cost, displaying the potential benefits of the scheme in 3D NoC-based MPSoCs. / Comunicação desempenha papel fundamental em projetos de Sistemas Multiprocessados em Chips (MPSoCs, do inglês Multiprocessor Systems-on-Chips). Desta maneira, Redes Intrachip (NoCs, do inglês Networks-on-Chips) têm sido propostas como solução para a comunicação global em MPSoCs complexos. Arquiteturas baseadas em NoCs são caracterizadas por vários compromissos relacionados a características estruturais, a especificações de desempenho e a demandas da aplicação. Adicionalmente, o atraso na comunicação e a dissipação de potência estão aumentando conforme o número de núcleos em uma camada 2D (bidimensional) aumenta. Uma das razões para isso é o longo diâmetro da rede e a distância de comunicação entre núcleos. Neste cenário, a tecnologia de Circuito Integrado (CI) 3D (tridimensional) aplicada às arquiteturas do tipo NoC permite maior integração entre dispositivos e com interconexões menores, e possibilita também reduzir o tamanho e o número de interconexões globais (conexões entre todos os elementos de uma rede), o que, por sua vez, influencia diretamente o desempenho da comunicação e permite oportunidades para inovações em arquiteturas de chips. Ademais, arquiteturas baseadas em NoCs 3D aparecem como alternativa à redução de indicadores como latência, consumo de energia e área quando comparadas às topologias de NoCs 2D. Embora existam diversas tecnologias disponíveis para interconexões em redes 3D, a utilização de Through Silicon Vias (TSVs) é uma abordagem viável como interconexão entre camadas empilhadas. Entretanto, a desvantagem que a TSV ocasiona nas atuais tecnologias 3D é que tais interconexões são geralmente custosas em termos de área de silício, o que acarreta limitações no seu uso. Este trabalho apresenta uma arquitetura de NoC 3D do tipo malha chamada Lasio, explorando impactos arquiteturais e comparando duas topologias, uma 3D e outra 2D, em termos de latência, vazão e ocupação de buffers. O presente trabalho também analisa a influência da profundidade dos buffers de entrada das portas dos roteadores nas latências de comunicação e de aplicação. Tais avaliações consideraram diferentes parâmetros de rede, como por exemplo, padrões de tráfego, profundidade dos buffers, nível de serialização das TSVs e uma variedade de tamanhos de pacotes. Além disso, durante este trabalho, foi implementado um esquema de serialização de TSV na Lasio. Em seguida, foi analisado o impacto de diferentes níveis de serialização no custo de área, na dissipação de potência, nas latências de rede e de aplicação e na ocupação dos buffers de entrada das portas de cada roteador em uma NoC 3D 4x4x4 do tipo malha. Dentre os resultados alcançados durante este trabalho, foi verificado que topologias 3D quando comparadas a topologias 2D minimizam em 30% a latência de aplicação e aumentam 56% a vazão dos pacotes. Além disso, este trabalho salienta que quando é aplicado um tamanho de buffer apropriado, a latência de aplicação é reduzida até 3,4 vezes para topologias 2D e 2,3 vezes para topologias 3D. Resultados adicionais demonstram que NoCs 3D reduzem mais a ocupação das conexões internas quando comparadas com NoCs equivalentes 2D, o que potencialmente permite maior vazão e maior eficiência com relação à dissipação de potência e latência. Ademais, os resultados também demonstraram que o esquema de serialização proposto permite reduzir o uso de TSVs com uma baixa perda de desempenho, o que ressalta potenciais benefícios do esquema em MPSoCs baseados em NoCs 3D. INFORMÁTICA ARQUITETURA DE COMPUTADOR MULTIPROCESSADORES
18	Suporte para aplicações dinâmicas em sistemas multiprocessados intra-chip homogêneos Johann Filho, Sérgio January 2012 (has links) Made available in DSpace on 2013-08-07T18:43:42Z (GMT). No. of bitstreams: 1 000449233-Texto+Completo-0.pdf: 5384117 bytes, checksum: e5e7f7074f9334b3b3534e2949e5bfe7 (MD5) Previous issue date: 2012 / Modern MPSoC systems use resources previously available only in general purpose computers providing more functionalities for the applications. The architectural evolution enables more resources to be implemented on these embedded systems and determines an increased complexity of new hardware and software designs. In addition to the increased design complexity of current MPSoC systems, it is evident the difficulty in efficient use of computational resources found on such platforms. As well as the determinism and response time prioritized in many embedded systems, the programmability of MPSoCs is very relevant. Thus, well-defined software interfaces help developers to create applications that utilize optimally the computational resources found in these systems. Most embedded applications are divided into tasks and statically mapped to processing elements at design time, in order to optimize a set of pre-stablished metrics. However, the dynamic nature of new applications requires efficient strategies for the dynamic mapping and task migration to be implemented. In this context, this thesis presents a model for dynamic applications and distributed management of these in homogeneous MPSoC systems. The system management uses task migration concepts and timing constraints, where tasks characterization parameters’ are used in scheduling decision making and optimization at runtime. In this work we used a homogeneous MPSoC architecture, consisting of processing elements with a local memory interconected by a NoC. This environment allows the execution of applications managed by a distributed operating system that implements the proposed model and offers many services for the development and optimization of embedded applications. Many works in this field make use of a centralized manager to perform the system optimization at runtime, however such solutions tend to be not very scalable. Results show that the use of distributed managers present greater efficiency in systems with a large number of processing elements and tasks, with a reduction in the system stabilization time and reduction of deadline misses for applications with realtime constraints. / Sistemas MPSoC modernos fazem uso de recursos que eram disponibilizados apenas em computadores de propósito geral provendo mais funcionalidades para as aplicações. A evolução arquitetural possibilita que mais recursos sejam implementados nestes sistemas embarcados e determina um aumento na complexidade dos novos projetos de hardware e software. Além do aumento da complexidade de projeto em sistemas MPSoC atuais, torna-se evidente a dificuldade na utilização eficiente dos recursos computacionais encontrados em tais plataformas. Assim como o determinismo e o tempo de resposta priorizado em muitos sistemas embarcados, a programabilidade de MPSoCs é muito relevante. Dessa forma, interfaces bem definidas de software ajudam o desenvolvedor a criar aplicações que utilizam de maneira otimizada os recursos computacionais encontrados nestes sistemas.A maior parte das aplicações embarcadas são divididas em tarefas e estaticamente mapeadas a elementos de processamento em tempo de projeto, de forma a otimizar um conjunto de métricas pré-estabelecidas. No entanto, a natureza dinâmica de novas aplicações estabelece que estratégias eficientes de mapeamento dinâmico e migração de tarefas sejam implementadas. Neste contexto, esta tese apresenta um modelo para aplicações dinâmicas e gerenciamento distribuído destas em sistemas MPSoC homogêneos. O gerenciamento do sistema faz uso dos conceitos de migração de tarefas e restrições temporais, onde parâmetros de caracterização das tarefas são utilizados nas tomadas de decisão de escalonamento e otimização em tempo de execução. Neste trabalho é utilizada uma arquitetura MPSoC homogênea, composta por elementos de processamento com memórias locais interconectados por uma NoC. Este ambiente permite a execução de aplicações gerenciadas por um sistema operacional distribuído que implementa o modelo proposto e oferece diversos serviços para o desenvolvimento e otimização de aplicações embarcadas. Muitos trabalhos na área fazem uso de um gerente centralizado para realizar a otimização do sistema em tempo de execução, no entanto tais soluções tendem a ser pouco escaláveis. Os resultados obtidos mostram que o uso de gerentes distribuídos apresentam maior eficiência para sistemas com um grande número de elementos de processamento e tarefas, com redução nos tempos de estabilização do sistema e redução nas perdas de deadline para aplicações com restrições de tempo real. INFORMÁTICA MULTIPROCESSADORES ARQUITETURA DE COMPUTADOR
19	Solução de qualidade de serviço fim-a-fim em redes metropolitanas heterogêneas Dutra, Leoncio Regal 29 February 2008 (has links) Dissertação (mestrado)—Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, 2008. / Submitted by Thaíza da Silva Santos (thaiza28@hotmail.com) on 2010-02-27T04:20:29Z No. of bitstreams: 1 Dissert_Leoncio Dutra.pdf: 1431252 bytes, checksum: 9052b3333431d0cf96ed79b1b91e6cdd (MD5) / Approved for entry into archive by Lucila Saraiva(lucilasaraiva1@gmail.com) on 2010-03-01T23:15:07Z (GMT) No. of bitstreams: 1 Dissert_Leoncio Dutra.pdf: 1431252 bytes, checksum: 9052b3333431d0cf96ed79b1b91e6cdd (MD5) / Made available in DSpace on 2010-03-01T23:15:07Z (GMT). No. of bitstreams: 1 Dissert_Leoncio Dutra.pdf: 1431252 bytes, checksum: 9052b3333431d0cf96ed79b1b91e6cdd (MD5) Previous issue date: 2008-02-29 / Este trabalho visa a implementação e análise de um ambiente formado por redes WiMAX e MetroEthernet. A rede WiMAX oferece acesso de banda larga sem fio com capacidade ampla de cobertura de transmissão para áreas dispersas. Essa rede, no entanto irá permitir a interconexão com redes MetroEthernet, com aplicabilidade principalmente para órgão públicos e de pesquisa, que proporcionam uma infra-estrutura óptica moderna e de alta velocidade com conexão de até 10Gbps. O mapeamento aqui apresentado trata de uma implementação de Qualidade de Serviço (QoS) baseada na crescente demanda por banda para trafegar aplicativos como dados, vídeo e voz no cenário apresentado anteriormente. O ambiente de teste implementado, condizente com a arquitetura de uma rede MetroEthernet e WiMAX, nos possibilitou obter métricas de configuração e mapeamento de Qualidade de Serviço (QoS) para as futuras redes da INFOVIA. Os resultados obtidos foram amplamente positivos baseados nas métricas de Qualidade de Serviço. Até a elaboração deste trabalho não existe um estudo teórico e prático das características de tráfego de tempo real em redes WiMAX inter-conectando MetroEthernet no Brasil. _________________________________________________________________________________________ ABSTRACT / This work aims the implementation and analysis of an environment formed by WiMAX and MetroEthernet networks. WiMAX offers unwired broadband access with high capacity of data transmission for dispersed areas. This network, however will allow the interconnection of MetroEthernet, with public agencies and research centers, providing a modern optical infrastructure and high speed connection up to 10Gbps. The mapping herein presented deals with an implementation of Quality of Service (QoS) based in the increasing demand for band to allow data, video and voice traffic previously presented in the above scenario. The testbed deals with the architecture of a MetroEthernet and WiMAX network, which made possible obtaining new metrics for configuration and mapping of Quality of Service (QoS) for future INFOVIA networks. The results are widely positive and are based on QoS metric ones. Until the elaboration of this work a theoretical and practical study of the characteristics of real time traffic in WiMAX interconnecting MetroEthernet networks in Brazil does not exist. Arquitetura de computador Redes de computação
20	Uma arquitetura de agentes para recomendação contextualizada de eventos baseado em propagação de ativação Neves, Ana Régia de Mendonça 28 June 2013 (has links) Tese (doutorado)—Universidade de Brasília, Departamento de Engenharia Elétrica, 2013. / Submitted by Albânia Cézar de Melo (albania@bce.unb.br) on 2013-10-07T13:28:32Z No. of bitstreams: 1 2013_AnaRegiaMendoncaNeves.pdf: 3035613 bytes, checksum: 71893ca3aeb5b203f73b5f6f7bca28c0 (MD5) / Approved for entry into archive by Guimaraes Jacqueline(jacqueline.guimaraes@bce.unb.br) on 2013-10-07T15:23:06Z (GMT) No. of bitstreams: 1 2013_AnaRegiaMendoncaNeves.pdf: 3035613 bytes, checksum: 71893ca3aeb5b203f73b5f6f7bca28c0 (MD5) / Made available in DSpace on 2013-10-07T15:23:06Z (GMT). No. of bitstreams: 1 2013_AnaRegiaMendoncaNeves.pdf: 3035613 bytes, checksum: 71893ca3aeb5b203f73b5f6f7bca28c0 (MD5) / As técnicas tradicionais de recomendação não consideram as preferências do usuário de acordo com o contexto no qual está inserido. Não obstante, os sistemas de recomendação que agregam elementos contextuais são geralmente baseados em descrições sintáticas ou em valores numéricos informados explicitamente pelo usuário, o que pode gerar recomendações fora do domínio desejado, além de limitar a transparência do sistema quanto a interação usuário-ambiente, um dos principais objetivos da Computação Pervasiva. Deste modo, para que o processo de recomendação seja personalizado e transparente ao usuário, faz-se necessária uma aplicação que ltre proativamente o conteúdo das informações conforme contexto corrente e às preferências do usuário. Neste sentido, o objetivo deste trabalho é propor uma arquitetura baseada no paradigma de agentes de software, que permita a extração incremental de padrões comportamentais semanticamente relacionados pela aplicação da Teoria de Propagação da Ativação da Memória, possibilitando a oferta de informações contextualizadas aos usuários em ambientes distintos, como em um campus universitário. A prova de conceito da arquitetura proposta foi realizada pelo desenvolvimento de uma aplicação denominada eAgora?, a qual foi utilizada em um cenário de recomendação de eventos acadêmicos e culturais no campus Darcy Ribeiro da Universidade de Brasília. ______________________________________________________________________________ ABSTRACT / Traditional recommendation techniques don't consider user's preferences according to context. Nevertheless, the recommendation systems that add contextual elements are often based on syntactic descriptions and numerical values, which are explicitly informed by users. As a result, recommen- dation outside the desired domain can be generated. Also the Pervasive Computing major goal can be limited by the system transparency. Thus, for a transparent and customized recommendation process it is necessary an application that proactively lters the information content according to the current context and user's preferences. This research aims to propose an architecture based on the agents paradigm, that enables incremental extraction of semantically related behaviour patterns. Also, the use of Spreading Activation Theory of Memory enables that contextual information is o ered in distinct environments, e.g., the university campus. The proposed architecture has been validated through the development of eAgora? application, which is used in academic and cultural events recommendation at the Darcy Ribeiro Campus of the Brasília University. Arquitetura de computador Engenharia de software

Search results