• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 893
  • 167
  • 165
  • 133
  • 61
  • 59
  • 46
  • 39
  • 18
  • 14
  • 10
  • 7
  • 7
  • 7
  • 7
  • Tagged with
  • 1873
  • 356
  • 303
  • 257
  • 235
  • 219
  • 219
  • 159
  • 144
  • 143
  • 114
  • 112
  • 105
  • 96
  • 96
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
311

Métodos de Exploração de Espaço de Projeto em Tempo de Execução em Sistemas Embarcados de Tempo Real Soft baseados em Redes-Em-Chip. / Methods of Run-time Design Space Exploration in NoC-based Soft Real Time Embedded Systems

Briao, Eduardo Wenzel January 2008 (has links)
A complexidade no projeto de sistemas eletrônicos tem aumentado devido à evolução tecnológica e permite a concepção de sistemas inteiros em um único chip (SoCs – do inglês, Systems-on-Chip). Com o objetivo de reduzir a alta complexidade de projeto, custos de projeto e o tempo de lançamento do produto no mercado, os sistemas são desenvolvidos em módulos funcionais, pré-verificados e pré-projetados, denominados de núcleos de propriedade intelectual (IP – do inglês, Intellectual Property). Esses núcleos IP podem ser reutilizados de outros projetos ou adquiridos de terceiros. Entretanto, é necessário prover uma estrutura de comunicação para interligar esses núcleos e as estruturas atuais (barramentos) são inadequadas para atender as necessidades dos futuros SoCs (compartilhamento de banda, falta de escalabilidade). As redes-em-chip (NoCs{ XE "NoCs" } – do inglês, Networks-on-Chip) vêm sendo apresentadas como uma solução para atender essas restrições. No desenvolvimento de sistemas embarcados baseados em redes-em-chip, deve-se personalizar a rede para atendimento de restrições. Essa exploração de espaço de projeto (EEP), segundo uma infinidade de trabalhos, é realizada em tempo de projeto, supondo-se que é conhecido o perfil das aplicações que devem ser executadas pelo sistema. No entanto, cada vez mais sistemas embarcados aproximam-se de dispositivos genéricos de processamento (como palmtops), onde as tarefas a serem executadas não são inteiramente conhecidas a priori. Com a mudança dinâmica da carga de trabalho de um sistema embarcado, a busca pelo atendimento de requisitos pode então ser enfrentada por mecanismos adaptativos, que implementam dinamicamente a EEP. No âmbito deste trabalho, a EEP em tempo de execução provê mecanismos adaptativos que deverão realizar suas funções para atendimento de restrições de projeto. Consequentemente, EEP em tempo de execução pode permitir resultados ainda melhores, no que diz respeito a sistemas embarcados com restrições de projetos rígidas. É possível maximizar o tempo de duração da energia da bateria que alimenta um sistema embarcado ou, até mesmo, diminuir a taxa de perda de deadlines em um sistema de tempo real soft, realocando em tempo de execução tarefas de modo a gerar menor taxa de comunicação entre os processadores, desde que o sistema seja executado em um tempo suficiente para amortizar os custos de migração. Neste trabalho, foi utilizada a combinação de heurísticas de alocação da área dos Sistemas Computacionais Distribuídos como, por exemplo, algoritmos bin-packing e linear clustering. Resultados mostraram que a realocação de tarefas, utilizando uma combinação Worst-Fit e Linear Clustering, reduziu o consumo de energia e a taxa de perda de deadlines em 17% e 37%, respectivamente, utilizando o modelo de migração por cópia. / The complexity of electronic systems design has been increasing due to the technological evolution, which now allows the inclusion of a complete system on a single chip (SoC – System-on-Chip). In order to cope with the corresponding design complexity and reduce design costs and time-to-market, systems are built by assembling pre-designed and pre-verificated functional modules, called IP (Intellectual Property) cores. IP cores can be reused from previous designs or acquired from third-party vendors. However, an adequate communication architecture is required to interconnect these IP cores. Current communication architectures (busses) are unsuitable for the communication requirements of future SoCs (sharing of bandwidth, lack of scalability). Networks-on-Chip (NoC) arise as one of the solutions to fulfill these requirements. While developing NoC-based embedded systems, the NoC customization is mandatory to fulfill design constraints. This design space exploration (DSE), according to most approaches in the literature, is achieved at compile-time (off-line DSE), assuming the profiles of the tasks that will be executed in the embedded system are known a priori. However, nowadays, embedded systems are becoming more and more similar to generic processing devices (such as palmtops), where the tasks to be executed are not completely known a priori. Due to the dynamic modification of the workload of the embedded system, the fulfillment of requirements can be accomplished by using adaptive mechanisms that implement dynamically the DSE (run-time DSE or on-line DSE). In the scope of this work, DSE is on-line. In other words, when the system is running, adaptive mechanisms will be executed to fulfill the requirements of the system. Consequently, on-line DSE can achieve better results than off-line DSE alone, especially considering embedded systems with tight constraints. It is thus possible to maximize the lifetime of the battery that feeds an embedded system, or even to decrease the deadline miss ratio in a soft real-time system, for example by relocating tasks dynamically in order to generate less communication among the processors, provided that the system runs for enough execution time in order to amortize the migration overhead.In this work, a combination of allocation heuristics from the domain of Distributed Computing Systems is applied, for instance bin-packing and linear clustering algorithms. Results shows that applying task reallocation using the Worst-Fit and Linear Clustering combination reduces the energy consumption and deadline miss ratio by 17% and 37%, respectively, using the copy task migration model.
312

Roteador nanoeletrônico para redes-em-chip baseado em transistores monoelétron

Fé, Beatriz Oliveira Câmara da 08 March 2017 (has links)
Dissertação (mestrado)—Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, 2017. / Submitted by Raquel Almeida (raquel.df13@gmail.com) on 2017-05-29T19:01:52Z No. of bitstreams: 1 2017_BeatrizOliveiraCâmaradaFé.pdf: 5219419 bytes, checksum: 42c274999f95dc44122d55d1ccf59797 (MD5) / Approved for entry into archive by Raquel Viana (raquelviana@bce.unb.br) on 2017-05-29T22:46:22Z (GMT) No. of bitstreams: 1 2017_BeatrizOliveiraCâmaradaFé.pdf: 5219419 bytes, checksum: 42c274999f95dc44122d55d1ccf59797 (MD5) / Made available in DSpace on 2017-05-29T22:46:22Z (GMT). No. of bitstreams: 1 2017_BeatrizOliveiraCâmaradaFé.pdf: 5219419 bytes, checksum: 42c274999f95dc44122d55d1ccf59797 (MD5) Previous issue date: 2017-05-29 / A contínua miniaturização do tamanho dos transistores abriu espaço para inovações tecnológicas e novas abordagens de desenvolvimento de sistemas. Dentre estas inovações pode-se destacar a tecnologia nanoeletrônica e os sistemas-em-chip (SoC). Os SoCs são limitados pelas suas interconexões e a abordagem de redes-em-chip (NoC) provê uma solução flexível e expansível para esse problema. O roteador é o módulo central na NoC e novas arquiteturas estão sendo desenvolvidas para melhor atender as necessidades de um SoC, que incluem baixo consumo de potência e menor área ocupada possível. Por sua vez o transistor monoelétron (SET) é um dispositivo Nanoeletrônico que ocupa uma pequena área e dissipa pouca potência, sendo ideal para o desenvolvimento de um roteador nanoeletrônico. Este trabalho propõe uma arquitetura digital de um roteador para NoC com topologia Mesh completamente baseado na tecnologia SET. São propostos módulos digitais básicos baseados na tecnologia SET, compilados em uma biblioteca para LTspice, e novas arquiteturas de uma memória SRAM e um registrador FIFO. Ao final os resultados serão comparados com a tecnologia CMOS, evidenciando as vantagens do roteador nanoeletrônico. / The continued reduction in transistor size has made room for technological innovations and new approaches to system development. Among these innovations the nanoelectronic technology and systems-on-chip (SoC) can be highlighted. SoCs are limited by their interconnections, and the network-on-chip (NoC) approach provides a flexible and scalable solution to this problem. The router is the central module in NoC and new architectures are being developed to better meet the needs of a SoC, which include low power consumption and the smallest possible occupied area. In turn, the single-electron transistor (SET) is a nanoelectronic device that occupies a small area and dissipates low power, being ideal for the development of a nanoelectronic router. This work proposes a complete nanoelectronic circuit for an information router aiming at NoCs with Mesh topology. Basic digital modules based on the SET technology and new architectures of an SRAM memory and a FIFO register are proposed. At the end the results will be compared with the CMOS technology and the advantages of the nanoelectronic router will become evident.
313

Memória transacional em hardware para sistemas embarcados multiprocessados conectados por redes-em-chip / Hardware transactional memory for noc-based multi-core embedded systems

Kunz, Leonardo January 2010 (has links)
A Memória Transacional (TM) surgiu nos últimos anos como uma nova solução para sincronização em sistemas multiprocessados de memória compartilhada, permitindo explorar melhor o paralelismo das aplicações ao evitar limitações inerentes ao mecanismo de locks. Neste modelo, o programador define regiões de código que devem executar de forma atômica. O sistema tenta executá-las de forma concorrente, e, em caso de conflito nos acessos à memória, toma as medidas necessárias para preservar a atomicidade e isolamento das transações, na maioria das vezes abortando e reexecutando uma das transações. Um dos modelos mais aceitos de memória transacional em hardware é o LogTM, implementado neste trabalho em um MPSoC embarcado que utiliza uma NoC para interconexão. Os experimentos fazem uma comparação desta implementação com locks, levando-se em consideração performance e energia do sistema. Além disso, este trabalho mostra que o tempo que uma transação espera para reiniciar sua execução após ter abortado (chamado de backoff delay on abort) tem impactos significativos na performance e energia. Uma análise deste impacto é feita utilizando-se de três políticas de backoff. Um mecanismo baseado em um handshake entre transações, chamado Abort handshake, é proposto como solução para o problema. Os resultados dos experimentos são dependentes da aplicação e configuração do sistema e indicam ganhos da TM na maioria dos casos em relação ao mecanismo de locks. Houve redução de até 30% no tempo de execução e de até 32% na energia de aplicações de baixa demanda de sincronização. Em um segundo momento, é feita uma análise do backoff delay on abort na performance e energia de aplicações utilizando três políticas de backoff em comparação com o mecanismo Abort handshake. Os resultados mostram que o mecanismo proposto apresenta redução de até 20% no tempo de execução e de até 53% na energia comparado à melhor política de backoff dentre as analisadas. Para aplicações com alta demanda de sincronização, a TM mostra redução no tempo de execução de até 63% e redução de energia de até 71% em comparação com o mecanismo de locks. / Transactional Memory (TM) has emerged in the last years as a new solution for synchronization on shared memory multiprocessor systems, allowing a better exploration of the parallelism of the applications by avoiding inherent limitations of the lock mechanism. In this model, the programmer defines regions of code, called transactions, to execute atomically. The system tries to execute transactions concurrently, but in case of conflict on memory accesses, it takes the appropriate measures to preserve the atomicity and isolation, usually aborting and re-executing one of the transactions. One of the most accepted hardware transactional memory model is LogTM, implemented in this work in an embedded MPSoC that uses an NoC as interconnection mechanism. The experiments compare this implementation with locks, considering performance and energy. Furthermore, this work shows that the time a transaction waits to restart after abort (called backoff delay on abort) has significant impact on performance and energy. An analysis of this impact is done using three backoff policies. A novel mechanism based on handshake of transactions, called Abort handshake, is proposed as a solution to this issue. The results of the experiments depends on application and system configuration and show TM benefits in most cases in comparison to the locks mechanism, reaching reduction on the execution time up to 30% and reduction on the energy consumption up to 32% on low contention workloads. After that, an analysis of the backoff delay on abort on the performance and energy is presented, comparing to the Abort handshake mechanism. The proposed mechanism shows reduction of up to 20% on the execution time and up to 53% on the energy, when compared to the best backoff policy. For applications with a high degree of synchronization, TM shows reduction on the execution time up to 63% and energy savings up to 71% compared to locks.
314

Galvanically Isolated On Chip Communication By Resonant Coupling

January 2015 (has links)
Dissertation/Thesis / Masters Thesis Electrical Engineering 2015
315

Chimie de l'iode et composition des aérosols dans le circuit primaire d'un réacteur nucléaire en situation d'accident grave / Chemistry of iodine and aerosol composition in the primary circuit of a nuclear plant in severe accident conditions

Gouello, Mélany 06 November 2012 (has links)
En cas d'accident grave sur un réacteur à eau sous pression, l'évaluation de la quantité d'iode susceptible d'être rejetée dans l'environnement revêt une grande importance du fait de la radiotoxicité et du caractère volatil de cet élément. Le rejet d'iode du cœur du réacteur endommagé et son transport dans les différentes parties du réacteur jusqu'à l'enceinte de confinement, ont été largement étudiés, en particulier dans les expériences Phébus-FB. A ce jour, les connaissances acquises et les modèles utilisés ne permettent pas de rendre compte complètement du comportement de l'iode observé lors d'essais à grande échelle. Une hypothèse est que l'iode gazeux proviendrait du circuit primaire à cause de processus qui limiteraient la formation d'iodure de césium. La formation d'iodure de césium pourrait être limitée à cause de limitations cinétiques ou à la présence d'éléments qui piégeraient le césium (molybdène, bore). Des expériences de laboratoire dans un montage spécialement conçu reproduisent la chimie de mélanges CsI/MoO3 et CsI/H3BO3 sous vapeur d'eau entre 1600°C (température et 150°C. Les aérosols et les gaz présents à 150°C sont piégés séparément. Les analyses des phases condensées et aérosols par MEBE-EDX, microspectrométrie Raman, ICP-MS et XPS ont permis d'identifier des particules d'aérosols submicroniques collectés à 150°C. Les analyses des gaz piégés en solution par ICP-MS et spectroscopie UV-visible traduisent l'existence d'iode gazeux pour les deux systèmes étudiés {Cs, I, Mo, O, H} et {Cs, I, B, O, H}. La modélisation de la chimie et du transport des espèces gazeuses et particulaires pour les deux systèmes dans la ligne expérimentale a été réalisée à l'aide du code de calcul SOPHAEROS développé à l'IRSN. Les résultats expérimentaux ont ainsi pu être comparés aux résultats des simulations. / In case of a severe accident on a nuclear reactor, radioactive iodine may be released into the environment, impacting significantly the radiological consequences. Determination of the amount released, and of the physical state of iodine (gaseous form or solid aerosol form), is thus a major issue. The release of iodine from the damaged reactor core and its transport in the different parts of the reactor up to the reactor containment, have been extensively studied, particularly in the Phébus-FP large scale experiments. Phébus-FP results notably showed that a significant fraction of iodine under gaseous form can reach the containment. The models used in severe accident codes did not (and still does not) fully account for this iodine speciation. A likely explanation is that iodine keeps a gaseous form up to the containment due to some processes that limit the formation of caesium iodide in the reactor coolant system (RCS) (caesium iodide was assumed to be the dominant form of iodine in the RCS). Caesium iodide formation would be limited due to chemical kinetic limitations and due to the presence of other elements (molybdenum or boron) responsible for “trapping” the caesium. An experimental research program has been developed with the aim to study the chemical behaviour of iodine during its transport in the RCS, with presence of steam, caesium and molybdenum or boron. Experiments are compared to calculations performed with the IRSN severe accident code ASTEC where a chemical kinetic model has been implemented
316

Identification of CNVs in the Nelore genome and its association with meat tenderness / Identificação de CNVs no genoma de bovinos da raça Nelore e suas associações com maciez da carne

Vinicius Henrique da Silva 25 February 2015 (has links)
The Nelore breed represents the vast majority of Brazilian Zebuine cattle (Bos taurus indicus). The great adaptability of the Nelore breed to Brazilian tropical climate, however, is not associated with meat tenderness (MT). It is known that MT is influenced by several environmental factors, but also genetic composition. In the first chapter, we report a genome-wide analysis of copy number variation (CNV) inferred from Illumina® Bovine High Density SNP-chip data for a Nelore population of 723 males including 30 sires. We detected >2600 CNV regions (CNVRs) representing ≈6.5% of the Bos taurus genome. The CNVR size was 65 kb on average, ranging from 5 kb to 4.3 Mb. A total of 1155 CNVRs (43.6%) overlapped 2750 genes. They are enriched for important functions such as immune response, olfactory reception and processes involving guanosine triphosphate (GTP). The GTP processes have known influence in skeletal muscle physiology and morphology. Quantitative trait loci for MT, partly specific for Nelore, overlapped a substantial fraction of CNVRs and two CNVRs were found proximal to glutathione metabolism genes that are associated with MT as well. Comparing our results with previous studies revealed an overlap in ≈1400 CNVRs (>50%). We selected 9 CNVRs that overlapped regions associated with MT and we validated them in all 30 sires by qPCR. There was identified many genomic regions of structural variation in Nelore with important implications on the MT phenotype. In the second chapter, a total of 34 animals of the population were subjected to transcriptome analysis and meat tenderness (MT) phenotyping. We identified 170 CNV fragments (CNVFs) residing in 20 CNVRs, which occurred in different frequencies between animals with tougher and softer meat genetic potential. A considerable fraction of the identified CNVFs affected gene expression of the MT genes, which play important roles in glycogen metabolism, connective tissue turnover, membrane transporters and glutathione pathways. We also detected that several CNVRs substantially influenced the expression of overlapped and nearby genes, where the increase or decrease of copy number correlated well with the change in gene expression. Among them are two CNVRs at chromosomes 12 and 23, which are in the vicinity of previously described QTLs for MT in Nelore breed. Several CNVFs, which are more frequent in animals with genetic potential for softer or tougher MT, showed significant differences in gene expression. Those regions are linked to important biological functions with highly relevant influences on MT and skeletal muscle physiology. / A raça Nelore é predominante no rebanho zebuíno brasileiro (Bos taurus indicus). A grande adaptabilidade da raça Nelore ao clima tropical brasileiro, no entanto, não está associada à maciez de carne (MT). Sabe-se que MT é influenciada por vários fatores ambientais e pela composição genética. Foi realizada uma análise de todo o genoma para inferir Variação no Número de Cópias de Segmentos Genômicos (Copy Number Variation - CNV) a partir de dados oriundos de chip de SNP (Illumina® Bovine High Density), para uma população de 723 machos Nelore, incluindo 30 ancentrais da população. Foram detectadas >2600 regiões de CNV (CNVRs) representando ≈6.5% do genoma bovino. O tamanho médio do CNVR foi de 65 kb, variando de 5 kb até 43 Mb. Um total de 1155 CNVRs (43.6%) obtiveram sobreposição com 2750 genes. Estes genes foram enriquecidos para as funções importantes, tais como resposta imunológica, recepção olfativa e processos que envolvem o trifosfato de guanosina (GTP). As vias metabólicas do GTP conhecidamente influenciam a fisiologia e a morfologia do músculo esquelético. Loci de características quantitativas (QTLs) para MT, alguns específicos para Nelore, sobrepuseram uma fração substancial das CNVRs encontradas. Dois CNVRs foram encontrados em região proximal à genes do metabolismo da glutationa os quais também são associados com MT. Comparando os resultados com estudos anteriores ≈1400 CNVRs (>50%) foram sobrepostos. Nove CNVRs em regiões associadas com MT foram validados nos 30 ancentrais por qPCR. Em conclusão, foram identificadas regiões genômicas de variação estrutural no Nelore, com potenciais implicações sobre o fenótipo MT. No segundo capítulo, um total de 34 animais da população foi submetido à análise do transcriptoma e análise de potencial genético para MT. Foram identificados 170 fragmentos de CNV (CNVFs) mapeados em 20 CNVRs, os quais mostraram frequências significativamente diferentes entre animais com potencial genético para carne mais dura ou mais macia. Uma fração considerável dos CNVFs identificados afetaram a expressão gênica de genes MT (anteriormente descritos como associados à MT ou fisiologia do músculo esquelético), os quais desempenham um papel importante no metabolismo de glicogênio, volume do tecido conjuntivo, transportadores de membrana e vias metabólicas da glutationa. Um número considerável de CNVRs foram associados à expressão de genes sobrepostos e nas proximidades, onde o aumento ou diminuição do número de cópias foi associado com a mudança na expressão gênica. Dois CNVRs associados foram mapeados para os cromossomo 12 e 23, estando próximos a QTLs anteriormente descritos para MT na raça Nelore. Vários CNVFs, entre animais com potencial genético para carne mais macia ou dura, mostraram diferenças significativas na expressão gênica. Essas regiões estão ligadas a importantes funções biológicas com influências altamente relevantes para MT e para a fisiologia do músculo esquelético.
317

Estudo sobre o impacto da hierarquia de memória em MPSoCs baseados em NoC

Silva, Gustavo Girão Barreto da January 2009 (has links)
Ao longo dos últimos anos, os sistemas embarcados vêm se tornando cada vez mais complexos tanto em termos de hardware quanto de software. Ultimamente têm-se adotado como solução o uso de MPSoCs (sistemas multiprocessados integrados em chip) para uma maior eficiência energética e computacional nestes sistemas. Com o uso de diversos elementos de processamento, redes-em-chip (NoC - networks-on-chip) aparecem como soluções de melhor desempenho do que barramentos. Nestes ambientes cujo desempenho depende da eficiência do modelo de comunicação, a hierarquia de memória se torna um elemento chave. Baseando-se neste cenário, este trabalho realiza uma investigação sobre o impacto da hierarquia de memória em MPSoCs baseados em NoC. Dentro deste escopo foi desenvolvida uma nova organização de memória fisicamente centralizada com diferentes espaços de endereçamentos denominada nDMA. Este trabalho também apresenta uma comparação entre a nova organização e outras três organizações bastante difundidas tais como memória distribuída, memória compartilhada e memória compartilhada distribuída. Estas duas ultimas adotam um modelo de coerência de cache baseado em diretório completamente desenvolvido em hardware. Os modelos de memória foram implementados na plataforma virtual SIMPLE (SIMPLE Multiprocessor Platform Environment). Resultados experimentais mostram uma forte dependência com relação à carga de comunicação gerada pelas aplicações. O modelo de memória distribuída apresenta melhores resultados conforme a carga de comunicação das aplicações é baixa. Por outro lado, o novo modelo de memória fisicamente compartilhado com diferentes espaços de endereçamento apresenta melhores resultados conforme a carga de comunicação das aplicações é alta. Também foram realizados experimentos objetivando analisar o desempenho dos modelos de memória em situações de alta latência de comunicação na rede. Resultados mostram melhores resultados do modelo de memória distribuída quando a carga de comunicação das aplicações é alta e, caso contrário, o modelo nDMA apresenta melhores resultados. Por fim, foram analisados os desempenhos dos modelos de memória durante o processo de migração de tarefas. Neste caso, os modelos de memória compartilhada e compartilhada distribuída apresentaram melhores resultados devido ao fato de que não se faz necessária o envio dos dados da aplicação nestes modelos e também devido ao menor tamanho de código se comparado com os outros modelos. / In the past few the years, embedded systems have become even more complex both on terms of hardware and software. Lately, the use of MPSoCs (Multi-Processor Systems-on-Chip) has been adopted on these systems for a better energetic and computational efficiency. Due to the use of several processing elements, Networks-on-Chip arise as better performance solutions than buses. Considering this scenario, this work performs an investigation on the impact of memory hierarchy in NoC-based MPSoCs. In this context, a new physically centralized and shared memory organization with different address spaces named nDMA was developed. This work also presents a comparison between the new memory organization and three different well-known memory hierarchy models such as distributed memory and shared and distributed shared memories that make use of a fully hardware cache coherence solution. The memory models were implemented in the SIMPLE (SIMPLE Multiprocessor Platform Environment) virtual platform. Experimental results shows a strong dependency on the application communication workload. The distributed memory model presents better results as the application communication workload is low. On the other hand, the new memory model (physically shared with different address spaces) presents better results as the application communication workload is high. There were also experiments aiming at observing the performance of the memory models in situations where the communication latency on the network is high. Results show better results of the distributed memory model when the application communication workload is high, and the nDMA model presents better results otherwise. Finally, the performance of the memory models during a task migration process were evaluated. In this case, the shared memory and distributed shared memory models presented better results due to the fact that in this case the data memory does not need to be transferred from one point to another and also due to the low size of the memory code in these cases if compared to other memory models.
318

Desenvolvimento e avaliação de redes-em-chip hierárquicas e reconfiguráveis para MPSoCs / Development and evaluation of hierarchical and reconfigurable networks-on-chip for MPSoCs

Reinbrecht, Cezar Rodolfo Wedig January 2012 (has links)
Com o advento dos processos submicrônicos, a capacidade de integração de transistores numa mesma pastilha de silício atingiu níveis que possibilitaram a construção dos sistemas com múltiplos processadores num chip (MPSoCs, do inglês MultiProcessor System-on-Chip). Essa possibilidade de integração permite inserir dezenas de Elementos de Processamento (EPs) nos circuitos integrados atuais, e já se projeta centenas de EPs para os sistemas da próxima década (ITRS, 2011). Nesse cenário, um dos principais desafios se refere ao serviço de interconexão dos EPs, que deve apresentar um desempenho de comunicação necessário para as aplicações em execução sem comprometer as limitações de consumo de área e energia do circuito. Nos primeiros sistemas multiprocessados, com poucos nodos, arquiteturas baseadas em barramento foram suficientes para cumprir esses requisitos. Porém, o número de elementos nos sistemas recentes aumentou rapidamente, tornando as redes-em-chip a solução mais apropriada, por aliar escalabilidade e reuso na mesma estrutura. Contudo, diante da previsão de que essa tendência de aumento se manterá retorna a discussão se as redes-em-chip atuais continuarão adequadas para os futuros sistemas. De fato, o custo das redes-em-chip convencionais pode se tornar proibitivo para as escalas dos circuitos em um futuro próximo. Novas propostas têm sido apresentadas na literatura científica onde se podem destacar duas principais estratégias de projeto às redes de interconexão: reconfiguração arquitetural e organização hierárquica da topologia. A reconfiguração arquitetural permite obter uma grande eficiência, independente do tipo de aplicação em execução, pois uma das alternativas é projetar o circuito para que ele se auto adapte conforme os requisitos de desempenho para cada aplicação. Por outro lado, arquiteturas organizadas em topologias hierárquicas são desenvolvidas para uma estrutura computacional definida em tempo de projeto, sendo mais eficazes para uma classe de aplicações. O presente trabalho explora a sinergia da combinação das potencialidades das duas soluções e propõe uma nova estrutura que oferece melhor desempenho para uma classe maior de aplicações apropriada para os futuros sistemas. Como resultado foi implementada uma arquitetura adaptativa chamada MINoC (Multiple Interconnections Networks-on-Chip), uma arquitetura organizada em hierarquia, chamada HiCIT (Hierarchical Crossbar-based Interconnection Topology) e uma simbiose de ambas culminando na arquitetura hierárquica adaptativa HASIN (Hierarchical Adaptive Switching Interconnection Network). São apresentados resultados que mostram a eficiência desses conceitos validando a proposta hierárquica adaptativa. / With the advent of submicron processes, the number of transistors integrated on a single chip has reached levels that allowed the design of Multiprocessor Systems-on-Chip (MPSoCs). This capability allows the integration of several processing elements (PEs) in integrated circuits designed nowadays. In the next decade it is expected that hundreds of PEs will be integrated on a single chip. In this scenario, a key challenge is the interconnection network between PEs, which must provide the communication service required to run applications without compromising the limitations of area and energy consumption. In the first multiprocessor systems, with few nodes, bus-based approaches have been sufficient to meet these requirements. However, current systems increased quickly the number of elements, making the Networks-on-Chip (NoCs) the most appropriate solution, because it handles scalability and reusability in the same structure. Nevertheless, ITRS roadmap predicts that this increase will continue (ITRS, 2011), which resumes the discussion if present NoC architectures will be the most adequate for future systems, since its costs could be prohibitive. Therefore, new proposals have been presented in the literature with two main design strategies: architectural reconfiguration and hierarchical organization of the topology. With the architectural reconfiguration it is possible to obtain an application independent high efficiency structure, because the circuit is designed to adapt itself to satisfy performance requirements. On the other hand, architectural organizations in hierarchical topologies are defined at design time to have the most appropriate features for a class of applications, being very effective. The current work identified the synergy of both approaches and proposes a new symbiotic structure suitable for a broader class of applications. As a result, it was implemented an adaptive architecture called MINoC (Multiple Interconexions Networks-on-chip), an architecture organized in hierarchy called HiCIT (Hierarchical Crossbar-based Interconnection Topology) and a mix of both ending up with the hierarchical adaptive architecture HASIN (Hierarchical Interconnection Network Adaptive Switching). Results show the efficiency of these concepts validating the proposed hierarchical adaptive architecture.
319

NoC Design & Optimization of Multicore Media Processors

Basavaraj, T January 2013 (has links) (PDF)
Network on Chips[1][2][3][4] are critical elements of modern System on Chip(SoC) as well as Chip Multiprocessor(CMP)designs. Network on Chips (NoCs) help manage high complexity of designing large chips by decoupling computation from communication. SoCs and CMPs have a multiplicity of communicating entities like programmable processing elements, hardware acceleration engines, memory blocks as well as off-chip interfaces. With power having become a serious design constraint[5], there is a great need for designing NoC which meets the target communication requirements, while minimizing power using all the tricks available at the architecture, microarchitecture and circuit levels of the de-sign. This thesis presents a holistic, QoS based, power optimal design solution of a NoC inside a CMP taking into account link microarchitecture and processor tile configurations. Guaranteeing QoS by NoCs involves guaranteeing bandwidth and throughput for connections and deterministic latencies in communication paths. Label Switching based Network-on-Chip(LS-NoC) uses a centralized LS-NoC Management framework that engineers traffic into QoS guaranteed routes. LS-NoC uses label switching, enables band-width reservation, allows physical link sharing and leverages advantages of both packet and circuit switching techniques. A flow identification algorithm takes into account band-width available in individual links to establish QoS guaranteed routes. LS-NoC caters to the requirements of streaming applications where communication channels are fixed over the lifetime of the application. The proposed NoC framework inherently supports heterogeneous and ad-hoc SoC designs. A multicast, broadcast capable label switched router for the LS-NoC has been de-signed, verified, synthesized, placed and routed and timing analyzed. A 5 port, 256 bit data bus, 4 bit label router occupies 0.431 mm2 in 130nm and delivers peak band-width of80Gbits/s per link at312.5MHz. LS Router is estimated to consume 43.08 mW. Bandwidth and latency guarantees of LS-NoC have been demonstrated on streaming applications like Hiper LAN/2 and Object Recognition Processor, Constant Bit Rate traffic patterns and video decoder traffic representing Variable Bit Rate traffic. LS-NoC was found to have a competitive figure of merit with state-of-the-art NoCs providing QoS. We envision the use of LS-NoC in general purpose CMPs where applications demand deterministic latencies and hard bandwidth requirements. Design variables for interconnect exploration include wire width, wire spacing, repeater size and spacing, degree of pipelining, supply, threshold voltage, activity and coupling factors. An optimal link configuration in terms of number of pipeline stages for a given length of link and desired operating frequency is arrived at. Optimal configurations of all links in the NoC are identified and a power-performance optimal NoC is presented. We presents a latency, power and performance trade-off study of NoCs using link microarchitecture exploration. The design and implementation of a framework for such a design space exploration study is also presented. We present the trade-off study on NoCs by varying microarchitectural(e.g. pipelining) and circuit level(e.g. frequency and voltage) parameters. A System-C based NoC exploration framework is used to explore impacts of various architectural and microarchitectural level parameters of NoC elements on power and performance of the NoC. The framework enables the designer to choose from a variety of architectural options like topology, routing policy, etc., as well as allows experimentation with various microarchitectural options for the individual links like length, wire width, pitch, pipelining, supply voltage and frequency. The framework also supports a flexible traffic generation and communication model. Latency, power and throughput results using this framework to study a 4x4 CMP are presented. The framework is used to study NoC designs of a CMP using different classes of parallel computing benchmarks[6]. One of the key findings is that the average latency of a link can be reduced by increasing pipeline depth to a certain extent, as it enables link operation at higher link frequencies. Abstract There exists an optimum degree of pipelining which minimizes the energy-delay product of the link. In a 2D Torus when the longest link is pipelined by 4 stages at which point least latency(1.56 times minimum) is achieved and power(40% of max) and throughput (64%of max) are nominal. Using frequency scaling experiments, power variations of up to40%,26.6% and24% can be seen in 2D Torus, Reduced 2D Torus and Tree based NoC between various pipeline configurations to achieve same frequency at constant voltages. Also in some cases, we find that switching to a higher pipelining configuration can actually help reduce power as the links can be designed with smaller repeaters. We also find that the overall performance of the ICNs is determined by the lengths of the links needed to support the communication patterns. Thus the mesh seems to perform the best amongst the three topologies(Mesh, Torus and Folded Torus) considered in case studies. The effects of communication overheads on performance, power and energy of a multiprocessor chip using L1,L2 cache sizes as primary exploration parameters using accurate interconnect, processor, on-chip and off-chip memory modelling are presented. On-chip and off-chip communication times have significant impact on execution time and the energy efficiency of CMPs. Large cache simply larger tile area that result in longer inter-tile communication link lengths and latencies, thus adversely impacting communication time. Smaller caches potentially have higher number of misses and frequent of off-tile communication. Energy efficient tile design is a configuration exploration and trade-off study using different cache sizes and tile areas to identify a power-performance optimal configuration for the CMP. Trade-offs are explored using a detailed, cycle accurate, multicore simulation frame-work which includes superscalar processor cores, cache coherent memory hierarchies, on-chip point-to-point communication networks and detailed interconnect model including pipelining and latency. Sapphire, a detailed multiprocessor execution environment integrating SESC, Ruby and DRAM Sim was used to run applications from the Splash2 benchmark(64KpointFFT).Link latencies are estimated for a16 core CMP simulation on Sapphire. Each tile has a single processor, L1 and L2 caches and a router. Different sizesofL1 andL2lead to different tile clock speeds, tile miss rates and tile area and hence interconnect latency. Simulations across various L1, L2 sizes indicate that the tile configuration that maximizes energy efficiency is related to minimizing communication time. Experiments also indicate different optimal tile configurations for performance, energy and energy efficiency. Clustered interconnection network, communication aware cache bank mapping and thread mapping to physical cores are also explored as potential energy saving solutions. Results indicate that ignoring link latencies can lead to large errors in estimates of program completion times, of up to 17%. Performance optimal configurations are achieved at lower L1 caches and at moderateL2 cache sizes due to higher operating frequencies and smaller link lengths and comparatively lesser communication. Using minimal L1 cache size to operate at the highest frequency may not always be the performance-power optimal choice. Larger L1 sizes, despite a drop in frequency, offer a energy advantage due to lesser communication due to misses. Clustered tile placement experiments for FFT show considerable performance per watt improvement (1.2%). Remapping most accessed L2 banks by a process in the same core or neighbouring cores after communication traffic analysis offers power and performance advantages. Remapped processes and banks in clustered tile placement show a performance per watt improvement of5.25% and energy reductionof2.53%. This suggests that processors could execute a program in multiple modes, for example, minimum energy, maximum performance.
320

Memória transacional em hardware para sistemas embarcados multiprocessados conectados por redes-em-chip / Hardware transactional memory for noc-based multi-core embedded systems

Kunz, Leonardo January 2010 (has links)
A Memória Transacional (TM) surgiu nos últimos anos como uma nova solução para sincronização em sistemas multiprocessados de memória compartilhada, permitindo explorar melhor o paralelismo das aplicações ao evitar limitações inerentes ao mecanismo de locks. Neste modelo, o programador define regiões de código que devem executar de forma atômica. O sistema tenta executá-las de forma concorrente, e, em caso de conflito nos acessos à memória, toma as medidas necessárias para preservar a atomicidade e isolamento das transações, na maioria das vezes abortando e reexecutando uma das transações. Um dos modelos mais aceitos de memória transacional em hardware é o LogTM, implementado neste trabalho em um MPSoC embarcado que utiliza uma NoC para interconexão. Os experimentos fazem uma comparação desta implementação com locks, levando-se em consideração performance e energia do sistema. Além disso, este trabalho mostra que o tempo que uma transação espera para reiniciar sua execução após ter abortado (chamado de backoff delay on abort) tem impactos significativos na performance e energia. Uma análise deste impacto é feita utilizando-se de três políticas de backoff. Um mecanismo baseado em um handshake entre transações, chamado Abort handshake, é proposto como solução para o problema. Os resultados dos experimentos são dependentes da aplicação e configuração do sistema e indicam ganhos da TM na maioria dos casos em relação ao mecanismo de locks. Houve redução de até 30% no tempo de execução e de até 32% na energia de aplicações de baixa demanda de sincronização. Em um segundo momento, é feita uma análise do backoff delay on abort na performance e energia de aplicações utilizando três políticas de backoff em comparação com o mecanismo Abort handshake. Os resultados mostram que o mecanismo proposto apresenta redução de até 20% no tempo de execução e de até 53% na energia comparado à melhor política de backoff dentre as analisadas. Para aplicações com alta demanda de sincronização, a TM mostra redução no tempo de execução de até 63% e redução de energia de até 71% em comparação com o mecanismo de locks. / Transactional Memory (TM) has emerged in the last years as a new solution for synchronization on shared memory multiprocessor systems, allowing a better exploration of the parallelism of the applications by avoiding inherent limitations of the lock mechanism. In this model, the programmer defines regions of code, called transactions, to execute atomically. The system tries to execute transactions concurrently, but in case of conflict on memory accesses, it takes the appropriate measures to preserve the atomicity and isolation, usually aborting and re-executing one of the transactions. One of the most accepted hardware transactional memory model is LogTM, implemented in this work in an embedded MPSoC that uses an NoC as interconnection mechanism. The experiments compare this implementation with locks, considering performance and energy. Furthermore, this work shows that the time a transaction waits to restart after abort (called backoff delay on abort) has significant impact on performance and energy. An analysis of this impact is done using three backoff policies. A novel mechanism based on handshake of transactions, called Abort handshake, is proposed as a solution to this issue. The results of the experiments depends on application and system configuration and show TM benefits in most cases in comparison to the locks mechanism, reaching reduction on the execution time up to 30% and reduction on the energy consumption up to 32% on low contention workloads. After that, an analysis of the backoff delay on abort on the performance and energy is presented, comparing to the Abort handshake mechanism. The proposed mechanism shows reduction of up to 20% on the execution time and up to 53% on the energy, when compared to the best backoff policy. For applications with a high degree of synchronization, TM shows reduction on the execution time up to 63% and energy savings up to 71% compared to locks.

Page generated in 0.0497 seconds