Spelling suggestions: "subject:"arquitetura dde computador"" "subject:"arquitetura dee computador""
211 |
Elliptic curve cryptography in hardware for secure systems : a multi-use reconfigurable soft IPFerreira, Bruno Fin 11 March 2014 (has links)
Made available in DSpace on 2015-04-14T14:50:14Z (GMT). No. of bitstreams: 1
460263.pdf: 1997938 bytes, checksum: db8ee989e5494026f04f8cc600c619a5 (MD5)
Previous issue date: 2014-03-11 / Nos ?ltimos anos, a ind?stria tem desenvolvido e colocado no mercado uma grande quantidade de dispositivos que s?o capazes de acessar a Internet e outras redes. Isso est? tornando mais f?cil enviar, receber, compartilhar e guardar todo tipo de informa??o a qualquer momento de qualquer lugar. Assim, h? uma enorme quantidade de informa??es importantes passando pela Internet, mas h? tamb?m entidades e/ou indiv?duos maliciosos tentando capturar essas informa??es para roubar ou explorar isso visando obter ganhos financeiros ou estrat?gicos, ou causar algum dano a outras pessoas. Apesar de existir muitas maneiras de proteger tais informa??es, a mais relevante ? o uso de criptografia. H? muitos algoritmos criptogr?ficos em uso atualmente, tais como DES, 3DES, AES e RSA, que normalmente s?o implementados em software. Eles atingem baixo desempenho e proveem baixos n?veis de seguran?a para muitas aplica??es. Portanto, ? necess?rio criar so-lu??es que disponibilizem maiores n?veis de seguran?a e ao mesmo tempo melhorem o desempenho de criptografar. Este trabalho prop?e um sistema de comunica??o seguro que pode ser integrado a dispositivos embarcados ou computadores. O sistema de comunica??o seguro proposto e desenvolvido neste trabalho ? baseado em Criptografia por Curvas El?pticas (ECC), um esquema de criptografia que tem sido estudado e melhorado na ?ltima d?cada por muitos pesquisadores, e ? indicado como um dos algoritmos de criptografia dos mais seguros. Este trabalho descreve em detalhes a implementa??o das opera??es do ECC em hardware, com alvo em prover maior desempenho do que a maioria dos trabalhos dispon?veis na literatura. Outro objetivo do trabalho ? que mesmo sistemas embarcados cr?ti-cos possam usar o esquema proposto para criar sistemas de comunica??o seguros. Este trabalho utilizou o estado da arte opera??es de ECC para gerar implementa??es em hardware. O resultado ? um n?cleo de propriedade intelectual (IP) flex?vel para ECC que pode ser sintetizado para FPGAs ou ASICs. A valida??o deste n?cleo incluiu o desenvolvimento de um sistema de comunica??o completo que pode criar um enlace de comunica??o segura entre dois computadores ou dispositivos similares usando ECC para criptografar todas as informa??es trocadas. O n?cleo IP de ECC d? suporte a qualquer uma das 5 curvas el?pticas de Koblitz recomendadas pelo Instituto Nacional de Padr?es e Tecnologia (NIST) e aos Padr?es para Grupo de Criptografia Eficiente (SECG). Entretanto, o n?cleo IP pode tamb?m ser facilmente adaptado para dar suporte a outras curvas el?pticas. Um sis-tema de comunica??o segura foi desenvolvido, implementado e prototipado em uma placa de desenvolvimento com FPGA Virtex 5 da Xilinx. Al?m disso, o trabalho demonstra as vantagens e os ganhos de desempenho obtidos quando comparado com implementa??es em software de sistemas similares. / In the last years, the industry has developed and put in the market a plethora of electronic devices that are able to access the Internet and other networks. This is making easier to send, receive, share and store all types of information at any moment, from anywhere. Thus, there is a huge amount of important information crossing the Internet and there are malicious entities and/or individuals trying to capture this information to steal or exploit it in order to obtain financial or strategic gains or to cause damage to other people. There are many ways to protect such information, the most relevant of which is the use of cryptog-raphy. There are many cryptographic algorithms in use nowadays, such as DES, 3DES, AES and RSA, which are usually implemented in software. This leads to low performance, and low security levels for several applications. Therefore, it is necessary to create solutions that provide higher security levels and that at the same time improve cryptography performance. This work proposes and presents a secure communication system that can be inte-grated to embedded devices or computers. The proposed secure communication system developed in this work is based on Elliptic Curve Cryptography (ECC), which is a cryptography scheme that has being studied and improved over the last decade by many researchers and is indicated as one of the most secure among cryptographic algorithms. This work describes in detail the implementation of ECC operations in hardware, trying to provide higher performance than most works available in the literature. Another goal of the work is that even critical embedded systems could use the proposed scheme to build a secure communication system. This work capitalizes on the state of the art in ECC operations and implements these in hardware. The result is a reconfigurable soft IP core for ECC, which can be synthesized for either FPGAs or ASICs. The validation of the soft core comprises the development of a complete communication system that can create a secure communication link between two computers or similar devices using ECC to encrypt all exchanged information. The soft IP core for ECC operations supports any of the five Koblitz curves recommended by the National Institute of Standards and Technology (NIST) and the Standards for Efficient Cryptography Group (SECG). However, the IP core can also be easily adapted to support other elliptic curves. An overall secure communication system was developed, implemented and prototyped in a development board with a Xilinx Virtex 5 FPGA. Furthermore, the work demonstrates the advantages and gains in performance when compared to software implementations of similar systems.
|
212 |
Um portal de banco de imagens médicas distrubuído usando corba para integração de serviços de teleradiologiaRibeiro, Leonardo Andrade January 2002 (has links)
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-Graduação em Ciência da Computação. / Made available in DSpace on 2012-10-20T04:54:46Z (GMT). No. of bitstreams: 1
208066.pdf: 638412 bytes, checksum: c762b70508aada6ed9a0a59748b8d2c9 (MD5) / A área do diagnóstico por imagem é um dos campos da medicina mais propensos a uso da Telemedicina, porque normalmente não existe a obrigação do contato direto com o paciente pelo radiologista responsável durante a elaboração do diagnóstico. A carência de especialistas em locais distantes de grandes centros urbanos faz da Telemedicina uma importante ferramenta para melhorar os serviços de atenção à saúde. Neste trabalho é apresentado um modelo baseado em uma abordagem federada chamo Portal de Teleradiologia, para a integração de bancos de imagens médicas DICOM distribuído geograficamente. O objetivo é prover uma visão única e transparente dos dados compartilhados sem sacrificar a autonomia dos sistemas integrantes ou interferir com operações locais. Um requisito obrigatório para sistemas desta natureza é a garantia de um contexto seguro para a execução das operações. O modelo proposto prevê também a identificação única de pacientes entre as diversas bases de dados através de técnicas de relacionamento de registros. Para a implementação do protótipo do sistema foi utilizada a tecnologia de objetos distribuídos através da arquitetura CORBA.
|
213 |
FrameEST: um framework de componentes, no padrão MVC, para o domínio de biologia molecular.Lombardo, Luiz Roberto 25 August 2006 (has links)
Made available in DSpace on 2016-06-02T19:05:21Z (GMT). No. of bitstreams: 1
DissLRL.pdf: 1027181 bytes, checksum: 9aff4fc2bc614d350392b6d83ff1ecac (MD5)
Previous issue date: 2006-08-25 / Nowadays, some projects of genomes of different organisms are being analyzed
generating a great volume of data, which are stored in heterogeneous and distributed
data sources. Moreover, there are available tools in the genome domain that also need to
be integrated. Another problem is that the systems developed for these objectives do not
offer all the support to the researchers, therefore in their majority do not possess
flexibility and are of difficult expansion.
The proposal of this work is the development of a software component
framework, called FrameEST, developed with the most recent technologies of reuses,
that structures and guides the development of different applications of molecular
biology domain. The FrameEST is available for reuses of the applications: in the phase
of modeling in a CASE tool and the phase of implementation as one plug-in in the
Eclipse enviroment. A case study is used to illustrate the FrameEST reuse. / Atualmente, vários projetos de genomas de diferentes seres vivos estão sendo
mapeados gerando um grande volume de dados, os quais são armazenados em fontes de
dados heterogêneas e distribuídas. Além disso, existem ferramentas disponíveis no
domínio de genomas que também necessitam serem integradas. Outro problema é que
os sistemas desenvolvidos para este fim não atendem aos pesquisadores, pois na sua
grande maioria não possuem flexibilidade e são de difícil expansão.
A proposta deste trabalho é o desenvolvimento de um framework de
componentes de software, denominado FrameEST, desenvolvido com as mais recentes
tecnologias de reuso, que estrutura e orienta o desenvolvimento de diferentes aplicações
do domínio de biologia molecular. O FrameEST está disponível para reuso das
aplicações: na fase de modelagem em uma ferramenta CASE e na fase de
implementação como um plug-in no ambiente Eclipse. Um estudo de caso é utilizado
para ilustrar o reuso do FrameEST.
|
214 |
Estudos de técnicas de virtualização de memória em arquiteturas multi-coreVivencio, Diego Pagliarini 29 August 2010 (has links)
Made available in DSpace on 2016-06-02T19:06:14Z (GMT). No. of bitstreams: 1
6202.pdf: 2303544 bytes, checksum: f49c225976e9069a96200021080e9dfa (MD5)
Previous issue date: 2010-08-29 / The use of computer virtualization has grown rapidly in recent years, motivating the research for software and hardware improvements to optimize performance and reduce the bottlenecks inherent of virtualization. In the middle of this decade, the processors has added support for CPU virtualization, simplifying the design of virtual machine monitors, but the employed approach had performance limitations when combined with the virtualization of memory using shadow page tables. Adding support for nested paging hardware was the answer to this problem, providing performance closer to the native, ie, without the virtual abstraction. The multicore processors were the solution to keep the microprocessors' performance growth , as the monolithic architectures were close to their limit. The use of virtualization allows exploiting parallelism offered by them through the simultaneous execution of multiple virtual machines. This study evaluates the virtualization of memory subsystem and its interaction with the multicore architectures, to determine the set of features that maximize performance. We evaluated shadow and nested paging, comparing the use of conventional and large pages to map virtualized memory. We also analyzed the influence due to the presence of a level of cache shared among cores. The results showed that in the evaluated scenario the best performance was achieved by using nested paging using large pages to map memory, while the additional level of cache didn't bring any specific benefits to virtualization. / O uso de virtualização de computadores vem crescendo rapidamente nos últimos anos, motivando a pesquisa de melhorias em software e hardware que permitam aumento de desempenho e a redução dos gargalos inerentes à virtualização. Em meados desta década, os processadores adicionaram suporte a virtualização de CPU, simplificando o projeto dos monitores de máquinas virtuais, porém o modelo adotado apresentava restrições de desempenho quando combinado com a virtualização de memória utilizando tabelas de páginas de sombra. A inclusão de suporte a paginação aninhada em hardware foi a resposta a esse problema, oferecendo desempenho mais próximo ao nativo, isto é, sem a abstração virtual. Os processadores com múltiplos núcleos, também conhecidos como multi-core, foram a solução encontrada para manter o aumento de desempenho dos microprocessadores, visto que as arquiteturas monolíticas estavam próximo ao seu limite. A utilização de virtualização permite explorar o paralelismo oferecido por eles através da execução simultânea de múltiplas máquinas virtuais. O presente trabalho avalia o subsistema de virtualização de memória e sua interação com as arquiteturas multi-core, visando determinar o conjunto de características que maximizem o desempenho. Foram avaliadas as paginações de sombra e aninhada, comparando a utilização de páginas convencionais e grandes para o mapeamento da memória virtualizada. Também foi avaliada a influência decorrente da presença de um nível de memória cache compartilhado entre os núcleos de processamento. Os resultados mostraram que no cenário avaliado o melhor desempenho foi obtido através de utilização de paginação aninhada utilizando páginas grandes para o mapeamento da memória, enquanto que o nível adicional de memória cache não trouxe benefícios específicos à virtualização.
|
215 |
Arquitetura paralela reconfigurável baseada em fluxo de dados implementada em FPGAFerlin, Edson Pedro 2010 October 1914 (has links)
Os problemas de engenharia cada vez mais exigem grandes necessidades computacionais, principalmente em termos de capacidade de processamento, sendo que o tempo de execução é um dos pontos-chave em toda esta discussção. Neste sentido o processamento paralelo surge como um elemento decisivo, pois possibilita uma redução do tempo de processamento em decorrência da execução paralela das operações. Outro fator importante é a questão da computação reconfigurável que possibilita combinar o desempenho do hardware com a flexibilidade do software, permitindo o desenvolvimento de sistemas extremamente complexos e compactos. Este trabalho tem por objetivo apresentar uma proposta de uma arquitetura paralela reconfigurável baseada em fluxo de dados (dataflow), que aproveita a potencialidade tanto do processamento paralelo quanto da computação reconfigurável, e que proporciona uma rápida adequação da máquina paralela ao problema a ser resolvido, garantindo um alto desempenho e uma grande flexibilidade de adaptar o sistema paralelo à aplicação desejada. Esta arquitetura visa explorar o paralelismo existente entre as operações envolvidas nos cálculos numéricos, baseando-se no grafo de fluxo de dados do problema a ser solucionado. A arquitetura é composta por uma unidade de controle, responsável por todo o controle dos Elementos Processadores (EPs) e o fluxo de dados entre eles, e de vários EPs que efetivamente realizam a execução da operação. Ao contrário da computação sequencial, a computação paralela aproveita a disponibilidade dos EPs presentes na arquitetura, garantindo um maior desempenho. Além disso, a arquitetura pode facilmente ser reorganizada, adaptando-se à aplicação, o que garante uma flexibilidade na classe de problemas computacionais que podem ser executados nesta arquitetura. / Many real-world engineering problems require high computational power, especially concerning to the processing speed. Modern parallel processing techniques play an important role in reducing the processing time as a consequence of the parallel execution of machinelevel operations for a given application software , taking advantage of possible independence between data and operations during processing time. Recently, reconfigurable computation has gained large attention thanks to its ability to combine hardware performance and software flexibility, allowed the developmentof very complex, compact and powerful systems for custom application. Tjis work proposes a new architecturefor parallel reconfigurable computation that associate the power of parallel processing and the flexibility of reconfigurable devices. This architecture allows quick customization of the system for many problems and, particularly, for numerical computation. For instance, this architecture can exploit the inherent parallelism of the numerical computation of differential equations, where several operations can be executed at the same time using a dataflow graph model of the problem. The proposedarchitecture is composed by a Control Unit , responsible for the control of all Processing Elements (PEs) and the data flow between them; and many application-customized PEs, responsible for the executionof operations. Diferrently from sequential computation, the parallel computation takes advantageof the available PEs and theirspecificity for the aplication. Therefore, the proposed architecture can offerhigh performance, scalability and customized solutions for engineering problems.
|
216 |
Arquitetura paralela reconfigurável baseada em fluxo de dados implementada em FPGAFerlin, Edson Pedro 2010 October 1914 (has links)
Os problemas de engenharia cada vez mais exigem grandes necessidades computacionais, principalmente em termos de capacidade de processamento, sendo que o tempo de execução é um dos pontos-chave em toda esta discussção. Neste sentido o processamento paralelo surge como um elemento decisivo, pois possibilita uma redução do tempo de processamento em decorrência da execução paralela das operações. Outro fator importante é a questão da computação reconfigurável que possibilita combinar o desempenho do hardware com a flexibilidade do software, permitindo o desenvolvimento de sistemas extremamente complexos e compactos. Este trabalho tem por objetivo apresentar uma proposta de uma arquitetura paralela reconfigurável baseada em fluxo de dados (dataflow), que aproveita a potencialidade tanto do processamento paralelo quanto da computação reconfigurável, e que proporciona uma rápida adequação da máquina paralela ao problema a ser resolvido, garantindo um alto desempenho e uma grande flexibilidade de adaptar o sistema paralelo à aplicação desejada. Esta arquitetura visa explorar o paralelismo existente entre as operações envolvidas nos cálculos numéricos, baseando-se no grafo de fluxo de dados do problema a ser solucionado. A arquitetura é composta por uma unidade de controle, responsável por todo o controle dos Elementos Processadores (EPs) e o fluxo de dados entre eles, e de vários EPs que efetivamente realizam a execução da operação. Ao contrário da computação sequencial, a computação paralela aproveita a disponibilidade dos EPs presentes na arquitetura, garantindo um maior desempenho. Além disso, a arquitetura pode facilmente ser reorganizada, adaptando-se à aplicação, o que garante uma flexibilidade na classe de problemas computacionais que podem ser executados nesta arquitetura. / Many real-world engineering problems require high computational power, especially concerning to the processing speed. Modern parallel processing techniques play an important role in reducing the processing time as a consequence of the parallel execution of machinelevel operations for a given application software , taking advantage of possible independence between data and operations during processing time. Recently, reconfigurable computation has gained large attention thanks to its ability to combine hardware performance and software flexibility, allowed the developmentof very complex, compact and powerful systems for custom application. Tjis work proposes a new architecturefor parallel reconfigurable computation that associate the power of parallel processing and the flexibility of reconfigurable devices. This architecture allows quick customization of the system for many problems and, particularly, for numerical computation. For instance, this architecture can exploit the inherent parallelism of the numerical computation of differential equations, where several operations can be executed at the same time using a dataflow graph model of the problem. The proposedarchitecture is composed by a Control Unit , responsible for the control of all Processing Elements (PEs) and the data flow between them; and many application-customized PEs, responsible for the executionof operations. Diferrently from sequential computation, the parallel computation takes advantageof the available PEs and theirspecificity for the aplication. Therefore, the proposed architecture can offerhigh performance, scalability and customized solutions for engineering problems.
|
217 |
SPARC16 = uma nova visão de compressão para processadores SPARC / SPARC16 : a new compression approach for SPARC processorsEcco, Leonardo Luiz 17 August 2018 (has links)
Orientadores: Rodolfo Jardim de Azevedo, Paulo César Centoducatte / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação / Made available in DSpace on 2018-08-17T03:13:58Z (GMT). No. of bitstreams: 1
Ecco_LeonardoLuiz_M.pdf: 1421385 bytes, checksum: f67461dbfc9c1fb6597942f22c234b0a (MD5)
Previous issue date: 2010 / Resumo: Processadores RISC podem ser usados para atender a crescente demanda por desempenho requerida por sistemas embarcados. Entretanto, essas arquiteturas têm como desvantagem uma densidade de código ruim. Recodificações do conjunto de instruções, como o MIPS16 e o Thumb, representam uma abordagem eficiente para lidar com esse problema. Esse trabalho propõe uma codificação alternativa para a arquitetura SPARCv8. A nova codificação, chamada SPARC16, foi projetada com a ajuda de um modelo de programação linear inteira. As novas instruções utilizam 16 bits para serem codificadas e são facilmente traduzidas para suas correspondentes no conjunto de instruções original em tempo de execução, tornando possível posicionar um descompressor antes do estágio de decode de um processador SPARC e usar o restante do pipeline de forma transparente. O descompressor foi projetado e integrado no processador Leon 3 (SPARCv8) e ocasionou um acréscimo de 24% na área e nenhuma penalização na freqüência. Apenas um montador foi implementado para a extensão SPARC16. O descompressor foi validado através de programas que exercitam todas as instruções SPARC16 escritos diretamente em linguagem de montagem. As razões de compressão dos programas dos benchmarks Mediabench e Mibench foram obtidas inferindo como código SPARCv8 seria representado com instruções SPARC16. Através desse método, razões de compressão de até 58% foram atingidas (para o programa cjpeg) com uma média de 61.27% para os programas do Mediabench e 60.77% para os programas do Mibench. Utilizando a mesma abordagem, uma avaliação da mudança trazida pelo uso de SPARC16 nos padrões de acesso à cachê de instruções foi feita e mostrou reduções no número de misses até superiores a 50% / Abstract: RISC processors can be used to face the ever increasing demand for performance required by embedded systems. Nevertheless, these architectures have as drawback a poor code density. Alternate encodings for instruction sets, such as MIPS16 and Thumb, represent an effective approach to deal with this problem. This work proposes an alternate encoding for the SPARCv8 architecture. The new encoding, called SPARC16, was designed with the aid of an integer linear programming model. The new instructions are 16-bits wide and are easily translated to its 32-bit counterparts during execution time, making it possible to place a decompressor engine before the decode stage of a SPARC processor and use the remaining of the pipeline transparently. The decompressor engine was designed and integrated into the Leon 3 processor (SPARCv8) and caused an increase of 24% in area and no timing overhead. Only an assembler was implemented for the SPARC16 extension. The decompressor engine was validated using programs that cover all the SPARC16 instructions written directly in assembly language. The compression ratios for the programs belonging to the Mediabench and Mibench benchmarks were obtained inferring how SPARCv8 code would be represented with SPARC16 instructions. Through this method, compression ratios as low as 58% were achieved (for the cjpeg program) with an average of 61.27% for the Mediabench programs and 60.77% for the Mibench programs. Using the same approach, an evaluation of the change brought by the use of SPARC16 in the instruction cache access patterns was performed and showed reductions in the number of misses even greater than 50% / Mestrado / Ciência da Computação / Mestre em Ciência da Computação
|
218 |
Memorias transacionais : prototipagem e simulação de implementações em hardware e uma caracterização para o problema de gerenciamento de contenção em software / Transactional memories : prototyping and simulation of hardware implementations and a characterization of the problem of contention management in softwareKronbauer, Fernando André 11 July 2008 (has links)
Orientador: Sandro Rigo / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação / Made available in DSpace on 2018-08-13T10:38:16Z (GMT). No. of bitstreams: 1
Kronbauer_FernandoAndre_M.pdf: 3637569 bytes, checksum: 4c5752e2ae7f853d3b5f4971d6d7cbab (MD5)
Previous issue date: 2009 / Resumo: Enquanto que arquiteturas paralelas vão se tornando cada vez mais comuns na indústria de computação mais e mais programadores precisam escrever programas paralelos e desta forma são expostos aos problemas relacionados ao uso dos mecanismos tradicionais de controle de concorrência. Memórias transacionais têm sido propostas como um meio de aliviar as dificuldades encontradas ao escreverem-se programas paralelos: o desenvolvedor precisa apenas marcar as seções de código que devem ser executadas de forma atômica e isolada - na forma de transações, e o sistema cuida dos detalhes de sincronização. Neste trabalho exploramos propostas de memórias transacionais com suporte específico em hardware (HTM), desenvolvendo uma plataforma flexível para a prototipagem, simulação e caracterização destes sistemas. Também exploramos um sistema de memória transacional com suporte apenas em software (STM), apresentando uma abordagem nova para gerenciar a contenção entre transações. Esta abordagem leva em consideração os padrões de acesso aos diferentes dados de um programa ao escolher o gerenciador de contenção a ser usado para o acesso a estes dados. Elaboramos uma modificação da plataforma de STM que nos permite realizar esta associação entre dados e gerenciamento de contenção, e a partir desta implementação realizamos uma caracterização baseada nos padrões de acesso aos dados de um programa executando em diferentes sistemas de computação. Os resultados de nosso trabalho mostram a viabilidade do uso de memórias transacionais em um ambiente de pesquisa acadêmica, e apontam caminhos para a realização de trabalhos futuros que aumentem a viabilidade do seu uso também pela indústria. / Abstract: As parallel architectures become prevalent in the computer industry, more and more programmers are required to write parallel programs and are thus being exposed to the problems related to the use of traditional mechanisms for concurrency control. Transactional memory has been devised as a means for easing the burden of writing parallel
Programs: the programmer has only to mark the sections of code that are to be executed in an atomic and isolated way - in the form of transactions, and the system takes care of the synchronization details. In this work we explore different proposals of transactional memories based on specific hardware support (HTM), developing a flexible platform for the prototyping, simulation and characterization of these systems. We also explore a transactional memory system based solely on software support (STM), devising a novel approach for managing the contention among transactions. This new approach takes into account access patterns to different data in an application when choosing the contention management strategy to be used for the access to these data. We made modifications to the STM system in order to enable the association of the data with the contention manager algorithm, and using the new implementation we characterized the STM system based on the access patterns to the data of a program, running it on different hardware. Our results show the viability of the use of transactional memories in an academic environment, and serve as a basis for the proposal of different directions to be followed in future research work, aimed at leveraging the use of transactional memories by the industry. / Mestrado / Mestre em Ciência da Computação
|
219 |
2D-VLIW : uma arquitetura de processador baseada na geometria da computação / 2D-VLIW : a processor architecture based on the geometry of the computationSantos, Ricardo Ribeiro dos 07 October 2007 (has links)
Orientadores: Rodolfo Jardim de Azevedo, Guido Costa Souza de Araujo / Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Computação / Made available in DSpace on 2018-08-08T21:29:56Z (GMT). No. of bitstreams: 1
Santos_RicardoRibeirodos_D.pdf: 1101695 bytes, checksum: 4ed1029f4633af49dda77618650600a7 (MD5)
Previous issue date: 2007 / Resumo: Anúncios recentes sobre os limites do desempenho dos processadores devido ao alcance da barreira térmica têm motivado a pesquisa sobre novas organizações arquiteturais e modelos de execução que visam continuar o aumento de desempenho dos processadores. Este trabalho propõe uma nova arquitetura de processador denominada 2D-VLIW. A arquitetura possui uma organização arquitetural baseada em uma matriz bidimensional de unidades funcionais e de registradores distribuídos ao longo dessa matriz. O modelo de execução 2D-VLIW possibilita que instruções longas, formadas por operações simples, sejam buscadas na memória e executadas sobre a matriz de unidades funcionais. Além disso, são propostos algoritmos para geração de código para extrair o paralelismo e preparar o código para ser executado sobre a arquitetura. Algumas contribuições deste trabalho são a concepção de uma nova arquitetura de processador que explora paralelismo em nível de instruções através de um novo arranjo dos elementos arquiteturais, a adoção de um modelo de execução que captura a geometria dos DAGs e associa os vértices e arestas desses DAGs aos recursos do hardware, um conjunto de algoritmos para escalonamento de instruções, a alocação de registradores e a codificação de instruções na arquitetura 2D-VLIW. Os resultados experimentais comparam o desempenho do modelo de execução dessa arquitetura com o modelo EPIC adotado pelo processador HPL-PD. O speedup obtido por 2D-VLIW foi de 5% at'e 63%. A estratégia de escalonamento adotada por 2D-VLIW foi também avaliada e os ganhos obtidos através do OPC e OPI foram até 4 vezes melhores que aqueles obtidos por um algoritmo de escalonamento baseado em list scheduling / Abstract: Recent announcements on processor performance limits due to the thermal barrier have motivated research into innovative architectural organizations and execution models to sustain the increase of performance. This work proposes a new architecture named 2D-VLIW. The architecture provides a new architectural organization of the processing elements by using a two-dimensional functional units matrix and registers spread out along this matrix. The 2D-VLIW execution model fetches long instructions comprised of simple operations in the memory and dispatches these operations to the matrix. Moreover, the work presents new algorithms for code generation which are the responsible for extracting the parallelism of the applications and preparing the code for the 2D-VLIW architecture. Some contributions of this work are a new high performance architecture that exploits instruction level parallelism by a new arrangement of the architectural elements, the adoption of an execution model that captures the geometry of the DAGs and matches them to the hardware resources, a set of algorithms for code generation that make them possible to schedule instructions, allocate registers and encode long instructions of the 2D-VLIW architecture. Experimentos were used for comparing the performance of the 2D-VLIWexecution model to the EPIC execution model of the HPL-PD architecture. The speedup obtained by 2D-VLIW ranges from 5%-63% for all the evaluated programs. The scheduling strategy based on subgraph isomorphism was also evaluated and the OPC and OPI gains were up to 4× better than that of the list scheduling algorithm / Doutorado / Doutor em Ciência da Computação
|
220 |
Tecnicas avançadas de modelagem, analise e otimização de potencia em sistemas digitais / Advanced techniques for power modeling, analysis and optimization in digital systemsKlein, Felipe Vieira 15 August 2018 (has links)
Orientadores: Rodolfo Jardim de Azevedo, Guido Costa Souza de Araujo / Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Computação / Made available in DSpace on 2018-08-15T15:19:14Z (GMT). No. of bitstreams: 1
Klein_FelipeVieira_D.pdf: 3206083 bytes, checksum: c061ecd0ae638bd119cadc4fdfaf309c (MD5)
Previous issue date: 2009 / Resumo: O crescente aumento da demanda por funcionalidades agregadas a um mesmo dispositivo, aliado a rígidas restrições de desempenho colocam a dissipação de potência como um dos requisitos mais importantes dentro do fluxo de projeto em CAD/EDA. A constante evolução da tecnologia de semicondutores das 'ultimas décadas tem garantido o aumento da complexidade dos sistemas, que demandam cada vez mais recursos computacionais. Contudo, esta crescente complexidade leva ao aumento do consumo de potência, que tem uma série de efeitos colaterais indesejados, tais como, problemas térmicos e aumento da densidade de potência, comprometendo a confiabilidade do circuito. Desta forma, 'e necessário introduzir soluções para o resfriamento do chip, aumentando seu custo final e seu time-to-market. Além disso, no que diz respeito aos dispositivos portáteis, estes têm sua autonomia reduzida devido aos elevados montantes de energia requeridos para seu funcionamento. As contribuições desta tese englobam dois temas distintos dentro do chamado low-power design. O primeiro tema aborda as técnicas de macromodelagem de potência em RTL. Inicialmente, 'e mostrado que as técnicas convencionais de modelo simples têm limitações intrínsecas que afetam a precisão de suas estimativas. Uma análise quantitativa e qualitativa 'e conduzida, apontando as limitações de diversas técnicas conhecidas, e demonstrando que o uso de uma 'única técnica pode comprometer a qualidade geral das predições. Em seguida, são propostas duas novas técnicas de macromodelagem baseadas em múltiplos modelos, a fim de explorar os pontos fortes de cada modelo individual e otimizar a qualidade das estimativas. Os resultados obtidos com a abordagem proposta revelaram melhorias significativas em relação a abordagem convencional, alcançando resultados 7 vezes superiores para os erros médios, enquanto que os erros máximos foram reduzidos em até 9 vezes. O segundo tema aborda uma 'área que vem recebendo muita atenção com a chegada da era multi-core: o paradigma de programação concorrente conhecido como memória transacional, cujo intuito 'e tornar a tarefa de criar software concorrente mais simples. Embora esta seja uma 'área muito ativa, os pesquisadores têm quase que invariavelmente se concentrado no desempenho das aplicações, negligenciando métricas tais como energia e potência. Este trabalho apresenta uma análise pormenorizada do consumo de energia de uma implementação estado-da-arte de STM (Software Transactional Memory), sendo a primeira do gênero neste contexto. Além disso, uma nova estratégia de gerenciamento de contenção baseada em DVFS (Dynamic Voltage and Frequency Scaling) é proposta, com o intuito de reduzir o consumo de energia de aplicações exibindo alta contenção no barramento / Abstract: The growing demand for features to be included into electronic devices, along with tight performance constraints, make power consumption one of the most important design constraints in the CAD/EDA design flow. The constant evolution of the semiconductor technology, observed in the last decades, has considerably increased the complexity of today's systems, which demand exorbitant computational resources. Unfortunately, the growing complexity leads to a higher power consumption which, in turn, has a number of undesired side effects, such as thermal issues and increased power density, thus compromising the overall circuit reliability. Hence, elaborated cooling solutions are required, increasing its final cost and compromising its time-to-market. Moreover, the large amounts of energy needed by portable devices substantially reduce their battery lifetime. The contributions of this thesis encompass two distinct topics within the so-called low-power design. The first one is related to RTL power macromodeling techniques. It is shown that conventional single-model techniques have intrinsic limitations that affect their accuracy. Then, a quantitative and qualitative analysis is conducted, pinpointing the limitations of several well-known techniques, followed by a demonstration that the adoption of a single technique may compromise the overall quality of the estimates. Subsequently, two novel multi-model power macromodeling techniques are proposed, which exploit the strengths of each single-model technique in order to optimize the accuracy of power estimation. The obtained results revealed substantial improvements in accuracy, which becomes 7 times better for the average errors, while the overall maximum estimation error is divided by 9. The second part of this thesis is related to a topic which is gaining much attention recently in the multi-core era: the concurrent programming paradigm widely known as transactional memory, which aims at making the task of creating concurrent software simpler. Although this is a rather active area, researchers have invariably focused on performance, leaving other metrics such as power and energy unattended. This work presents a detailed power analysis of a state-of-the-art STM (Software Transactional Memory) implementation, being the first one in this context. Moreover, a novel DVFS-based (Dynamic Voltage and Frequency Scaling) contention management strategy is proposed, which reduces the energy consumption by exploiting the slack available in applications displaying high bus contention / Doutorado / Sistemas de Computação / Doutor em Ciência da Computação
|
Page generated in 0.0958 seconds