Global ETD Search

41	Proposta de uma implementação otimizada do algoritmo RTM.3D em OPEN.CL para plataformas baseadas em FPGAs PONA, Igor Rafael de Oliveira 08 September 2016 (has links) Submitted by Pedro Barros (pedro.silvabarros@ufpe.br) on 2018-08-03T18:12:26Z No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) DISSERTAÇÃO Igor Rafael de Oliveira Pona.pdf: 3747265 bytes, checksum: 884fc3c608ac7d133d803b0d0e83080f (MD5) / Approved for entry into archive by Alice Araujo (alice.caraujo@ufpe.br) on 2018-08-09T17:44:51Z (GMT) No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) DISSERTAÇÃO Igor Rafael de Oliveira Pona.pdf: 3747265 bytes, checksum: 884fc3c608ac7d133d803b0d0e83080f (MD5) / Made available in DSpace on 2018-08-09T17:44:51Z (GMT). No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) DISSERTAÇÃO Igor Rafael de Oliveira Pona.pdf: 3747265 bytes, checksum: 884fc3c608ac7d133d803b0d0e83080f (MD5) Previous issue date: 2016-09-08 / A demanda por sistemas de alto desempenho cresce junto ao desenvolvimento científico e econômico e dentro das mais diversas áreas, passando por modelagens científicas, inteligência artificial, criptografia, computação em nuvem, etc. A prospecção de petróleo e gás natural faz parte desses sistemas, exigindo o processamento de dados com um volume acima dos Terabytes e ao custo de semanas ou meses de execução, no intuito de procurar bolsões no subsolo; além de sua importância estratégica devido ao pré-sal. Essa procura faz uso da equação acústica de propagação de onda, e apresenta como uma de suas soluções o método de diferenças finitas (MDF) pelo algoritmo de RTM (Reverse Time Migration). Essa solução demanda uma grande quantidade de operações em ponto flutuante, exigindo hardwares com arquiteturas dedicados a essa finalidade como FPGAs e GPGPUs. Neste trabalho fazemos uma análise sobre essas arquiteturas para o algoritmo RTM em OpenCL na sua versão 3D, assim como as possíveis otimizações ao se aproveitar da portabilidade do código em OpenCL de GPGPUs para FPGAs. Avaliamos os recursos utilizados em sínteses feitas pelo SDK OpenCL da Altera para o FPGA Stratix V A7, para em um segundo momento, desenvolver um código que tenta otimizar o uso desses recursos que estão disponíveis no FPGA. E por fim, analisamos os resultados obtidos frente a outras arquiteturas. / The high-performance computing systems increase with scientific and economic development through several fields like scientific modeling, artificial intelligence, cryptography, cloud computing, etc. The oil and natural gas extraction is among of these systems, requiring data processing with sizes greater than Terabytes and with the cost of weeks or months of execution time, in order to look for underground reservoir; as well as its strategic importance due to the pre-salt. The oil extraction makes use of acoustic wave equation, and has the finite difference method (FDM) as one of your solutions through the algorithm of RTM (Reverse Time Migration). This solution requires a lot of floating point operations and a hardware with dedicated architecture as FPGAs and GPGPUs. This work we analyze these architectures to implement the RTM 3D algorithm with OpenCL, as well as the possibly of take advantage of code portability of OpenCL for FPGAs GPGPUs. We evaluate the resources used in syntheses made by the OpenCL SDK Altera Stratix V A7 FPGA, and in a second moment, to develop a code that attempts to optimize the use of these resources that are available in the FPGA. Finally, we analyze the results against other architectures. Engenharia da computação Arquitetura de computador FPGA
42	Projeto de uma arquitetura baseada num processador RISC-V para desenvolvimento de aplicações em software-defined radio MELO, Cecil Accetti Resende de Ataíde 26 August 2016 (has links) Submitted by Pedro Barros (pedro.silvabarros@ufpe.br) on 2018-08-22T19:41:45Z No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) DISSERTAÇÃO Cecil Accetti Resende de Ataíde Melo.pdf: 2769633 bytes, checksum: f491d3b88b08cb65e70c14b653034fdf (MD5) / Approved for entry into archive by Alice Araujo (alice.caraujo@ufpe.br) on 2018-08-29T21:40:28Z (GMT) No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) DISSERTAÇÃO Cecil Accetti Resende de Ataíde Melo.pdf: 2769633 bytes, checksum: f491d3b88b08cb65e70c14b653034fdf (MD5) / Made available in DSpace on 2018-08-29T21:40:28Z (GMT). No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) DISSERTAÇÃO Cecil Accetti Resende de Ataíde Melo.pdf: 2769633 bytes, checksum: f491d3b88b08cb65e70c14b653034fdf (MD5) Previous issue date: 2016-08-26 / CNPq / Os sistemas de software-defined radio práticos normalmente se dividem em duas classes: arquiteturas reconfiguráveis em FPGA que implementam os algoritmos de processamento de digital de sinais, com granularidade alta e, as arquiteturas baseadas em processador. Um dos problemas no projeto de arquiteturas de processamento digital de sinais baseadas em processador é o do suporte a compiladores e linguagens de alto nível. Arquiteturas muito especializadas, com conjuntos de instruções extensos e muitos modos de endereçamento, dificultam a implementação de compiladores para linguagens de alto nível. Neste trabalho buscou-se explorar a viabilidade de um conjunto de instruções emergente, RISC-V, e uma extensão do seu conjunto de instruções para a aplicação em processamento digital de sinais de banda base, sobretudo nas funcionalidades de modem, em aplicações de software-defined radio. A análise das operações de um modem, para as modulações digitais mais utilizadas, revela que as operações feitas para modulação/ demodulação envolvem números complexos. No entanto, aritmética de complexos não é normalmente suportada pelo hardware em arquiteturas tradicionais. Além da arquitetura proposta para o processador, com suporte a novas instruções especializadas, os periféricos necessários para o front-end de rádio frequência e o software de suporte foram implementados, resultando num SoC para software defined radio. / Practical software-defined radio systems are usually classified in two main architecture classes: Reconfigurable architectures on FPGAs, that implement coarse grained digital signal processing algorithms, or processor-based architectures. One of the issues in the design of processor-based digital signal processing architectures is compiler and high-level languages support. Highly specialized architectures, with extensive instruction sets (ISA) and addressing modes turn high-level languages compiler design a complex task. In this work we explore the viability to extend the emerging RISC-V instruction set for baseband processing applications for software-defined radio, especially for modem applications. The analysis of modem functions, for the most used digital modulation schemes, reveals that the modulation/demodulation tasks involve complex number operations. Complex number arithmetic, however, is not supported on traditional architectures. The proposed platform includes a 3-stage pipelined processor with new specialized instructions, as well as the peripherals needed to the radio-frequency front-end and supporting software, resulting on a system-on-a-chip for software-defined radio applications. software-defined radio. Engenharia da computação Arquitetura de computador FPGA
43	Implementação experimental de um supervisor de controle para robos industriais Dias, Carlos Henrique 25 June 1993 (has links) Orientador: João Mauricio Rosario / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Mecanica / Made available in DSpace on 2018-07-18T14:02:40Z (GMT). No. of bitstreams: 1 Dias_CarlosHenrique_M.pdf: 4568748 bytes, checksum: a1f2733b6582a37527537f5963b22e74 (MD5) Previous issue date: 1993 / Resumo: O objetivo principal deste trabalho é o de fazer uma análise prática do desempenho de urna arquitetura distribuída baseada na técnica ATOS, aplicada à supervisão e controle de robôs industriais. Inicialmente é feita urna discussão a respeito de arquiteturas de controladores, sendo feita urna comparação entre arquiteturas centralizadas e distribuídas. Em seguida, a partir de urna arquitetura distribuída, é feita urna descrição de urna solução completa para um supervisor de controle, com ênfase ao controle de juntas, para o qual são apresentadas duas soluções de implementação. São descritas os módulos hardware e software que foram implementados, assim corno os programas aplicativos utilizados no desenvolvimento do, protótipo. Para as montagens experimentais são mostrados o ambiente e procedimento de testes juntamente com os resultados e comentários / Abstract: Not informed. / Mestrado / Mestre em Engenharia Mecânica Robôs industriais Software Arquitetura de computador
44	Exploração multiobjetivo do espaço de projeto de sistemas embarcados de tempo-real não críticos NOGUEIRA, Bruno Costa e Silva 12 February 2015 (has links) Submitted by Fernanda Rodrigues de Lima (fernanda.rlima@ufpe.br) on 2018-11-09T22:10:22Z No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) TESE Bruno Costa e Silva Nogueira.pdf: 3537074 bytes, checksum: ddedd27d9a5ae5318ae8cc114ef6ec89 (MD5) / Approved for entry into archive by Alice Araujo (alice.caraujo@ufpe.br) on 2019-01-25T17:05:29Z (GMT) No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) TESE Bruno Costa e Silva Nogueira.pdf: 3537074 bytes, checksum: ddedd27d9a5ae5318ae8cc114ef6ec89 (MD5) / Made available in DSpace on 2019-01-25T17:05:30Z (GMT). No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) TESE Bruno Costa e Silva Nogueira.pdf: 3537074 bytes, checksum: ddedd27d9a5ae5318ae8cc114ef6ec89 (MD5) Previous issue date: 2015-02-12 / CAPES / Nos últimos anos, a indústria tem adotado sistemas embarcados com múltiplos e heterogêneos processadores como uma resposta viável à demanda por mais desempenho e baixa potência consumida. No entanto, programar, depurar, simular e otimizar arquiteturas heterogêneas são atividades complexas, e isso tem forçado as empresas a lidar com diversos novos desafios para aumentar a produtividade de seus projetistas. Um dos desafios proeminentes é disponibilizar métodos para que os projetistas possam eficientemente explorar o espaço de projeto. A exploração do espaço de projeto refere-se ao processo de explorar e avaliar diferentes decisões (opções) de projeto durante o desenvolvimento do sistema. Diversas abordagens têm sido propostas para resolver o problema de exploração, que é composto por duas questões complementares: (i) como representar e avaliar uma alternativa de projeto (modelos), e (ii) como percorrer o espaço de projeto (algoritmos), dado que a exploração exaustiva é usualmente inviável. Apesar da disponibilidade de métodos de exploração, as abordagens atuais possuem diversas restrições, principalmente, em relação ao tempo de avaliação e a exatidão dos modelos adotados para representar sistemas de tempo-real não críticos. Este trabalho apresenta um novo método de exploração do espaço de projeto para sistemas embarcados de tempo-real não críticos. O principal objetivo deste trabalho é prover meios para que o projetista possa escolher uma arquitetura composta por processadores heterogêneos e programáveis para uma dada aplicação de tempo-real não crítica, considerando diversas restrições conflitantes de projeto, como: probabilidades de violação de deadlines e potência consumida. O método adota uma abordagem centrada em simulação estocástica para evitar os problemas relacionados ao tempo de avaliação e exatidão dos métodos existentes. Dentre as contribuições do método proposto, destacam-se: (i) novos modelos de especificação para definir as restrições e os atributos da aplicação/plataforma de hardware, (ii) método automático de mapeamento dos modelos de especificação em modelos formais DEVS (Discrete Event System Specification) para simulação estocástica, (iii) novos algoritmos de exploração multiobjetivo, baseados em algoritmos genéticos, e (iv) uma biblioteca para dar suporte ao desenvolvimento de aplicações que executam em arquiteturas compostas por processadores heterogêneos e programáveis. Diversos experimentos foram conduzidos para demonstrar a viabilidade do método proposto. Os resultados mostram a boa exatidão dos modelos de desempenho desenvolvidos (erro máximo de 5%, em comparação a medições em um sistema real), e a eficiência do método proposto em encontrar soluções de boa qualidade para especificações que os métodos existentes têm dificuldade em explorar. / In the last years, industry has adopted embedded systems with multiple and heterogeneous processors as a viable solution for the ever-increasing demand for higher performance and lower power consumption. However, programming, debugging, simulating, and optimizing heterogeneous architectures are complex tasks, which has forced companies to deal with several new challenges in order to increase their designers’ productivity. One prominent challenge is to provide efficient methods for design space exploration. Design space exploration refers to the activity of exploring and evaluating different design decisions (options) during system development. Several approaches have been proposed to tackle the exploration problem, which is composed of two complimentary issues: (i) how to represent and evaluate a design alternative (models), and (ii) how to traverse the design space (algorithms), given that exhaustive exploration is usually infeasible. Although several methods have been proposed for design space exploration, they have many drawbacks, mainly related to the evaluation time and accuracy of the models adopted to represent soft real-time embedded systems. This work presents a new method for design space exploration of soft real-time embedded systems. The main objective of this work is to provide to the designer means for choosing an optimized architecture for a given application, considering several conflicting design objectives, such as: deadline miss violation probabilities and power consumption. The proposed method adopts an approach centered on stochastic simulation to prevent the problems related to evaluation time and accuracy of current methods. Among the contributions of this work are: (i) new models for specifying application/architecture restrictions and attributes. (ii) automatic method for mapping the specification models into formal DEVS (Discrete Event System Specification) models for stochastic simulation, (iii) new algorithms, based on genetic algorithms theory, for multiobjective exploration, and (iv) a new library for designing applications that execute on multiprocessor heterogeneous architectures. Several experiments have been conducted to demonstrate the viability of the proposed method. Results show the accuracy of the proposed performance models (maximum error of 5%, in comparison with measurements on a real system), and the efficiency of the proposed method in finding good quality solutions for specifications that current methods cannot satisfactorily explore. Engenharia da computação Arquitetura de computador Otimização Avaliação de desempenho
45	Alocação global de registradores de endereçamento para referencias a vetores em DSPs Ottoni, Guilherme de Lima 17 December 2002 (has links) Orientador: Guido Costa Souza de Araujo / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação / Made available in DSpace on 2018-10-24T12:49:20Z (GMT). No. of bitstreams: 1 Ottoni_GuilhermedeLima_M.pdf: 2467303 bytes, checksum: 3894457788c8896fac76459cfbda00e4 (MD5) Previous issue date: 2002 / Resumo: O avanço tecnológico dos sistemas computacionais tem proporcionado o crescimento do mercado de sistemas dedicados, cada vez mais comuns no dia-a-dia das pessoas, como por exemplo em telefones celulares, palmtops e sistemas de controle automotivo. Devido às suas características, estas novas aplicações requerem sistemas que aliem baixo custo, alto desempenho e baixo consumo de potência. Uma das maneiras de atender a estes requisitos é utilizando processadores especializados. Contudo, a especialização na arquitetura dos processadores impõe novos desafios para o desenvolvimento de software para estes sistemas. Em especial, os compiladores - geralmente responsáveis pela otimização de código - precisam ser adaptados para produzir código eficiente para estes novos processadores. Na área de processamento de sinais digitais, como em telefonia celular, processadores especializados, denominados DSPs2, são amplamente utilizados. Estes processadores tipicamente possuem poucos registradores de propósito geral e modos de endereçamento bastante limitados. Além disso, muitas das suas aplicações envolvem o processamento de grandes seqüências de dados, as quais são geralmente armazenadas em vetores. Como resultado, o estudo de técnicas de otimização de referências a vetores tornou-se um problema central em compilação para DSPs. Este problema, denominado Global Array Reference Allocation (GARA), é o objeto central desta dissertação. O sub-problema central de GARA consiste em se determinar, para um dado conjunto de referências a vetores que serão alocadas a um mesmo registrador de endereçamento, o menor custo das instruções que são necessárias para manter este registrador com o endereço adequado em cada ponto do programa. Nesta dissertação, este sub-problema é modelado como um problema em grafos, e provado ser NP-difícil. Além disso, é proposto um algoritmo eficiente, baseado em programação dinâmica, para resolver este sub-problema de forma exata sob certas restrições. Com base neste algoritmo, duas técnicas são propostas para resolver o problema de GARA. Resultados experimentais, obtidos pela implementação destas técnicas no compilador GCC, comparam-nas com outros resultados da literatura. Os resultados demonstram a eficácia das técnicas propostas nesta dissertação / Abstract: The technological advances in computing systems have stimulated the growth of the embedded systems market, which is continuously becoming more ordinary in people's lives, for example in mobile phones, palmtops and automotive control systems. Because of their characteristics, these new applications demand the combination of low cost, high performance and low power consumption. One way to meet these constraints is through the design of specialized processors. However, processor specialization imposes new challenges to the development of software for these systems. In particular, compilers - generally responsible for code optimization - need to be adapted in order to produce efficient code for these new processors. In the digital signal processing arena, such as in cellular telephones, specialized processors, known as DSPs (Digital Signal Processors), are largely used. DSPs typically have few general purpose registers and very restricted addressing modes. In addition, many DSP applications include large data streams processing, which are usually stored in arrays. As a result, studing array reference optimization techniques became an important task in compiling for DSPs. This work studies this problem, known as Global Array Reference Allocation (GARA). The central GARA subproblem consists of determining, for a given set of array references to be allocated to the same address register, the minimum cost of the instructions required to keep this register with the correct address at alI program points. In this work, this subproblem is modeled as a graph theoretical problem and proved to be NP-hard. In addition, an efficient algorithm, based on dynamic programming, is proposed to optimally solve this subproblem under some restrictions. Based on this algorithm, two techniques to solve GARA are proposed. Experimental results, from the implementation of these techniques in the GCC compiler, compare them with previous work in the literature. The results show the effectiveness of the techniques proposed in this work / Mestrado / Mestre em Ciência da Computação Compiladores (Computadores) Algoritmos de computador Arquitetura de computador
46	Algoritmos para alocação de pilha de execução baseados em união de variaveis para DSPs Ottoni, Desirée Leopoldo da Silva 19 March 2004 (has links) Orientador: Guido Costa Souza de Araujo / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação / Made available in DSpace on 2018-10-24T12:45:09Z (GMT). No. of bitstreams: 1 Ottoni_DesireeLeopoldodaSilva_M.pdf: 1826554 bytes, checksum: 11256685b6244447ac6c729e9b8394ba (MD5) Previous issue date: 2004 / Resumo: Nos últimos anos, uma classe importante de aplicações em telecomunicações e multimídia tem despertado um grande interesse no projeto e pesquisa de processadores dedicados, em particular de DSPs2. Além de desempenho, estas aplicações demandam baixo consumo de potência e custo reduzido. Com o propósito de atender a esta demanda, projetistas de DSPs precisam especializar suas arquiteturas com unidades funcionais dedicadas. Devido a rigorosas restrições de projeto, é comum encontrar DSPs com poucos registradores de propósito geral e modos de endereçamento restritos, baseados em unidades especializadas no cálculo de endereços de memória. Por serem arquiteturas irregulares, as otimizações de código existentes nos compiladores para processadores de propósito geral não são eficientes para DSPs. Isto resultou em um aumento no interesse por pesquisa de técnicas de otimizações para estes processadores. Esta dissertação propõe duas novas técnicas de otimização de código para o problema de Offset Assignment(OA). Uma solução para OA visa encontrar uma disposição das variáveis automáticas de um programa na memória, de forma a minimizar o uso de instruções explícitas de endereçamento, obtendo assim um código de melhor desempenho. Este tipo de otimização é um dos problemas centrais de compilação para DSPs, dado que grande parte das instruções geradas para estes processadores é de endereçamento. Uma extensa revisão bibliográfica sobre Offset Assignment é apresentada nesta dissertação. Além disso, são propostos dois novos algoritmos que resolvem variações deste problema: a heurística CSOA, que resolve o problema de Simple Offset Assignment, e a heurística CGOA, que resolve o problema de General Offset Assignment. As duas heurísticas utilizam informações de longevidade das variáveis de modo a realizar união seletiva de variáveis na memória, resultando em uma melhor utilização de modos de endereçamento de auto-incrementojdecremento. Além das duas técnicas propostas, foram implementadas outras quatro técnicas existentes na literatura. Uma análise comparativa, baseada num conjunto de experimentos usando o benchmark Mediabench, revelou a superioridade de CSOA e CGOA sobre os outros métodos / Abstract: In recent years, an important class of applications in telecommunication and multimedia has created a large interest in the design and research of dedicated processors, specially Digital Signal Processors (DSPs). In addition to performance, these applications demand low power consumption and reduced cost. In order to achieve these goals, DSP designers need to specialize the architecture with dedicated functional units. Due to their stringent design constraints, it is common to find DSPs containing very few general-purpose registers, and restricted addressing modes, typically based on specialized address generation units. Given their irregular architectures, compiler code optimization techniques for general-purpose processors are not efficient for DSPs. This has resulted in an increasing interest in the research of optimization techniques target to such processors. This dissertation proposes two novel code optimization techniques for the Offset Assignment (OA) problem. A solution to OA aims at finding a memory layout for automatic variables in a program, such that the use of explicit memory addressing instructions is minimized, thus increasing the performance of the resulting code. This type of optimization is one of the central problems in compilation for DSPs, as address computation accounts for a large share of the instructions generated for these processors. A long survey on OA is presented in this dissertation. Moreover, two new algorithms to solve variations of OA are proposed: the CSOA heuristic, to solve the Simple Offset Assignment problem; and the CGOA heuristic, which solves the General Offset Assignment. Both techniques use liveness information to perform selective coalescing of variables in memory, resulting in an improved use of auto-increment/decrement addressing modes. In addition to the two proposed algorithms, four other techniques from the literature have been implemented. A comparative analysis, based on a set of experiments using the Media Bench benchmark, has revealed the superiority of CSOA and CGOA with respect to the other methods / Mestrado / Mestre em Ciência da Computação Compiladores (Computadores) Arquitetura de computador
47	Estimativa de desempenho de software e consumo de energia em MPSoCs Johann Filho, Sérgio January 2009 (has links) Made available in DSpace on 2013-08-07T18:42:58Z (GMT). No. of bitstreams: 1 000419188-Texto+Completo-0.pdf: 2389705 bytes, checksum: 7142723f44a1f3c5a063142bb2c8760b (MD5) Previous issue date: 2009 / To supply the ever-increasing need for processing power, the embedded software project includes the utilization of several processors along with complex communication infrastructures (as hierarchycal buses and networks-on-a-chip). There is an increasing need for a greater number of functionalities inside a single system. In this scenario, issues related to energy consumption estimations become important in the embedded electronic systems project. This way, the multi-processor embedded systems workflow needs tools to generate performance and energy consumption estimations during all development cycle, in order to verify if the project building process conforms to its specification. The performance, as the energy consumption of a system have to be evaluated as soon as possible in the workflow. Analytical methods are proposed to allow performance and energy estimations in a fast way, avoiding prohibitive simulation times. In analytical methods the system is modeled as a series of properties and abstract models are used to calculate the system performance. Although analytical methods are faster than simulation ones, their modelling is more complex. Along with this fact, the high abstraction level in which the system is represented becomes unfeasible due to the high increase in states necessary to represent such systems, which is the case of more recent embedded systems. This way, better approaches in simulation based methods become very interesting, and a study in this field is presented in this work. / Para atender a uma cresente demanda por desempenho de processamento, o projeto de sistemas embarcados inclui a utilização de diversos processadores além de infra-estruturas de comunicação complexas (por exemplo, barramentos hierárquicos e redes intra-chip). Há uma crescente demanda por um número cada vez maior de funcionalidades contidas em um único sistema. Neste cenário, questões relacionadas a estimativas de consumo de energia ganham importância no projeto de sistemas eletrônicos embarcados. Dessa forma, o fluxo de projeto de sistemas embarcados multi-processados necessita de ferramentas para a geração de estimativas de desempenho e consumo de energia durante todo o ciclo de desenvolvimento, de forma a verificar se o caminho de construção do projeto condiz com a especificação do mesmo. O desempenho, assim como o consumo de energia de um determinado sistema precisam ser avaliadados o mais cedo possível no fluxo de projeto. Métodos analíticos são propostos para que estimativas de desempenho e de consumo de energia possam ser realizadas de maneira rápida, evitando tempos proibitivos de simulação. Nos métodos analíticos o sistema é modelado como uma série de propriedades e modelos abstratos são utilizados para o cálculo do desempenho do sistema. Apesar de métodos analíticos serem mais rápidos que métodos baseados em simulação a modelagem do sistema é mais complexa. Além disso, devido ao alto nível de abstração em que o sistema é representado, seu uso em sistemas grandes e complexos se torna inviável devido a explosão de estados necessários para a representação sistêmica destes, que é o caso de recentes projetos de sistemas embarcados. Dessa forma, melhorias nos métodos baseados em simulação tornam-se bastante pertinentes, e um estudo dessa área é apresentado nesse trabalho. INFORMÁTICA MULTIPROCESSADORES ARQUITETURA DE COMPUTADOR ENERGIA ELÉTRICA - CONSUMO
48	PMEMD-HW: simulação por dinâmica molecular usando hardware reconfigurável Mohr, Adilson Arthur January 2010 (has links) Made available in DSpace on 2013-08-07T18:43:00Z (GMT). No. of bitstreams: 1 000425483-Texto+Completo-0.pdf: 1217247 bytes, checksum: 2d1bad79b7e96a9d75748adf3146bedd (MD5) Previous issue date: 2010 / Molecular dynamics systems are defined by the position and energy of their component particles, as well as by the interactions among these. Such systems can be simulated through mathematical methods like the computation of electrostatic forces based on the Coulomb Law. Predicting the states through which such system evolves by computing the interaction of each particle with its neighbors is a computationally costly task, even for a small number of particles. Thus, it can only be beneficial to apply specific techniques for accelerating these computations. While some studies propose the use of new algorithms, others advocate the use of specific processors or custom designed hardware, the later being the technique employed in this Dissertation. This work describes the design and prototyping of a hardware architecture that has the potential to accelerate an application based on the computation of electrostatic forces among non-bonded particles. A special emphasis is given to the aspects of integration between the accelerating hardware and the modified target application, the PMEMD (Particle Mesh Ewald Molecular Dynamics) software, part of the AMBER (Assisted Model Building with Energy Refinement) platform. The costliest computations of PMEMD were identified and moved to an FPGA hardware implementation, creating a custom coprocessor – PMEMD-HW. The choice for reconfigurable hardware is due, among other reasons, to the ease with which it enables the evolution of the design towards the target acceleration. The main contribution of this work is the mastering of the technology to design and analyze hardware coprocessors that target the acceleration of applications in Biology and Biophysics. A working prototype is available, using a commercial hardware prototyping platform. The proof-of-concept implementation demonstrates the viability of successfully using the proposed techniques. / Sistemas de dinâmica molecular são definidos pela posição e energia das partículas que o compõe, assim como pelas interações entre estas. Tais sistemas podem ser simu-lados através de métodos matemáticos como o cálculo de forças eletrostáticas baseadas na Lei de Coulomb. Computar os estados através dos quais um sistema destes evolui, avaliando a interação de cada partícula, é tarefa computacionalmente dispendiosa, mes-mo para um número pequeno de partículas. Portanto, podem-se obter benefícios ao se aplicar técnicas específicas para acelerar tais computações. Enquanto alguns estudos propõem o uso de algoritmos diferenciados, existem os que empregam processadores especiais ou hardware personalizado, a técnica abordada nesta Dissertação. Descreve-se aqui o projeto e a prototipação de uma arquitetura de hardware com potencial para acelerar uma aplicação que computa forças eletrostáticas entre partículas não ligadas. Dá-se ênfase especificamente aos aspectos da integração entre o hardware e a aplicação-alvo empregada neste projeto, o programa PMEMD (Particle Mesh Ewald Molecular Dynamics), parte da plataforma AMBER (Assisted Model Building with Energy Refinement). Os cálculos mais onerosos deste programa foram identificados e movidos para uma implementação de hardware em FPGA, criando um co-processador específico – o PMEMD-HW. A escolha de um hardware reconfigurável se deve, entre outros motivos, à facilidade de fazer evoluir o processo de projeto e obter a aceleração almejada. A principal contribuição deste trabalho é o domínio da tecnologia de uso de co-processadores de hardware para acelerar aplicações nas áreas de Biologia e Biofísica. Um protótipo funcional está disponível, utilizando uma plataforma comercial de prototipa-ção de hardware. Esta prova de conceito demonstra a viabilidade de usar com sucesso as técnicas desenvolvidas. INFORMÁTICA ARQUITETURA DE COMPUTADOR FPGA
49	NUMA-ICTM: uma versão paralela do ICTM explorando estratégias de alocação de memória para máquinas NUMA Castro, Márcio Bastos January 2009 (has links) Made available in DSpace on 2013-08-07T18:42:49Z (GMT). No. of bitstreams: 1 000409723-Texto+Completo-0.pdf: 1712848 bytes, checksum: 000c7fa44ec53b2d15786685a9544bc3 (MD5) Previous issue date: 2009 / In Geophysics, the appropriate subdivision of a region into segments is extremely important. ICTM (Interval Categorizer Tesselation Model) is an application that categorizes geographic regions using information extracted from satellite images. The categorization of large regions is a computational intensive problem, what justifies the proposal and development of parallel solutions in order to improve its applicability. Recent advances in multiprocessor architectures lead to the emergence of NUMA (Non-Uniform Memory Access) machines, which combine the efficiency and scalability of MPP (Massively Parallel Processing) machines with the programming facility of the SMP (Symmetric Multiprocessors) machines. In this work, NUMA-ICTM is presented: a parallel solution of ICTM for NUMA machines exploiting memory placement strategies. First, ICTM is parallelized using only OpenMP. After, the OpenMP solution is improved using the MAI (Memory Affinity Interface) library, which allows a control of memory allocation in NUMA machines. The results show that the optimization of memory allocation leads to significant performance gains over the pure OpenMP parallel solution. / Na Geofísica, a subdivisão apropriada de uma região em segmentos é extremamente importante. O ICTM (Interval Categorizer Tesselation Model) é uma aplicação capaz de categorizar regiões geográficas utilizando informações extraídas de imagens de satélite. O processo de categorização de grandes regiões é considerado um problema computacionalmente intensivo, o que justifica a proposta e desenvolvimento de soluções paralelas com intuito de aumentar sua aplicabilidade. Recentes avanços em arquiteturas multiprocessadas caminham em direção a arquiteturas do tipo NUMA (Non-uniform Memory Access), as quais combinam a eficiência e escalabilidade das máquinas MPP (Massively Parallel Processing) com a facilidade de programação das máquinas SMP (Symmetric Multiprocessors). Neste trabalho, é apresentada a NUMA-ICTM: uma solução paralela do ICTM para máquinas NUMA explorando estratégias de alocação de memória. Primeiramente, o ICTM é paralelizado utilizando-se somente OpenMP. Posteriormente, esta solução é otimizada utilizando-se a interfade MAI (Memory Affinity Interface), a qual proporciona um melhor controle sobre a alocação de dados em memória em máquinas NUMA. Os resultados mostram que esta otimização permite importantes ganhos de desempenho sobre a solução paralela que utiliza somente OpenMP. INFORMÁTICA PROCESSAMENTO DE ALTO DESEMPENHO ARQUITETURA DE COMPUTADOR
50	MMG Giraldi, Márcia Cargnin Martins January 2000 (has links) Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós -Graduação em Computação. / Made available in DSpace on 2012-10-18T02:19:31Z (GMT). No. of bitstreams: 0Bitstream added on 2014-09-25T17:37:22Z : No. of bitstreams: 1 182004.pdf: 1657518 bytes, checksum: 48b6543a2dbf3082c91c876ac1aaab9c (MD5) / O principal objetivo deste dissertação é propor um do ambiente que forneça ao programador de aplicações paralelas uma maior facilidade de programação. O compartilhamento dos dados é feito criando primitivas baseadas nas chamadas de sistema do IPC (InterProcess Communication) que implementam memória compartilhada, para suportar memória compartilhada distribuída. A organização básica do ambiente é formada por um conjunto de nodos (computadores PC compatíveis) conectados por uma rede de interconexão sobre o sistema operacional Linux. A comunicação entre os processos remotos é realizada através de sockets. Informatica Computação Sistemas operacionais (Computadores) Arquitetura de computador

Search results