Global ETD Search

301	Implantação e análise de desempenho de um cluster com processadores ARM e plataforma raspberry Pi Lima, Felipe dos Anjos 26 August 2016 (has links) With the recent advancements in High Performance Computing (HPC), it is possible to rapidly process high volumes of data, allowing accomplishments in several areas of knowledge. Although the HPC area has been observed as an area of complex infrastructure, in the last years, its been observed that the processing power of processors used in embedded systems, using the ARM architecture, has been increasing significantly. Furthermore, the acquisition costs and energy consumption are lower, when compared to processors of other platforms, thus allowing for the possibility of having HPC with smaller and more economical platforms, with lower maintenance cost and more accessible. In this merit, this masters thesis proposes the performance analysis of a low cost embedded cluster composed of processors using ARM architecture and the Raspberry Pi platform. This work analysis the impact of using MPICH-2 and OpenMPI libraries, running benchmark programs HPCC and HPL. The present work show results of performance and energy consumption of this cluster with these programs, proving that it is possible to use clusters of low cost embedded platforms with satisfactory speedups and energy consumption. / Com o desenvolvimento da computação de alto desempenho (HPC), grandes volumes de dados passaram a ser processados de forma rápida, permitindo assim, que avanços significativos fossem alcançados em varias áreas do conhecimento. Para isso, sempre se observou a área de HPC tendo uma infraestrutura complexa. Por outro lado, nos últimos anos, se observa que a capacidade de processamento dos processadores usados em sistemas embarcados, seguindo arquitetura ARM, vem aumentando de forma significativa. Além disso, os custos de aquisição e o consumo de energia dos processadores ARM são menores, quando comparados a processadores de outras plataformas. Neste âmbito, cria-se a possibilidade de ter HPC usando plataformas menores e mais econômicas e com um custo de manutenção mais acessível. Nesse intuito, esta dissertação de mestrado, propõe a análise de desempenho de um cluster embarcado de baixo custo composto por processadores da arquitetura ARM e plataforma Raspberry Pi. O trabalho analisa o impacto de usar as bibliotecas MPICH-2 e OpenMPI, executando os programas dos benchmarks HPCC e HPL. O trabalho apresenta resultados de desempenho e consumo de energia do cluster com esses programas, mostrando que é possível usar clusters de plataformas embarcadas de baixo custo e tendo speedups e consumo de energia satisfatórios. Computação de alto desempenho Sistemas embarcados Raspberry Pi Processamento paralelo Cluster Processador ARM
302	Computação bio-inspirada e paralela para a analise de estruturas metamateriais em microondas e fotonica / Parallel and bio-inspired computing applied to analyze microwave and photonic metamaterial strucutures Santos, Carlos Henrique da Silva 15 August 2018 (has links) Orientador: Hugo Enrique Hernandez Figueroa / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-08-15T19:32:10Z (GMT). No. of bitstreams: 1 Santos_CarlosHenriquedaSilva_D.pdf: 6145760 bytes, checksum: b129064af29e8b7052b13e0b422b299c (MD5) Previous issue date: 2010 / Resumo: Esse trabalho tem por objetivo desenvolver algoritmos bio-inspirados (Algoritmo Genético, Estratégia Evolutiva e Sistema Imunológico Artificial) eficientes (tempo de processamento e convergência), e flexíveis (multi-plataforma), para a otimização de dispositivos eletromagnéticos nos domínios da frequência e do tempo. Além disso, para satisfazer a demanda computacional requerida nessas otimizações, foram implementadas versões paralelas dos algoritmos bio-inspirados e do método das diferenças finitas no domínio tempo em três dimensões (FDTD 3D) para serem executados em cluster de computadores. A eficiência e flexibilidade dos algoritmos desenvolvidos foram confirmadas através da aplicação criteriosa de testes de desempenho disponíveis na literatura. Isto permitiu a proposta e simulação de novos e complexos dispositivos eletromagnéticos baseados em estruturas metamateriais / Abstract: The objectives of this work are to develop efficient (runtime and convergence) and flexible (multiplatform) bio-inspired algorithms (Genetic Algorithm, Evolution Strategy and Artificial Immune System), for the optimization of electromagnetic devices either in frequency and time domain. In addition, to satisfy the computational requirements for these optimizations a parallel version of these bio-inspired algorithms and a three-dimensional finite difference time domain (3D FDTD) were developed capable to be processed in cluster computers. The successful performance of these parallel resources was confirmed by their careful assessment through key tests available in the specialized literature. This permitted the proposal and simulation of novel and complex electromagnetic devices based on metamaterial structures / Doutorado / Telecomunicações e Telemática / Doutor em Engenharia Elétrica Processamento paralelo (Computadores) Inteligência artificial Otimização Eletromagnetismo - Computação Metamateriais Parallel processing (Computers) Artificial intelligence Optimization Electromagnetism - Computer Metamaterials
303	Mecanismo para execução especulativa de aplicações paralelizadas por técnicas DOPIPE usando replicação de estágios / Mechanism for speculative execution of applications parallelized by DOPIPE techniques using stage replication Baixo, André Oliveira Loureiro do, 1986- 21 August 2018 (has links) Orientador: Guido Costa Souza de Araújo / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação / Made available in DSpace on 2018-08-21T04:52:37Z (GMT). No. of bitstreams: 1 Baixo_AndreOliveiraLoureirodo_M.pdf: 1756118 bytes, checksum: 00900e9463b55e1800da080419da53c7 (MD5) Previous issue date: 2012 / Resumo: A utilização máxima dos núcleos de arquiteturas multi-processadas é fundamental para permitir uma utilização completa do paralelismo disponível em processadores modernos. A fim de obter desempenho escalável, técnicas de paralelização requerem um ajuste cuidadoso de: (a) mecanismo arquitetural para especulação; (b) ambiente de execução; e (c) transformações baseadas em software. Mecanismos de hardware e software já foram propostos para tratar esse problema. Estes mecanismos, ou requerem alterações profundas (e arriscadas) nos protocolos de coerência de cache, ou exibem uma baixa escalabilidade de desempenho para uma gama de aplicações. Trabalhos recentes em técnicas de paralelização baseadas em DOPIPE (como DSWP) sugerem que a combinação de versionamento de dados baseado em paginação com especulação em software pode resultar em bons ganhos de desempenho. Embora uma solução apenas em software pareça atrativa do ponto de vista da indústria, essa não utiliza todo o potencial da microarquitetura para detectar e explorar paralelismo. A adição de tags às caches para habilitar o versionamento de dados, conforme recentemente anunciado pela indústria, pode permitir uma melhor exploração de paralelismo no nível da microarquitetura. Neste trabalho, é apresentado um modelo de execução que permite tanto a especulação baseada em DOPIPE, como as técnicas de paralelização especulativas tradicionais. Este modelo é baseado em uma simples abordagem com tags de cache para o versionamento de dados, que interage naturalmente com protocolos de coerência de cache tradicionais, não necessitando que estes sejam alterados. Resultados experimentais, utilizando benchmarks SPEC e PARSEC, revelam um ganho de desempenho geométrico médio de 21.6× para nove programas sequenciais em uma máquina simulada de 24 núcleos, demonstrando uma melhora na escalabilidade quando comparada a uma abordagem apenas em software / Abstract: Maximal utilization of cores in multicore architectures is key to realize the potential performance available from modern microprocessors. In order to achieve scalable performance, parallelization techniques rely on carefully tunning speculative architecture support, runtime environment and software-based transformations. Hardware and software mechanisms have already been proposed to address this problem. They either require deep (and risky) changes on the existing hardware and cache coherence protocols, or exhibit poor performance scalability for a range of applications. Recent work on DOPIPE-based parallelization techniques (e.g. DSWP) has suggested that the combination of page-based data versioning with software speculation can result in good speed-ups. Although a softwareonly solution seems very attractive from an industry point-of-view, it does not enable the whole potential of the microarchitecture in detecting and exploiting parallelism. The addition of cache tags as an enabler for data versioning, as recently announced in the industry, could allow a better exploitation of parallelism at the microarchitecture level. In this paper we present an execution model that supports both DOPIPE-based speculation and traditional speculative parallelization techniques. It is based on a simple cache tagging approach for data versioning, which integrates smoothly with typical cache coherence protocols, and does not require any changes to them. Experimental results, using SPEC and PARSEC benchmarks, reveal a geometric mean speedup of 21.6x for nine sequential programs in a 24-core simulated CMP, while demonstrate improved scalability when compared to a software-only approach / Mestrado / Ciência da Computação / Mestre em Ciência da Computação Arquitetura de computador Processamento paralelo (Computadores) Compiladores (Programas de computador) Computer architecture Compilers (Computer programs)
304	Modelagem computacional distribuida e paralela de sistemas e de series temporais multivariaveis no espaço de estado Barreto, Gilmar, 1958- 01 August 2018 (has links) Orientador : Celso Pascoli Bottura / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-08-01T16:06:11Z (GMT). No. of bitstreams: 1 Barreto_Gilmar_D.pdf: 3708607 bytes, checksum: 3b4291314b6c8041286e4a776d5c99f6 (MD5) Previous issue date: 2002 / Resumo: Este estudo primeiramente investiga fundamentos teóricos para análise, desenvolvimento e implementação de algoritmos para modelagem de dados de sistemas dinâmicos e de séries temporais multivariáveis no espaço de estado, através de métodos de subespaço. Tem como segundo objetivo o desenvolvimento e implementação de algoritmos para modelagem computacional distribuída e paralela destes tipos de dados multivariados. A modelagem computacional de dados no espaço de estado é apresentada, comentada e avaliada sobre "benchmarks ". Desta forma esperamos viabilizar uma metodologia original e eficiente que contribuirá de forma direta para a modelagem de sistemas multivariáveis e de formas direta e ou indireta para o controle de sistemas multivariáveis. / Abstract: This study investigates firstly theoretical foundations in analysis, development and implementation of algorithms for state space modelling of time series and dynamic systems data. The second objective is the development and implementation of parallel and distributed computational modelling algorithms for such types of multivariate data. State space computational data modelling is presented, commented upon and evaluated against benchmarks. This procedure leads to the expectation of assured feasibility of an original and efficient methodology that will contribute in a direct way to multivariable systems modelling and, both in direct and indirect ways, to the control of multivariable systems. / Doutorado Identificação Processamento paralelo (Computadores) Sistemas lineares Métodos de espaço de estados
305	Alocação computacional inteligente de autoestruturas para controle multivariavel Fonseca Neto, João Viana da 03 October 2000 (has links) Orientador : Celso Pascoli Bottura / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-08-02T15:44:50Z (GMT). No. of bitstreams: 1 FonsecaNeto_JoaoVianada_D.pdf: 7728376 bytes, checksum: 17601f25107a5461f9795f00c25fb18e (MD5) Previous issue date: 2000 / Resumo: Apresenta-se nesta tese uma proposta para alocação de auto estruturas em sistemas dinâmicos lineares multivariáveis por realimentação de estado que tem por base o projeto do regulador linear quadrático (RLQ), otimização multiobjetivo, computação evolutiva e programação paralela. O problema da alocação de autoestruturas é formulado em termos de projetos RLQ e de um método de desigualdades no intuito de colocar a formulação proposta como de problema de otimização multiobjetivo. Este problema é solucionado através do desenvolvimento de algoritmo genético paralelo dedicado à busca das matrizes de ponderação do projeto RLQ. Estratégias de busca são formuladas e elementos de inteligência computacional são utilizados para modelá-Ias e implementá-Ias em uma unidade de decisão lógica que interage com o otimizador genético / Abstract: In this thesis a proposal for eigenstructure placement for multivariable linear dynamic systems by state feedback based on the linear quadratic regulator (LQR), multiobjective optimization, evolutionary computation and parallel programming is presented. The eigenstructure placement problem is formulated based on LQR designs and on an inequality method to conceive a multiobjective optimization problem for the proposed formulation. The solution to this problem is obtained via the development of a parallel genetic algorithm dedicated to the search of LQR design's weighting matrices. Search strategies are formulated and elements of computational intelligence are used to model them and their implementations are made on a logical decision unit that interacts with the GA-optimizer / Doutorado / Doutor em Engenharia Elétrica Autovalores Teoria do controle Controle automatico - Sensibilidade Processamento paralelo (Computadores) Algoritmos genéticos Análise modal Sistemas de controle por realimentação
306	Estudo sobre processamento maciçamente paralelo na internet Huerta Yero, Eduardo Javier 29 July 2003 (has links) Orientador: Marco Aurélio Amaral Henriques / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-08-04T14:25:45Z (GMT). No. of bitstreams: 1 HuertaYero_EduardoJavier_D.pdf: 2542631 bytes, checksum: c80e6ec9e2f0c2c08ea46f6ccd078d4b (MD5) Previous issue date: 2003 / Resumo: Este trabalho estuda a possibilidade de aproveitar o poder de processamento agregado dos computadores conectados pela Internet para resolver problemas de grande porte. O trabalho apresenta um estudo do problema tanto do ponto de vista teórico quanto prático. Desde o ponto de vista teórico estudam-se as características das aplicações paralelas que podem tirar proveito de um ambiente computacional com um grande número de computadores heterogêneos fracamente acoplados. Desde o ponto de vista prático estudam-se os problemas fundamentais a serem resolvidos para se construir um computador paralelo virtual com estas características e propõem-se soluções para alguns dos mais importantes como balanceamento de carga e tolerância a falhas. Os resultados obtidos indicam que é possível construir um computador paralelo virtual robusto, escalável e tolerante a falhas e obter bons resultados na execução de aplicações com alta razão computação/comunicação / Abstract: This thesis explores the possibility of using the aggregated processing power of computers connected by the Internet to solve large problems. The issue is studied both from the theoretical and practical point of views. From the theoretical perspective this work studies the characteristics that parallel applications should have to be able to exploit an environment with a large, weakly connected set of computers. From the practical perspective the thesis indicates the fundamental problems to be solved in order to construct a large parallel virtual computer, and proposes solutions to some of the most important of them, such as load balancing and fault tolerance. The results obtained so far indicate that it is possible to construct a robust, scalable and fault tolerant parallel virtual computer and use it to execute applications with high computing/communication ratio / Doutorado / Engenharia de Computação / Doutor em Engenharia Elétrica Processamento paralelo (Computadores) Internet Cliente/servidor (Computação) Parallel processing Distributed systems Grids Internet
307	Meparalel : um método para análise de implementação de algoritmo paralelo baseado em CUDA Oliveira, Otávio Cordeiro Siqueira de 25 May 2015 (has links) There are basically two approaches to attempt to improve performance of the algorithms: (i) the hardware-based and (ii) the software-based. The approaches based on software, that before were based on sequences algorithms, could not extract the hardware resources available. To solve this problem the parallel algorithms arose. Parallel algorithms tend to do their jobs more quickly due to their ability to distribute their workload by the available multi-core processors. In the search for the processing improvement the GPU started to be used in general purpose computing, and changed from a simple graphics processor to a parallel coprocessor capable of simultaneously performing thousands of operations. NVIDIA to popularize the GPU use in general purpose computing launched the CUDA which allows developers to parallelize their solutions more intuitively. But it is not an easy task to parallelize in order to improve resources utilization and reduce the processing time. Thus, as the literature offers no suitable mechanism, this paper proposes a method for analysis of parallel algorithms that can help the process of analysis and refactoring code built in CUDA programming platform and what can generate faster, more efficient algorithms in the consumption of hardware resources. / Existem basicamente duas abordagens para tentativas de melhoria de desempenho dos algoritmos: (i) as baseadas em hardware e (ii) as baseadas em software. As baseadas em software que antes se apoiavam em algoritmos sequenciais não conseguiam extrair os recursos de hardware oferecidos. Para solucionar o problema, surgiram os algoritmos paralelos. Algoritmos paralelos tendem a executar suas tarefas mais rapidamente devido à capacidade de distribuir sua carga de trabalho pelos múltiplos núcleos de processadores disponíveis. Na busca pela melhoria de processamento, as GPUs passaram a ser utilizadas na computação de propósito geral e passaram de um simples processador gráfico para um coprocessador paralelo, capaz de executar milhares de operações simultaneamente. A NVIDIA, para popularizar o uso da GPU na computação de propósito geral lançou a CUDA, que permite aos desenvolvedores paralelizar suas soluções de forma mais intuitiva. Porém, a tarefa de paralelizar de forma a aperfeiçoar a utilização de recursos e reduzir o tempo de processamento não é uma tarefa fácil. O estado da arte não apresenta um mecanismo de análise de desempenho adequado, dessa forma, este trabalho propõe um método para análise de algoritmos paralelos que possam auxiliar o processo de análise e refatoração de códigos construídos na plataforma de programação CUDA podendo assim, gerar algoritmos mais rápidos e eficientes no consumo de recursos de hardware. Computação Programação (Computadores) Algoritmos de computador Processamento paralelo (Computadores) Computação de alto desempenho Arquitetura de computador
308	Effective and unsupervised fractal-based feature selection for very large datasets: removing linear and non-linear attribute correlations / Seleção de atributos efetiva e não-supervisionada em grandes bases de dados: aplicando a Teoria de Fractais para remover correlações lineares e não-lineares Fraideinberze, Antonio Canabrava 04 September 2017 (has links) Given a very large dataset of moderate-to-high dimensionality, how to mine useful patterns from it? In such cases, dimensionality reduction is essential to overcome the well-known curse of dimensionality. Although there exist algorithms to reduce the dimensionality of Big Data, unfortunately, they all fail to identify/eliminate non-linear correlations that may occur between the attributes. This MSc work tackles the problem by exploring concepts of the Fractal Theory and massive parallel processing to present Curl-Remover, a novel dimensionality reduction technique for very large datasets. Our contributions are: (a) Curl-Remover eliminates linear and non-linear attribute correlations as well as irrelevant attributes; (b) it is unsupervised and suits for analytical tasks in general not only classification; (c) it presents linear scale-up on both the data size and the number of machines used; (d) it does not require the user to guess the number of attributes to be removed, and; (e) it preserves the attributes semantics by performing feature selection, not feature extraction. We executed experiments on synthetic and real data spanning up to 1.1 billion points, and report that our proposed Curl-Remover outperformed two PCA-based algorithms from the state-of-the-art, being in average up to 8% more accurate. / Dada uma grande base de dados de dimensionalidade moderada a alta, como identificar padrões úteis nos objetos de dados? Nesses casos, a redução de dimensionalidade é essencial para superar um fenômeno conhecido na literatura como a maldição da alta dimensionalidade. Embora existam algoritmos capazes de reduzir a dimensionalidade de conjuntos de dados na escala de Terabytes, infelizmente, todos falham em relação à identificação/eliminação de correlações não lineares entre os atributos. Este trabalho de Mestrado trata o problema explorando conceitos da Teoria de Fractais e processamento paralelo em massa para apresentar Curl-Remover, uma nova técnica de redução de dimensionalidade bem adequada ao pré-processamento de Big Data. Suas principais contribuições são: (a) Curl-Remover elimina correlações lineares e não lineares entre atributos, bem como atributos irrelevantes; (b) não depende de supervisão do usuário e é útil para tarefas analíticas em geral não apenas para a classificação; (c) apresenta escalabilidade linear tanto em relação ao número de objetos de dados quanto ao número de máquinas utilizadas; (d) não requer que o usuário sugira um número de atributos para serem removidos, e; (e) mantêm a semântica dos atributos por ser uma técnica de seleção de atributos, não de extração de atributos. Experimentos foram executados em conjuntos de dados sintéticos e reais contendo até 1,1 bilhões de pontos, e a nova técnica Curl-Remover apresentou desempenho superior comparada a dois algoritmos do estado da arte baseados em PCA, obtendo em média até 8% a mais em acurácia de resultados. Big data Big data Feature selection Fractal theory Massive parallel processing Non-linear attribute correlations Processamento paralelo em massa Seleção de atributos Teoria de fractais
309	Metodologia de teste para acelerar o desenvolvimento de sistemas de processamento paralelo. / Test methodology to accelerate the development of parallel processing system. Santana, André Aguiar 09 April 2007 (has links) Devido a grande competitividade do mercado, existe uma demanda crescente pela produção de sistemas computacionais modernos cada vez com mais qualidade e em menores prazos (CALANTONE; BENEDETTO, 00). O tempo para desenvolvimento de novas versões do sistema também é crítico, pois se espera melhor desempenho e mais funcionalidades que a versão atual, com grande expectativa por parte dos clientes em relação ao tempo de liberação. Em conseqüência das evoluções tecnológicas e com a redução no valor dos processadores e memórias, sistemas modernos com alto desempenho, como os sistemas de processamento paralelo, ganharam espaço e estão sendo cada vez mais requisitados pelos clientes devido ao seu poder computacional para resolver problemas complexos em áreas críticas como médica, militar, energética, simulações e previsões de tempo (MORRISON, 03). Na área de processamento paralelo, pode-se dizer que existe uma verdadeira corrida por colocar um novo produto e suas versões rapidamente no mercado, permitindo posicioná-lo de maneira vantajosa em relação aos concorrentes e torná-lo uma referência para os clientes, que passam a querer adotá-lo. Levando-se esses fatos em consideração, o problema pesquisado por esta tese é como melhorar o processo de desenvolvimento de sistemas de processamento paralelo, reduzindo o tempo de desenvolvimento de novas versões destes sistemas e sua colocação no mercado. A proposta para resolução do problema é reduzir o tempo gasto na atividade de teste, que corresponde a uma parte significativa do tempo total do projeto. Para diminuir esse tempo, o trabalho apresenta uma estratégia baseada na execução dos testes em paralelo com desenvolvimento. Esta técnica aplicada a sistemas de processamento paralelo resulta no principal objetivo do trabalho que é reduzir o tempo de desenvolvimento de novas versões destes sistemas através de uma metodologia de testes. Esta metodologia é usada para testar um dos componentes de um sistema de processamento paralelo, chamado Sistema de Controle, simultaneamente com o desenvolvimento dos outros componentes do sistema. Para testar a eficiência da solução, a metodologia foi aplicada no desenvolvimento do supercomputador da IBM Blue Gene. Como resultado, pode-se verificar uma redução de até 41% do tempo total do projeto. / Due to the great competitiveness of the market, there is an increasing demand for the production of modern computational systems with more quality in less time (CALANTONE; BENEDETTO, 00). The development time of new versions at those systems is also critical, because better performance and more functionalities than in the current version are expected, and the customers have great expectative regarding the release time. As consequence of the technological evolution and the price reduction of the processors and memories, modern systems with high performance, as the parallel processing systems, have gained more relevance and they have been progressively more requested by the customers due to their computational power to solve complex problems in critical fields such as medical, military, energy, simulation and weather forecasts (MORRISON, 03). In the parallel processing area, it is reasonable to affirm that there is a real race to release a new product and its versions earlier in the market, to get a better position and more advantages than the competitors and to become a reference for the customers, who then wish to adopt it. Taking these facts into consideration, the problem studied in this thesis is how to improve the development process of parallel processing systems, reducing the development time of new versions of these systems. The proposal to solve this problem is to reduce the test time, which corresponds to a significant part of the total project time. In order to achieve this reduction, this work presents a strategy based on the parallel execution of the test with the development. The application of this technique to the parallel processing systems results in the main objective of this work, which is to reduce the development time of new versions of these systems through a test methodology. This methodology is used to test one component of the parallel processing system, called Control System, simultaneously with the development of the other components of the system. To test the efficiency of the proposed solution, the methodology has been applied to the development of the IBM Blue Gene supercomputer. As a result, a reduction of up to 41% of the total project time could be observed. Control system Metodologia de teste Parallel processing system Sistema de controle Sistema de processamento paralelo Test methodology Testes em paralelo com desenvolvimento
310	Resolução de um problema térmico inverso utilizando processamento paralelo em arquiteturas de memória compartilhada / Resolution of an inverse thermal problem using parallel processing on shared memory architectures Ansoni, Jonas Laerte 03 September 2010 (has links) A programação paralela tem sido freqüentemente adotada para o desenvolvimento de aplicações que demandam alto desempenho computacional. Com o advento das arquiteturas multi-cores e a existência de diversos níveis de paralelismo é importante definir estratégias de programação paralela que tirem proveito desse poder de processamento nessas arquiteturas. Neste contexto, este trabalho busca avaliar o desempenho da utilização das arquiteturas multi-cores, principalmente o oferecido pelas unidades de processamento gráfico (GPUs) e CPUs multi-cores na resolução de um problema térmico inverso. Algoritmos paralelos para a GPU e CPU foram desenvolvidos utilizando respectivamente as ferramentas de programação em arquiteturas de memória compartilhada NVIDIA CUDA (Compute Unified Device Architecture) e a API POSIX Threads. O algoritmo do método do gradiente conjugado pré-condicionado para resolução de sistemas lineares esparsos foi implementado totalmente no espaço da memória global da GPU em CUDA. O algoritmo desenvolvido foi avaliado em dois modelos de GPU, os quais se mostraram mais eficientes, apresentando um speedup de quatro vezes que a versão serial do algoritmo. A aplicação paralela em POSIX Threads foi avaliada em diferentes CPUs multi-cores com distintas microarquiteturas. Buscando um maior desempenho do código paralelizado foram utilizados flags de otimização as quais se mostraram muito eficientes na aplicação desenvolvida. Desta forma o código paralelizado com o auxílio das flags de otimização chegou a apresentar tempos de processamento cerca de doze vezes mais rápido que a versão serial no mesmo processador sem nenhum tipo de otimização. Assim tanto a abordagem utilizando a GPU como um co-processador genérico a CPU como a aplicação paralela empregando as CPUs multi-cores mostraram-se ferramentas eficientes para a resolução do problema térmico inverso. / Parallel programming has been frequently adopted for the development of applications that demand high-performance computing. With the advent of multi-cores architectures and the existence of several levels of parallelism are important to define programming strategies that take advantage of parallel processing power in these architectures. In this context, this study aims to evaluate the performance of architectures using multi-cores, mainly those offered by the graphics processing units (GPUs) and CPU multi-cores in the resolution of an inverse thermal problem. Parallel algorithms for the GPU and CPU were developed respectively, using the programming tools in shared memory architectures, NVIDIA CUDA (Compute Unified Device Architecture) and the POSIX Threads API. The algorithm of the preconditioned conjugate gradient method for solving sparse linear systems entirely within the global memory of the GPU was implemented by CUDA. It evaluated the two models of GPU, which proved more efficient by having a speedup was four times faster than the serial version of the algorithm. The parallel application in POSIX Threads was evaluated in different multi-core CPU with different microarchitectures. Optimization flags were used to achieve a higher performance of the parallelized code. As those were efficient in the developed application, the parallelized code presented processing times about twelve times faster than the serial version on the same processor without any optimization. Thus both the approach using GPU as a coprocessor to the CPU as a generic parallel application using the multi-core CPU proved to be more efficient tools for solving the inverse thermal problem. GPGPU CUDA GPGPU CUDA Gradiente conjugado pré-condicionado Matriz esparsa Parallel processing POSIX threads POSIX threads Processamento paralelo Sparse numerical solver

Search results