Global ETD Search

461	A dynamic scheduling runtime and tuning system for heterogeneous multi and many-core desktop platforms / Um sistema de escalonamento dinâmico e tuning em tempo de execução para plataformas desktop heterogêneas de múltiplos núcleos Binotto, Alécio Pedro Delazari January 2011 (has links) Atualmente, o computador pessoal (PC) moderno poder ser considerado como um cluster heterogênedo de um nodo, o qual processa simultâneamente inúmeras tarefas provenientes das aplicações. O PC pode ser composto por Unidades de Processamento (PUs) assimétricas, como a Unidade Central de Processamento (CPU), composta de múltiplos núcleos, a Unidade de Processamento Gráfico (GPU), composta por inúmeros núcleos e que tem sido um dos principais co-processadores que contribuiram para a computação de alto desempenho em PCs, entre outras. Neste sentido, uma plataforma de execução heterogênea é formada em um PC para efetuar cálculos intensivos em um grande número de dados. Na perspectiva desta tese, a distribuição da carga de trabalho de uma aplicação nas PUs é um fator importante para melhorar o desempenho das aplicações e explorar tal heterogeneidade. Esta questão apresenta desafios uma vez que o custo de execução de uma tarefa de alto nível em uma PU é não-determinístico e pode ser afetado por uma série de parâmetros não conhecidos a priori, como o tamanho do domínio do problema e a precisão da solução, entre outros. Nesse escopo, esta pesquisa de doutorado apresenta um sistema sensível ao contexto e de adaptação em tempo de execução com base em um compromisso entre a redução do tempo de execução das aplicações - devido a um escalonamento dinâmico adequado de tarefas de alto nível - e o custo de computação do próprio escalonamento aplicados em uma plataforma composta de CPU e GPU. Esta abordagem combina um modelo para um primeiro escalonamento baseado em perfis de desempenho adquiridos em préprocessamento com um modelo online, o qual mantém o controle do tempo de execução real de novas tarefas e escalona dinâmicamente e de modo eficaz novas instâncias das tarefas de alto nível em uma plataforma de execução composta de CPU e de GPU. Para isso, é proposto um conjunto de heurísticas para escalonar tarefas em uma CPU e uma GPU e uma estratégia genérica e eficiente de escalonamento que considera várias unidades de processamento. A abordagem proposta é aplicada em um estudo de caso utilizando uma plataforma de execução composta por CPU e GPU para computação de métodos iterativos focados na solução de Sistemas de Equações Lineares que se utilizam de um cálculo de stencil especialmente concebido para explorar as características das GPUs modernas. A solução utiliza o número de incógnitas como o principal parâmetro para a decisão de escalonamento. Ao escalonar tarefas para a CPU e para a GPU, um ganho de 21,77% em desempenho é obtido em comparação com o escalonamento estático de todas as tarefas para a GPU (o qual é utilizado por modelos de programação atuais, como OpenCL e CUDA para Nvidia) com um erro de escalonamento de apenas 0,25% em relação à combinação exaustiva. / A modern personal computer can be now considered as a one-node heterogeneous cluster that simultaneously processes several applications’ tasks. It can be composed by asymmetric Processing Units (PUs), like the multi-core Central Processing Unit (CPU), the many-core Graphics Processing Units (GPUs) - which have become one of the main co-processors that contributed towards high performance computing - and other PUs. This way, a powerful heterogeneous execution platform is built on a desktop for data intensive calculations. In the perspective of this thesis, to improve the performance of applications and explore such heterogeneity, a workload distribution over the PUs plays a key role in such systems. This issue presents challenges since the execution cost of a task at a PU is non-deterministic and can be affected by a number of parameters not known a priori, like the problem size domain and the precision of the solution, among others. Within this scope, this doctoral research introduces a context-aware runtime and performance tuning system based on a compromise between reducing the execution time of the applications - due to appropriate dynamic scheduling of high-level tasks - and the cost of computing such scheduling applied on a platform composed of CPU and GPUs. This approach combines a model for a first scheduling based on an off-line task performance profile benchmark with a runtime model that keeps track of the tasks’ real execution time and efficiently schedules new instances of the high-level tasks dynamically over the CPU/GPU execution platform. For that, it is proposed a set of heuristics to schedule tasks over one CPU and one GPU and a generic and efficient scheduling strategy that considers several processing units. The proposed approach is applied in a case study using a CPU-GPU execution platform for computing iterative solvers for Systems of Linear Equations using a stencil code specially designed to explore the characteristics of modern GPUs. The solution uses the number of unknowns as the main parameter for assignment decision. By scheduling tasks to the CPU and to the GPU, it is achieved a performance gain of 21.77% in comparison to the static assignment of all tasks to the GPU (which is done by current programming models, such as OpenCL and CUDA for Nvidia) with a scheduling error of only 0.25% compared to exhaustive search. Processamento paralelo Microeletrônica Processamento : Imagem Processamento : Alto desempenho High-performance computing Scheduling Dynamic load-balancing Heterogenous systems Graphics processors Solvers for systems of linear equations
462	Exploiting multiple levels of parallelism and online refinement of unstructured meshes in atmospheric model application Schepke, Claudio January 2012 (has links) Previsões meteorológicas para longos períodos de tempo estão se tornando cada vez mais importantes. A preocupação mundial com as consequências da mudança do clima tem estimulado pesquisas para determinar o seu comportamento nas próximas décadas. Ao mesmo tempo, os passos necessários para definir uma melhor modelagem e simulação do clima e/ou tempo estão longe da precisão desejada. Aumentar o refinamento da superfície terrestre e, consequentemente, aumentar o número de pontos discretos (utilizados para a representação da atmosfera) na modelagem climática e precisão das soluções computadas é uma meta que está em conflito com o desempenho das aplicações numéricas. Aplicações que envolvem a interação de longos períodos de tempo e incluem um grande número de operações possuem um tempo de execução inviável para as arquiteturas de computadores tradicionais. Para superar esta situação, um modelo climatológico pode adotar diferentes níveis de refinamento da superfície terrestre, utilizando mais pontos discretos somente em regiões onde uma maior precisão é requerida. Este é o caso de Ocean-Land-AtmosphereModel, que permite o refinamento estático de uma determinada região no início da execução do código. No entanto, um refinamento dinâmico possibilitaria uma melhor compreensão das condições climáticas específicas de qualquer região da superfície terrestre que se tivesse interesse, sem a necessidade de reiniciar a execução da aplicação. Com o surgimento das arquiteturas multi-core e a adoção de GPUs para a computação de propósito geral, existem diferentes níveis de paralelismo. Hoje há paralelismo interno ao processador, entre processadores e entre computadores. Com o objetivo de extrair ao máximo a performance dos computadores atuais, é necessário utilizar todos os níveis de paralelismo disponíveis durante o desenvolvimento de aplicações concorrentes. No entanto, nenhuma interface de programação paralela explora simultaneamente bem os diferentes níveis de paralelismo existentes. Baseado neste contexto, esta tese investiga como explorar diferentes níveis de paralelismo em modelos climatológicos usando interfaces clássicas de programação paralela de forma combinada e como é possível prover refinamento de malhas em tempo de execução para estes modelos. Os resultados obtidos a partir de implementações realizadas mostraram que é possível reduzir o tempo de execução de uma simulação atmosférica utilizando diferentes níveis de paralelismo, através do uso combinado de interfaces de programação paralela. Além disso, foi possível prover maior desempenho na execução de aplicações climatológicas que utilizam refinamento de malhas em tempo de execução. Com isso, uma malha de maior resolução para a representação da atmosfera terrestre pode ser adotada e, consequentemente, as previsões numéricas serão mais precisas. / Weather forecasts for long periods of time has emerged as increasingly important. The global concern with the consequences of climate changes has stimulated researches to determine the climate in coming decades. At the same time the steps needed to better defining the modeling and the simulation of climate/weather is far of the desired accuracy. Upscaling the land surface and consequently to increase the number of points used in climate modeling and the precision of the computed solutions is a goal that conflicts with the performance of numerical applications. Applications that include the interaction of long periods of time and involve a large number of operations become the expectation for results infeasible in traditional computers. To overcome this situation, a climatic model can take different levels of refinement of the Earth’s surface, using more discretized elements only in regions where more precision are required. This is the case of Ocean-Land- Atmosphere Model, which allows the static refinement of a particular region of the Earth in the early execution of the code. However, a dynamic mesh refinement could allow to better understand specific climatic conditions that appear at execution time of any region of the Earth’s surface, without restarting execution. With the introduction of multi-core processors and GPU boards, computers architectures have many parallel layers. Today, there are parallelism inside the processor, among processors and among computers. In order to use the best performance of the computers it is necessary to consider all parallel levels to distribute a concurrent application. However, nothing parallel programming interface abstracts all these different parallel levels. Based in this context, this thesis investigates how to explore different levels of parallelism in climatological models using mixed interfaces of parallel programming and how these models can provide mesh refinement at execution time. The performance results show that is possible to reduce the execution time of atmospheric simulations using different levels of parallelism, through the combined use of parallel programming interfaces. Higher performance for the execution of atmospheric applications that use online mesh refinement was also provided. Therefore, more mesh resolution to describe the Earth’s atmosphere can be adopted, and consequently the numerical forecasts are more accurate. Cluster Processamento paralelo Processamento : Alto desempenho Multi-level parallelism Online refinement of unstructuredmeshes Ocean- Land-atmosphere model Parallel tasks High performance computing
463	Computação paralela na análise de problemas de engenharia utilizando o Método dos Elementos Finitos Masuero, Joao Ricardo January 2009 (has links) O objetivo deste trabalho é estudar algoritmos paralelos para a solução de problemas de Mecânica dos Sólidos, Mecânica dos Fluídos e Interação Fluido-Estrutura empregando o Método dos Elementos Finitos para uso em configurações de memória distribuída e compartilhada. Dois processos para o particionamento da estrutura de dados entre os processadores e divisão de tarefas foram desenvolvidos baseados na aplicação do método de particionamento em faixas e do método da bissecção coordenada recursiva não sobre a geometria da malha mas sim diretamente sobre o sistema de equações, através de reordenações nodais para minimização da largura da banda. Para ordenar a comunicação entre os processadores, foi desenvolvido um algoritmo simples e genérico baseado em uma ordenação circular e alternada que permite a organização eficiente dos processos mesmo em cenários nos quais cada processador precisa trocar dados com todos os demais. Os algoritmos selecionados foram todos do tipo iterativo, por sua adequabilidade ao paralelismo de memória distribuída. Foram desenvolvidos códigos paralelos para o Método dos Gradientes Conjugados utilizado em problemas de Mecânica dos Sólidos, para o esquema explícito de Taylor-Galerkin com um passo e iterações utilizado na simulação de escoamentos compressíveis em regime transônico e supersônico, para o esquema explícito de Taylor- Galerkin com 2 passos para simulação de escoamentos incompressíveis em regime subsônico e para interação fluído-estrutura usando o esquema explícito de dois passos para o fluído e o método implícito de Newmark no contexto do método de estabilização α-Generalizado para a estrutura, com acoplamento particionado. Numerosas configurações foram testadas com problemas tridimensionais utilizando elementos tetraédricos e hexaédricos em clusters temporários e permanentes, homogêneos e heterogêneos, com diferentes tamanhos de problemas, diferentes números de computadores e diferentes velocidades de rede. / Analysis and development of distributed memory parallel algorithms for the solution of Solid Mechanics, Fluid Mechanics and Fluid-Structure Interaction problems using the Finite Element Method is the main goal of this work. Two process for mesh partitioning and task division were developed, based in the Stripwise Partitioning and the Recursive Coordinate Bisection Methods, but applied not over the mesh geometry but over the resultant system of equations through a nodal ordering algorithm for system bandwidth minimization. To schedule the communication tasks in scenarios where each processor must exchange data with all others in the cluster, a simple and generic algorithm based in a circular an alternate ordering was developed. The algorithms selected to be parallelized were of iterative types due to their suitability for distributed memory parallelism. Parallel codes were developed for the Conjugate Gradient Method ( for Solid Mechanics analysis), for the explicit one-step scheme of Taylor-Galerkin method (for transonic and supersonic compressible flow analysis), for the two-step explicit scheme of Taylor-Galerkin method (for subsonic incompressible flow analysis) and for a Fluid-Structure Interaction algorithm using a coupling model based on a partitioned scheme. Explicit two-step scheme of Taylor-Galerkin were employed for the fluid and the implicit Newmark algorithm for the structure. Several configurations were tested for three-dimensional problems using tetrahedral and hexahedral elements in uniform and nonuniform clusters and grids, with several sizes of meshes, numbers of computers and network speeds. Dinâmica dos fluidos computacional Elementos finitos Estruturas (Engenharia) Mecanica dos solidos Parallel computing Computational solid dynamics Computational fluid dynamics Finite element method High performance computing
464	Rastreamento de alvo móvel em mono-visão aplicado no sistema de navegação autônoma utilizando GPU / Tracking of target moving in monocular vision system applied to autonomous navigation using GPU Vitor, Giovani Bernardes, 1985- 16 August 2018 (has links) Orientador: Janito Vaqueiro Ferreira / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Mecânica / Made available in DSpace on 2018-08-16T19:38:32Z (GMT). No. of bitstreams: 1 Vitor_GiovaniBernardes_M.pdf: 6258094 bytes, checksum: fbd34947eb1efdce50b97b27f56c1920 (MD5) Previous issue date: 2010 / Resumo: O sistema de visão computacional é bastante útil em diversas aplicações de veículos autônomos, como em geração de mapas, desvio de obstáculos, tarefas de posicionamento e rastreamento de alvos. Além disso, a visão computacional pode proporcionar um ganho significativo na confiabilidade, versatilidade e precisão das tarefas robóticas, questões cruciais na maioria das aplicações reais. O presente trabalho tem como objetivo principal o desenvolvimento de uma metodologia de controle servo visual em veículos robóticos terrestres para a realização de rastreamento e perseguição de um alvo. O procedimento de rastreamento é baseado na correspondência da região alvo entre a seqüência de imagens, e a perseguição pela geração do movimento de navegação baseado nas informações da região alvo. Dentre os aspectos que contribuem para a solução do procedimento de rastreamento proposto, considera-se o uso das técnicas de processamento de imagens como filtro KNN, filtro Sobel, filtro HMIN e transformada Watershed que unidas proporcionam a robustez desejada para a solução. No entanto, esta não é uma técnica compatível com sistema de tempo real. Deste modo, tais algoritmos foram modelados para processamento paralelo em placas gráficas utilizando CUDA. Experimentos em ambientes reais foram analisados, apresentando diversos resultados para o procedimento de rastreamento, bem como validando a utilização das GPU's para acelerar o processamento do sistema de visão computacional / Abstract: The computer vision system is useful in several applications of autonomous vehicles, such as map generation, obstacle avoidance tasks, positioning tasks and target tracking. Furthermore, computer vision can provide a significant gain in reliability, versatility and accuracy of robotic tasks, which are important concerns in most applications. The present work aims at the development of a visual servo control method in ground robotic vehicles to perform tracking and follow of a target. The procedure for tracking is based on the correspondence between the target region sequence of images, and persecution by the generation of motion based navigation of information from target region. Among the aspects that contribute to the solution of the proposed tracking procedure, we consider the use of imaging techniques such as KNN filter, Sobel filter, HMIN filter and Watershed transform that together provide the desired robustness for the solution. However, this is not a technique compatible with real-time system. Thus, these algorithms were modeled for parallel processing on graphics cards using CUDA. Experiments in real environments were analyzed showed different results for the procedure for tracking and validating the use of GPU's to accelerate the processing of computer vision system / Mestrado / Mecanica dos Sólidos e Projeto Mecanico / Mestre em Engenharia Mecânica Visão por computador Processamento de imagens Rastreamento automático Computação de alto desempenho Navegação de robôs móveis Computer vision Image processing Automatic tracking High performance computing Autonomous robot's navigation
465	Arquitetura de computação paralela para resolução de problemas de dinâmica dos fluidos e interação fluido-estrutura. / Parallel computing archictecture for solving fluid dynamics and fluid-structure interaction problems. Luiz Felipe Marchetti do Couto 27 June 2016 (has links) Um dos grandes desafios da engenharia atualmente é viabilizar soluções computacionais que reduzam o tempo de processamento e forneçam respostas ainda mais precisas. Frequentemente surgem propostas com as mais diversas abordagens que exploram novas formas de resolver tais problemas ou tentam, ainda, melhorar as soluções existentes. Uma das áreas que se dedica a propor tais melhorias é a computação paralela e de alto desempenho - HPC (High Performance Computing). Técnicas que otimizem o tempo de processamento, algoritmos mais eficientes e computadores mais rápidos abrem novos horizontes possibilitando realizar tarefas que antes eram inviáveis ou levariam muito tempo para serem concluídas. Neste projeto propõe-se a implementação computacional de uma arquitetura de computação paralela com o intuito de resolver, de forma mais eficiente, em comparação com a arquitetura sequencial, problemas de Dinâmica dos Fluidos e Interação Fluido-Estrutura e que também seja possível estender esta arquitetura para a resolução de outros problemas relacionados com o Método dos Elementos Finitos. O objetivo deste trabalho é desenvolver um algoritmo computacional eficiente em linguagem de programação científica C++ e CUDA - de propriedade da NVIDIAr - tendo como base trabalhos anteriores desenvolvidos no LMC (Laboratório de Mecânica Computacional) e, posteriormente, com a arquitetura desenvolvida, executar e investigar problemas de Dinâmica dos Fluidos e Interação Fluido-Estrutura (aplicando o método dos Elementos Finitos com Fronteiras Imersas e a solução direta do sistema de equações lineares com PARDISO) com o auxílio dos computadores do LMC. Uma análise de sensibilidade para cada problema é realizada de forma a encontrar a melhor combinação entre o número de elementos da malha de elementos finitos e o speedup, e posteriormente é feita uma análise comparativa de desempenho entre a arquitetura paralela a sequencial. Com uma única GPU conseguiu-se uma considerável redução no tempo para o assembly das matrizes globais e no tempo total da simulação. / One of the biggest challenges of engineering is enable computational solutions that reduce processing time and provide more accurate numerical solutions. Proposals with several approaches that explore new ways of solving such problems or improve existing solutions emerge. One of the biggest areas dedicated to propose such improvements is the parallel and high performance computing. Techniques that improve the processing time, more efficient algorithms and faster computers open up new horizons allowing to perform tasks that were previously unfeasible or would take too long to complete. We can point out, among several areas of interest, Fluid Dynamics and Interaction Fluid-Structure. In this work it is developed a parallel computing architecture in order to solve numerical problems more efficiently, compared to sequential architecture (e.g. Fluid Dynamics and Fluid-Structure Interaction problems) and it is also possible to extend this architecture to solve different problems (e.g. Structural problems). The objective is to develop an efficient computational algorithm in scientific programming language C ++, based on previous work carried out in Computational Mechanics Laboratory (CML) at Polytechnic School at University of São Paulo, and later with the developed architecture, execute and investigate Fluid Dynamics and Fluid-Structure Interaction problems with the aid of CML computers. A sensitivity analysis is executed for different problems in order to assess the best combination of elements quantity and speedup, and then a perfomance comparison. Using only one GPU, we could get a 10 times speedup compared to a sequential software, using the Finite Element with Immersed Boundary Method and a direct solver (PARDISO). Computação gráfica Dinâmica dos fluídos Interação fluido-estrutura Método dos elementos finitos Multiprogramação e multiprocessamento CUDA Finite elements Fluid-structure interaction High performance computing
466	Implementações sequencial e paralela de um novo algoritmo para a simulação de elementos e compostos magnéticos Campos, Alessandra Matos 25 February 2011 (has links) Submitted by Renata Lopes (renatasil82@gmail.com) on 2017-03-03T19:15:39Z No. of bitstreams: 1 alessandramatoscampos.pdf: 1960550 bytes, checksum: 14e573eea1f29d2dacca4a586c4d7035 (MD5) / Approved for entry into archive by Adriana Oliveira (adriana.oliveira@ufjf.edu.br) on 2017-03-06T20:18:34Z (GMT) No. of bitstreams: 1 alessandramatoscampos.pdf: 1960550 bytes, checksum: 14e573eea1f29d2dacca4a586c4d7035 (MD5) / Made available in DSpace on 2017-03-06T20:18:34Z (GMT). No. of bitstreams: 1 alessandramatoscampos.pdf: 1960550 bytes, checksum: 14e573eea1f29d2dacca4a586c4d7035 (MD5) Previous issue date: 2011-02-25 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / O fenômeno magnético é amplamente utilizado nos mais diversos dispositivos eletrônicos, de armazenamento de dados e de telecomunicações, dentre outros. O entendimento deste fenômeno é portanto de grande importância para dar suporte ao aperfeiçoamento e desenvolvimento de novas tecnologias. Uma das formas de melhorar a compreensão do fenômeno magnético é estudá-lo em escala atômica. Quando os átomos magnéticos se aproximam, interagem magneticamente, mesmo que submetidos a um campo magnético externo, e podem formar estruturas em escala nanométrica. Programas computacionais podem ser desenvolvidos com o objetivo de simular o comportamento de tais estruturas. Tais simuladores podem facilitar o estudo do magnetismo em escala nanométrica porque podem prover informações detalhadas sobre este fenômeno. Cientistas podem usar um simulador para criar e/ou modificar diferentes propriedades físicas de um sistema magnético; dados numéricos e visuais gerados pelo simulador podem ajudar na compreensão dos processos físicos associados com os fenômenos magnéticos. Entretanto, a execução de tais simulações é computacionalmente cara. A interação entre átomos ocorre de forma similar ao problema dos N corpos. Sua complexidade nos algoritmos tradicionais é O(N2), onde N é o número de spins, ou átomos, sendo simulados no sistema. Neste trabalho propomos um novo algoritmo capaz de reduzir substancialmente este custo computacional, o que permite que uma grande quantidade de spins possa ser simulada. Adicionalmente ferramentas e ambientes de computação paralela são empregados para que os custos em termos de tempo de computação possam ser ainda mais reduzidos. / The magnetic phenomena are widely used in many devices, such as electronic, data storage and telecommunications devices. The understanding of this phenomenon is therefore of great interest to support the improvement and development of new technologies. To better understand the magnetic phenomena, it is essential to study interactions at nano scale. When magnetic atoms are brought together they interact magnetically, even with an external magnetic field, and can form structures at nanoscale. Special design computer programs can be developed to simulate this interaction. Such simulators can facilitate the study of magnetism in nanometer scale because they can provide detailed information about this phenomenon. Scientists may use a simulator to create and/or modify different physical properties of a magnetic system; visual and numerical data generated by the simulator can help to understand the physical processes associated with the magnetic phenomenon. However, there is a natural high complexity in the numerical solution of physical models. The interaction between spins occurs in a similar way to the classical n-body problem. The complexity of this problem is O(N2), where N is the number of spins or atoms in the system. In this work we propose a new algorithm that can substantially reduce the computational cost, and allows the simulation of a large number of spins. Besides, tools and environments for high-performance computing are used so that the costs of computation time may be further reduced. CNPQ::CIENCIAS EXATAS E DA TERRA Física computacional Modelo de Spins de Heisenberg Avaliação de desempenho Computação de alto desempenho Computational Physics Heisenberg Spins Model Performance Evaluation High Performance Computing
467	Agrupando dados e kernels de um simulador cardíaco em um ambiente multi-GPU Cordeiro, Raphael Pereira 10 March 2017 (has links) Submitted by Renata Lopes (renatasil82@gmail.com) on 2017-07-04T17:30:00Z No. of bitstreams: 1 raphaelpereiracordeiro.pdf: 17027543 bytes, checksum: 91ef68c2021ff4c93dc8b4fe66217cf2 (MD5) / Approved for entry into archive by Adriana Oliveira (adriana.oliveira@ufjf.edu.br) on 2017-08-08T13:42:41Z (GMT) No. of bitstreams: 1 raphaelpereiracordeiro.pdf: 17027543 bytes, checksum: 91ef68c2021ff4c93dc8b4fe66217cf2 (MD5) / Made available in DSpace on 2017-08-08T13:42:41Z (GMT). No. of bitstreams: 1 raphaelpereiracordeiro.pdf: 17027543 bytes, checksum: 91ef68c2021ff4c93dc8b4fe66217cf2 (MD5) Previous issue date: 2017-03-10 / A modelagem computacional é uma ferramenta útil no estudo de diversos fenômenos complexos, como o comportamento eletro-mecânico do coração em condições normais e patológicas, sendo importante para o desenvolvimento de novos medicamentos e métodos de combate às doenças cardíacas. A alta complexidade de processos biofísicos se traduz em complexos modelos matemáticos e computacionais, o que faz com que simulações cardíacas necessitem de um grande poder computacional para serem executadas. Logo, o estado da arte em simuladores cardíacos é implementado para ser executado em arquiteturas paralelas. Este trabalho apresenta a implementação e avaliação de um método com dados e kernel agregados, método este utilizado para reduzir o tempo de computação de códigos que executam em ambientes computacionais compostos de múltiplas unidades de processamento gráfico (Graphics Processing Unit ou simplesmente GPUs). Este método foi testado na computação de uma importante parte da simulação da eletrofisiologia do coração, a resolução das equações diferenciais ordinárias (EDOs), resultando em uma redução pela metade do tempo necessário para a sua resolução, quando comparado com o esquema onde este método não foi implementado. Com o uso da técnica proposta neste trabalho, o tempo total de execução das simulações cardíacas foi reduzido em até 25%. / Computational modeling is a useful tool to study many distinct and complex phenomena, such as to describe the electrical and mechanical behavior of the heart, under normal and pathological conditions. The high complexity of the associated biophysical processes translates into complex mathematical and computational models. This, in turn, translates to cardiac simulators that demand a lot of computational power to be executed. Therefore, most of the state-of-the-art cardiac simulators are implemented to run in parallel architectures. In this work a new coalesced data and kernel scheme is evaluated. Its objective is to reduce the execution costs of cardiac simulations that run on multi-GPU environments. The new scheme was tested for an important part of the simulator, the solution of the systems of Ordinary Differential Equations (ODEs). The results have shown that the proposed scheme is very effective. The execution time to solve the systems of ODEs on the multi-GPU environment was reduced by half, when compared to a scheme that does not implemented the proposed data and kernel coalescing. As a result, the total execution time of cardiac simulations was 25% faster. CNPQ::CIENCIAS EXATAS E DA TERRA Modelagem computacional Computação paralela GPU Eletrofisiologia cardíaca Computação de alto desempenho Computational modeling Parallel computing GPU Cardiac electrophysiology High performance computing
468	Simulação acelerada de baixo custo para aplicações em nanoengenharia de materiais / Low cost accelerated simulation for application in nanoengineering materials Turatti, Luiz Gustavo, 1977- 23 August 2018 (has links) Orientadores: Jacobus Willibrordus Swart, Stanislav Moshkalev / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação / Made available in DSpace on 2018-08-23T22:11:44Z (GMT). No. of bitstreams: 1 Turatti_LuizGustavo_D.pdf: 35255933 bytes, checksum: dbbe11c7c0f55012ba27274415c2494d (MD5) Previous issue date: 2013 / Resumo: Este é um trabalho multidisciplinar que aborda questões de química, física, engenharia elétrica (nanoengenharia) e principalmente avanços obtidos com simulações por computador. Os programas comumente utilizados para simulações de fótons/íons focalizados em outro material consomem recursos computacionais por diversas horas ou até dias, para concluir os cálculos de determinado experimento, como a simulação de um processo efetuado com o equipamento FIB/SEM (Focused Ion Beam/Scanning Electron Miscroscopy), por exemplo. Através do uso de ambientes computacionais virtualizados, associados a programação paralela em CPU (Central Processing Unit) e GPGPU (General Purpose Graphics Processing Unit) é possível reduzir significativamente o tempo da simulação de horas para minutos, em situações de interação de partículas, que envolvem aproximação de colisões binárias (BCA, Binary Collision Approximation) e o Método de Monte Carlo (MMC), principalmente. O uso de placas gráficas (comumente utilizadas para jogos) potencializou o poder de processamento numérico para uso acadêmico a baixo custo, reduzindo o tempo para obtenção de resultados que foram comprovados experimentalmente. A utilização de programas análogos que empregam BCA e MMC, tais como TRIM/SRIM (Transport of Ions in Matter, atualizado para Stopping and Range of Ions in Matter), MCML (Monte Carlo for Multi Layered media) e CUDAMCML (Compute Unified Device Architecture, MCML) auxiliam a comparação de ganho de desempenho entre CPU e GPGPU evidenciando o melhor desempenho desta última arquitetura, com CUDA. Em simulações equivalentes com matrizes esparsas executadas em CPU e GPGPU, a redução do tempo de processamento variou entre três e quinze mil vezes, respectivamente. Com o Método de Monte Carlo, a redução foi de até cento e quarenta e uma vezes para melhores resultados. As simulações de alto desempenho e baixo custo computacional permitem antever algumas situações experimentais, diminuindo a necessidade de explorar todas as possibilidades práticas e, dessa forma, reduzindo o custo com laboratório / Abstract: This is a multidisciplinary work that addresses issues of chemistry, physics, electrical engineering (Nanoengineering) and especially advances obtained with computer simulations. Programs commonly used for simulations of photons/ions focused onto other materials consume computational resources for several hours or even days, to complete the simulations of a process performed with the equipment FIB/SEM (Focused Ion Beam/Scanning Electron Miscroscopy), for example. Through virtualized computing environments associated with parallel programming on CPU (Central Processing Unit) and GPGPU (General Purpose Graphics Processing Unit) is possible to significantly reduce the simulation total time from hours to minutes in the interactions of particles, involving binary collision approximation (BCA) and Monte Carlo method (MMC), mostly. The use of graphics cards (generaly used for games) enhanced the numerical processing power to be used in academia with low cost and reduced the time to obtain results experimentally verified. The use of similar software using BCA and MMC, such as TRIM/SRIM (Transport of Ions in Matter, upgraded to Stopping and Range of Ions in Matter), MCML (Monte Carlo for Multi Layered media) and CUDAMCML (Compute Unified Device Architecture, MCML) helped us to make a comparison of performance between CPU and GPGPU showing the best performance of the latter architecture, with CUDA. In equivalent simulations using sparse matrices in CPU and GPGPU, the time reduction of processing varied between three and fifteen thousand times, respectively. With the Monte Carlo method, reduction was up to one hundred forty one times for best results. Simulations of high performance and low computational cost allow us to predict some experimental situations, reducing the need to explore all practical possibilities and thus, reducing the lab costs / Doutorado / Eletrônica, Microeletrônica e Optoeletrônica / Doutor em Engenharia Elétrica Computação de alto desempenho Programação paralela (Computação) Simulação (Computadores) Monte Carlo, Método de Feixes de íons focalizados High performance computing Parallel programming Computer simulation Monte Carlo Method Focused ion beam
469	Visualisation Studio for the analysis of massive datasets Tucker, Roy Colin January 2016 (has links) This thesis describes the research underpinning and the development of a cross platform application for the analysis of simultaneously recorded multi-dimensional spike trains. These spike trains are believed to carry the neural code that encodes information in a biological brain. A number of statistical methods already exist to analyse the temporal relationships between the spike trains. Historically, hundreds of spike trains have been simultaneously recorded, however as a result of technological advances recording capability has increased. The analysis of thousands of simultaneously recorded spike trains is now a requirement. Effective analysis of large data sets requires software tools that fully exploit the capabilities of modern research computers and effectively manage and present large quantities of data. To be effective such software tools must; be targeted at the field under study, be engineered to exploit the full compute power of research computers and prevent information overload of the researcher despite presenting a large and complex data set. The Visualisation Studio application produced in this thesis brings together the fields of neuroscience, software engineering and information visualisation to produce a software tool that meets these criteria. A visual programming language for neuroscience is produced that allows for extensive pre-processing of spike train data prior to visualisation. The computational challenges of analysing thousands of spike trains are addressed using parallel processing to fully exploit the modern researcher’s computer hardware. In the case of the computationally intensive pairwise cross-correlation analysis the option to use a high performance compute cluster (HPC) is seamlessly provided. Finally the principles of information visualisation are applied to key visualisations in neuroscience so that the researcher can effectively manage and visually explore the resulting data sets. The final visualisations can typically represent data sets 10 times larger than previously while remaining highly interactive. 612.8
470	Passage à l'echelle d'un support d'exécution à base de tâches pour l'algèbre linéaire dense / Scalability of a task-based runtime system for dense linear algebra applications Sergent, Marc 08 December 2016 (has links) La complexification des architectures matérielles pousse vers l’utilisation de paradigmes de programmation de haut niveau pour concevoir des applications scientifiques efficaces, portables et qui passent à l’échelle. Parmi ces paradigmes, la programmation par tâches permet d’abstraire la complexité des machines en représentant les applications comme des graphes de tâches orientés acycliques (DAG). En particulier, le modèle de programmation par tâches soumises séquentiellement (STF) permet de découpler la phase de soumission des tâches, séquentielle, de la phase d’exécution parallèle des tâches. Même si ce modèle permet des optimisations supplémentaires sur le graphe de tâches au moment de la soumission, il y a une préoccupation majeure sur la limite que la soumission séquentielle des tâches peut imposer aux performances de l’application lors du passage à l’échelle. Cette thèse se concentre sur l’étude du passage à l’échelle du support d’exécution StarPU (développé à Inria Bordeaux dans l’équipe STORM), qui implémente le modèle STF, dans le but d’optimiser les performances d’un solveur d’algèbre linéaire dense utilisé par le CEA pour faire de grandes simulations 3D. Nous avons collaboré avec l’équipe HiePACS d’Inria Bordeaux sur le logiciel Chameleon, qui est une collection de solveurs d’algèbre linéaire portés sur supports d’exécution à base de tâches, afin de produire un solveur d’algèbre linéaire dense sur StarPU efficace et qui passe à l’échelle jusqu’à 3 000 coeurs de calcul et 288 accélérateurs de type GPU du supercalculateur TERA-100 du CEA-DAM. / The ever-increasing supercomputer architectural complexity emphasizes the need for high-level parallel programming paradigms to design efficient, scalable and portable scientific applications. Among such paradigms, the task-based programming model abstracts away much of the architecture complexity by representing an application as a Directed Acyclic Graph (DAG) of tasks. Among them, the Sequential-Task-Flow (STF) model decouples the task submission step, sequential, from the parallel task execution step. While this model allows for further optimizations on the DAG of tasks at submission time, there is a key concern about the performance hindrance of sequential task submission when scaling. This thesis’ work focuses on studying the scalability of the STF-based StarPU runtime system (developed at Inria Bordeaux in the STORM team) for large scale 3D simulations of the CEA which uses dense linear algebra solvers. To that end, we collaborated with the HiePACS team of Inria Bordeaux on the Chameleon software, which is a collection of linear algebra solvers on top of task-based runtime systems, to produce an efficient and scalable dense linear algebra solver on top of StarPU up to 3,000 cores and 288 GPUs of CEA-DAM’s TERA-100 cluster. Calcul haute performance Supports d’exécution Calcul distribué Programmation par tâches Modèles de programmation parallèle High performance computing Run-time systems Distributed computing Task-based programming Parallel programming models

Search results