Global ETD Search

461	An adaptive parametric surface mesh generation parallel method guided by curvatures / GeraÃÃo adaptativa de malhas de superfÃcies paramÃtricas em paralelo com controle de curvatura Tiago GuimarÃes Sombra 28 March 2016 (has links) CoordenaÃÃo de AperfeÃoamento de Pessoal de NÃvel Superior / This work describes a technique for generating parametric surfaces meshes using parallel computing, with distributed memory processors. The input for the algorithm is a set of parametric patches that model the surface of a given object. A structure for spatial partitioning is proposed to decompose the domain in as many subdomains as processes in the parallel system. Each subdomain consists of a set of patches and the division of its load is guided following an estimate. This decomposition attempts to balance the amount of work in all the subdomains. The amount of work, known as load, of any mesh generator is usually given as a function of its output size, i.e., the size of the generated mesh. Therefore, a technique to estimate the size of this mesh, the total load of the domain, is needed beforehand. This work makes use of an analytical average curvature calculated for each patch, which in turn is input data to estimate this load and the decomposition is made from this analytical mean curvature. Once the domain is decomposed, each process generates the mesh on that subdomain or set of patches by a quad tree technique for inner regions, advancing front technique for border regions and is finally applied an improvement to mesh generated. This technique presented good speed-up results, keeping the quality of the mesh comparable to the quality of the serially generated mesh. / Este trabalho descreve uma tÃcnica para gerar malhas de superfÃcies paramÃtricas utilizando computaÃÃo paralela, com processadores de memÃria compartilhada. A entrada para o algoritmo Ã um conjunto de patches paramÃtricos que modela a superfÃcie de um determinado objeto. Uma estrutura de partiÃÃo espacial Ã proposta para decompor o domÃnio em tantos subdomÃnios quantos forem os processos no sistema paralelo. Cada subdomÃnio Ã formado por um conjunto de patches e a divisÃo de sua carga Ã guiada seguindo uma estimativa de carga. Esta decomposiÃÃo tenta equilibrar a quantidade de trabalho em todos os subdomÃnios. A quantidade de trabalho, conhecida como carga, de qualquer gerador de malha Ã geralmente dada em funÃÃo do tamanho da saÃda do algoritmo, ou seja, do tamanho da malha gerada. Assim, faz-se necessÃria uma tÃcnica para estimar previamente o tamanho dessa malha, que Ã a carga total do domÃnio. Este trabalho utiliza-se de um cÃlculo de curvatura analÃtica mÃdia para cada patch, que por sua vez, Ã dado de entrada para estimar esta carga e a decomposiÃÃo Ã feita a partir dessa curvatura analÃtica mÃdia. Uma vez decomposto o domÃnio, cada processo gera a malha em seu subdomÃnio ou conjunto de patches pela tÃcnica de quadtree para regiÃes internas, avanÃo de fronteira para regiÃes de fronteira e por fim Ã aplicado um melhoramento na malha gerada. Esta tÃcnica apresentou bons resultados de speed-up, mantendo a qualidade da malha comparÃvel Ã qualidade da malha gerada de forma sequencial. ComputaÃÃo de alto desempenho DecomposiÃÃo de domÃnios Parallel surface mesh generation High performance computing Domain decomposition CIENCIA DA COMPUTACAO
462	MPI sobre MOM para suportar log de mensagens pessimista remoto / MPI over MOM to support remote pessimistic message logging Machado, Caciano dos Santos January 2010 (has links) O aumento crescente no número de processadores das arquiteturas paralelas que estão no topo dos rankings de desempenho, apesar de permitir uma maior capacidade de processamento, também traz consigo um aumento na taxa de falhas diretamente proporcional ao número de processadores. Atualmente, as técnicas de tolerância a falhas com recuperação retroativa são as mais empregadas em aplicações MPI, principalmente a técnica de checkpoint coordenado. No entanto, previsões afirmam que essa última técnica será inadequada para as arquiteturas emergentes. Em contrapartida, as técnicas de log de mensagens possuem características que as tornam mais apropriadas no novo cenário que se estabelece. O presente trabalho consiste em uma proposta de log de mensagens pessimista remoto com checkpoint não-coordenado e a avaliação de desempenho da comunicação MPI sobre Publish/Subscriber no qual se baseia o log de mensagens. O trabalho compreende: um estudo das técnicas de tolerância a falhas mais empregadas em ambientes de alto desempenho e a motivação para a escolha dessa variante de log de mensagens; a proposta de log de mensagens; uma implementação de comunicação Open MPI sobre OpenAMQ e sua respectiva avaliação de desempenho com comunicação tradicional TCP/IP e com o log de mensagens pessimista local da distribuição do Open MPI. Os benchmarks utilizados foram o NetPIPE, o NAS Parallel Benchmarks e a aplicação Virginia Hydrodynamics (VH-1). / The growing number of processors in parallel architectures at the top of performance rankings allows a higher processing capacity. However, it also brings an increase in the fault rate which is directly proportional to the number of processors. Nowadays, coordinated checkpoint is the most widely used rollback technique for system recovery in the occurrence of faults in MPI applications. Nevertheless, projections point that this technique will be inappropriate for the emerging architectures. On the other hand, message logging seems to be more appropriate to this new scenario. This work consists in a proposal of pessimistic message logging (remote based) with non-coordinated checkpoint and the performance evaluation of an MPI communication mechanism that works over Publish/Subscriber channels in which the proposed message logging is based. The work is organized as following: an study of fault tolerant techniques used in HPC and the motivation for choosing this variant of message logging; a message logging proposal; an implementation of Open MPI communication over OpenAMQ; performance evaluation and comparision with the tradicional TCP/IP communication and a pessimistic message logging (sender based) from Open MPI distribution. The benchmark set is composed of NetPIPE, NAS Parallel Benchmarks and Virginia Hydrodynamics (VH-1). Processamento paralelo Mpi Programação paralela Processamento : Alto desempenho High performance computing Cluster based computing Fault tolerance Pessimistic message logging Message-oriented middleware
463	A dynamic scheduling runtime and tuning system for heterogeneous multi and many-core desktop platforms / Um sistema de escalonamento dinâmico e tuning em tempo de execução para plataformas desktop heterogêneas de múltiplos núcleos Binotto, Alécio Pedro Delazari January 2011 (has links) Atualmente, o computador pessoal (PC) moderno poder ser considerado como um cluster heterogênedo de um nodo, o qual processa simultâneamente inúmeras tarefas provenientes das aplicações. O PC pode ser composto por Unidades de Processamento (PUs) assimétricas, como a Unidade Central de Processamento (CPU), composta de múltiplos núcleos, a Unidade de Processamento Gráfico (GPU), composta por inúmeros núcleos e que tem sido um dos principais co-processadores que contribuiram para a computação de alto desempenho em PCs, entre outras. Neste sentido, uma plataforma de execução heterogênea é formada em um PC para efetuar cálculos intensivos em um grande número de dados. Na perspectiva desta tese, a distribuição da carga de trabalho de uma aplicação nas PUs é um fator importante para melhorar o desempenho das aplicações e explorar tal heterogeneidade. Esta questão apresenta desafios uma vez que o custo de execução de uma tarefa de alto nível em uma PU é não-determinístico e pode ser afetado por uma série de parâmetros não conhecidos a priori, como o tamanho do domínio do problema e a precisão da solução, entre outros. Nesse escopo, esta pesquisa de doutorado apresenta um sistema sensível ao contexto e de adaptação em tempo de execução com base em um compromisso entre a redução do tempo de execução das aplicações - devido a um escalonamento dinâmico adequado de tarefas de alto nível - e o custo de computação do próprio escalonamento aplicados em uma plataforma composta de CPU e GPU. Esta abordagem combina um modelo para um primeiro escalonamento baseado em perfis de desempenho adquiridos em préprocessamento com um modelo online, o qual mantém o controle do tempo de execução real de novas tarefas e escalona dinâmicamente e de modo eficaz novas instâncias das tarefas de alto nível em uma plataforma de execução composta de CPU e de GPU. Para isso, é proposto um conjunto de heurísticas para escalonar tarefas em uma CPU e uma GPU e uma estratégia genérica e eficiente de escalonamento que considera várias unidades de processamento. A abordagem proposta é aplicada em um estudo de caso utilizando uma plataforma de execução composta por CPU e GPU para computação de métodos iterativos focados na solução de Sistemas de Equações Lineares que se utilizam de um cálculo de stencil especialmente concebido para explorar as características das GPUs modernas. A solução utiliza o número de incógnitas como o principal parâmetro para a decisão de escalonamento. Ao escalonar tarefas para a CPU e para a GPU, um ganho de 21,77% em desempenho é obtido em comparação com o escalonamento estático de todas as tarefas para a GPU (o qual é utilizado por modelos de programação atuais, como OpenCL e CUDA para Nvidia) com um erro de escalonamento de apenas 0,25% em relação à combinação exaustiva. / A modern personal computer can be now considered as a one-node heterogeneous cluster that simultaneously processes several applications’ tasks. It can be composed by asymmetric Processing Units (PUs), like the multi-core Central Processing Unit (CPU), the many-core Graphics Processing Units (GPUs) - which have become one of the main co-processors that contributed towards high performance computing - and other PUs. This way, a powerful heterogeneous execution platform is built on a desktop for data intensive calculations. In the perspective of this thesis, to improve the performance of applications and explore such heterogeneity, a workload distribution over the PUs plays a key role in such systems. This issue presents challenges since the execution cost of a task at a PU is non-deterministic and can be affected by a number of parameters not known a priori, like the problem size domain and the precision of the solution, among others. Within this scope, this doctoral research introduces a context-aware runtime and performance tuning system based on a compromise between reducing the execution time of the applications - due to appropriate dynamic scheduling of high-level tasks - and the cost of computing such scheduling applied on a platform composed of CPU and GPUs. This approach combines a model for a first scheduling based on an off-line task performance profile benchmark with a runtime model that keeps track of the tasks’ real execution time and efficiently schedules new instances of the high-level tasks dynamically over the CPU/GPU execution platform. For that, it is proposed a set of heuristics to schedule tasks over one CPU and one GPU and a generic and efficient scheduling strategy that considers several processing units. The proposed approach is applied in a case study using a CPU-GPU execution platform for computing iterative solvers for Systems of Linear Equations using a stencil code specially designed to explore the characteristics of modern GPUs. The solution uses the number of unknowns as the main parameter for assignment decision. By scheduling tasks to the CPU and to the GPU, it is achieved a performance gain of 21.77% in comparison to the static assignment of all tasks to the GPU (which is done by current programming models, such as OpenCL and CUDA for Nvidia) with a scheduling error of only 0.25% compared to exhaustive search. Processamento paralelo Microeletrônica Processamento : Imagem Processamento : Alto desempenho High-performance computing Scheduling Dynamic load-balancing Heterogenous systems Graphics processors Solvers for systems of linear equations
464	Exploiting multiple levels of parallelism and online refinement of unstructured meshes in atmospheric model application Schepke, Claudio January 2012 (has links) Previsões meteorológicas para longos períodos de tempo estão se tornando cada vez mais importantes. A preocupação mundial com as consequências da mudança do clima tem estimulado pesquisas para determinar o seu comportamento nas próximas décadas. Ao mesmo tempo, os passos necessários para definir uma melhor modelagem e simulação do clima e/ou tempo estão longe da precisão desejada. Aumentar o refinamento da superfície terrestre e, consequentemente, aumentar o número de pontos discretos (utilizados para a representação da atmosfera) na modelagem climática e precisão das soluções computadas é uma meta que está em conflito com o desempenho das aplicações numéricas. Aplicações que envolvem a interação de longos períodos de tempo e incluem um grande número de operações possuem um tempo de execução inviável para as arquiteturas de computadores tradicionais. Para superar esta situação, um modelo climatológico pode adotar diferentes níveis de refinamento da superfície terrestre, utilizando mais pontos discretos somente em regiões onde uma maior precisão é requerida. Este é o caso de Ocean-Land-AtmosphereModel, que permite o refinamento estático de uma determinada região no início da execução do código. No entanto, um refinamento dinâmico possibilitaria uma melhor compreensão das condições climáticas específicas de qualquer região da superfície terrestre que se tivesse interesse, sem a necessidade de reiniciar a execução da aplicação. Com o surgimento das arquiteturas multi-core e a adoção de GPUs para a computação de propósito geral, existem diferentes níveis de paralelismo. Hoje há paralelismo interno ao processador, entre processadores e entre computadores. Com o objetivo de extrair ao máximo a performance dos computadores atuais, é necessário utilizar todos os níveis de paralelismo disponíveis durante o desenvolvimento de aplicações concorrentes. No entanto, nenhuma interface de programação paralela explora simultaneamente bem os diferentes níveis de paralelismo existentes. Baseado neste contexto, esta tese investiga como explorar diferentes níveis de paralelismo em modelos climatológicos usando interfaces clássicas de programação paralela de forma combinada e como é possível prover refinamento de malhas em tempo de execução para estes modelos. Os resultados obtidos a partir de implementações realizadas mostraram que é possível reduzir o tempo de execução de uma simulação atmosférica utilizando diferentes níveis de paralelismo, através do uso combinado de interfaces de programação paralela. Além disso, foi possível prover maior desempenho na execução de aplicações climatológicas que utilizam refinamento de malhas em tempo de execução. Com isso, uma malha de maior resolução para a representação da atmosfera terrestre pode ser adotada e, consequentemente, as previsões numéricas serão mais precisas. / Weather forecasts for long periods of time has emerged as increasingly important. The global concern with the consequences of climate changes has stimulated researches to determine the climate in coming decades. At the same time the steps needed to better defining the modeling and the simulation of climate/weather is far of the desired accuracy. Upscaling the land surface and consequently to increase the number of points used in climate modeling and the precision of the computed solutions is a goal that conflicts with the performance of numerical applications. Applications that include the interaction of long periods of time and involve a large number of operations become the expectation for results infeasible in traditional computers. To overcome this situation, a climatic model can take different levels of refinement of the Earth’s surface, using more discretized elements only in regions where more precision are required. This is the case of Ocean-Land- Atmosphere Model, which allows the static refinement of a particular region of the Earth in the early execution of the code. However, a dynamic mesh refinement could allow to better understand specific climatic conditions that appear at execution time of any region of the Earth’s surface, without restarting execution. With the introduction of multi-core processors and GPU boards, computers architectures have many parallel layers. Today, there are parallelism inside the processor, among processors and among computers. In order to use the best performance of the computers it is necessary to consider all parallel levels to distribute a concurrent application. However, nothing parallel programming interface abstracts all these different parallel levels. Based in this context, this thesis investigates how to explore different levels of parallelism in climatological models using mixed interfaces of parallel programming and how these models can provide mesh refinement at execution time. The performance results show that is possible to reduce the execution time of atmospheric simulations using different levels of parallelism, through the combined use of parallel programming interfaces. Higher performance for the execution of atmospheric applications that use online mesh refinement was also provided. Therefore, more mesh resolution to describe the Earth’s atmosphere can be adopted, and consequently the numerical forecasts are more accurate. Cluster Processamento paralelo Processamento : Alto desempenho Multi-level parallelism Online refinement of unstructuredmeshes Ocean- Land-atmosphere model Parallel tasks High performance computing
465	Computação paralela na análise de problemas de engenharia utilizando o Método dos Elementos Finitos Masuero, Joao Ricardo January 2009 (has links) O objetivo deste trabalho é estudar algoritmos paralelos para a solução de problemas de Mecânica dos Sólidos, Mecânica dos Fluídos e Interação Fluido-Estrutura empregando o Método dos Elementos Finitos para uso em configurações de memória distribuída e compartilhada. Dois processos para o particionamento da estrutura de dados entre os processadores e divisão de tarefas foram desenvolvidos baseados na aplicação do método de particionamento em faixas e do método da bissecção coordenada recursiva não sobre a geometria da malha mas sim diretamente sobre o sistema de equações, através de reordenações nodais para minimização da largura da banda. Para ordenar a comunicação entre os processadores, foi desenvolvido um algoritmo simples e genérico baseado em uma ordenação circular e alternada que permite a organização eficiente dos processos mesmo em cenários nos quais cada processador precisa trocar dados com todos os demais. Os algoritmos selecionados foram todos do tipo iterativo, por sua adequabilidade ao paralelismo de memória distribuída. Foram desenvolvidos códigos paralelos para o Método dos Gradientes Conjugados utilizado em problemas de Mecânica dos Sólidos, para o esquema explícito de Taylor-Galerkin com um passo e iterações utilizado na simulação de escoamentos compressíveis em regime transônico e supersônico, para o esquema explícito de Taylor- Galerkin com 2 passos para simulação de escoamentos incompressíveis em regime subsônico e para interação fluído-estrutura usando o esquema explícito de dois passos para o fluído e o método implícito de Newmark no contexto do método de estabilização α-Generalizado para a estrutura, com acoplamento particionado. Numerosas configurações foram testadas com problemas tridimensionais utilizando elementos tetraédricos e hexaédricos em clusters temporários e permanentes, homogêneos e heterogêneos, com diferentes tamanhos de problemas, diferentes números de computadores e diferentes velocidades de rede. / Analysis and development of distributed memory parallel algorithms for the solution of Solid Mechanics, Fluid Mechanics and Fluid-Structure Interaction problems using the Finite Element Method is the main goal of this work. Two process for mesh partitioning and task division were developed, based in the Stripwise Partitioning and the Recursive Coordinate Bisection Methods, but applied not over the mesh geometry but over the resultant system of equations through a nodal ordering algorithm for system bandwidth minimization. To schedule the communication tasks in scenarios where each processor must exchange data with all others in the cluster, a simple and generic algorithm based in a circular an alternate ordering was developed. The algorithms selected to be parallelized were of iterative types due to their suitability for distributed memory parallelism. Parallel codes were developed for the Conjugate Gradient Method ( for Solid Mechanics analysis), for the explicit one-step scheme of Taylor-Galerkin method (for transonic and supersonic compressible flow analysis), for the two-step explicit scheme of Taylor-Galerkin method (for subsonic incompressible flow analysis) and for a Fluid-Structure Interaction algorithm using a coupling model based on a partitioned scheme. Explicit two-step scheme of Taylor-Galerkin were employed for the fluid and the implicit Newmark algorithm for the structure. Several configurations were tested for three-dimensional problems using tetrahedral and hexahedral elements in uniform and nonuniform clusters and grids, with several sizes of meshes, numbers of computers and network speeds. Dinâmica dos fluidos computacional Elementos finitos Estruturas (Engenharia) Mecanica dos solidos Parallel computing Computational solid dynamics Computational fluid dynamics Finite element method High performance computing
466	Rastreamento de alvo móvel em mono-visão aplicado no sistema de navegação autônoma utilizando GPU / Tracking of target moving in monocular vision system applied to autonomous navigation using GPU Vitor, Giovani Bernardes, 1985- 16 August 2018 (has links) Orientador: Janito Vaqueiro Ferreira / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Mecânica / Made available in DSpace on 2018-08-16T19:38:32Z (GMT). No. of bitstreams: 1 Vitor_GiovaniBernardes_M.pdf: 6258094 bytes, checksum: fbd34947eb1efdce50b97b27f56c1920 (MD5) Previous issue date: 2010 / Resumo: O sistema de visão computacional é bastante útil em diversas aplicações de veículos autônomos, como em geração de mapas, desvio de obstáculos, tarefas de posicionamento e rastreamento de alvos. Além disso, a visão computacional pode proporcionar um ganho significativo na confiabilidade, versatilidade e precisão das tarefas robóticas, questões cruciais na maioria das aplicações reais. O presente trabalho tem como objetivo principal o desenvolvimento de uma metodologia de controle servo visual em veículos robóticos terrestres para a realização de rastreamento e perseguição de um alvo. O procedimento de rastreamento é baseado na correspondência da região alvo entre a seqüência de imagens, e a perseguição pela geração do movimento de navegação baseado nas informações da região alvo. Dentre os aspectos que contribuem para a solução do procedimento de rastreamento proposto, considera-se o uso das técnicas de processamento de imagens como filtro KNN, filtro Sobel, filtro HMIN e transformada Watershed que unidas proporcionam a robustez desejada para a solução. No entanto, esta não é uma técnica compatível com sistema de tempo real. Deste modo, tais algoritmos foram modelados para processamento paralelo em placas gráficas utilizando CUDA. Experimentos em ambientes reais foram analisados, apresentando diversos resultados para o procedimento de rastreamento, bem como validando a utilização das GPU's para acelerar o processamento do sistema de visão computacional / Abstract: The computer vision system is useful in several applications of autonomous vehicles, such as map generation, obstacle avoidance tasks, positioning tasks and target tracking. Furthermore, computer vision can provide a significant gain in reliability, versatility and accuracy of robotic tasks, which are important concerns in most applications. The present work aims at the development of a visual servo control method in ground robotic vehicles to perform tracking and follow of a target. The procedure for tracking is based on the correspondence between the target region sequence of images, and persecution by the generation of motion based navigation of information from target region. Among the aspects that contribute to the solution of the proposed tracking procedure, we consider the use of imaging techniques such as KNN filter, Sobel filter, HMIN filter and Watershed transform that together provide the desired robustness for the solution. However, this is not a technique compatible with real-time system. Thus, these algorithms were modeled for parallel processing on graphics cards using CUDA. Experiments in real environments were analyzed showed different results for the procedure for tracking and validating the use of GPU's to accelerate the processing of computer vision system / Mestrado / Mecanica dos Sólidos e Projeto Mecanico / Mestre em Engenharia Mecânica Visão por computador Processamento de imagens Rastreamento automático Computação de alto desempenho Navegação de robôs móveis Computer vision Image processing Automatic tracking High performance computing Autonomous robot's navigation
467	Arquitetura de computação paralela para resolução de problemas de dinâmica dos fluidos e interação fluido-estrutura. / Parallel computing archictecture for solving fluid dynamics and fluid-structure interaction problems. Luiz Felipe Marchetti do Couto 27 June 2016 (has links) Um dos grandes desafios da engenharia atualmente é viabilizar soluções computacionais que reduzam o tempo de processamento e forneçam respostas ainda mais precisas. Frequentemente surgem propostas com as mais diversas abordagens que exploram novas formas de resolver tais problemas ou tentam, ainda, melhorar as soluções existentes. Uma das áreas que se dedica a propor tais melhorias é a computação paralela e de alto desempenho - HPC (High Performance Computing). Técnicas que otimizem o tempo de processamento, algoritmos mais eficientes e computadores mais rápidos abrem novos horizontes possibilitando realizar tarefas que antes eram inviáveis ou levariam muito tempo para serem concluídas. Neste projeto propõe-se a implementação computacional de uma arquitetura de computação paralela com o intuito de resolver, de forma mais eficiente, em comparação com a arquitetura sequencial, problemas de Dinâmica dos Fluidos e Interação Fluido-Estrutura e que também seja possível estender esta arquitetura para a resolução de outros problemas relacionados com o Método dos Elementos Finitos. O objetivo deste trabalho é desenvolver um algoritmo computacional eficiente em linguagem de programação científica C++ e CUDA - de propriedade da NVIDIAr - tendo como base trabalhos anteriores desenvolvidos no LMC (Laboratório de Mecânica Computacional) e, posteriormente, com a arquitetura desenvolvida, executar e investigar problemas de Dinâmica dos Fluidos e Interação Fluido-Estrutura (aplicando o método dos Elementos Finitos com Fronteiras Imersas e a solução direta do sistema de equações lineares com PARDISO) com o auxílio dos computadores do LMC. Uma análise de sensibilidade para cada problema é realizada de forma a encontrar a melhor combinação entre o número de elementos da malha de elementos finitos e o speedup, e posteriormente é feita uma análise comparativa de desempenho entre a arquitetura paralela a sequencial. Com uma única GPU conseguiu-se uma considerável redução no tempo para o assembly das matrizes globais e no tempo total da simulação. / One of the biggest challenges of engineering is enable computational solutions that reduce processing time and provide more accurate numerical solutions. Proposals with several approaches that explore new ways of solving such problems or improve existing solutions emerge. One of the biggest areas dedicated to propose such improvements is the parallel and high performance computing. Techniques that improve the processing time, more efficient algorithms and faster computers open up new horizons allowing to perform tasks that were previously unfeasible or would take too long to complete. We can point out, among several areas of interest, Fluid Dynamics and Interaction Fluid-Structure. In this work it is developed a parallel computing architecture in order to solve numerical problems more efficiently, compared to sequential architecture (e.g. Fluid Dynamics and Fluid-Structure Interaction problems) and it is also possible to extend this architecture to solve different problems (e.g. Structural problems). The objective is to develop an efficient computational algorithm in scientific programming language C ++, based on previous work carried out in Computational Mechanics Laboratory (CML) at Polytechnic School at University of São Paulo, and later with the developed architecture, execute and investigate Fluid Dynamics and Fluid-Structure Interaction problems with the aid of CML computers. A sensitivity analysis is executed for different problems in order to assess the best combination of elements quantity and speedup, and then a perfomance comparison. Using only one GPU, we could get a 10 times speedup compared to a sequential software, using the Finite Element with Immersed Boundary Method and a direct solver (PARDISO). Computação gráfica Dinâmica dos fluídos Interação fluido-estrutura Método dos elementos finitos Multiprogramação e multiprocessamento CUDA Finite elements Fluid-structure interaction High performance computing
468	Implementações sequencial e paralela de um novo algoritmo para a simulação de elementos e compostos magnéticos Campos, Alessandra Matos 25 February 2011 (has links) Submitted by Renata Lopes (renatasil82@gmail.com) on 2017-03-03T19:15:39Z No. of bitstreams: 1 alessandramatoscampos.pdf: 1960550 bytes, checksum: 14e573eea1f29d2dacca4a586c4d7035 (MD5) / Approved for entry into archive by Adriana Oliveira (adriana.oliveira@ufjf.edu.br) on 2017-03-06T20:18:34Z (GMT) No. of bitstreams: 1 alessandramatoscampos.pdf: 1960550 bytes, checksum: 14e573eea1f29d2dacca4a586c4d7035 (MD5) / Made available in DSpace on 2017-03-06T20:18:34Z (GMT). No. of bitstreams: 1 alessandramatoscampos.pdf: 1960550 bytes, checksum: 14e573eea1f29d2dacca4a586c4d7035 (MD5) Previous issue date: 2011-02-25 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / O fenômeno magnético é amplamente utilizado nos mais diversos dispositivos eletrônicos, de armazenamento de dados e de telecomunicações, dentre outros. O entendimento deste fenômeno é portanto de grande importância para dar suporte ao aperfeiçoamento e desenvolvimento de novas tecnologias. Uma das formas de melhorar a compreensão do fenômeno magnético é estudá-lo em escala atômica. Quando os átomos magnéticos se aproximam, interagem magneticamente, mesmo que submetidos a um campo magnético externo, e podem formar estruturas em escala nanométrica. Programas computacionais podem ser desenvolvidos com o objetivo de simular o comportamento de tais estruturas. Tais simuladores podem facilitar o estudo do magnetismo em escala nanométrica porque podem prover informações detalhadas sobre este fenômeno. Cientistas podem usar um simulador para criar e/ou modificar diferentes propriedades físicas de um sistema magnético; dados numéricos e visuais gerados pelo simulador podem ajudar na compreensão dos processos físicos associados com os fenômenos magnéticos. Entretanto, a execução de tais simulações é computacionalmente cara. A interação entre átomos ocorre de forma similar ao problema dos N corpos. Sua complexidade nos algoritmos tradicionais é O(N2), onde N é o número de spins, ou átomos, sendo simulados no sistema. Neste trabalho propomos um novo algoritmo capaz de reduzir substancialmente este custo computacional, o que permite que uma grande quantidade de spins possa ser simulada. Adicionalmente ferramentas e ambientes de computação paralela são empregados para que os custos em termos de tempo de computação possam ser ainda mais reduzidos. / The magnetic phenomena are widely used in many devices, such as electronic, data storage and telecommunications devices. The understanding of this phenomenon is therefore of great interest to support the improvement and development of new technologies. To better understand the magnetic phenomena, it is essential to study interactions at nano scale. When magnetic atoms are brought together they interact magnetically, even with an external magnetic field, and can form structures at nanoscale. Special design computer programs can be developed to simulate this interaction. Such simulators can facilitate the study of magnetism in nanometer scale because they can provide detailed information about this phenomenon. Scientists may use a simulator to create and/or modify different physical properties of a magnetic system; visual and numerical data generated by the simulator can help to understand the physical processes associated with the magnetic phenomenon. However, there is a natural high complexity in the numerical solution of physical models. The interaction between spins occurs in a similar way to the classical n-body problem. The complexity of this problem is O(N2), where N is the number of spins or atoms in the system. In this work we propose a new algorithm that can substantially reduce the computational cost, and allows the simulation of a large number of spins. Besides, tools and environments for high-performance computing are used so that the costs of computation time may be further reduced. CNPQ::CIENCIAS EXATAS E DA TERRA Física computacional Modelo de Spins de Heisenberg Avaliação de desempenho Computação de alto desempenho Computational Physics Heisenberg Spins Model Performance Evaluation High Performance Computing
469	Agrupando dados e kernels de um simulador cardíaco em um ambiente multi-GPU Cordeiro, Raphael Pereira 10 March 2017 (has links) Submitted by Renata Lopes (renatasil82@gmail.com) on 2017-07-04T17:30:00Z No. of bitstreams: 1 raphaelpereiracordeiro.pdf: 17027543 bytes, checksum: 91ef68c2021ff4c93dc8b4fe66217cf2 (MD5) / Approved for entry into archive by Adriana Oliveira (adriana.oliveira@ufjf.edu.br) on 2017-08-08T13:42:41Z (GMT) No. of bitstreams: 1 raphaelpereiracordeiro.pdf: 17027543 bytes, checksum: 91ef68c2021ff4c93dc8b4fe66217cf2 (MD5) / Made available in DSpace on 2017-08-08T13:42:41Z (GMT). No. of bitstreams: 1 raphaelpereiracordeiro.pdf: 17027543 bytes, checksum: 91ef68c2021ff4c93dc8b4fe66217cf2 (MD5) Previous issue date: 2017-03-10 / A modelagem computacional é uma ferramenta útil no estudo de diversos fenômenos complexos, como o comportamento eletro-mecânico do coração em condições normais e patológicas, sendo importante para o desenvolvimento de novos medicamentos e métodos de combate às doenças cardíacas. A alta complexidade de processos biofísicos se traduz em complexos modelos matemáticos e computacionais, o que faz com que simulações cardíacas necessitem de um grande poder computacional para serem executadas. Logo, o estado da arte em simuladores cardíacos é implementado para ser executado em arquiteturas paralelas. Este trabalho apresenta a implementação e avaliação de um método com dados e kernel agregados, método este utilizado para reduzir o tempo de computação de códigos que executam em ambientes computacionais compostos de múltiplas unidades de processamento gráfico (Graphics Processing Unit ou simplesmente GPUs). Este método foi testado na computação de uma importante parte da simulação da eletrofisiologia do coração, a resolução das equações diferenciais ordinárias (EDOs), resultando em uma redução pela metade do tempo necessário para a sua resolução, quando comparado com o esquema onde este método não foi implementado. Com o uso da técnica proposta neste trabalho, o tempo total de execução das simulações cardíacas foi reduzido em até 25%. / Computational modeling is a useful tool to study many distinct and complex phenomena, such as to describe the electrical and mechanical behavior of the heart, under normal and pathological conditions. The high complexity of the associated biophysical processes translates into complex mathematical and computational models. This, in turn, translates to cardiac simulators that demand a lot of computational power to be executed. Therefore, most of the state-of-the-art cardiac simulators are implemented to run in parallel architectures. In this work a new coalesced data and kernel scheme is evaluated. Its objective is to reduce the execution costs of cardiac simulations that run on multi-GPU environments. The new scheme was tested for an important part of the simulator, the solution of the systems of Ordinary Differential Equations (ODEs). The results have shown that the proposed scheme is very effective. The execution time to solve the systems of ODEs on the multi-GPU environment was reduced by half, when compared to a scheme that does not implemented the proposed data and kernel coalescing. As a result, the total execution time of cardiac simulations was 25% faster. CNPQ::CIENCIAS EXATAS E DA TERRA Modelagem computacional Computação paralela GPU Eletrofisiologia cardíaca Computação de alto desempenho Computational modeling Parallel computing GPU Cardiac electrophysiology High performance computing
470	Simulação acelerada de baixo custo para aplicações em nanoengenharia de materiais / Low cost accelerated simulation for application in nanoengineering materials Turatti, Luiz Gustavo, 1977- 23 August 2018 (has links) Orientadores: Jacobus Willibrordus Swart, Stanislav Moshkalev / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação / Made available in DSpace on 2018-08-23T22:11:44Z (GMT). No. of bitstreams: 1 Turatti_LuizGustavo_D.pdf: 35255933 bytes, checksum: dbbe11c7c0f55012ba27274415c2494d (MD5) Previous issue date: 2013 / Resumo: Este é um trabalho multidisciplinar que aborda questões de química, física, engenharia elétrica (nanoengenharia) e principalmente avanços obtidos com simulações por computador. Os programas comumente utilizados para simulações de fótons/íons focalizados em outro material consomem recursos computacionais por diversas horas ou até dias, para concluir os cálculos de determinado experimento, como a simulação de um processo efetuado com o equipamento FIB/SEM (Focused Ion Beam/Scanning Electron Miscroscopy), por exemplo. Através do uso de ambientes computacionais virtualizados, associados a programação paralela em CPU (Central Processing Unit) e GPGPU (General Purpose Graphics Processing Unit) é possível reduzir significativamente o tempo da simulação de horas para minutos, em situações de interação de partículas, que envolvem aproximação de colisões binárias (BCA, Binary Collision Approximation) e o Método de Monte Carlo (MMC), principalmente. O uso de placas gráficas (comumente utilizadas para jogos) potencializou o poder de processamento numérico para uso acadêmico a baixo custo, reduzindo o tempo para obtenção de resultados que foram comprovados experimentalmente. A utilização de programas análogos que empregam BCA e MMC, tais como TRIM/SRIM (Transport of Ions in Matter, atualizado para Stopping and Range of Ions in Matter), MCML (Monte Carlo for Multi Layered media) e CUDAMCML (Compute Unified Device Architecture, MCML) auxiliam a comparação de ganho de desempenho entre CPU e GPGPU evidenciando o melhor desempenho desta última arquitetura, com CUDA. Em simulações equivalentes com matrizes esparsas executadas em CPU e GPGPU, a redução do tempo de processamento variou entre três e quinze mil vezes, respectivamente. Com o Método de Monte Carlo, a redução foi de até cento e quarenta e uma vezes para melhores resultados. As simulações de alto desempenho e baixo custo computacional permitem antever algumas situações experimentais, diminuindo a necessidade de explorar todas as possibilidades práticas e, dessa forma, reduzindo o custo com laboratório / Abstract: This is a multidisciplinary work that addresses issues of chemistry, physics, electrical engineering (Nanoengineering) and especially advances obtained with computer simulations. Programs commonly used for simulations of photons/ions focused onto other materials consume computational resources for several hours or even days, to complete the simulations of a process performed with the equipment FIB/SEM (Focused Ion Beam/Scanning Electron Miscroscopy), for example. Through virtualized computing environments associated with parallel programming on CPU (Central Processing Unit) and GPGPU (General Purpose Graphics Processing Unit) is possible to significantly reduce the simulation total time from hours to minutes in the interactions of particles, involving binary collision approximation (BCA) and Monte Carlo method (MMC), mostly. The use of graphics cards (generaly used for games) enhanced the numerical processing power to be used in academia with low cost and reduced the time to obtain results experimentally verified. The use of similar software using BCA and MMC, such as TRIM/SRIM (Transport of Ions in Matter, upgraded to Stopping and Range of Ions in Matter), MCML (Monte Carlo for Multi Layered media) and CUDAMCML (Compute Unified Device Architecture, MCML) helped us to make a comparison of performance between CPU and GPGPU showing the best performance of the latter architecture, with CUDA. In equivalent simulations using sparse matrices in CPU and GPGPU, the time reduction of processing varied between three and fifteen thousand times, respectively. With the Monte Carlo method, reduction was up to one hundred forty one times for best results. Simulations of high performance and low computational cost allow us to predict some experimental situations, reducing the need to explore all practical possibilities and thus, reducing the lab costs / Doutorado / Eletrônica, Microeletrônica e Optoeletrônica / Doutor em Engenharia Elétrica Computação de alto desempenho Programação paralela (Computação) Simulação (Computadores) Monte Carlo, Método de Feixes de íons focalizados High performance computing Parallel programming Computer simulation Monte Carlo Method Focused ion beam

Search results