Global ETD Search

311	DistributedCL: middleware de processamento distribuído em GPU com interface da API OpenCL. / DistributedCL: middleware de processamento distribuído em GPU com interface da API OpenCL. Andre Luiz Rocha Tupinamba 10 July 2013 (has links) Este trabalho apresenta a proposta de um middleware, chamado DistributedCL, que torna transparente o processamento paralelo em GPUs distribuídas. Com o suporte do middleware DistributedCL uma aplicação, preparada para utilizar a API OpenCL, pode executar de forma distribuída, utilizando GPUs remotas, de forma transparente e sem necessidade de alteração ou nova compilação do seu código. A arquitetura proposta para o middleware DistributedCL é modular, com camadas bem definidas e um protótipo foi construído de acordo com a arquitetura, onde foram empregados vários pontos de otimização, incluindo o envio de dados em lotes, comunicação assíncrona via rede e chamada assíncrona da API OpenCL. O protótipo do middleware DistributedCL foi avaliado com o uso de benchmarks disponíveis e também foi desenvolvido o benchmark CLBench, para avaliação de acordo com a quantidade dos dados. O desempenho do protótipo se mostrou bom, superior às propostas semelhantes, tendo alguns resultados próximos do ideal, sendo o tamanho dos dados para transmissão através da rede o maior fator limitante. / This work proposes a middleware, called DistributedCL, which makes parallel processing on distributed GPUs transparent. With DistributedCL middleware support, an OpenCL enabled application can run in a distributed manner, using remote GPUs, transparently and without alteration to the code or recompilation. The proposed architecture for the DistributedCL middleware is modular, with well-defined layers. A prototype was built according to the architecture, into which were introduced multiple optimization features, including batch data transfer, asynchronous network communication and asynchronous OpenCL API invocation. The prototype was evaluated using available benchmarks and a specific benchmark, the CLBench, was developed to facilitate evaluations according to the amount of processed data. The prototype presented good performance, higher compared to similar proposals. The size of data for transmission over the network showed to be the biggest limiting factor. Engenharia Eletrônica OpenCL GPGPU GPU middleware processamento distribuído Electronic Engineering OpenCL GPGPU GPU middleware distributed systems ENGENHARIAS
312	Méthodes numériques pour la résolution accélérée des systèmes linéaires de grandes tailles sur architectures hybrides massivement parallèles / Numerical methods for the accelerated resolution of large scale linear systems on massively parallel hybrid architecture Cheik Ahamed, Abal-Kassim 07 July 2015 (has links) Les progrès en termes de puissance de calcul ont entraîné de nombreuses évolutions dans le domaine de la science et de ses applications. La résolution de systèmes linéaires survient fréquemment dans le calcul scientifique, comme par exemple lors de la résolution d'équations aux dérivées partielles par la méthode des éléments finis. Le temps de résolution découle alors directement des performances des opérations algébriques mises en jeu.Cette thèse a pour but de développer des algorithmes parallèles innovants pour la résolution de systèmes linéaires creux de grandes tailles. Nous étudions et proposons comment calculer efficacement les opérations d'algèbre linéaire sur plateformes de calcul multi-coeur hétérogènes-GPU afin d'optimiser et de rendre robuste la résolution de ces systèmes. Nous proposons de nouvelles techniques d'accélération basées sur la distribution automatique (auto-tuning) des threads sur la grille GPU suivant les caractéristiques du problème et le niveau d'équipement de la carte graphique, ainsi que les ressources disponibles. Les expérimentations numériques effectuées sur un large spectre de matrices issues de divers problèmes scientifiques, ont clairement montré l'intérêt de l'utilisation de la technologie GPU, et sa robustesse comparée aux bibliothèques existantes comme Cusp.L'objectif principal de l'utilisation du GPU est d'accélérer la résolution d'un problème dans un environnement parallèle multi-coeur, c'est-à-dire "Combien de temps faut-il pour résoudre le problème?". Dans cette thèse, nous nous sommes également intéressés à une autre question concernant la consommation énergétique, c'est-à-dire "Quelle quantité d'énergie est consommée par l'application?". Pour répondre à cette seconde question, un protocole expérimental est établi pour mesurer la consommation d'énergie d'un GPU avec précision pour les opérations fondamentales d'algèbre linéaire. Cette méthodologie favorise une "nouvelle vision du calcul haute performance" et apporte des réponses à certaines questions rencontrées dans l'informatique verte ("green computing") lorsque l'on s'intéresse à l'utilisation de processeurs graphiques.Le reste de cette thèse est consacré aux algorithmes itératifs synchrones et asynchrones pour résoudre ces problèmes dans un contexte de calcul hétérogène multi-coeur-GPU. Nous avons mis en application et analysé ces algorithmes à l'aide des méthodes itératives basées sur les techniques de sous-structurations. Dans notre étude, nous présentons les modèles mathématiques et les résultats de convergence des algorithmes synchrones et asynchrones. La démonstration de la convergence asynchrone des méthodes de sous-structurations est présentée. Ensuite, nous analysons ces méthodes dans un contexte hybride multi-coeur-GPU, qui devrait ouvrir la voie vers les méthodes hybrides exaflopiques.Enfin, nous modifions la méthode de Schwarz sans recouvrement pour l'accélérer à l'aide des processeurs graphiques. La mise en oeuvre repose sur l'accélération par les GPUs de la résolution locale des sous-systèmes linéaires associés à chaque sous-domaine. Pour améliorer les performances de la méthode de Schwarz, nous avons utilisé des conditions d'interfaces optimisées obtenues par une technique stochastique basée sur la stratégie CMA-ES (Covariance Matrix Adaptation Evolution Strategy). Les résultats numériques attestent des bonnes performances, de la robustesse et de la précision des algorithmes synchrones et asynchrones pour résoudre de grands systèmes linéaires creux dans un environnement de calcul hétérogène multi-coeur-GPU. / Advances in computational power have led to many developments in science and its applications. Solving linear systems occurs frequently in scientific computing, as in the finite element discretization of partial differential equations. The running time of the overall resolution is a direct result of the performance of the involved algebraic operations.In this dissertation, different ways of efficiently solving large and sparse linear systems are put forward. We present the best way to effectively compute linear algebra operations in an heterogeneous multi-core-GPU environment in order to make solvers such as iterative methods more robust and therefore reduce the computing time of these systems. We propose new techniques to speed algorithms up the auto-tuning of the threading design, according to the problem characteristics and the equipment level in the hardware and available resources. Numerical experiments performed on a set of large-size sparse matrices arising from diverse engineering and scientific problems, have clearly shown the benefit of the use of GPU technology to solve large sparse systems of linear equations, and its robustness and accuracy compared to existing libraries such as Cusp.The main priority of the GPU program is computational time to obtain the solution in a parallel environment, i.e, "How much time is needed to solve the problem?". In this thesis, we also address another question regarding energy issues, i.e., "How much energy is consumed by the application?". To answer this question, an experimental protocol is established to measure the energy consumption of a GPU for fundamental linear algebra operations accurately. This methodology fosters a "new vision of high-performance computing" and answers some of the questions outlined in green computing when using GPUs.The remainder of this thesis is devoted to synchronous and asynchronous iterative algorithms for solving linear systems in the context of a multi-core-GPU system. We have implemented and analyzed these algorithms using iterative methods based on sub-structuring techniques. Mathematical models and convergence results of synchronous and asynchronous algorithms are presented here, as are the convergence results of the asynchronous sub-structuring methods. We then analyze these methods in the context of a hybrid multi-core-GPU, which should pave the way for exascale hybrid methods.Lastly, we modify the non-overlapping Schwarz method to accelerate it, using GPUs. The implementation is based on the acceleration of the local solutions of the linear sub-systems associated with each sub-domain using GPUs. To ensure good performance, optimized conditions obtained by a stochastic technique based on the Covariance Matrix Adaptation Evolution Strategy (CMA-ES) are used. Numerical results illustrate the good performance, robustness and accuracy of synchronous and asynchronous algorithms to solve large sparse linear systems in the context of an heterogeneous multi-core-GPU system. Calcul parallèle GPU OpenCL CUDA Auto-tuning Eco-calcul Parallel algorithm GPU OpenCL CUDA Auto-tuning Green computing
313	Otimização de pathfinding em GPU SILVA 30 August 2013 (has links) Submitted by Fabio Sobreira Campos da Costa (fabio.sobreira@ufpe.br) on 2017-02-13T13:05:50Z No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Dissertação-Mestrado-Adônis_Tavares-digital.pdf: 1967837 bytes, checksum: 2d0c23ab20f389f08ae9964b086b5f9f (MD5) / Made available in DSpace on 2017-02-13T13:05:50Z (GMT). No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Dissertação-Mestrado-Adônis_Tavares-digital.pdf: 1967837 bytes, checksum: 2d0c23ab20f389f08ae9964b086b5f9f (MD5) Previous issue date: 2013-08-30 / Nos últimos anos, as unidades de processamento gráfico (GPU) têm apresentado um avanço significativo dos recursos computacionais disponíveis para o uso de aplicações não-gráficas. A capacidade de resolução de problemas envolvendo computação paralela, onde o mesmo programa é executado em diversos elementos de dados diferentes ao mesmo tempo, bem como o desenvolvimento de novas arquiteturas que suportem esse novo paradigma, como CUDA (Computed Unified Device Architecture), tem servido de motivação para a utilização da GPU em aplicações de propósito geral, especialmente em jogos. Em contrapartida, a performance das CPUs, mesmo com a presença de múltiplos núcleos (multi-core), tem diminuído, limitando o avanço tecnológico de diversas técnicas desenvolvidas na área de jogos e favorecendo a transição e o desenvolvimento das mesmas para a GPU. Alguns algoritmos de Inteligência Artificial que podem ser decompostos e demonstram certo nível de paralelismo, como o pathfinding, utilizado na navegação de agentes durante o jogo, têm sido desenvolvidos em GPU e demonstrado um desempenho melhor quando comparado à CPU. De modo semelhante, este trabalho tem como proposta a investigação e o desenvolvimento de possíveis otimizações ao algoritmo de pathfinding em GPU, por meio de CUDA, com ênfase em sua utilização na área de jogos, escalando a quantidade de agentes e nós de um mapa, possibilitando um comparativo com seu desempenho apresentado na CPU. / In recent years, graphics processing units (GPUs) have shown a significant advance of computational resources available for the use of non-graphical applications. The ability to solve problems involving parallel computing as well as the development of new architectures that supports this new paradigm, such as CUDA, has encouraged the use of GPU for general purpose applications, especially in games. Some parallel tasks which were CPU based are being ported over to the GPU due to their superior performance. One of these tasks is the pathfinding of an agent over a game map, which has already achieved a better performance on GPU, but is still limited. This work describes some optimizations to a GPU pathfinding implementation, addressing a larger work set (agents and nodes) with good performance compared to a CPU implementation. A-estrela Inteligência Artificial Jogos Pathfinding CUDA GPU GPGPU Agentes Inteligentes A-star Artificial Intelligence Games Pathfinding CUDA GPU GPGPU Intelligent Agents
314	Eficácia e comportamento do tempo de imunidade em um modelo de descontaminação de reticulados por autômatos celulares Nogueira, Marcelo Arbori 12 December 2013 (has links) Made available in DSpace on 2016-03-15T19:37:48Z (GMT). No. of bitstreams: 1 Marcelo Arbori Nogueira.pdf: 904606 bytes, checksum: 186b7d2c9f1c91d2dc019d673ecdf983 (MD5) Previous issue date: 2013-12-12 / Cellular automata are models where, out of the application of a local rule to the cells of their regular lattice, global behaviour emerges. Depending on the rule applied, the emergent behaviour may be interpreted as a computation, or used to simulate various types of phenomena, such as physical, biological or social. Cellular automata can be used to simulate population growth, spread of disease, tumor growth, decontamination, among other applications. This paper seeks to expand the theoretical limits on the process of decontamination of a two-dimensional lattice using cellular automata, as established by Daadaa (2012). Here we relax premises assumed therein and seek a better understanding of the characteristics of the rules involved as well as of the behaviour of the immunity time of the decontaminated cells. In order to do so, but since the initial conditions correspond to a very large space, massively parallel programming was employed using GPU, which allowed to evaluate a large number of possibilities. It was possible to identify two decontamination rules linked to each type of neighborhood studied (von Neumann and Moore), that generalise previous rules defined in the work we relied upon. In experiments made with the new rules, their superior efficacy became apparent for random initial conditions; it was also possible to assertain their effectiveness for uniform distribution of states. The general rules allow we developed allowed for a better understanding of the immunity time required to decontaminate a lattice. It was observed that the ratio between the immunity time and the lattice size is not linear, as suggested by Daadaa. / Autômatos celulares são modelos onde, a partir da aplicação de regras locais às células de seu reticulado, emerge um comportamento global. Dependendo da regra aplicada o comportamento emergente pode ser entendido como uma computação, ou utilizado para simular fenômenos físicos, biológicos, sociais, etc. Pode-se usar autômatos celulares para simular crescimento populacional, propagação de doenças, crescimento de tumores, descontaminação, entre outras aplicações. O presente trabalho procura expandir limites teóricos a respeito do processo de descontaminação de reticulados bidimensionais por autômatos celulares, apresentado por Daadaa (2012). Flexibiliza-se aqui premissas lá assumidas e procura-se uma melhor compreensão sobre as características das regras envolvidas bem como do comportamento do tempo de imunidade de células recuperadas. Para tanto, uma vez que as possíveis condições iniciais configuram um espaço muito grande, foi empregada programação massivamente paralela utilizando GPU, permitindo avaliar um grande número de possibilidades. Foi possível identificar duas regras de descontaminação, específicas para cada tipo de vizinhança estudada (vizinhanças de von Neumann e de Moore), que generalizam as regras anteriormente definidas no mesmo contexto do trabalho aqui tratado. Nos experimentos realizados, foi possível comparar a eficácia das regras propostas com as que lhes deram origem, e ficou evidente a eficácia superior das novas regras para condições iniciais aleatória; também foi possível constatar a eficácia das regras para distribuições uniformes de estados. As regras gerais desenvolvidas permitiram melhor compreensão do tempo de imunidade necessário para descontaminar um reticulado. Foi possível observar que a relação do tempo de imunidade com o tamanho do reticulado não é linear como sugerido no trabalho de Daadaa. autômatos celulares descontaminação de rede tempo de imunidade GPU CUDA cellular automata network decontamination immunity time GPU CUDA CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
315	Desenvolvimento de um software de Monte Carlo para transporte de fótons em estruturas de voxels usando unidades de processamento gráfico / Development of a GPU Monte Carlo software for photon transport in voxel structures Murillo Bellezzo 26 June 2014 (has links) Sendo o método mais preciso para estimar a dose absorvida em radioterapia, o Método de Monte Carlo (MMC) tem sido amplamente utilizado no planejamento de tratamento radioterápico. No entanto, a sua eciência pode ser melhorada para aplicações clínicas de rotina. Nesta dissertação é apresentado o código CUBMC, um código de Monte Carlo que simula o transporte de fótons para cálculo de dose, desenvolvido na plataforma CUDA (Compute Unified Device Architecture). A simulação de eventos físicos é baseada no algoritmo presente no código PENELOPE, e as tabelas de seção de choque utilizadas são geradas pela rotina MATERIAL, também presente no código PENELOPE. Os fótons são transportados em objetos simuladores descritos por voxels. Existem duas abordagens distintas utilizadas para a simulação. A primeira delas obriga o fóton a realizar uma parada toda vez que cruza a fronteira de um voxel, a segunda e pelo Método de Woodcock, onde o fóton ignora a existência de fronteiras e é transportado em um meio homogêneo fictício. O código CUBMC tem como objetivo ser uma opção de código simulador que, ao utilizar a capacidade de processamento paralelo de unidades de processamento gráfico (GPU), apresente alto desempenho em máquinas compactas e de baixo custo, podendo assim ser aplicado em casos clínicos e incorporado a sistemas de planejamento de tratamento em radioterapia. / As the most accurate method to estimate absorbed dose in radiotherapy, Monte Carlo Method (MCM) has been widely used in radiotherapy treatment planning. Nevertheless, its efficiency can be improved for clinical routine applications. In this master thesis, the CUBMC code is presented, a GPU-based MC photon transport algorithm for dose calculation under the Compute Unified Device Architecture (CUDA) platform. The simulation of physical events is based on the algorithm used in PENELOPE, and the cross section table used is the one generated by the MATERIAL routine, also present in PENELOPE code. Photons are transported in voxel-based geometries with different compositions. There are two distinct approaches used for transport simulation. The first of them forces the photon to stop at every voxel frontier, the second one is the Woodcock method, where the photon ignores the existence of borders and travels in homogeneous fictitious medium. The CUBMC code aims to be an alternative for Monte Carlo simulator code that, by using the capability of parallel processing of graphics processing units (GPU), provides high performance simulations in low cost compact machines, and thus can be applied in clinical cases and incorporated in treatment planning systems for radiotherapy. dosimetria GPU MCNP5 PENELOPE radioterapia simulação de Monte Carlo transporte de fótons dosimetry GPU MCNP5 Monte Carlo simulation PENELOPE photon transport radiotherapy
316	Simulações computacionais de arritmias cardíacas em ambientes de computação de alto desempenho do tipo Multi-GPU Barros, Bruno Gouvêa de 25 February 2013 (has links) Submitted by Renata Lopes (renatasil82@gmail.com) on 2017-02-24T12:24:27Z No. of bitstreams: 1 brunogouveadebarros.pdf: 4637517 bytes, checksum: 0db5f859f17bd37484772dd26a331ce5 (MD5) / Approved for entry into archive by Adriana Oliveira (adriana.oliveira@ufjf.edu.br) on 2017-02-24T15:33:28Z (GMT) No. of bitstreams: 1 brunogouveadebarros.pdf: 4637517 bytes, checksum: 0db5f859f17bd37484772dd26a331ce5 (MD5) / Made available in DSpace on 2017-02-24T15:33:28Z (GMT). No. of bitstreams: 1 brunogouveadebarros.pdf: 4637517 bytes, checksum: 0db5f859f17bd37484772dd26a331ce5 (MD5) Previous issue date: 2013-02-25 / FAPEMIG - Fundação de Amparo à Pesquisa do Estado de Minas Gerais / Os modelos computacionais tornaram-se ferramentas valiosas para o estudo e compreensão dos fenômenos da eletrofisiologia cardíaca. No entanto, a elevada complexidade dos processos biofísicos e o nível microscópico de detalhes exigem complexos modelos computacionais. Aspectos-chave da eletrofisiologia cardíaca, tais como condução lenta e bloqueio de condução tem sido tema de pesquisa de muitos estudos, uma vez que estão fortemente relacionados à arritmia cardíaca. No entanto, ao reproduzir estes fenômenos os modelos necessitam de uma discretização sub-celular para a solução das equações diferenciais e uma condutividade eléctrica do tecido não uniforme e heterogênea. Devido aos elevados custos computacionais de simulações que reproduzem a microestrutura fina do tecido cardíaco, estudos prévios têm considerado experimentos de tecido de pequenas dimensões e têm utilizados modelos simples de células cardíacas. Neste trabalho, desenvolvemos um modelo (modelo microscópico) da eletrofisiologia cardíaca que capta a microestrutura do tecido cardíaco usando uma discretização espacial muito fina (8µm) e utilizamos um modelo celular moderno e complexo baseado em Cadeias de Markov para a caracterização da estrutura e dinâmica dos canais iônicos. Para lidar com os desafios computacionais, o modelo foi paralelizado usando uma abordagem híbrida: a computação em cluster e GPGPUs (General-purpose computing on Graphics Processing Units). Nossa implementação paralela deste modelo, utilizando uma plataforma multi-GPU, foi capaz de reduzir os tempos de execução das simulações de mais de 6 dias (em um único processador) para 21 minutos (em um pequeno cluster de 8 nós equipado com 16 GPUs). Além disso, para diminuir ainda mais o custo computacional, foi desenvolvido um modelo discreto equivalente ao modelo microscópico. Este novo modelo foi paralelizado usando a mesma abordagem do modelo microscópico e foi capaz de executar simulações que demoravam 21 minutos em apenas 65 segundos. Acreditamos que esta nova implementação paralela abre caminho para a investigação de muitas questões em aberto associadas à natureza complexa e discreta da propagação dos potenciais de ação no tecido cardíaco. / Computer models have become valuable tools for the study and comprehension of the complex phenomena of cardiac electrophysiology. However, the high complexity of the biophysical processes and the microscopic level of details demand complex mathematical and computational models. Key aspects of cardiac electrophysiology, such as slow conduction, conduction block and saltatory effects have been the research topic of many studies since they are strongly related to cardiac arrhythmia. However, to reproduce these phenomena the numerical models need to use sub-cellular discretization for the solution of the PDEs and nonuniform, heterogeneous tissue electric conductivity. Due to the high computational costs of simulations that reproduce the fine microstructure of cardiac tissue, previous studies have considered tissue experiments of small or moderate sizes and used simple cardiac cell models. In this work we develop a cardiac electrophysiology model (microscopic model) that captures the microstructure of cardiac tissue by using a very fine spatial discretization (8µm) and uses a very modern and complex cell model based on Markov Chains for the characterization of ion channel's structure and dynamics. To cope with the computational challenges, the model was parallelized using a hybrid approach: cluster computing and GPGPUs (General-purpose computing on graphics processing units). Our parallel implementation of this model using a Multi-GPU platform was able to reduce the execution times of the simulations from more than 6 days (on a single processor) to 21 minutes (on a small 8-node cluster equipped with 16 GPUs). Furthermore, in order to decrease further the computational cost we have developed a discrete model equivalent to the microscopic one. This new model was also parallelized using the same approach as the microscopic model and was able to perform simulations that took 21 minutes to be executed in just 65 seconds. We believe that this new parallel implementation paves the way for the investigation of many open questions associated CNPQ::CIENCIAS EXATAS E DA TERRA Eletrofisiologia cardíaca Equações diferenciais Multi-GPU Arritmia cardíaca Cardiac electrophysiology Differential equations Multi-GPU Cardiac arrhythmia
317	Programmation haute performance pour architectures hybrides / High Performance Programming for Hybrid Architectures Habel, Rachid 19 November 2014 (has links) Les architectures parallèles hybrides constituées d'un grand nombre de noeuds de calcul multi-coeurs/GPU connectés en réseau offrent des performances théoriques très élevées, de l'ordre de quelque dizaines de TeraFlops. Mais la programmation efficace de ces machines reste un défi à cause de la complexité de l'architecture et de la multiplication des modèles de programmation utilisés. L'objectif de cette thèse est d'améliorer la programmation des applications scientifiques denses sur les architectures parallèles hybrides selon trois axes: réduction des temps d'exécution, traitement de données de très grande taille et facilité de programmation. Nous avons pour cela proposé un modèle de programmation à base de directives appelé DSTEP pour exprimer à la fois la distribution des données et des calculs. Dans ce modèle, plusieurs types de distribution de données sont exprimables de façon unifiée à l'aide d'une directive "dstep distribute" et une réplication de certains éléments distribués peut être exprimée par un "halo". La directive "dstep gridify" exprime à la fois la distribution des calculs ainsi que leurs contraintes d'ordonnancement. Nous avons ensuite défini un modèle de distribution et montré la correction de la transformation de code du domaine séquentiel au domaine distribué. À partir du modèle de distribution, nous avons dérivé un schéma de compilation pour la transformation de programmes annotés de directives DSTEP en des programmes parallèles hybrides. Nous avons implémenté notre solution sous la forme d'un compilateur intégré à la plateforme de compilation PIPS ainsi qu'une bibliothèque fournissant les fonctionnalités du support d'exécution, notamment les communications. Notre solution a été validée sur des programmes de calcul scientifiques standards tirés des NAS Parallel Benchmarks et des Polybenchs ainsi que sur une application industrielle. / Clusters of multicore/GPU nodes connected with a fast network offer very high therotical peak performances, reaching tens of TeraFlops. Unfortunately, the efficient programing of such architectures remains challenging because of their complexity and the diversity of the existing programming models. The purpose of this thesis is to improve the programmability of dense scientific applications on hybrid architectures in three ways: reducing the execution times, processing larger data sets and reducing the programming effort. We propose DSTEP, a directive-based programming model expressing both data and computation distribution. A large set of distribution types are unified in a "dstep distribute" directive and the replication of some distributed elements can be expressed using a "halo". The "dstep gridify" directive expresses both the computation distribution and the schedule constraints of loop iterations. We define a distribution model and demonstrate the correctness of the code transformation from the sequential domain to the parallel domain. From the distribution model, we derive a generic compilation scheme transforming DSTEP annotated input programs into parallel hybrid ones. We have implemented such a tool as a compiler integrated to the PIPS compilation workbench together with a library offering the runtime functionality, especially the communication. Our solution is validated on scientific programs from the NAS Parallel Benchmarks and the PolyBenchs as well as on an industrial signal procesing application. Compilation Mémoire distribuée Mémoire partagée Gpu Mpi OpenMP Compilation Distributed-Memory Shared-Memory Gpu Mpi OpenMP 004
318	[en] MULTI-RESOLUTION VISUALIZATION OF DIGITAL ELEVATION MODELS USING GPU SHADERS / [pt] VISUALIZAÇÃO DE MODELOS DIGITAIS DE ELEVAÇÃO EM MULTIRESOLUÇÃO UTILIZANDO PROGRAMAÇÃO EM GPU ANDREY D ALMEIDA ROCHA RODRIGUES 28 March 2018 (has links) [pt] A visualização eficiente de grandes modelos digitais de elevação continua sendo um desafio para aplicações em tempo real. O uso direto de novas tecnologias de triangulação em placas gráficas tem uma aplicabilidade limitada no gerenciamento dos níveis de detalhe para grandes modelos. Embora o hardware gráfico seja capaz de controlar a resolução do modelo de um modo bastante eficiente, todos os dados devem estar em memória. Isso compromete a escalabilidade de soluções simples baseadas em GPU para controlar o nível de detalhe. Neste trabalho, é proposto um novo algoritmo eficiente e escalável para lidar com grandes modelos digitais de elevação. A proposta combina efetivamente a triangulação em GPU com a gerência de ladrilhos em CPU, tirando proveito da capacidade de processamento da GPU ao mesmo tempo que mantém o uso de memória gráfica dentro dos limites práticos. Também é proposta uma técnica para gerenciar o nível de detalhe da imagem aérea mapeada sobre o modelo de elevação como texturas. Ambas gerências de níveis de detalhe (geometria e textura) executam separadamente, e os ladrilhos são combinados sem a necessidade de carregar qualquer dado adicional. O gerenciamento de níveis de detalhe é então estendido para lidar com modelos com bordas irregulares e buracos. / [en] Efficient rendering of large digital elevation models remains as a challenge for real-time applications. The direct use of hardware tessellation has limited applicability for managing level of detail of large models. Although the graphics hardware is capable of controlling the resolution of patches in a very efficient manner, the whole patch data must be loaded in memory. This compromises the scalability of GPU-based naive solutions for controlling level of detail. In this work, we propose an efficient and scalable new algorithm for large digital elevation models. Our proposal effectively combines GPU tessellation with CPU tile management, taking full advantage of GPU processing capabilities while maintaining graphics-memory use under practical limits. We also propose a technique to manage level of detail of aerial imagery mapped on top of elevation models as textures. Both geometry and texture level of detail management run independently, and tiles are combined with no need to load extra data. The proposed level of detail management is then extended to handle model with irregular border and holes. [pt] PROGRAMACAO EM GPU [en] GPU PROGRAMMING [pt] MODELO DITITAL DE ELEVACAO [en] DIGITAL ELEVATION MODEL [pt] MULTIRESOLUCAO [en] MULTI-RESOLUTION
319	Segmentação e reconhecimento de gestos em tempo real com câmeras e aceleração gráfica / Real-time segmentation and gesture recognition with cameras and graphical acceleration Daniel Oliveira Dantas 15 March 2010 (has links) O objetivo deste trabalho é reconhecer gestos em tempo real apenas com o uso de câmeras, sem marcadores, roupas ou qualquer outro tipo de sensor. A montagem do ambiente de captura é simples, com apenas duas câmeras e um computador. O fundo deve ser estático, e contrastar com o usuário. A ausência de marcadores ou roupas especiais dificulta a tarefa de localizar os membros. A motivação desta tese é criar um ambiente de realidade virtual para treino de goleiros, que possibilite corrigir erros de movimentação, posicionamento e de escolha do método de defesa. A técnica desenvolvida pode ser aplicada para qualquer atividade que envolva gestos ou movimentos do corpo. O reconhecimento de gestos começa com a detecção da região da imagem onde se encontra o usuário. Nessa região, localizamos as regiões mais salientes como candidatas a extremidades do corpo, ou seja, mãos, pés e cabeça. As extremidades encontradas recebem um rótulo que indica a parte do corpo que deve representar. Um vetor com as coordenadas das extremidades é gerado. Para descobrir qual a pose do usuário, o vetor com as coordenadas das suas extremidades é classificado. O passo final é a classificação temporal, ou seja, o reconhecimento do gesto. A técnica desenvolvida é robusta, funcionando bem mesmo quando o sistema foi treinado com um usuário e aplicado a dados de outro. / Our aim in this work is to recognize gestures in real time with cameras, without markers or special clothes. The capture environment setup is simple, uses just two cameras and a computer. The background must be static, and its colors must be different the users. The absence of markers or special clothes difficults the location of the users limbs. The motivation of this thesis is to create a virtual reality environment for goalkeeper training, but the technique can be applied in any activity that involves gestures or body movements. The recognition of gestures starts with the background subtraction. From the foreground, we locate the more proeminent regions as candidates to body extremities, that is, hands, feet and head. The found extremities receive a label that indicates the body part it may represent. To classify the users pose, the vector with the coordinates of his extremities is compared to keyposes and the best match is selected. The final step is the temporal classification, that is, the gesture recognition. The developed technique is robust, working well even when the system was trained with an user and applied to another users data. GPU OpenGL Reconhecimento de gestos Reconstrução 3D Tempo real Visão estéreo 3D reconstruction Gesture recognition GPU OpenGL Real-time Stereo vision
320	Méthodologies et outils de portage d’algorithmes de traitement d’images sur cibles hardware mixte / Methodologies and tools for embedding image processing algorithms on heterogeneous architectures Saussard, Romain 03 July 2017 (has links) Les constructeurs automobiles proposent de plus en plus des systèmes d'aide à la conduite, en anglais Advanced Driver Assistance Systems (ADAS), utilisant des caméras et des algorithmes de traitement d'images. Pour embarquer des applications ADAS, les fondeurs proposent des architectures embarquées hétérogènes. Ces Systems-on-Chip (SoCs) intègrent sur la même puce plusieurs processeurs de différentes natures. Cependant, avec leur complexité croissante, il devient de plus en plus difficile pour un industriel automobile de choisir un SoC qui puisse exécuter une application ADAS donnée avec le respect des contraintes temps-réel. De plus le caractère hétérogène amène une nouvelle problématique : la répartition des charges de calcul entre les différents processeurs du même SoC.Pour répondre à cette problématique, nous avons défini au cours de cette thèse une méthodologie globale de l’analyse de l'embarquabilité d'algorithmes de traitement d'images pour une exécution temps-réel. Cette méthodologie permet d'estimer l'embarquabilité d'un algorithme de traitement d'images sur plusieurs SoCs hétérogènes en explorant automatiquement les différentes répartitions de charge de calcul possibles. Elle est basée sur trois contributions majeures : la modélisation d'un algorithme et ses contraintes temps-réel, la caractérisation d'un SoC hétérogène et une méthode de prédiction de performances multi-architecture. / Car manufacturers increasingly provide Advanced Driver Assistance Systems (ADAS) based on cameras and image processing algorithms. To embed ADAS applications, semiconductor companies propose heterogeneous architectures. These Systems-on-Chip (SoCs) are composed of several processors with different capabilities on the same chip. However, with the increasing complexity of such systems, it becomes more and more difficult for an automotive actor to chose a SoC which can execute a given ADAS application while meeting real-time constraints. In addition, embedding algorithms on this type of hardware is not trivial: one needs to determine how to spread the computational load between the different processors, in others words the mapping of the computational load.In response to this issue, we defined during this thesis a global methodology to study the embeddability of image processing algorithms for real-time execution. This methodology predicts the embeddability of a given image processing algorithm on several heterogeneous SoCs by automatically exploring the possible mapping. It is based on three major contributions: the modeling of an algorithm and its real-time constraints, the characterization of a heterogeneous SoC, and a performance prediction approach which can address different types of architectures. Traitement Images Systèmes embarqués Adas GPU Temps réel SoCs hétérogènes Image Processing Embedded systems Adas GPU Real time Heterogeneous SoCs

Search results