Spelling suggestions: "subject:"paralela"" "subject:"paralelas""
31 |
Aplicação de técnicas de computação paralela para simulação de fluidos com métodos de partículas explícitos. / Application of parallel computing on explicit particle methods for fluid simulation.Denis Taniguchi 07 February 2014 (has links)
O MPS é um método lagrangeano sem malha para simulação de fluidos, que teve origem para estudos de fluxo incompressíveis com superfície livre. Ele possui diversas vantagens se comparado a métodos convencionais baseados no uso de malha, podendo-se citar como principais a facilidade de representação de interfaces e geometrias complexas, assim como a ausência do termo de convecção nas equações algébricas. Este trabalho foca na aplicação de métodos de computação paralela para simulações de escoamento utilizando a variante explícita do método MPS, denominado E-MPS. O objetivo é a diminuição do tempo de processamento das simulações, e o aumento da quantidade de partículas, que possibilita a simulação de casos cada vez mais complexos, e o real emprego do método para solução de problemas de engenharia. O método proposto consiste de dois níveis de paralelismo: um através de uma decomposição de domínio espacial sobre uma arquitetura de memória distribuída, e outra pelo uso de processamento paralelo em uma arquitetura com memória compartilhada, podendo ser pelo uso de dispositivos Graphics Processing Unit (GPU), ou pelo uso de processadores multicore. Os métodos de decomposição de domínio espacial tratados neste trabalho são o estático, ou não adaptativo, o Orthogonal Recursive Bisection (ORB), o ortogonal e uma nova proposta chamada cell transfer. Dentre os métodos já existentes, o ortogonal se mostrou mais atrativo devido à sua simplicidade, conseguindo manter um melhor nível de balanceamento do que o estático no caso estudado. O novo método cell transfer tenta superar as limitações geométricas dos outros métodos citados, ao levar em consideração a natureza do fluxo. Uma das grandes contribuições deste trabalho é um novo método genérico de comunicação entre subdomínios, que evita a reordenação das partículas, e serve para todos os métodos de decomposição investigadas neste trabalho. / MPS is a meshless lagrangian method for computational fluid dynamics that was created to study incompressible free surface flows and has many advantages compared to traditional mesh based methods, such as the ability to represent complex geometries, interface problems, and the absence of the advection term in the algebraic equations. This work focus on the use of parallel computing methods for fluid dynamic simulation, and more specifically, on the explicit variant of the MPS method, namely E-MPS, to decrease the amount of processing needed to perform a simulation and increase the number of particles, which enables the simulation of real and complex engineering problems. The proposed method is composed of two levels of parallelism: a distributed memory parallelism based on spatial domain decomposition, and a shared memory parallelism, using either GPU or multicore CPUs, for fast computation of each subdomain. Static non-adaptive, ORB, orthogonal, and cell transfer spatial decomposition methods are subject of investigations in this work, the latter being originally proposed by this work to overcome the drawbacks found in most of the methods found in the literature. Among the already proposed methods the more attractive was the orthogonal, due to its simplicity, and capability of maintaining a good load balance in the test case. The new cell transfer method was proposed to overcome the geometrical limitations found in all the above methods, by considering the flux while balancing the load among subdomains. One of the main contributions of this work is a new method for the communication of subdomains, which avoids additional sorting steps, and proved to be generic for all the decomposition methods investigated.
|
32 |
Aplicação de técnicas de computação paralela para simulação de fluidos com métodos de partículas explícitos. / Application of parallel computing on explicit particle methods for fluid simulation.Taniguchi, Denis 07 February 2014 (has links)
O MPS é um método lagrangeano sem malha para simulação de fluidos, que teve origem para estudos de fluxo incompressíveis com superfície livre. Ele possui diversas vantagens se comparado a métodos convencionais baseados no uso de malha, podendo-se citar como principais a facilidade de representação de interfaces e geometrias complexas, assim como a ausência do termo de convecção nas equações algébricas. Este trabalho foca na aplicação de métodos de computação paralela para simulações de escoamento utilizando a variante explícita do método MPS, denominado E-MPS. O objetivo é a diminuição do tempo de processamento das simulações, e o aumento da quantidade de partículas, que possibilita a simulação de casos cada vez mais complexos, e o real emprego do método para solução de problemas de engenharia. O método proposto consiste de dois níveis de paralelismo: um através de uma decomposição de domínio espacial sobre uma arquitetura de memória distribuída, e outra pelo uso de processamento paralelo em uma arquitetura com memória compartilhada, podendo ser pelo uso de dispositivos Graphics Processing Unit (GPU), ou pelo uso de processadores multicore. Os métodos de decomposição de domínio espacial tratados neste trabalho são o estático, ou não adaptativo, o Orthogonal Recursive Bisection (ORB), o ortogonal e uma nova proposta chamada cell transfer. Dentre os métodos já existentes, o ortogonal se mostrou mais atrativo devido à sua simplicidade, conseguindo manter um melhor nível de balanceamento do que o estático no caso estudado. O novo método cell transfer tenta superar as limitações geométricas dos outros métodos citados, ao levar em consideração a natureza do fluxo. Uma das grandes contribuições deste trabalho é um novo método genérico de comunicação entre subdomínios, que evita a reordenação das partículas, e serve para todos os métodos de decomposição investigadas neste trabalho. / MPS is a meshless lagrangian method for computational fluid dynamics that was created to study incompressible free surface flows and has many advantages compared to traditional mesh based methods, such as the ability to represent complex geometries, interface problems, and the absence of the advection term in the algebraic equations. This work focus on the use of parallel computing methods for fluid dynamic simulation, and more specifically, on the explicit variant of the MPS method, namely E-MPS, to decrease the amount of processing needed to perform a simulation and increase the number of particles, which enables the simulation of real and complex engineering problems. The proposed method is composed of two levels of parallelism: a distributed memory parallelism based on spatial domain decomposition, and a shared memory parallelism, using either GPU or multicore CPUs, for fast computation of each subdomain. Static non-adaptive, ORB, orthogonal, and cell transfer spatial decomposition methods are subject of investigations in this work, the latter being originally proposed by this work to overcome the drawbacks found in most of the methods found in the literature. Among the already proposed methods the more attractive was the orthogonal, due to its simplicity, and capability of maintaining a good load balance in the test case. The new cell transfer method was proposed to overcome the geometrical limitations found in all the above methods, by considering the flux while balancing the load among subdomains. One of the main contributions of this work is a new method for the communication of subdomains, which avoids additional sorting steps, and proved to be generic for all the decomposition methods investigated.
|
33 |
Análisis automático de prestaciones de aplicaciones paralelas basadas en paso de mensajesJorba Esteve, Josep 06 April 2006 (has links)
La tesis presenta, el desarrollo de una propuesta de arquitectura para el análisis automático de prestaciones de aplicaciones paralelas desarrolladas bajo paradigmas de programación de paso explicito de mensajes.A lo largo de los capítulos que configuran la misma: se han analizado diferentes aspectos que tienen que ver con el ámbito de aplicación, ya sea introduciendo los sistemas paralelos y distribuidos usados como base, así como las métricas base de prestaciones. Dando una visión de diferentes técnicas base para la monitorización, como el tracing y profiling, y como se han usado como primer paso de las herramientas clásicas de análisis de prestaciones, normalmente basadas en técnicas de visualización. Las deficiencias de estas, así como el amplio conocimiento necesario para intepretar correctamente los datos proporcionados, nos llevan a considerar herramientas de un nivel superior, que proporcionen automatismos más allá de la monitorización y nos permitan obtener resultados interpretables y útiles directamente para la mejora de las prestaciones de las aplicaciones.La arquitectura propuesta, mediante diferentes fases de monitorización, detección de problemas, clasificación según su relevancia, análisis de sus causas, y la emisión de sugerencias sobre actuaciones nos permite minimizar y/o hacer desaparecer las ineficiencias causadas por los problemas de prestaciones aparecidos durante la ejecución de las aplicaciones.Entre los objetivos de la arquitectura propuesta, se encuentran: a) La especificación del conocimiento de prestaciones, mediante la introducción de conocimiento en forma de estructura de problemas, y del análisis de sus causas, de forma que permita ampliar el conocimiento que en cada momento pueda disponer la herramienta. b) Independencia de los mecanismos de detección de los problemas concretos definidos. c) Independencia del sistema base de paso de mensajes utilizado. d) Relación de los problemas con el código fuente de la aplicación, para establecer que puntos están relacionados con los problemas. e) La emisión de sugerencias útiles de cara al usuario final para proporcionar actuaciones directas sobre el código de la aplicación para mejorar sus prestaciones.Los resultados experimentales obtenidos sobre un prototipo de herramienta basada en la arquitectura propuesta, demuestran la viabilidad de las de las propuestas formuladas en esta tesis. La herramienta ha sido probada con un amplio conjunto de aplicaciones paralelas y distribuidas para demostrar esta viabilidad, comprobando que la metodología es eficaz, fiable y beneficiosa y que puede ser usada para mejoras reales del rendimiento de las aplicaciones. / The thesis presents, the development of a architectural proposal for the automatic performance analysis of parallel applications developed in programming paradigms of explicit message passing.In the chapters that form the thesis: different aspects have been analyzed that they have to do with the field of application, by introducing the parallel and distributed systems used as base systems, as well the base metrics of performance. Giving a vision of different techniques for monitoring, like tracing and profiling, and since they have used like the first step in the classic tools of performance analysis, normally based on visualization techniques. The deficiencies of these tools, as well as the wide knowledge necessary to interpret the obtained data correctly, takes us to consider tools of a superior level, that provide automatism beyond the monitoring process and they allow us to directly obtain interpretable and useful results for the improvement of the performance of the applications.The architectural proposal, is composed of different phases: from monitoring, detection of problems, classification according to his relevance, analysis of its causes, and the emission of hints on performance that allows us to minimize and/or to make disappear the inefficiencies caused by the performance problems appeared during the execution of the applications.The main goals of the proposed architecture are: a) Ability to specify the performance knowledge, by means of the introduction of knowledge in a form of the structure of the performance problems, and of the analysis of its causes. So, this specification allows us to extend the performance knowledge that every moment can have the tool. b) Independence of the mechanisms of detection of the defined performance problems. c) Independence of environment of message passing used. d) Relation of the problems with the source code of the application, to establish that points are related to the performance problems. e) The emission of useful suggestions/hints facing the end user to provide direct operating points on the code of the application to improve its performance.The experimental results obtained in a tool prototype based on the architecture demonstrate the viability of those of the proposals formulated in this thesis. The tool has been proven with an ample set of parallel and distributed applications to demonstrate this viability, verifying that the methodology is effective, feasible, and profitable and that can be used for a real improvement of the program performance.
|
34 |
Meta-Planificador Predictivo para Entornos Multicluster no DedicadosLérida Monsó, Josep Lluís 23 July 2009 (has links)
A principios de los años 90 muchas de las características y capacidades proporcionadas únicamente por sofisticados y costosos Supercomputadores se lograron alcanzar mediante el uso adecuado de conjuntos de ordenadores de sobremesa agrupados en sistemas denominados Cluster.En la actualidad, el continuo aumento de las capacidades de cómputo y la disminución del coste de adquisición de los ordenadores de sobremesa ha provocado un uso extendido de los Clusters en centros de investigación, instituciones, organizaciones, etc. No obstante, el crecimiento constante de los requerimientos de las aplicaciones científicas hace necesaria la búsqueda de sistemas aún más potentes y/o con mayor número de recursos.En la última década, la posibilidad de unir los recursos (Clusters) de una misma organización para obtener mayor capacidad de cómputo ha despertado un gran interés. Esto ha propiciado la aparición de nuevos sistemas Multicluster que incorporan sofisticadas técnicas de planificación de trabajos y gestión de recursos orientadas a aprovechar al máximo los recursos de cómputo distribuidos en varios Clusters.Aunque el bajo coste de los recursos de cómputo facilita el crecimiento del número de clusters y recursos por Cluster, este crecimiento tiene sus limites. En primer lugar debemos considerar los problemas de espacio que no siempre son fáciles de conseguir y en segundo lugar el elevado coste del consumo energético producido por las unidades de cómputo y por los sistema de refrigeración que se necesitan para mantener a una temperatura adecuada estos sistemas.Bajo este panorama, un modo de proporcionar mayor número de recursos sin aumentar los costes es incorporar al Multicluster recursos de cómputo ociosos de los usuarios de una organización para la ejecución de aplicaciones paralelas, como por ejemplo los ordenadores del laboratorio de una universidad.La tarea de meta-planificación en un entorno Multicluster es un tarea compleja y una línea de trabajo en pleno auge en la actualidad. En primer lugar, la cantidad de recursos que se deben gestionar es muy grande y los recursos pueden ser heterogéneos. En segundo lugar, deseamos considerar la planificación en un sistema no dedicado donde los recursos se comparten con otros usuarios, aumentando la dificultad de la meta-planificación. El objetivo de la meta-planificación en el presente trabajo es obtener el máximo rendimiento de las aplicaciones paralelas sin perjudicar al usuario local.En el presente trabajo proponemos nuevas técnicas de estimación del tiempo de turnaround de las aplicaciones paralelas. Estas estimaciones son utilizadas por el sistema de meta-planificación para seleccionar el Cluster más adecuado para su ejecución. Estas técnicas consideran la heterogeneidad y la ocupación de los recursos tanto de cómputo como de comunicación.Los entornos Multicluster presentan una división natural del conjunto de recursos en distintos Clusters. Con el fin de aprovechar los recursos libres de distintos Cluters proponemos una técnica de asignación de recursos entre Clusters basada en un modelo de programación entera binaria (Mixed Integer Programming). El modelo realiza la asignación de una aplicación paralela a recursos de distintos Clusters con dos objetivos fundamentales, la obtención del mejor rendimiento de la aplicación paralela y la no saturación de los canales de comunicación.Finalmente, proponemos una nueva estrategia de meta-planificación que establece cuando utilizar la asignación predictiva de Clusters y cuando aplicar la compartición de recursos entre distintos Clusters. Esta nueva estrategia permite la obtención de un mayor rendimiento de las aplicaciones paralelas y un mayor aprovechamiento de los recursos Multicluster. / In the early'90s many of the features and capabilities provided solely by sophisticated and expensive supercomputers are able to achieve through the use of commodity computers grouped into systems called Clusters.At present, the continuing increase in computing capabilities and the reduced cost of commodity computers has provoked widespread use of Clusters in research centers, universities and organizations. However, the steady growth of the scientific applications requirements makes necessary the use of more powerful systems with greater resources.In the last decade, the possibility to obtain more computing capacities combining resources (clusters) of the same organization has generated a great interest. This has given rise to new systems, called Multicluster, which incorporate sophisticated scheduling and resource management techniques, in order to maximize the distributed resource utilization.Although the low cost of computing resources facilitates the growth of the number of clusters and its resources, this growth is not sustainable. First, we must consider the space problems that are not always easily available and secondly the high cost of the consumed energy by computational units and cooling systems needed to maintain such systems in an appropriate temperature.A sustainable way of providing more resources without increasing costs, is to incorporate the idle computing resources of an organization for the execution of parallel applications, as for example the workstations in the laboratory of a university, the Clusters of different departments, etc.The meta-scheduling task in non-dedicated Multicluster environments is an ongoing area of research. The large amount of resources, their heterogeneity and the sharing of resources between different users, greatly increases the complexity of the meta-scheduling task. The aim of the meta-scheduling in the present work is to maximize the performance of parallel applications without damaging the local user.In this paper we propose new prediction techniques to estimate the turnaround time of parallel applications. These estimates are used by the meta-scheduling system to select the most appropriate cluster for execution. The proposed prediction techniques consider the heterogeneity and the availability of both computing and communication resources.Resources in Multicluster environments are naturally partitioned in different Clusters. In order to exploit the free resources of different Clusters, we propose a new technique for allocating resources between Clusters based on a mixed-Integer programming model. The main aim of the proposed model is to obtain the best performance of the parallel applications with no saturation of the communications links.Finally, we propose a new meta-scheduling strategy that uses prediction techniques to select the most appropriate cluster and decides when resources must be shared between clusters.
|
35 |
Mapping sobre arquitecturas heterógenasDe Giusti, Laura Cristina January 2011 (has links)
Entre todas las ideas esparcidas por la Ciencia de la Computación en los últimos años, pocas han transformado el área de manera tan profunda como la computación paralela. Virtualmente todos los aspectos se vieron afectados, y se generó un gran número de conceptos nuevos. Desde la Arquitectura de Computadoras hasta los Sistemas Operativos, desde los Lenguajes de Programación y Compiladores hasta Bases de Datos e Inteligencia Artificial, y desde la Computación numérica hasta las Combinatorias, cada rama sufrió un renacimiento. / Tesis doctoral de la Facultad de Informática (UNLP). Grado alcanzado: Doctor en Ciencias Informáticas. Director de tesis: Guillermo Simari; co-director de tesis: Emilio Luque y Marcelo Naiouf.
|
36 |
Avaliando o sistema de arquivos Lustre com uso de cargas de trabalho de aplicações paralelasKuszera, Evandro Miguel January 2010 (has links)
Made available in DSpace on 2013-08-07T18:42:58Z (GMT). No. of bitstreams: 1
000424004-Texto+Completo-0.pdf: 1341745 bytes, checksum: 512c3632850f9466f0d8d4864c026768 (MD5)
Previous issue date: 2010 / The growing advance in computers processing power provides the means to design and run high performance applications. But depending on the application, there is also the need to efficiently store and access large amounts of data. Applications focused on science, engineering, data mining and simulation of natural events are some examples that require high I/O throughput. Linux clusters and distributed file systems are generally used in these scenarios. However, traditional distributed file systems, like NFS, are not suitable for data-intensive applications. The centralized architecture of such systems limits the performance and scalability of the application. Based on this, several parallel file systems were designed with the purpose of alleviating the bottleneck created in data access. Among these systems is Lustre, a parallel file system widely used by the high performance community. In this work, an evaluation of Lustre on a small scale Linux cluster is carried out. The evaluation aims to identify which factors affect the performance of the parallel file system, and how it behaves under typical parallel applications workloads. The results showed that Lustre is a file system suitable for all the evaluated application classes. However, to achieve good performance processes should try to maximize contiguous access to files. In that way, is possible to take advantage of the optimizations provided by Lustre, like the client cache and read-ahead mechanism. / O crescente avanço na capacidade de processamento dos computadores fornece meios para projetar e executar aplicações com demandas cada vez maiores. Contudo, dependendo da aplicação, há também a necessidade de acessar e armazenar grandes porções de dados de forma eficiente. Aplicações voltadas à ciência, engenharia, mineração de dados e simulações de eventos naturais são alguns exemplos de aplicações que requerem alta vazão de dados. Clusters Linux e sistemas de arquivos distribuídos, geralmente são utilizados nestes cenários. Entretanto, sistemas de arquivos distribuídos ditos tradicionais, como NFS, não são adequados para aplicações intensivas em dados. A arquitetura centralizada limita o desempenho e escala da aplicação. Com base nisso, vários sistemas de arquivos paralelos foram concebidos com o objetivo de amenizar o gargalo criado no acesso aos dados. Dentre esses sistemas, destaca-se o Lustre, sistema de arquivos paralelos amplamente utilizado pela comunidade de alto desempenho. Neste trabalho, realiza-se uma avaliação do Lustre sobre um cluster Linux de pequena escala. A avaliação tem por objetivo identificar quais fatores afetam o desempenho do sistema de arquivos, e como o mesmo se comporta sob cargas de trabalho típicas de aplicações paralelas. Os resultados obtidos mostraram que o Lustre é um sistema de arquivos adequado para todas as classes de aplicações avaliadas. Entretanto, para se obter bom desempenho é importante tornar os acessos, realizados pelos processos, contíguos dentro do arquivo. Dessa forma, é possível aproveitar os recursos fornecidos pelo Lustre, como cache cliente e read-ahead.
|
37 |
Desenvolvimento de aplicações paralelas a partir de modelos em gramática de grafos baseada em objetosPasini, Fábio January 2007 (has links)
Made available in DSpace on 2013-08-07T18:43:16Z (GMT). No. of bitstreams: 1
000397342-Texto+Completo-0.pdf: 6244320 bytes, checksum: 1ad9082d42e6883bb7678a8782a81d49 (MD5)
Previous issue date: 2007 / During parallel applications development, besides analysis regarding performance aspects, it is also important to analyze the system's functional properties to assure, for example, that the parallel strategy chosen is adequate for the problem being approached, or that it may converge to an expected result, or even to identify the possibility of a deadlock scenario. The correction guarantee over a parallel application model, besides improving the results reliability, also can be an economic factor, since it allows to reduce the time consumed for the application development and debugging. However, once identi ed the problems and corrections into the model analyzed, there is still the need to map the changes needed to the original application. In this sense, modelchecking and automatic code generation can be used as complementary tools during development, allowing the system behavior analysis and a fast generation of the model's corresponding code. This work presents the use of Object-Based Graph Grammars (OBGG) for parallel applications development, through the de nition of a method to translate OBGG models to C code, using MPI as communication platform. / No desenvolvimento de aplicações paralelas, além da análise de aspectos ligados ao desempenho, torna-se também importante a análise das propriedades funcionais do sistema para garantir, por exemplo, que a estratégia de paralelização escolhida é adequada ao problema sendo abordado, ou que ela pode convergir para um resultado esperado, ou mesmo para identificar a possibilidade de um cenário de bloqueio na computação. A garantia de correção sobre o modelo de uma aplicação paralela, além de aumentar o grau de confiança nos resultados, pode também ser um fator de economia, já que possibilita a redução no tempo despendido no desenvolvimento e depuração da aplicação. Porém, uma vez identificados os problemas e correções no modelo analisado, ainda existe a necessidade de se mapear as mudanças necessárias à aplicação original. Nesse sentido, verificação formal e geração automática de código podem ser utilizadas como ferramentas complementares durante o desenvolvimento, possibilitando tanto a análise do comportamento do sistema quanto a rápida geração do código correspondente ao modelo proposto. Este trabalho apresenta o uso de Gramática de Grafos Baseada em Objetos (GGBO) para a construção de aplicações paralelas, a partir da definição de um método de tradução de modelos GGBO para código C, utilizando MPI como plataforma de comunicação.
|
38 |
Algoritmo paralelo para determinação de autovalores de matrizes hermitianasMiranda, Wilson Domingos Sidinei Alves 05 August 2015 (has links)
Dissertação (mestrado)–Universidade de Brasília, Universidade UnB de Planaltina, Programa de Pós-Graduação em Ciência de Materiais, 2015. / Submitted by Raquel Viana (raquelviana@bce.unb.br) on 2016-06-01T21:17:59Z
No. of bitstreams: 1
2015_WilsonDomingosSidineiAlvesMiranda.pdf: 850688 bytes, checksum: ebf1c7ea3222d989fe0dd442d10edd33 (MD5) / Approved for entry into archive by Raquel Viana(raquelviana@bce.unb.br) on 2016-06-01T21:18:27Z (GMT) No. of bitstreams: 1
2015_WilsonDomingosSidineiAlvesMiranda.pdf: 850688 bytes, checksum: ebf1c7ea3222d989fe0dd442d10edd33 (MD5) / Made available in DSpace on 2016-06-01T21:18:28Z (GMT). No. of bitstreams: 1
2015_WilsonDomingosSidineiAlvesMiranda.pdf: 850688 bytes, checksum: ebf1c7ea3222d989fe0dd442d10edd33 (MD5) / Um dos principais problemas da álgebra linear computacional é o problema de autovalor, Au = lu, onde A é usualmente uma matriz de ordem grande. A maneira mais efetiva de resolver tal problema consiste em reduzir a matriz A para a forma tridiagonal e usar o método da bissecção ou algoritmo QR para encontrar alguns ou todos os autovalores. Este trabalho apresenta uma implementação em paralelo utilizando uma combinação dos métodos da bissecção, secante e Newton-Raphson para a solução de problemas de autovalores de matrizes hermitianas. A implementação é voltada para unidades de processamentos gráficos (GPUs) visando a utilização em computadores que possuam placas gráficas com arquitetura CUDA. Para comprovar a eficiência e aplicabilidade da implementação, comparamos o tempo gasto entre os algoritmos usando a GPU, a CPU e as rotinas DSTEBZ e DSTEVR da biblioteca LAPACK. O problema foi dividido em três fases, tridiagonalização, isolamento e extração, as duas últimas calculadas na GPU. A tridiagonalização via DSYTRD da LAPACK, calculada em CPU, mostrou-se mais eficiente do que a realizada em CUDA via DSYRDB. O uso do método zeroinNR na fase de extração em CUDA foi cerca de duas vezes mais rápido que o método da bissecção em CUDA. Então o método híbrido é o mais eficiente para o nosso caso. _______________________________________________________________________________________________ ABSTRACT / One of the main problems in computational linear algebra is the eigenvalue problem Au = lu, where A is usually a matrix of big order. The most effective way to solve this problem is to reduce the matrix A to tridiagonal form and use the method of bisection or QR algorithm to find some or all of the eigenvalues. This work presents a parallel implementation using a combination of methods bisection, secant and Newton-Raphson for solving the eigenvalues problem for Hermitian matrices. Implementation is focused on graphics processing units (GPUs) aimed at use in computers with graphics cards with CUDA architecture. To prove the efficiency and applicability of the implementation, we compare the time spent between the algorithms using the GPU, the CPU and DSTEBZ and DSTEVR routines from LAPACK library. The problem was divided into three phases, tridiagonalization, isolation and extraction, the last two calculated on the GPU. The tridiagonalization by LAPACK’s DSYTRD, calculated on the CPU, proved more efficient than the DSYRDB in CUDA. The use of the method zeroinNR on the extraction phase in CUDA was about two times faster than the bisection method in CUDA. So the hybrid method is more efficient for our case.
|
39 |
Síntese em alto nível de uma rede de interconexão dinâmica para multicomputadorGavilan, Júlio Cesar January 2000 (has links)
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico. / Made available in DSpace on 2012-10-17T13:13:39Z (GMT). No. of bitstreams: 0Bitstream added on 2014-09-25T18:11:15Z : No. of bitstreams: 1
171570.pdf: 2365219 bytes, checksum: fe91d55c1bc48aa78c96f8bb65c51d10 (MD5) / A finalidade deste trabalho é a implementação em alto nível de uma rede de interconexão do tipo crossbar, customizada, para ser utilizada no Multicomputador Nó //. Para a implementação lógica utiliza-se a Linguagem de Descrição de Hardware - VHDL e para a implementação física, é previsto a utilização de Dispositivos Lógicos Programáveis (FPGA). Para o desenvolvimento utiliza-se o software MAX+PLUS II fornecido pela ALTERA, como Ambiente de Programação, depuração e simulação fornecidos pela ALTERA
|
40 |
Sistema Aldeia : programação paralela e distribuída em Java sobre Infiniband e DECKRighi, Rodrigo da Rosa January 2005 (has links)
Esse trabalho de dissertação está incluído no contexto das pesquisas realizadas no Grupo de Processamento Paralelo e Distribuído da UFRGS. Ele aborda as áreas da computação de alto desempenho, interfaces simples de programação e de sistemas de interconexão de redes velozes. A máquina paralela formada por agregados (clusters) tem se destacado por apresentar os recursos computacionais necessários às aplicações intensivas que necessitam de alto desempenho. Referente a interfaces de programação, Java tem se mostrado uma boa opção para a escrita de aplicações paralelas por oferecer os sistemas de RMI e de soquetes que realizam comunicação entre dois computadores, além de todas as facilidades da orientação a objetos. Na área a respeito de interconexão de rede velozes está emergindo como uma tentativa de padronização a nova tecnologia Infiniband. Ela proporciona uma baixa latência de comunicação e uma alta vazão de dados, além de uma série de vantagens implementadas diretamente no hardware. É neste contexto que se desenvolve o presente trabalho de dissertação de mestrado. O seu tema principal é o sistema Aldeia que reimplementa a interface bastante conhecida de soquetes Java para realizar comunicação assíncrona em agregados formados por redes de sistema. Em especial, o seu foco é redes configuradas com equipamentos Infiniband. O Aldeia objetiva assim preencher a lacuna de desempenho do sistema padrão de soquetes Java, que além de usar TCP/IP possui um caráter síncrono. Além de Infiniband, o Aldeia também procura usufruir dos avanços já realizados na biblioteca DECK, desenvolvida no GPPD da UFRGS. Com a sua adoção, é possível realizar comunicação com uma interface Java sobre redes Myrinet, SCI, além de TCP/IP. Somada a essa vantagem, a utilização do DECK também proporciona a propriedade de geração de rastros para a depuração de programas paralelos escritos com o Aldeia. Uma das grandes vantagens do Aldeia está na sua capacidade de transmitir dados assincronamente. Usando essa técnica, cálculos da aplicação podem ser realizados concorrentemente com as operações pela rede. Por fim, os canais de dados do Aldeia substituem perfeitamente aqueles utilizados para a serialização de objetos. Nesse mesmo caminho, o Aldeia pode ser integrado à sistemas que utilizem a implementação de soquetes Java, agora para operar sobre redes de alta velocidade. Palavras-chave: Arquitetura Infiniband, agregado de computadores, linguagem de programação Java, alto desempenho, interface de programação.
|
Page generated in 0.0413 seconds