Global ETD Search

71	Resolução da equação Laplace ao sistema multiprocessador ACP Xavier, José Rodolfo Ferreira [UNESP] January 1990 (has links) (PDF) Made available in DSpace on 2016-01-13T13:27:46Z (GMT). No. of bitstreams: 0 Previous issue date: 1990. Added 1 bitstream(s) on 2016-01-13T13:31:38Z : No. of bitstreams: 1 000027383.pdf: 7075799 bytes, checksum: ac9bae7686c3401852cbbf63a8f69407 (MD5) Calculos numericos Equações diferenciais Laplace, Transformadas de Processamento paralelo (Computação)
72	Avaliação de desempenho da comunicação com PVM em ambiente Linux Santos, Aldri Luiz dos 27 October 2010 (has links) No description available. Teses Processamento paralelo (Computadores)
73	Teorema de holonomia normal Aguirre, Sergio Julio Chion 30 August 2013 (has links) Made available in DSpace on 2016-06-02T20:28:28Z (GMT). No. of bitstreams: 1 5611.pdf: 719770 bytes, checksum: 86c089b56af72cff83b5e7b8455ce765 (MD5) Previous issue date: 2013-08-30 / Financiadora de Estudos e Projetos / In this work we will introduce the concept of normal holonomy and restricted normal holonomy of a riemannian submanifold. They are subgroups of the orthogonal matrices that are realized from parallel translating normal vectors, along loops and null-homotopic loops respectively, using the normal connection. We will proof that the restricted normal holonomy is a Lie subgroup of the orthogonal matrices. With the aid of the Ambrose-Singer Theorem, which relates the concept of curvature with restricted normal holonomy, we will prove the Normal Holonomy Theorem which is the extrinsic analogue of the algebraic de Rham-Berger s Theorem. / Neste trabalho, vamos introduzir os conceitos de holonomia normal e holonomia normal restrita de uma subvariedade riemanniana, os quais são subgrupos das matrizes ortogonais que se realizam a partir de fazer translação paralela dos vetores normais, ao longo de lazos e lazos simplemente conexos respectivamente, usando a conexão normal. Vamos ver que a holonomia normal restrita é um subgrupo de Lie das matrizes ortogonais. Com o auxílio do Teorema de Ambrose-Singer, que relaciona o conceito de curvatura com holonomia normal restrita, vamos provar o Teorema Normal de Holonomia, análogo extrínseco do teorema de Rham-Berger algébrico. Geometria Holonomia normal Subvariedades Transporte paralelo CIENCIAS EXATAS E DA TERRA::MATEMATICA
74	Particionamento de domínio e balanceamento de carga no modelo HIDRA Dorneles, Ricardo Vargas January 2003 (has links) A paralelização de aplicaçõpes envolvendo a solução de problemas definidos sob o escopo da Dinâmica dos Fluidos Computacional normalmente é obtida via paralelismo de dados, onde o domínio da aplicação é dividido entre os diversos processadores, bem como a manutenção do balancecamento durante a execução é um problema complexo e diversas heurísticas têm sido desenvolvidas. Aplicações onde a simulação é dividida em diversas fases sobre partes diferentes do domínio acrescentam uma dificuldade maior ao particionamento, ao se buscar a distirbuição equlibrada das cargas em todas as fases. este trabalho descreve a implementação de mecanismos de particionamento e balanceamento de carga em problemas multi-fase sobre clusters de PCs. Inicialmente é apresentada a aplicação desenvolvida, um modelo de circulação e transporte de susbtâncias sobre corpos hídricos 2D e 3 D, que pode ser utilizado para modelar qualquer corpo hídrico a partir da descrição de sua geometria, batimetria e condições de contorno. Todo o desenvolvimento e testes do modelo foi feito utilizando como caso de estudo o domínio do Lago Guaíba, em Porto Alegre. Após, são descritas as principais heurísticas de particionamento de domínio de aplicações multi-fase em clusters, bem como mecanismos para balanceamento de carga para este tipo de aplicação. Ao final, é apresentada a solução proposta e desenvolvida, bem como os resultados obtidos com a mesma. Simulação Processamento paralelo Análise numérica Mecanica : Fluidos Balanceamento : Carga
75	Aceleração do cálculo de autovalores usando CUDA : uma aplicação em heteroestruturas semicondutoras Santos, Marcelo Brandão Monteiro dos 08 November 2014 (has links) Dissertação (mestrado)–Universidade de Brasília, Programa de Pós-Graduação em Ciência de Materiais, 2014. / Submitted by Ana Cristina Barbosa da Silva (annabds@hotmail.com) on 2015-05-25T17:32:14Z No. of bitstreams: 1 2014_MarceloBrandaoMonteirodosSantos.pdf: 925373 bytes, checksum: 6e6756083a9498314c7cf79b37d8492b (MD5) / Approved for entry into archive by Raquel Viana(raquelviana@bce.unb.br) on 2015-05-25T18:45:40Z (GMT) No. of bitstreams: 1 2014_MarceloBrandaoMonteirodosSantos.pdf: 925373 bytes, checksum: 6e6756083a9498314c7cf79b37d8492b (MD5) / Made available in DSpace on 2015-05-25T18:45:40Z (GMT). No. of bitstreams: 1 2014_MarceloBrandaoMonteirodosSantos.pdf: 925373 bytes, checksum: 6e6756083a9498314c7cf79b37d8492b (MD5) / Inicialmente projetadas para processamento de gráficos, as placas gráficas (GPUs) evoluíram para processadores paralelos de propósito geral de alto desempenho. Usando unidades de processamento gráfico (GPUs), da NVIDIA, adaptamos métodos (algoritmos) computacionais de linguagem C para linguagem CUDA. Resolvemos a equação de Schrödinger pelo método de diferenças finitas, usando o método da Bissecção com sequência de Sturm para um poço quântico simétrico de heteroestruturas de GaAs/AlGaAs com a finalidade de acelerar a busca do autovalores. Comparamos o tempo gasto entre os algoritmos usando a GPU, a CPU e a rotina DSTEBZ da biblioteca Lapack. Dividimos o problema em duas fases, a de isolamento, calculada na CPU, e a de extração, calculada na GPU, na fase de extração o método em GPU foi cerca de quatro vezes mais rápido que o método na CPU. O método híbrido, isolamento na CPU e extração na GPU foi cerca de quarenta e seis vezes mais rápido que a rotina DSTEBZ. ______________________________________________________________________________________________ ABSTRACT / Initially designed for graphics processing, the (GPU) graphics cards have evolved into general purpose parallel processors for high performance. Using graphics processing units (GPUs), NVIDIA, adapt computing methods (algorithms) C language for CUDA language. We solve the Schrödinger equation by the finite difference method, using the Bisection method with Sturm sequence for a symmetric quantum well heterostructures of GaAs / AlGaAs. In order to accelerate the search for eigenvalues. We compared the time spent between algorithms using the GPU, CPU and DSTEBZ routine LAPACK library. The problem divided into two phases, the insulation calculated in the CPU and extracting calculated in the GPU, in phase extraction method GPU was about four times faster than the method in the CPU. The hybrid method, isolating on the CPU and extraction on the GPU was about forty-six times faster than DSTEBZ routine. Autovalores Processamento paralelo (Computação) Schrodinger, Equação de Microprocessadores Semicondutores
76	Plataforma de simulação computacional paralela com base nos conceitos de relógios lógicos e tempo virtual / Simioni, Bruno. January 2012 (has links) Orientador: Renata Spolon Lobato / Banca: Marcos Antonio Cavenaghi / Banca: Ronaldo Augusto Lara Gonçalves / Resumo: Este trabalho apresenta a plataforma de simulação computacional de eventos Darfia, arquitetada através do emprego de memória distribuída e compartilhada (DSM) utilizando o framework Terracotta DSO, com o objetivo de facilitar a construção, manutenção e análise dessa abordagem de espaço de endereçamento local e distribuído. A plataforma de simulação foi desenvolvida utilizando-se de conceitos de tempo virtual e relógios lógicos propostos por Lamport, e foi implementada na linguagem de programação comercial, de quarta geração, Java, sendo configurável através de documentos portáveis. Este trabalho também apresenta uma introdução de estudos para simulações baseadas na web, oferecendo uma interface web para a plataforma de simulação, construída com tecnologias oferecidas pelo HTML5, proporcionando a utilização da plataforma de simulação também pela web / Abstract: This document presents the work related to a simulation platform event driven, Darfia, engineered through the use of distributed and shared memory (DSM) using the framework Terracotta DSO, in order to facilitate the construction, maintenance and analysis of this kind of approach to the local and distributed address space. The simulation platform was developed using the concepts of virtual time and logical clocks proposed by Lamport, and was implemented in the programming business, fourth generation, Java, and is configurable via portable documents. This work also provides an introduction to simulation studies of web-based, offering a web interface for the simulation platform, built with technologies offered by HTML5, providing the use of simulation platform also for the web / Mestre Programação paralela (Computação) Processamento paralelo (Computadores) Simulação por computador.
77	Paralelização da ferramenta de alinhamento de sequências MUSCLE para um ambiente distribuído / Marucci, Evandro Augusto. January 2009 (has links) Orientador: José Márcio Machado / Banca: Liria Matsumoto Sato / Banca: Aleardo Manacero Junior / Resumo: Devido a crescente quantidade de dados genômicos para comparação, a computação paralela está se tornando cada vez mais necessária para realizar uma das operaçoes mais importantes da bioinformática, o alinhamento múltiplo de sequências. Atualmente, muitas ferramentas computacionais são utilizadas para resolver alinhamentos e o uso da computação paralela está se tornando cada vez mais generalizado. Entretanto, embora diferentes algoritmos paralelos tenham sido desenvolvidos para suportar as pesquisas genômicas, muitos deles não consideram aspectos fundamentais da computação paralela. O MUSCLE [1] e uma ferramenta que realiza o alinhamento m ultiplo de sequências com um bom desempenho computacional e resultados biológicos signi cativamente precisos [2]. Embora os m etodos utilizados por ele apresentem diferentes versões paralelas propostas na literatura, apenas uma versão paralela do MUSCLE foi proposta [3]. Essa versão, entretanto, foi desenvolvida para sistemas de mem oria compartilhada. O desenvolvimento de uma versão paralela do MUSCLE para sistemas distribu dos e importante dado o grande uso desses sistemas em laboratórios de pesquisa genômica. Esta paralelização e o foco deste trabalho e ela foi realizada utilizando-se abordagens paralelas existentes e criando-se novas abordagens. Como resultado, diferentes estratégias paralelas foram propostas. Estas estratégias podem ser incorporadas a outras ferramentas de alinhamento que utilizam, em determinadas etapas, a mesma abordagem sequencial. Em cada método paralelizado, considerou-se principalmente a e ciência, a escalabilidade e a capacidade de atender problemas reais da biologia. Os testes realizados mostram que, para cada etapa paralela, ao menos uma estratégia de nida atende bem todos esses crit erios. Al em deste trabalho realizar um paralelismo in edito, ao viabilizar a execução da ferramenta MUSCLE em... (Resumo completo, clicar acesso eletrônico abaixo) / Abstract: Due to increasing amount of genetic data for comparison, parallel computing is becoming increasingly necessary to perform one of the most important operations in bioinformatics, the multiple sequence alignments. Nowadays, many software tools are used to solve sequence alignments and the use of parallel computing is becoming more and more widespread. However, although di erent parallel algorithms were developed to support genetic researches, many of them do not consider fundamental aspects of parallel computing. The MUSCLE [1] is a tool that performs multiple sequence alignments with good computational performance and biological results signi cantly precise [2]. Although the methods used by them have di erent parallel versions proposed in the literature, only one parallel version of the MUSCLE tool was proposed [3]. This version, however, was developed for shared memory systems. The development of a parallel MUSCLE tool for distributed systems is important given the wide use of such systems in laboratories of genomic researches. This parallelization is the aim of this work and it was done using existing parallel approaches and creating new approaches. Consequently, di erent parallel strategies have been proposed. These strategies can be incorporated into other alignment tools that use, in a given stage, the same sequential approach. In each parallel method, we considered mainly the e ciency, scalability and ability to meet real biological problems. The tests show that, for each parallel step, at least one de ned strategy meets all these criteria. In addition to the new MUSCLE parallelization, enabling it execute in a distributed systems, the results show that the de ned strategies have a better performance than the existing strategies. / Mestre Processamento paralelo (Computadores) Parallel computing. eng Distributed systems. eng
78	Plataforma de simulação computacional paralela com base nos conceitos de relógios lógicos e tempo virtual Simioni, Bruno [UNESP] 01 March 2012 (has links) (PDF) Made available in DSpace on 2014-06-11T19:29:40Z (GMT). No. of bitstreams: 0 Previous issue date: 2012-03-01Bitstream added on 2014-06-13T20:48:23Z : No. of bitstreams: 1 simioni_b_me_sjrp.pdf: 1373183 bytes, checksum: 323d29627a0cf869ab10a743c7c473c9 (MD5) / Este trabalho apresenta a plataforma de simulação computacional de eventos Darfia, arquitetada através do emprego de memória distribuída e compartilhada (DSM) utilizando o framework Terracotta DSO, com o objetivo de facilitar a construção, manutenção e análise dessa abordagem de espaço de endereçamento local e distribuído. A plataforma de simulação foi desenvolvida utilizando-se de conceitos de tempo virtual e relógios lógicos propostos por Lamport, e foi implementada na linguagem de programação comercial, de quarta geração, Java, sendo configurável através de documentos portáveis. Este trabalho também apresenta uma introdução de estudos para simulações baseadas na web, oferecendo uma interface web para a plataforma de simulação, construída com tecnologias oferecidas pelo HTML5, proporcionando a utilização da plataforma de simulação também pela web / This document presents the work related to a simulation platform event driven, Darfia, engineered through the use of distributed and shared memory (DSM) using the framework Terracotta DSO, in order to facilitate the construction, maintenance and analysis of this kind of approach to the local and distributed address space. The simulation platform was developed using the concepts of virtual time and logical clocks proposed by Lamport, and was implemented in the programming business, fourth generation, Java, and is configurable via portable documents. This work also provides an introduction to simulation studies of web-based, offering a web interface for the simulation platform, built with technologies offered by HTML5, providing the use of simulation platform also for the web Programação paralela (Computação) Processamento paralelo (Computadores) Simulação por computador
79	Profiling and reducing micro-architecture bottlenecks at the hardware level / BLAP : um caracterizador de blocos básicos de arquitetura Moreira, Francis Birck January 2014 (has links) A maior parte dos mecanismos em processadores superescalares atuais usam granularidade de instrução para criar ou caracterizar especulações, tais como predição de desvios ou prefetchers. No entanto, muitas das características das instruções podem ser obtidas ao analisar uma granularidade mais grossa, o bloco básico de código, aumentando a quantidade de código coberta em um espaço similar de armazenamento. Adicionalmente, códigos podem ser analisados mais precisamente e prover uma variedade maior de informação ao observar diferentes tipos de instruções e suas relações. Devido a estas vantagens, a análise no nível de blocos pode fornecer mais oportunidades para mecanismos que necessitam desta informação. Por exemplo, é possível integrar informações de desvios mal previstos e acessos a memória para gerar informações mais precisas de quais acessos a memória oferecem melhor desempenho ao serem priorizados. Nesta tese propomos o Block-Level Architecture Profiler (BLAP) (Block Level Architecture Profiler), um mecanismo em hardware que caracteriza gargalos no nível microarquitetural, tal como loads delinquentes, desvios de difícil previsão e contenção nas unidades funcionais. O BLAP trabalha no nível de bloco básico, apenas detectando e fornecendo informações que podem ser usada para otimizar tais gargalos. Um mecanismo para a remoção de prefetches e uma política de controlador de memória DRAM foram criados para usar a informação criada pelo BLAP e demonstrar seu potencial. Juntos, estes mecanismos são capazes de melhorar o desempenho do sistema em até 17.39% (3.9% em média). Nosso método mostrou também ganhos médios de 13.14% quando avaliado com uma pressão na memória mais alta devido a prefetchers mais agressivos. / Most mechanisms in current superscalar processors use instruction granularity information for speculation, such as branch predictors or prefetchers. However, many of these characteristics can be obtained at the basic block level, increasing the amount of code that can be covered while requiring less space to store the data. Moreover, the code can be profiled more accurately and provide a higher variety of information by analyzing different instruction types inside a block. Because of these advantages, block-level analysis can offer more opportunities for mechanisms that use this information. For example, it is possible to integrate information about branch prediction and memory accesses to provide precise information for speculative mechanisms, increasing accuracy and performance. We propose a BLAP, an online mechanism that profiles bottlenecks at the microarchitectural level, such as delinquent memory loads, hard-to-predict branches and contention for functional units. BLAP works at the basic block level, providing information that can be used to reduce the impact of these bottlenecks. A prefetch dropping mechanism and a memory controller policy were developed to use the profiled information provided by BLAP. Together, these mechanisms are able to improve performance by up to 17.39% (3.90% on average). Our technique showed average gains of 13.14% when evaluated under high memory pressure due to highly aggressive prefetch. Processamento paralelo Processamento distribuido System architecture Program profiling Hardware design
80	Uma metodologia de avaliação de desempenho para identificar as melhore regiões paralelas para reduzir o consumo de energia / A performance evaluation methodology to find the best parallel regions to reduce energy consumption Millani, Luís Felipe Garlet January 2015 (has links) Devido as limitações de consumo energético impostas a supercomputadores, métricas de eficiência energética estão sendo usadas para analisar aplicações paralelas desenvolvidas para computadores de alto desempenho. O objetivo é a redução do custo energético dessas aplicações. Algumas estratégias de redução de consumo energética consideram a aplicação como um todo, outras reduzem ajustam a frequência dos núcleos apenas em certas regiões do código paralelo. Fases de balanceamento de carga ou de comunicação bloqueante podem ser oportunas para redução do consumo energético. A análise de eficiência dessas estratégias é geralmente realizada com metodologias tradicionais derivadas do domínio de análise de desempenho. Uma metodologia de grão mais fino, onde a redução de energia é avaliada para cada região de código e frequência pode lever a um melhor entendimento de como o consumo energético pode ser minimizado para uma determinada implementação. Para tal, os principais desafios são: (a) a detecção de um número possivelmente grande de regiões paralelas; (b) qual frequência deve ser adotada para cada região de forma a limitar o impacto no tempo de execução; e (c) o custo do ajuste dinâmico da frequência dos núcleos. O trabalho descrito nesta dissertação apresenta uma metodologia de análise de desempenho para encontrar, dentre as regiões paralelas, os melhores candidatos a redução do consumo energético. (Cotninua0 Esta proposta consiste de: (a) um design inteligente de experimentos baseado em Plackett-Burman, especialmente importante quando um grande número de regiões paralelas é detectado na aplicação; (b) análise tradicional de energia e desempenho sobre as regiões consideradas candidatas a redução do consumo energético; e (c) análise baseada em eficiência de Pareto mostrando a dificuldade em otimizar o consumo energético. Em (c) também são mostrados os diferentes pontos de equilíbrio entre desempenho e eficiência energética que podem ser interessantes ao desenvolvedor. Nossa abordagem é validada por três aplicações: Graph500, busca em largura, e refinamento de Delaunay. / Due to energy limitations imposed to supercomputers, parallel applications developed for High Performance Computers (HPC) are currently being investigated with energy efficiency metrics. The idea is to reduce the energy footprint of these applications. While some energy reduction strategies consider the application as a whole, certain strategies adjust the core frequency only for certain regions of the parallel code. Load balancing or blocking communication phases could be used as opportunities for energy reduction, for instance. The efficiency analysis of such strategies is usually carried out with traditional methodologies derived from the performance analysis domain. It is clear that a finer grain methodology, where the energy reduction is evaluated per each code region and frequency configuration, could potentially lead to a better understanding of how energy consumption can be reduced for a particular algorithm implementation. To get this, the main challenges are: (a) the detection of such, possibly parallel, code regions and the large number of them; (b) which frequency should be adopted for that region (to reduce energy consumption without too much penalty for the runtime); and (c) the cost to dynamically adjust core frequency. The work described in this dissertation presents a performance analysis methodology to find the best parallel region candidates to reduce energy consumption. The proposal is three folded: (a) a clever design of experiments based on screening, especially important when a large number of parallel regions is detected in the applications; (b) a traditional energy and performance evaluation on the regions that were considered as good candidates for energy reduction; and (c) a Pareto-based analysis showing how hard is to obtain energy gains in optimized codes. In (c), we also show other trade-offs between performance loss and energy gains that might be of interest of the application developer. Our approach is validated against three HPC application codes: Graph500; Breadth-First Search, and Delaunay Refinement. Supercomputadores Processamento paralelo Methodology Energy HPC DVFS Multicore Performance OpenMP

Search results