Global ETD Search

11	Uma técnica de decomposição a priori para geração paralela de malhas bidimensionais / A priori decomposition technique for parallel generation of two-dimensional meshes Teixeira, Daniel Nascimento January 2014 (has links) TEIXEIRA, D. N. Uma técnica de decomposição a priori para geração paralela de malhas bidimensionais. 2014. 95 f. Dissertação (Mestrado em Ciência da Computação) - Centro de Ciências, Universidade Federal do Ceará, Fortaleza, 2014. / Submitted by Daniel Eduardo Alencar da Silva (dealencar.silva@gmail.com) on 2015-01-23T18:25:13Z No. of bitstreams: 1 2014_dis_dnteixeira.pdf: 17919971 bytes, checksum: 092ad12b33cf64a31552e6a839a5a5bc (MD5) / Approved for entry into archive by Rocilda Sales(rocilda@ufc.br) on 2015-09-23T16:26:52Z (GMT) No. of bitstreams: 1 2014_dis_dnteixeira.pdf: 17919971 bytes, checksum: 092ad12b33cf64a31552e6a839a5a5bc (MD5) / Made available in DSpace on 2015-09-23T16:26:52Z (GMT). No. of bitstreams: 1 2014_dis_dnteixeira.pdf: 17919971 bytes, checksum: 092ad12b33cf64a31552e6a839a5a5bc (MD5) Previous issue date: 2014 / This work describes a technique of two-dimensional domain decomposition for parallel mesh generation. This technique works for both distributed and shared memory and has the freedom to use any data structure that manages rectangular regions parallel to the axes to decompose the domain given as input, such as a quaternary tree (quadtree) or a binary space decomposition (bsp), for example. Any process of mesh generation that respects the prerequisites established can be used in the subdomains created, for instance, Delaunay or Advancing Front, among others. This technique is called a priori because the mesh on the interface of the subdomains is generated prior to the their internal meshes. The load estimation for each sub-domain in this work is performed with the aid of a refined quadtree, whose level of refinement guides the creation of edges that are defined from the bounderies of only inner cells. This way of estimate load produces results that accurately represent the number of elements to be generated in each subdomain. That contributes to a good partitioning of the domain, making the mesh generation in parallel be significantly faster than the serial generation. Furthermore, the quality of the generated mesh in parallel is qualitatively equivalent to that generated serially within acceptable limits. / Este trabalho descreve uma técnica de decomposição de domínios bidimensionais para geração em paralelo de malhas. Esta técnica funciona tanto para memória distribuída quanto compartilhada, além de permitir que se utilize qualquer estrutura de dados que gere regiões quadrangulares paralelas aos eixos para decompor o domínio dado como entrada. Pode se utilizar por exemplo, uma árvore quaternária (quadtree) ou uma partição binária do espaço (bsp). Além disso, qualquer processo de geração de malha que respeite os pré-requisitos estabelecidos pode ser empregado nos subdomínios criados, como as técnicas de Delaunay ou Avanço de Fronteira, dentre outras. A técnica proposta é dita a priori porque a malha de interface entre os subdomínios é gerada antes das suas malhas internas. A estimativa de carga de processamento associada a cada subdomínio é feita nesse trabalho com a ajuda de uma quadtree refinada, cujo nível de refinamento orienta a criação das arestas que são definidas a partir da discretização das fronteiras das células internas. Essa maneira de estimar carga produz resultados que representam, com boa precisão, o número de elementos a serem gerados em cada subdomínio. Isso contribui para um bom particionamento do domínio, fazendo com que a geração de malha em paralelo seja significativamente mais rápida do que a geração serial. Além disso, a qualidade da malha gerada em paralelo é qualitativamente equivalente àquela gerada serialmente, dentro de limites aceitáveis. Computação de alto desempenho Estruturas de dados (Computação Algoritmos computacionais
12	Implementação de Visualização de Dados Tridimensionais de Malhas Irregulares no Processador Cell Broadband Engine. / Irregular grid raycasting implementation on the cell broadband engine. Guilherme Mota Cavalcanti de Albuquerque Cox 02 October 2009 (has links) Direct volume rendering has become a popular technique for visualizing volumetric data from sources such as scientific simulations, analytic functions, and medical scanners, among others. Volume rendering algorithms, such as raycasting, can produce high-quality images, however, the use of raycasting has been limited due to its high demands on computational power and memory bandwidth. In this paper, we propose a new implementation of the raycasting algorithm that takes advantage of the highly parallel architecture of the Cell Broadband Engine processor, with 9 heterogeneous cores, in order to allow interactive raycasting of irregular datasets. All the computational power of the Cell BE processor, though, comes at the cost of a different programming model. Applications need to be rewritten in order to explore the full potential of the Cell processor, which requires using multithreading and vectorized code. In our approach, we tackle this problem by distributing ray computations using the visible faces, and vectorizing the lighting integral operations inside each core. Our experimental results show that we can obtain good speedups reducing the overall rendering time significantly. / A renderização de volume direta tornou-se uma técnica popular para visualização volumétrica de dados extraídos de fontes como simulações científicas, funções analíticas, scanners médicos, entre outras. Algoritmos de renderização de volume, como o raycasting, produzem imagens de alta qualidade. O seu uso, contudo, é limitado devido à alta demanda de processamento computacional e o alto uso de memória. Nesse trabalho, propomos uma nova implementação do algoritmo de raycasting que aproveita a arquitetura altamente paralela do processador Cell Broadband Engine, com seus 9 núcleos heterogêneos, que permitem renderização eficiente em malhas irregulares de dados. O poder computacional do processador Cell BE demanda um modelo de programação diferente. Aplicações precisam ser reescritas para explorar o potencial completo do processador Cell, que requer o uso de multithreading e código vetorizado. Em nossa abordagem, enfrentamos esse problema distribuindo a computação de cada raio incidente nas faces visíveis do volume entre os núcleos do processador, e vetorizando as operações da integral de iluminação em cada um. Os resultados experimentais mostram que podemos obter bons speedups reduzindo o tempo total de renderização de forma significativa. Engenharia da Computação Visualização científica Computação de alto desempenho ENGENHARIAS
13	Communication patterns abstractions for programming SDN to optimize high-performance computing applications Trois, Celio January 2017 (has links) Orientador : Luis Carlos Erpen de Bona / Coorientadores : Magnos Martinello; Marcos Didonet Del Fabro / Tese (doutorado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa: Curitiba, 04/09/2017 / Inclui referências : f. 95-113 / Resumo: A evolução da computação e das redes permitiu que múltiplos computadores fossem interconectados, agregando seus poderes de processamento para formar uma computação de alto desempenho (HPC). As aplicações que são executadas nesses ambientes processam enormes quantidades de informação, podendo levar várias horas ou até dias para completar suas execuções, motivando pesquisadores de varias áreas computacionais a estudar diferentes maneiras para acelerá-las. Durante o processamento, essas aplicações trocam grandes quantidades de dados entre os computadores, fazendo que a rede se torne um gargalo. A rede era considerada um recurso estático, não permitindo modificações dinâmicas para otimizar seus links ou dispositivos. Porém, as redes definidas por software (SDN) emergiram como um novo paradigma, permitindoa ser reprogramada de acordo com os requisitos dos usuários. SDN já foi usado para otimizar a rede para aplicações HPC específicas mas nenhum trabalho tira proveito dos padrões de comunicação expressos por elas. Então, o principal objetivo desta tese é pesquisar como esses padrões podem ser usados para ajustar a rede, criando novas abstrações para programá-la, visando acelerar as aplicações HPC. Para atingir esse objetivo, nós primeiramente pesquisamos todos os níveis de programabilidade do SDN. Este estudo resultou na nossa primeira contribuição, a criação de uma taxonomia para agrupar as abstrações de alto nível oferecidas pelas linguagens de programação SDN. Em seguida, nós investigamos os padrões de comunicação das aplicações HPC, observando seus comportamentos espaciais e temporais através da análise de suas matrizes de tráfego (TMs). Concluímos que as TMs podem representar as comunicações, além disso, percebemos que as aplicações tendem a transmitir as mesmas quantidades de dados entre os mesmos nós computacionais. A segunda contribuição desta tese é o desenvolvimento de um framework que permite evitar os fatores da rede que podem degradar o desempenho das aplicações, tais como, sobrecarga imposta pela topologia, o desbalanceamento na utilização dos links e problemas introduzidos pela programabilidade do SDN. O framework disponibiliza uma API e mantém uma base de dados de TMs, uma para cada padrão de comunicação, anotadas com restrições de largura de banda e latência. Essas informações são usadas para reprogramar os dispositivos da rede, alocando uniformemente as comunicações nos caminhos da rede. Essa abordagem reduziu o tempo de execução de benchmarks e aplicações reais em até 26.5%. Para evitar que o código da aplicação fosse modificado, como terceira contribuição, desenvolvemos um método para identificar automaticamente os padrões de comunicação. Esse método gera texturas visuais di_erentes para cada TM e, através de técnicas de aprendizagem de máquina (ML), identifica as aplicações que estão usando a rede. Em nossos experimentos, o método conseguiu uma taxa de acerto superior a 98%. Finalmente, nós incorporamos esse método ao framework, criando uma abstração que permite programar a rede sem a necessidade de alterar as aplicações HPC, diminuindo em média 15.8% seus tempos de execução. Palavras-chave: Redes Definidas por Software, Padrões de Comunicação, Aplicações HPC. / Abstract: The evolution of computing and networking allowed multiple computers to be interconnected, aggregating their processing powers to form a high-performance computing (HPC). Applications that run in these computational environments process huge amounts of information, taking several hours or even days to complete their executions, motivating researchers from various computational fields to study different ways for accelerating them. During the processing, these applications exchange large amounts of data among the computers, causing the network to become a bottleneck. The network was considered a static resource, not allowing dynamic adjustments for optimizing its links or devices. However, Software-Defined Networking (SDN) emerged as a new paradigm, allowing the network to be reprogrammed according to users' requirements. SDN has already been used to optimize the network for specific HPC applications, but no existing work takes advantage of the communication patterns expressed by those applications. So, the main objective of this thesis is to research how these patterns can be used for tuning the network, creating new abstractions for programming it, aiming to speed up HPC applications. To achieve this goal, we first surveyed all SDN programmability levels. This study resulted in our first contribution, the creation of a taxonomy for grouping the high-level abstractions offered by SDN programming languages. Next, we investigated the communication patterns of HPC applications, observing their spatial and temporal behaviors by analyzing their traffic matrices (TMs). We conclude that TMs can represent the communications, furthermore, we realize that the applications tend to transmit the same amount of data among the same computational nodes. The second contribution of this thesis is the development of a framework for avoiding the network factors that can degrade the performance of applications, such as topology overhead, unbalanced links, and issues introduced by the SDN programmability. The framework provides an API and maintains a database of TMs, one for each communication pattern, annotated with bandwidth and latency constraints. This information is used to reprogram network devices, evenly placing the communications on the network paths. This approach reduced the execution time of benchmarks and real applications up to 26.5%. To prevent the application's source code to be modified, as a third contribution of our work, we developed a method to automatically identify the communication patterns. This method generates different visual textures for each TM and, through machine learning (ML) techniques, identifies the applications using the network. In our experiments the method succeeded with an accuracy rate over 98%. Finally, we incorporate this method into the framework, creating an abstraction that allows programming the network without changing the HPC applications, reducing on average 15.8% their execution times. Keywords: Software-Defined Networking, Communication Patterns, HPC Applications. Ciência da computação Redes de computadores Computação de alto desempenho Teses
14	Implementação de Visualização de Dados Tridimensionais de Malhas Irregulares no Processador Cell Broadband Engine. / Irregular grid raycasting implementation on the cell broadband engine. Guilherme Mota Cavalcanti de Albuquerque Cox 02 October 2009 (has links) Direct volume rendering has become a popular technique for visualizing volumetric data from sources such as scientific simulations, analytic functions, and medical scanners, among others. Volume rendering algorithms, such as raycasting, can produce high-quality images, however, the use of raycasting has been limited due to its high demands on computational power and memory bandwidth. In this paper, we propose a new implementation of the raycasting algorithm that takes advantage of the highly parallel architecture of the Cell Broadband Engine processor, with 9 heterogeneous cores, in order to allow interactive raycasting of irregular datasets. All the computational power of the Cell BE processor, though, comes at the cost of a different programming model. Applications need to be rewritten in order to explore the full potential of the Cell processor, which requires using multithreading and vectorized code. In our approach, we tackle this problem by distributing ray computations using the visible faces, and vectorizing the lighting integral operations inside each core. Our experimental results show that we can obtain good speedups reducing the overall rendering time significantly. / A renderização de volume direta tornou-se uma técnica popular para visualização volumétrica de dados extraídos de fontes como simulações científicas, funções analíticas, scanners médicos, entre outras. Algoritmos de renderização de volume, como o raycasting, produzem imagens de alta qualidade. O seu uso, contudo, é limitado devido à alta demanda de processamento computacional e o alto uso de memória. Nesse trabalho, propomos uma nova implementação do algoritmo de raycasting que aproveita a arquitetura altamente paralela do processador Cell Broadband Engine, com seus 9 núcleos heterogêneos, que permitem renderização eficiente em malhas irregulares de dados. O poder computacional do processador Cell BE demanda um modelo de programação diferente. Aplicações precisam ser reescritas para explorar o potencial completo do processador Cell, que requer o uso de multithreading e código vetorizado. Em nossa abordagem, enfrentamos esse problema distribuindo a computação de cada raio incidente nas faces visíveis do volume entre os núcleos do processador, e vetorizando as operações da integral de iluminação em cada um. Os resultados experimentais mostram que podemos obter bons speedups reduzindo o tempo total de renderização de forma significativa. Engenharia da Computação Visualização científica Computação de alto desempenho ENGENHARIAS
15	Modelo para estimar performance de um Cluster Hadoop Brito, José Benedito de Souza 09 July 2014 (has links) Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2014. / Submitted by Albânia Cézar de Melo (albania@bce.unb.br) on 2014-12-02T12:56:55Z No. of bitstreams: 1 2014_JoseBeneditoSouzaBrito.pdf: 4169418 bytes, checksum: 0acba0fc24656f44b12166c01ba2dc3c (MD5) / Approved for entry into archive by Patrícia Nunes da Silva(patricia@bce.unb.br) on 2014-12-02T13:25:34Z (GMT) No. of bitstreams: 1 2014_JoseBeneditoSouzaBrito.pdf: 4169418 bytes, checksum: 0acba0fc24656f44b12166c01ba2dc3c (MD5) / Made available in DSpace on 2014-12-02T13:25:34Z (GMT). No. of bitstreams: 1 2014_JoseBeneditoSouzaBrito.pdf: 4169418 bytes, checksum: 0acba0fc24656f44b12166c01ba2dc3c (MD5) / O volume, a variedade e a velocidade dos dados apresenta um grande desa o para extrair informações úteis em tempo hábil, sem gerar grandes impactos nos demais processamentos existentes nas organizações, impulsionando a utilização de clusters para armazenamento e processamento, e a utilização de computação em nuvem. Este cenário é propício para o Hadoop, um framework open source escalável e e ciente, para a execução de cargas de trabalho sobre Big Data. Com o advento da computação em nuvem um cluster com o framework Hadoop pode ser alocado em minutos, todavia, garantir que o Hadoop tenha um desempenho satisfatório para realizar seus processamentos apresenta vários desa os, como as necessidades de ajustes das con gurações do Hadoop às cargas de trabalho, alocar um cluster apenas com os recursos necessários para realizar determinados processamentos e de nir os recursos necessários para realizar um processamento em um intervalo de tempo conhecido. Neste trabalho, foi proposta uma abordagem que busca otimizar o framework Hadoop para determinada carga de trabalho e estimar os recursos computacionais necessário para realizar um processamento em determinado intervalo de tempo. A abordagem proposta é baseada na coleta de informações, base de regras para ajustes de con gurações do Hadoop, de acordo com a carga de trabalho, e simulações. A simplicidade e leveza do modelo permite que a solução seja adotada como um facilitador para superar os desa os apresentados pelo Big Data, e facilitar a de nição inicial de um cluster para o Hadoop, mesmo por usuários com pouca experiência em TI. O modelo proposto trabalha com o MapReduce para de nir os principais parâmetros de con guração e determinar recursos computacionais dos hosts do cluster para atender aos requisitos desejados de tempo de execução para determinada carga de trabalho. _______________________________________________________________________________ ABSTRACT / The volume, variety and velocity of data presents a great challenge to extracting useful information in a timely manner, without causing impacts on other existing processes in organizations, promoting the use of clusters for storage and processing, and the use of cloud computing. This a good scenario for the Hadoop an open source framework scalable and e cient for running workloads on Big Data. With the advent of cloud computing one cluster with Hadoop framework can be allocated in minutes, however, ensure that the Hadoop has a good performance to accomplish their processing has several challenges, such as needs tweaking the settings of Hadoop for their workloads, allocate a cluster with the necessary resources to perform certain processes and de ne the resources required to perform processing in a known time interval. In this work, an approach that seeks to optimize the Hadoop for a given workload and estimate the computational resources required to realize a processing in a given time interval was proposed. The approach is based on collecting information, based rules for adjusting Hadoop settings for certain workload and simulations. The simplicity and lightness of the model allows the solution be adopted how a facilitator to overcome the challenges presented by Big Data, and facilitate the use of the Hadoop, even by users with little IT experience. The proposed model works with the MapReduce to de ne the main con guration parameters and determine the computational resources of nodes of cluster, to meet the desired runtime for a given workload requirements. Análise por conglomerados Computação de alto desempenho Processamento paralelo (Computação)
16	Um cluster de PCs usando nós baseados em módulos aceleradores de hardware (FPGA) como co-processadores Wanderley Pimentel Araujo, Rodrigo 31 January 2010 (has links) Made available in DSpace on 2014-06-12T15:58:17Z (GMT). No. of bitstreams: 2 arquivo3450_1.pdf: 2428220 bytes, checksum: 164a34bb1ebc71c885503d9ef049987d (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2010 / Conselho Nacional de Desenvolvimento Científico e Tecnológico / A criação de novas soluções para aumentar o desempenho de aplicações está crescendo de importância, pois os processamentos convencionais estão se tornando obsoletos. Diferentes abordagens têm sido estudadas e usadas, porém vários problemas foram encontrados. Um exemplo é dos processadores com vários núcleos, que, apesar de dissipar pouca potência, apresentam velocidade de transmissão baixa e pequena largura de banda. Circuitos ASICs apresentam alto desempenho, baixa dissipação de potência, mas possuem um alto custo de engenharia. Na tentativa de conseguir mais altos níveis de aceleração, plataformas que associam o uso de cluster de computadores convencionais com FPGAs têm sido estudadas. Este tipo de plataforma requer o uso de barramentos de alto desempenho para minimizar o gargalo de comunicação entre PC e FPGA, e um comunicador eficiente entre os nós do sistema. Neste trabalho, são vistas as principais características de algumas arquiteturas que utilizam cluster de PCs. Com isto, é proposta uma arquitetura que utiliza FPGA como co‐processador em cada nó do sistema, utilizando a interface MPI para comunicação entre os nós e um device driver, para Linux, que permite transferência em rajada dos dados, através do barramento PCIe. Como estudo de caso, usado para a validação da arquitetura, é implementado a multiplicação de matrizes densas, esta funcionalidade é baseada no nível três da biblioteca BLAS Cluster Computação de alto desempenho FPGA MPI, Device Driver PCIe
17	Desenvolvimento de um núcleo aritmético híbrido em hardware reconfigurável para imageamento sísmico segundo o algoritmo RTM NEVES, Bruno Pessôa 19 August 2015 (has links) Submitted by Isaac Francisco de Souza Dias (isaac.souzadias@ufpe.br) on 2016-04-25T18:04:20Z No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) DISSERTAÇÃO Bruno Pessoa Neves.pdf: 2837976 bytes, checksum: adb9ef8e4e3ccc7abf1b6bac4c000360 (MD5) / Made available in DSpace on 2016-04-25T18:04:20Z (GMT). No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) DISSERTAÇÃO Bruno Pessoa Neves.pdf: 2837976 bytes, checksum: adb9ef8e4e3ccc7abf1b6bac4c000360 (MD5) Previous issue date: 2015-08-19 / FACEPE / A computação de alto desempenho está presente em diversos setores do conhecimento humano. Ela busca atender a demanda por soluções para problemas em áreas como bioinformática, petroquímica, climatologia, dentre outros. Sabe-se que a grande maioria dessas áreas trabalha com quantidades massivas de dados, o que representa um desafio que a computação deve constantemente superar. Dentre algumas soluções atualmente adotadas, podemos citar os Field Programmable Gate Arrays (FPGAs). Esses dispositivos permitem explorar a computação paralela com menor consumo de energia quando comparados a Central Process Units (CPUs) e Graphic Process Units (GPUs). Além disso, os FPGAs permitem explorar o reuso de dados, o que possibilita o desenvolvimento de arquiteturas computacionais mais eficientes. Essas características fazem dos FPGAs uma opção atraente para se desenvolver soluções para problemas que possuem uma alta demanda por processamento, como em aplicações científicas. Essas aplicações normalmente fazem uso massivo de números em ponto flutuante. Em 1977 o Institute of Electrical and Electronics Engineers (IEEE) propõe a criação do padrão IEEE-754 para a implementação da aritmética de ponto flutuante em base binária. No entanto, o padrão só foi concluído e lançado mais tarde, em 1985. Esse padrão numérico permite ao mesmo tempo tanto uma grande precisão, quanto uma grande capacidade de representação. O padrão IEEE-754 passou a ser seguido pelos fabricantes de computadores e desenvolvedores de software no tratamento da aritmética binária computacional. A indústria petrolífera faz uso massivo da aritmética de ponto flutuante para o mapeamento e geração de imagem das camadas do subsolo para detecção de poços de hidrocarbonetos. Um dos métodos de imageamento sísmico que tem apresentando melhores resultados em áreas com litologias mais complexas, tais como no pré-sal, é o algoritmo Reverse Time Migration (RTM). Esse método faz uso de uma aproximação da equação de onda por meio dos operadores de diferenças finitas. Isso permite o mapeamento da variação dos campos de pressão e com isso se estimar as características litológicas das camadas em subsuperfície. Contudo, o custo do RTM é bastante elevado em termos computacionais. Por esse motivo, aplicações que otimizam desempenho ganham importância no cenário de mapeamento sísmico do subsolo realizado pelas indústrias petrolíferas. Esta dissertação aborda o desenvolvimento de um núcleo aritmético híbrido capaz de resolver a equação de diferenças finitas presentes no algoritmo de RTM, em FPGA. Foram desenvolvidos duas versões, uma totalmente em ponto flutuante padrão IEEE-754 e outra também com notação de ponto fixo para ganho de desempenho. / The high-performance computing is present in different sectors of human knowledge. It seeks to meet the demand for solutions to problems in areas such as bioinformatics, petrochemical, climatology, among others. It is known that the vast majority of these areas work with massive amounts of data, which is a challenge that the computational field should constantly overcome. Among some currently adopted solutions, we can mention the Field Programmable Gate Arrays (FPGAs). These devices allow exploit parallel computing with lower power consumption when compared to Central Process Units (CPUs) and Graphic Process Units (GPUs). Furthermore, FPGAs allow explore the data reuse, which enables the development of more efficient computing architectures. These characteristics make FPGAs an attractive option to develop solutions to problems that have a high demand for processing, such as in scientific applications. These applications typically make heavy use of floating point numbers. In 1977 the Institute of Electrical and Electronics Engineers (IEEE) proposes the creation of the IEEE-754 standard for implementing floating-point arithmetic in binary base. However, the standard was completed and released later in 1985. This numerical pattern allows the same time both a high precision, as a large capacity representation. The IEEE-754 standard then began to be followed by software developers and computer makers in the treatment of computer binary arithmetic. The oil industry makes massive use of floating-point arithmetic for mapping and generating image of the subsurface layers to detect hydrocarbon wells. One of seismic imaging methods that have presented better results in areas with more complex lithologies, such as the pre-salt, is the Reverse Time Migration algorithm (RTM). This method makes use of an approximation to the wave equation through the finite difference operator. This allows mapping the variation of pressure fields and thereby estimate the lithological characteristics of the layers in the subsurface. However, the cost of the RTM is computationally quite high. Therefore, applications that optimize performance gain importance in the underground seismic mapping scenario performed by the oil industry. This paper discusses the development of a hybrid arithmetic core able to solve the equation of finite differences present in the RTM algorithm in FPGA. Two versions, a fully floating point IEEE-754 standard and also with other fixed-point notation for performance gain were developed. Engenharia da computação FPGA Computação científica. Computação de alto desempenho
18	Avaliação do impacto da comunicação intra e entre-nós em nuvens computacionais para aplicações de alto desempenho / Evaluation of impact from inter and intra-node communication in cloud computing for HPC applications Okada, Thiago Kenji 07 November 2016 (has links) Com o advento da computação em nuvem, não é mais necessário ao usuário investir grandes quantidades de recursos financeiros em equipamentos computacionais. Ao invés disto, é possível adquirir recursos de processamento, armazenamento ou mesmo sistemas completos por demanda, usando um dos diversos serviços disponibilizados por provedores de nuvem como a Amazon, o Google, a Microsoft, e a própria USP. Isso permite um controle maior dos gastos operacionais, reduzindo custos em diversos casos. Por exemplo, usuários de computação de alto desempenho podem se beneficiar desse modelo usando um grande número de recursos durante curtos períodos de tempo, ao invés de adquirir um aglomerado computacional de alto custo inicial. Nosso trabalho analisa a viabilidade de execução de aplicações de alto desempenho, comparando o desempenho de aplicações de alto desempenho em infraestruturas com comportamento conhecido com a nuvem pública oferecida pelo Google. Em especial, focamos em diferentes configurações de paralelismo com comunicação interna entre processos no mesmo nó, chamado de intra-nós, e comunicação externa entre processos em diferentes nós, chamado de entre-nós. Nosso caso de estudo para esse trabalho foi o NAS Parallel Benchmarks, um benchmark bastante popular para a análise de desempenho de sistemas paralelos e de alto desempenho. Utilizamos aplicações com implementações puramente MPI (para as comunicações intra e entre-nós) e implementações mistas onde as comunicações internas foram feitas utilizando OpenMP (comunicação intra-nós) e as comunicações externas foram feitas usando o MPI (comunicação entre-nós). / With the advent of cloud computing, it is no longer necessary to invest large amounts of money on computing resources. Instead, it is possible to obtain processing or storage resources, and even complete systems, on demand, using one of the several available services from cloud providers like Amazon, Google, Microsoft, and USP. Cloud computing allows greater control of operating expenses, reducing costs in many cases. For example, high-performance computing users can benefit from this model using a large number of resources for short periods of time, instead of acquiring a computer cluster with high initial cost. Our study examines the feasibility of running high-performance applications, comparing the performance of high-performance applications in a known infrastructure compared to the public cloud offering from Google. In particular, we focus on various parallel configurations with internal communication between processes on the same node, called intra-node, and external communication between processes on different nodes, called inter-nodes. Our case study for this work was the NAS Parallel Benchmarks, a popular benchmark for performance analysis of parallel systems and high performance computing. We tested applications with MPI-only implementations (for intra and inter-node communications) and mixed implementations where internal communications were made using OpenMP (intra-node communications) and external communications were made using the MPI (inter-node communications). Benchmark Benchmark Cloud computing Computação de alto desempenho High performance computing Nuvens computacionais
19	Técnicas de programação e avaliação de desempenho de solvers de sistemas de equações lineares em sistemas computacionais de alto desempenho. / Programming techniques and performance evaluation of solvers of linear systems of equations in high performance computing. Ferreira, Alexandre Beletti 08 July 2013 (has links) Os problemas de engenharia atualmente têm aumentado a sua ordem de grandeza, por conta de diversos fatores. A modelagem em ambiente computacional dos mesmos esbarra em limitações, como grandes quantidades de tempo de processamento gastos com diversas simulações da modelagem e a pouca quantidade de memória disponível para alocar propriamente os problemas. A resolução de grandes sistemas de equações lineares, comumente abordado nos problemas atuais de engenharia, necessita da exploração das duas situações mencionadas anteriormente. A subárea computacional que permite explorar a redução do tempo e a possibilidade de alocação na memória de tais problemas é chamada de computação de alto desempenho. O objetivo deste trabalho é ilustrar o uso de softwares de resolução de sistemas de equações lineares, chamados de solvers, projetados para os ambientes computacionais de alto desempenho, testando-os e avaliando-os em um conjunto de matrizes conhecido, bem como abordar os detalhes computacionais envolvidos em tais procedimentos. / Engineering problems today have increased their order of magnitude, due to several factors. Modeling these problems with computers brings up certain limitations, as the amount of processing time needed for several simulations and the lack of available memory to properly allocate them. The resolution of large systems of linear equations, commonly discussed in current engineering problems, needs the exploration of the two situations mentioned above. The subarea that allows exploring the computational time reduction and the possibility of allocating memory in such problems is called high performance computing. The aim of this paper is to illustrate the use of software to solve systems of linear equations, called solvers, designed for high performance computing environments, to test and evaluate them for a set of matrices as well as to address the computational details involved in such procedures. Computação de alto desempenho High performance computing Sistema de equações lineares Solver Solver Systems of linear equations
20	Inferência de redes de regulação gênica usando algoritmo de busca exaustiva em clusters de GPUs Borelli, Fabrizio Ferreira January 2013 (has links) Orientador: Luiz Carlos da Silva Rozante / Dissertação (mestrado) - Universidade Federal do ABC. Programa de Pós-Graduação em Ciência da Computação, 2013 COMPUTAÇÃO DE ALTO DESEMPENHO GPU CUDA

Search results