• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 60
  • 2
  • 2
  • Tagged with
  • 65
  • 65
  • 65
  • 32
  • 29
  • 28
  • 15
  • 15
  • 14
  • 13
  • 12
  • 12
  • 12
  • 12
  • 11
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
31

Performance analysis of virtualization technologies in high performance computing enviroments / Análise do desempenho de tecnologias de virtualização para ambientes de computação de alto desempenho

Beserra, David Willians dos Santos Cavalcanti 13 September 2016 (has links)
Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / Computação de Alto Desempenho (CAD) agrega poder computacional com o objetivo de solucionar problemas complexos e de grande escala em diferentes áreas do conhecimento, como ciência e engenharias, variando desde aplicações medias 3D ate a simulação do universo. Atualmente, os usuários de CAD podem utilizar infraestruturas de Nuvem como uma alternativa de baixo custo para a execução de suas aplicações. Apesar de ser possível utilizar as infraestruturas de nuvem como plataformas de CAD, muitas questões referentes as sobrecargas decorrentes do uso de virtualização permanecem sem resposta. Nesse trabalho foi analisado o desempenho de algumas ferramentas de virtualização - Linux Containers (LXC), Docker, VirtualBox e KVM – em atividades de CAD. Durante os experimentos foram avaliados os desempenhos da UCP, da infraestrutura de comunicação (rede física e barramentos internos) e de E/S de dados em disco. Os resultados indicam que cada tecnologia de virtualização impacta diferentemente no desempenho do sistema observado em função do tipo de recurso de hardware utilizado e das condições de compartilhamento do recurso adotadas. / High Performance Computing (HPC) aggregates computing power in order to solve large and complex problems in different knowledge areas, such as science and engineering, ranging from 3D real-time medical images to simulation of the universe. Nowadays, HPC users can utilize virtualized Cloud infrastructures as a low-cost alternative to deploy their applications. Despite of Cloud infrastructures can be used as HPC platforms, many issues from virtualization overhead have kept them almost unrelated. In this work, we analyze the performance of some virtualization solutions - Linux Containers (LXC), Docker, VirtualBox and KVM - under HPC activities. For our experiments, we consider CPU, (physical network and internal buses) communication and disk I/O performance. Results show that different virtualization technologies can impact distinctly in performance according to hardware resource type used by HPC application and resource sharing conditions adopted.
32

Modelagem Paralela em C+CUDA de Sistema Neural de Visão Estereoscópica

Carvalho, Camilo Alves 31 August 2009 (has links)
Made available in DSpace on 2016-12-23T14:33:40Z (GMT). No. of bitstreams: 1 camilodissertacao 1.pdf: 1333302 bytes, checksum: 388e76b982d3fcda211a4b13f3a4c813 (MD5) Previous issue date: 2009-08-31 / The images formed on our retinae are bidimensional; however, from them our brain is capable of synthesizing a 3D representation with color, shape and depth information about the objects in the surrounding environment. For that, after choosing a point in 3D space, our eyes verge to this point and, at the same time, the visual system is fed back with the eyes position information, interpreting it as the distance of this point to the observer. Depth perception around the vergence point is obtained using visual disparity, i.e., the difference between the positions in the retinae of the two projections of a given point in 3D space caused by the horizontal separation of the eyes. Most of the depth perception processing is done in the visual cortex, mainly in the primary (V1) and medial temporal (MT) areas. In this work, we developed a parallel implementation in C+CUDA of model, built at UFES, of the neural architecture of the V1 and MT cortices that uses as building blocks previous models of cortical cells and log-polar mapping. A sequential implementation of this model can create tridimensional representations of the external world using stereoscopic image pairs obtained from a pair of fronto-parallel cameras. Our C+CUDA parallel implementation is almost 60 times faster and allows real-time 3D reconstruction. / As imagens projetadas em nossas retinas são bidimensionais; entretanto, a partir delas, o nosso cérebro é capaz de sintetizar uma representação 3D com a cor, forma e informações de profundidade sobre os objetos ao redor no ambiente. Para isso, após a escolha de um ponto no espaço 3D, os nossos olhos vergem em direção a este ponto e, ao mesmo tempo, o sistema visual é realimentado com informações sobre o posicionamento dos olhos, interpretando-as como a distância deste ponto ao observador. A percepção de profundidade ao redor do ponto de vergência é obtida utilizando-se a disparidade entre as imagens direita e esquerda, ou seja, a diferença entre as posições, nas retinas, das duas projeções de um determinado ponto no espaço 3D causada pela separação horizontal dos olhos. A maior parte do processamento da percepção da profundidade é feita no córtex visual, principalmente na área primária (V1) e temporal medial (MT). Neste trabalho, foi desenvolvida uma implementação em C+CUDA de um modelo, criado na UFES, da arquitetura neural dos córtices V1 e MT que usa como base modelos anteriores de células corticais e mapeamento log-polar. A implementação seqüencial deste modelo é capaz de construir uma representação tridimensional do mundo externo por meio de pares de imagens estereoscópicas obtidas a partir de um par de câmeras fronto-paralelas. Nossa implementação paralela em C+CUDA é quase 60 vezes mais rápida que a seqüencial e permite a reconstrução 3D em tempo real.
33

Avaliação do impacto da comunicação intra e entre-nós em nuvens computacionais para aplicações de alto desempenho / Evaluation of impact from inter and intra-node communication in cloud computing for HPC applications

Thiago Kenji Okada 07 November 2016 (has links)
Com o advento da computação em nuvem, não é mais necessário ao usuário investir grandes quantidades de recursos financeiros em equipamentos computacionais. Ao invés disto, é possível adquirir recursos de processamento, armazenamento ou mesmo sistemas completos por demanda, usando um dos diversos serviços disponibilizados por provedores de nuvem como a Amazon, o Google, a Microsoft, e a própria USP. Isso permite um controle maior dos gastos operacionais, reduzindo custos em diversos casos. Por exemplo, usuários de computação de alto desempenho podem se beneficiar desse modelo usando um grande número de recursos durante curtos períodos de tempo, ao invés de adquirir um aglomerado computacional de alto custo inicial. Nosso trabalho analisa a viabilidade de execução de aplicações de alto desempenho, comparando o desempenho de aplicações de alto desempenho em infraestruturas com comportamento conhecido com a nuvem pública oferecida pelo Google. Em especial, focamos em diferentes configurações de paralelismo com comunicação interna entre processos no mesmo nó, chamado de intra-nós, e comunicação externa entre processos em diferentes nós, chamado de entre-nós. Nosso caso de estudo para esse trabalho foi o NAS Parallel Benchmarks, um benchmark bastante popular para a análise de desempenho de sistemas paralelos e de alto desempenho. Utilizamos aplicações com implementações puramente MPI (para as comunicações intra e entre-nós) e implementações mistas onde as comunicações internas foram feitas utilizando OpenMP (comunicação intra-nós) e as comunicações externas foram feitas usando o MPI (comunicação entre-nós). / With the advent of cloud computing, it is no longer necessary to invest large amounts of money on computing resources. Instead, it is possible to obtain processing or storage resources, and even complete systems, on demand, using one of the several available services from cloud providers like Amazon, Google, Microsoft, and USP. Cloud computing allows greater control of operating expenses, reducing costs in many cases. For example, high-performance computing users can benefit from this model using a large number of resources for short periods of time, instead of acquiring a computer cluster with high initial cost. Our study examines the feasibility of running high-performance applications, comparing the performance of high-performance applications in a known infrastructure compared to the public cloud offering from Google. In particular, we focus on various parallel configurations with internal communication between processes on the same node, called intra-node, and external communication between processes on different nodes, called inter-nodes. Our case study for this work was the NAS Parallel Benchmarks, a popular benchmark for performance analysis of parallel systems and high performance computing. We tested applications with MPI-only implementations (for intra and inter-node communications) and mixed implementations where internal communications were made using OpenMP (intra-node communications) and external communications were made using the MPI (inter-node communications).
34

Metodologia para execução de aplicações paralelas baseadas no modelo BSP com tarefas heterogêneas. / Methodology for parallel application execution based on BSP model with heterogeneous tasks.

Luz, Fernando Henrique e Paula da 21 September 2015 (has links)
A computação paralela permite uma série de vantagens para a execução de aplicações de grande porte, sendo que o uso efetivo dos recursos computacionais paralelos é um aspecto relevante da computação de alto desempenho. Este trabalho apresenta uma metodologia que provê a execução, de forma automatizada, de aplicações paralelas baseadas no modelo BSP com tarefas heterogêneas. É considerado no modelo adotado, que o tempo de computação de cada tarefa secundária não possui uma alta variância entre uma iteração e outra. A metodologia é denominada de ASE e é composta por três etapas: Aquisição (Acquisition), Escalonamento (Scheduling) e Execução (Execution). Na etapa de Aquisição, os tempos de processamento das tarefas são obtidos; na etapa de Escalonamento a metodologia busca encontrar a distribuição de tarefas que maximize a velocidade de execução da aplicação paralela, mas minimizando o uso de recursos, por meio de um algoritmo desenvolvido neste trabalho; e por fim a etapa de Execução executa a aplicação paralela com a distribuição definida na etapa anterior. Ferramentas que são aplicadas na metodologia foram implementadas. Um conjunto de testes aplicando a metodologia foi realizado e os resultados apresentados mostram que os objetivos da proposta foram alcançados. / Parallel computing allows for a series of advantages on the execution of large applications and the effective use of parallel resources is an important aspect in the High Performance Computing. This work presents a methodology to provide the execution, in an automated way, of parallel applications based on BSP model with heterogeneous tasks. In this model it is assumed that the computation time between iterations does not have a high variance. The methodology is entitled ASE and it is composed by three stages: Acquisition, Scheduling and Execution. In the Acquisition step, the tasks\' processing time are obtained; In the Scheduling step, the methodology finds the ideal arrangement to distribute the tasks to maximize the execution speed and, simultaneously, minimize the use of resources. This is made using an algorithm developed in this work; and lastly the Execution step, where the parallel application is executed in the distribution defined in the previous step. The tools used in the methodology were implemented. A set of tests to apply the methodology were made and the results shown that the objectives were reached.
35

Vertelastic: um módulo de decisão para explorando elasticidade vertical no Autoelastic

Moreira, Gabriel Araujo Siccardi 25 September 2018 (has links)
Submitted by JOSIANE SANTOS DE OLIVEIRA (josianeso) on 2019-03-07T14:25:20Z No. of bitstreams: 1 Gabriel Araujo Siccardi Moreira_.pdf: 1944250 bytes, checksum: ba14c1d555cd6aab9a45c10ed781a54e (MD5) / Made available in DSpace on 2019-03-07T14:25:20Z (GMT). No. of bitstreams: 1 Gabriel Araujo Siccardi Moreira_.pdf: 1944250 bytes, checksum: ba14c1d555cd6aab9a45c10ed781a54e (MD5) Previous issue date: 2018-09-25 / Nenhuma / O conceito de elasticidade está muito ligado à computação em nuvens, pois consiste na capacidade de contrair recursos computacionais de maneira dinâmica e em tempo real. Usualmente, em computação de alto desempenho (HPC), as aplicações são modeladas para serem utilizadas com técnica de balanceamento de carga, fazendo uso da tecnologia de máquinas virtual. A computação paralela há muito tem sido utilizada para resolver questões computacionais que envolvem a execução de muitos processos simultaneamente e demanda quantidade grande de cálculos, cuja premissa é que um grande trecho de código a ser processado pode ser quebrado em menores e, assim, o problema como um todo dividido e resolvido de forma mais rápida. HPC é um típico caso de uso de paralelismo computacional que tem como seu protocolo de comunicação mais comum o Message Passing Interface (MPI), porém quando estamos tratando de aplicações em MPI, o aproveitamento máximo da elasticidade se dá de forma trabalhosa, com a necessidade de reescrita de código, de conhecimento profundo do comportamento da aplicação, além de serem inevitáveis algumas interrupções na aplicação para recompilar novas e pô-la em produção. A fim de evitar a reescrita de código e o aproveitamento total dos hardwares que estão cada vez mais robustos propõe-se na pesquisa desta dissertação a possibilidade de implementação de elasticidade vertical para trabalhar com aplicação de alto desempenho. Um modulo de decisão chamado VertElastic, é incorporado ao framework AutoElastic permitindo assim que se expanda a possibilidade para as duas formas de elasticidade – vertical e horizontal, podendo ainda ser feita de forma fixa com a indicação de threholds ou com predição os valores sejam calculados automaticamente. Trabalhos abordam a elasticidade vertical com threshold, já outros se valem da elasticidade horizontal de forma proativa e/ou reativa, porém não se encontrou pesquisas que permitissem a flexibilidade de se utilizar elasticidade vertical ou horizontal conforme a necessidade de forma proativa ou reativa, para isso o VertElastic se utiliza da elasticidade assíncrona, proporcionando que a aplicação não seja bloqueada enquanto a elasticidade acontece, seja ela para aumentar ou diminuir o recurso computacional. O VertElastic demostra sua viabilidade em uma rotina de testes executados na ferramenta open source OpenNebula. A execução de uma aplicação CPU-Bound demostra que o VertElastic se mostrou entre 13% e 38% mais eficaz que a não utilização de nenhuma técnica de elasticidade. Os testes ainda mostraram que quanto maior o threshold utilizado menor é o ganho no consumo de recursos computacionais e maior o tempo de execução da aplicação. / The concept of elasticity is closely linked to cloud computing because it consists of the ability to contract computational resources dynamically and in real time. Usually, in high performance computing (HPC), applications are modeled for use with load balancing technology, making use of virtual machine technology. Parallel computing has long been used to solve computational issues involving the execution of many processes simultaneously and demand large amounts of computations whose premise is that a large piece of code to be processed can be broken into smaller ones and thus the problem as a whole divided and resolved more quickly. HPC is a typical case of use of computer parallelism that has as its most common communication protocol Message Passing Interface (MPI), but when we are dealing with applications in MPI, the maximum use of elasticity occurs in a laborious way, with the need code rewriting, deep knowledge of application behavior, and some interruptions in the application to recompile new ones and put it into production are inevitable. In order to avoid the rewriting of code and the total use of hardwares that are increasingly robust, it is proposed in the research of this dissertation the possibility of implementing vertical elasticity to work with high performance application. A decision module called VertElastic is incorporated into the AutoElastic framework, thus allowing the possibility for both forms of elasticity - vertical and horizontal - to be expanded, and can be done in a fixed way with the indication of threholds or with prediction values are calculated automatically. Studies deal with vertical elasticity with threshold, while others use proactive and / or reactive horizontal elasticity, but no research was found that allowed the flexibility to use vertical or horizontal elasticity as needed proactively or reactively, for this the VertElastic uses the asynchronous elasticity, providing that the application is not blocked while the elasticity happens, be it to increase or decrease the computational resource. VertElastic demonstrates its feasibility in a testing routine run on the open source OpenNebula tool. The execution of a CPU-Bound application showed that VertElastic was 13% to 38% more effective than the non-use of any elasticity technique. The tests also showed that the higher the threshold used the lower the gain in the consumption of computational resources and the longer the execution time of the application.
36

Metodologia para execução de aplicações paralelas baseadas no modelo BSP com tarefas heterogêneas. / Methodology for parallel application execution based on BSP model with heterogeneous tasks.

Fernando Henrique e Paula da Luz 21 September 2015 (has links)
A computação paralela permite uma série de vantagens para a execução de aplicações de grande porte, sendo que o uso efetivo dos recursos computacionais paralelos é um aspecto relevante da computação de alto desempenho. Este trabalho apresenta uma metodologia que provê a execução, de forma automatizada, de aplicações paralelas baseadas no modelo BSP com tarefas heterogêneas. É considerado no modelo adotado, que o tempo de computação de cada tarefa secundária não possui uma alta variância entre uma iteração e outra. A metodologia é denominada de ASE e é composta por três etapas: Aquisição (Acquisition), Escalonamento (Scheduling) e Execução (Execution). Na etapa de Aquisição, os tempos de processamento das tarefas são obtidos; na etapa de Escalonamento a metodologia busca encontrar a distribuição de tarefas que maximize a velocidade de execução da aplicação paralela, mas minimizando o uso de recursos, por meio de um algoritmo desenvolvido neste trabalho; e por fim a etapa de Execução executa a aplicação paralela com a distribuição definida na etapa anterior. Ferramentas que são aplicadas na metodologia foram implementadas. Um conjunto de testes aplicando a metodologia foi realizado e os resultados apresentados mostram que os objetivos da proposta foram alcançados. / Parallel computing allows for a series of advantages on the execution of large applications and the effective use of parallel resources is an important aspect in the High Performance Computing. This work presents a methodology to provide the execution, in an automated way, of parallel applications based on BSP model with heterogeneous tasks. In this model it is assumed that the computation time between iterations does not have a high variance. The methodology is entitled ASE and it is composed by three stages: Acquisition, Scheduling and Execution. In the Acquisition step, the tasks\' processing time are obtained; In the Scheduling step, the methodology finds the ideal arrangement to distribute the tasks to maximize the execution speed and, simultaneously, minimize the use of resources. This is made using an algorithm developed in this work; and lastly the Execution step, where the parallel application is executed in the distribution defined in the previous step. The tools used in the methodology were implemented. A set of tests to apply the methodology were made and the results shown that the objectives were reached.
37

Segmentação de objetos complexos em um sistema de banco de dados objeto relacional baseado em GRIDS\" / Complex object segmentation in a object relational database system GRIDS.

Reinaldo Lourenso 02 December 2005 (has links)
O principal objetivo desta tese consiste em propor, desenvolver e implementar uma infra-estrutura para gerenciamento de um Banco de Dados baseado em Grid. O armazenamento de objetos complexos como áudio, vídeo, softwares etc., em Sistemas de Banco de Dados, sempre se dá de maneira integral, ou seja, o documento, independente do seu tamanho, não é fragmentado pelo Sistema de Gerência de Banco de Dados (SGBD) ao ser armazenado. Metodologias de modelagem de dados utilizadas também não especificam a fragmentação ou segmentação de um documento complexo quando do seu armazenamento, pois só contemplam a fragmentação das estruturas de armazenamento, no caso relações ou classes, e não os objetos que serão armazenados. Ao avaliarmos o desempenho de sistemas que armazenam objetos complexos, verificamos que o tamanho dos objetos armazenados influencia consideravelmente o desempenho destes sistemas. Como objetos multimídia, softwares, etc., necessitam de grandes volumes em disco para seu armazenamento, métodos de replicação ou distribuição de cópias tradicionais tornam-se muito dispendiosos e por vezes ineficientes. Com a infra-estrutura desenvolvida neste trabalho foi possível segmentar e distribuir atributos complexos de linhas de uma tabela, instaladas em Bancos de Dados baseado em Grid. Nossa solução melhorou o desempenho do sistema que tinha a necessidade de armazenar documentos de tamanho elevado, acima de um tamanho limite. Também foi testada com sucesso a possível utilização dos códigos LDPC nesta infra-estrutura. Entretanto, não observamos ganhos que justificassem sua utilização em aplicações semelhantes a nossa. / This Thesis presents a proposal of an infrastructure to allow the distribution of data in a Database Grid. The storage of complex objects, such as audio, video and software etc. in Databases is always done in an integral way. This means that the object, regardless of its size, it is not fragmented by the Database Management System (DBMS). Methodologies used for data modeling also do not allow fragmentation or segmentation of complex objects. This happens because only the fragmentation of storage structures such as tables or classes are taken into account, not the embedded objects. When we evaluate the performance of systems that store complex objects, we can verify that the size of the stored objects has considerable impact. Since multimedia objects or software distribution package require significant disk space for storage, traditional methods for replication or distribution of copies become very costly and many times inefficient. With the infrastructure developed in this work it was possible to segment and to distribute complex attributes of lines of a table in Database Grids. In this way, our solution improves the performance of the system that had the necessity to store documents of raised size, above of a specified boundary-value. Also the possible use of codes LDPC in this infrastructure was tested successfully. However, does not observe profits that justified its use in same ours applications.
38

Segmentação de objetos complexos em um sistema de banco de dados objeto relacional baseado em GRIDS\" / Complex object segmentation in a object relational database system GRIDS.

Lourenso, Reinaldo 02 December 2005 (has links)
O principal objetivo desta tese consiste em propor, desenvolver e implementar uma infra-estrutura para gerenciamento de um Banco de Dados baseado em Grid. O armazenamento de objetos complexos como áudio, vídeo, softwares etc., em Sistemas de Banco de Dados, sempre se dá de maneira integral, ou seja, o documento, independente do seu tamanho, não é fragmentado pelo Sistema de Gerência de Banco de Dados (SGBD) ao ser armazenado. Metodologias de modelagem de dados utilizadas também não especificam a fragmentação ou segmentação de um documento complexo quando do seu armazenamento, pois só contemplam a fragmentação das estruturas de armazenamento, no caso relações ou classes, e não os objetos que serão armazenados. Ao avaliarmos o desempenho de sistemas que armazenam objetos complexos, verificamos que o tamanho dos objetos armazenados influencia consideravelmente o desempenho destes sistemas. Como objetos multimídia, softwares, etc., necessitam de grandes volumes em disco para seu armazenamento, métodos de replicação ou distribuição de cópias tradicionais tornam-se muito dispendiosos e por vezes ineficientes. Com a infra-estrutura desenvolvida neste trabalho foi possível segmentar e distribuir atributos complexos de linhas de uma tabela, instaladas em Bancos de Dados baseado em Grid. Nossa solução melhorou o desempenho do sistema que tinha a necessidade de armazenar documentos de tamanho elevado, acima de um tamanho limite. Também foi testada com sucesso a possível utilização dos códigos LDPC nesta infra-estrutura. Entretanto, não observamos ganhos que justificassem sua utilização em aplicações semelhantes a nossa. / This Thesis presents a proposal of an infrastructure to allow the distribution of data in a Database Grid. The storage of complex objects, such as audio, video and software etc. in Databases is always done in an integral way. This means that the object, regardless of its size, it is not fragmented by the Database Management System (DBMS). Methodologies used for data modeling also do not allow fragmentation or segmentation of complex objects. This happens because only the fragmentation of storage structures such as tables or classes are taken into account, not the embedded objects. When we evaluate the performance of systems that store complex objects, we can verify that the size of the stored objects has considerable impact. Since multimedia objects or software distribution package require significant disk space for storage, traditional methods for replication or distribution of copies become very costly and many times inefficient. With the infrastructure developed in this work it was possible to segment and to distribute complex attributes of lines of a table in Database Grids. In this way, our solution improves the performance of the system that had the necessity to store documents of raised size, above of a specified boundary-value. Also the possible use of codes LDPC in this infrastructure was tested successfully. However, does not observe profits that justified its use in same ours applications.
39

Geração adaptativa de malhas de superfícies paramétricas em paralelo com controle de curvatura / An adaptive parametric surface mesh generation parallel method guided by curvatures

Sombra, Tiago Guimarães January 2016 (has links)
SOMBRA, Tiago Guimarães. Geração adaptativa de malhas de superfícies paramétricas em paralelo com controle de curvatura. 2016. 71 f. Dissertação (Mestrado em ciência da computação)- Universidade Federal do Ceará, Fortaleza-CE, 2016. / Submitted by Elineudson Ribeiro (elineudsonr@gmail.com) on 2016-07-12T19:12:42Z No. of bitstreams: 1 2016_dis_tgsombra.pdf: 7997002 bytes, checksum: 8e8712a9b19d272a16ac263f62596436 (MD5) / Approved for entry into archive by Rocilda Sales (rocilda@ufc.br) on 2016-07-22T16:43:38Z (GMT) No. of bitstreams: 1 2016_dis_tgsombra.pdf: 7997002 bytes, checksum: 8e8712a9b19d272a16ac263f62596436 (MD5) / Made available in DSpace on 2016-07-22T16:43:38Z (GMT). No. of bitstreams: 1 2016_dis_tgsombra.pdf: 7997002 bytes, checksum: 8e8712a9b19d272a16ac263f62596436 (MD5) Previous issue date: 2016 / This work describes a technique for generating parametric surfaces meshes using parallel computing, with distributed memory processors. The input for the algorithm is a set of parametric patches that model the surface of a given object. A structure for spatial partitioning is proposed to decompose the domain in as many subdomains as processes in the parallel system. Each subdomain consists of a set of patches and the division of its load is guided following an estimate. This decomposition attempts to balance the amount of work in all the subdomains. The amount of work, known as load, of any mesh generator is usually given as a function of its output size, i.e., the size of the generated mesh. Therefore, a technique to estimate the size of this mesh, the total load of the domain, is needed beforehand. This work makes use of an analytical average curvature calculated for each patch, which in turn is input data to estimate this load and the decomposition is made from this analytical mean curvature. Once the domain is decomposed, each process generates the mesh on that subdomain or set of patches by a quad tree technique for inner regions, advancing front technique for border regions and is finally applied an improvement to mesh generated. This technique presented good speed-up results, keeping the quality of the mesh comparable to the quality of the serially generated mesh. / Este trabalho descreve uma técnica para gerar malhas de superfícies paramétricas utilizando computação paralela, com processadores de memória compartilhada. A entrada para o algoritmo é um conjunto de patches paramétricos que modela a superfície de um determinado objeto. Uma estrutura de partição espacial é proposta para decompor o domínio em tantos subdomínios quantos forem os processos no sistema paralelo. Cada subdomínio é formado por um conjunto de patches e a divisão de sua carga é guiada seguindo uma estimativa de carga. Esta decomposição tenta equilibrar a quantidade de trabalho em todos os subdomínios. A quantidade de trabalho, conhecida como carga, de qualquer gerador de malha é geralmente dada em função do tamanho da saída do algoritmo, ou seja, do tamanho da malha gerada. Assim, faz-se necessária uma técnica para estimar previamente o tamanho dessa malha, que é a carga total do domínio. Este trabalho utiliza-se de um cálculo de curvatura analítica média para cada patch, que por sua vez, é dado de entrada para estimar esta carga e a decomposição é feita a partir dessa curvatura analítica média. Uma vez decomposto o domínio, cada processo gera a malha em seu subdomínio ou conjunto de patches pela técnica de quadtree para regiões internas, avanço de fronteira para regiões de fronteira e por fim é aplicado um melhoramento na malha gerada. Esta técnica apresentou bons resultados de speed-up, mantendo a qualidade da malha comparável à qualidade da malha gerada de forma sequencial.
40

Implantação e análise de desempenho de um cluster com processadores ARM e plataforma raspberry Pi

Lima, Felipe dos Anjos 26 August 2016 (has links)
With the recent advancements in High Performance Computing (HPC), it is possible to rapidly process high volumes of data, allowing accomplishments in several areas of knowledge. Although the HPC area has been observed as an area of complex infrastructure, in the last years, its been observed that the processing power of processors used in embedded systems, using the ARM architecture, has been increasing significantly. Furthermore, the acquisition costs and energy consumption are lower, when compared to processors of other platforms, thus allowing for the possibility of having HPC with smaller and more economical platforms, with lower maintenance cost and more accessible. In this merit, this masters thesis proposes the performance analysis of a low cost embedded cluster composed of processors using ARM architecture and the Raspberry Pi platform. This work analysis the impact of using MPICH-2 and OpenMPI libraries, running benchmark programs HPCC and HPL. The present work show results of performance and energy consumption of this cluster with these programs, proving that it is possible to use clusters of low cost embedded platforms with satisfactory speedups and energy consumption. / Com o desenvolvimento da computação de alto desempenho (HPC), grandes volumes de dados passaram a ser processados de forma rápida, permitindo assim, que avanços significativos fossem alcançados em varias áreas do conhecimento. Para isso, sempre se observou a área de HPC tendo uma infraestrutura complexa. Por outro lado, nos últimos anos, se observa que a capacidade de processamento dos processadores usados em sistemas embarcados, seguindo arquitetura ARM, vem aumentando de forma significativa. Além disso, os custos de aquisição e o consumo de energia dos processadores ARM são menores, quando comparados a processadores de outras plataformas. Neste âmbito, cria-se a possibilidade de ter HPC usando plataformas menores e mais econômicas e com um custo de manutenção mais acessível. Nesse intuito, esta dissertação de mestrado, propõe a análise de desempenho de um cluster embarcado de baixo custo composto por processadores da arquitetura ARM e plataforma Raspberry Pi. O trabalho analisa o impacto de usar as bibliotecas MPICH-2 e OpenMPI, executando os programas dos benchmarks HPCC e HPL. O trabalho apresenta resultados de desempenho e consumo de energia do cluster com esses programas, mostrando que é possível usar clusters de plataformas embarcadas de baixo custo e tendo speedups e consumo de energia satisfatórios.

Page generated in 0.1282 seconds