Spelling suggestions: "subject:"arallel architectures"" "subject:"aparallel architectures""
31 |
Parallelized element-by-element architecture for structural analysis of flexible pipes using finite macroelements. / Arquitetura paralela elemento-a-elemento para a análise estrutural de tubos flexíveis utilizando macroelementos finitos.Toni, Fernando Geremias 27 April 2018 (has links)
Flexible pipes are used in the offshore oil production to transport fluid and gas from the sea bead to the floating stations, and vice versa. These pipes have several concentric layers, of different materials, geometries and structural functions, since they are exposed to adverse operating environments, subjected to high internal and external pressures, high axial stresses and a series of dynamic loads. The local analysis is an important stage of a flexible pipe design and it consists on determining the stresses and strains distributions along the layers of the pipe. Multipurpose finite element packages are commonly used in the local analysis of flexible pipes, but they possess many limitations due to its generic nature, varying from the absence of specific tools for model creation to heavy restrictions of the number of degrees-of-freedom to make computational processing feasible. At the Polytechnic School of the University of São Paulo, within a research line in progress, several finite macroelements were formulated specifically for structural analysis of flexible pipes, taking into account their particularities, such as geometric patterns and layers assemblage. However, the numerical tools that implement these elements present very high memory and processing consumptions, limiting its usage for large-scale models. Therefore, this work has been motivated by memory and processing limitations of finite element structural analysis of flexible pipes for offshore applications. In this context, the Element-by-Element method, which does not require the global stiffness matrix, was chosen for its potential in memory reduction and processing capabilities, given its scalability and ease of parallelization. After an extensive literature review on numerical methods regarding the EBE method, it was chosen the Element-by-Element Diagonal Preconditioned Conjugate Gradient Method (EBE-PCG) algorithm. Aiming higher computational performance, the finite macroelements formulated by (PROVASI, 2013) were converted to the C++ language, implemented and parallelized in a new analysis tool, named as PipeFEM. The diagonal preconditioned EBE-PCG algorithm was implemented and parallelized with OpenMP. The scalability of the PCG algorithm is directly influenced by the efficiency of the matrix-vector product, an operation that, in the element-by-element method, is computed in a local basis with the blocks that comprise the model, and that requires synchronization techniques when performed in parallel. Four different synchronization strategies were developed, being the one based on geometric- and mesh- based mappings the most efficient of them. Numerical experiments showed a reduction of almost 92% in the EBE-PCG solution time of the parallelized version in comparison to the sequential one. In order to compare the efficiency of PipeFEM with the well-established finite element package ANSYS, a simplified flexible pipe was modeled in both software. PipeFEM was approximately 82 times faster than ANSYS to solve the problem, spending 24.27 seconds against 33 minutes and 18 seconds. In addition to this, PipeFEM required much less memory, 61.8MB against 6.8GB in ANSYS. In comparison to the dense version of MacroFEM, a reduction of more than three orders of magnitude was achieved in memory consumption. Despite the low the rate of convergence presented by the diagonal preconditioner, the implementation is very efficient in computational terms. Therefore, the objectives of this work were fulfilled with the development and application of the EBE method, allowing a reduction of memory and simulation costs. / Tubos flexíveis são utilizados na produção offshore de petróleo para o transporte de fluidos e gás natural das estruturas submersas até as estações flutuantes, e vice-versa. Estes tubos possuem diversas camadas concêntricas, de diferentes materiais, geometrias e funções estruturais, pois são expostos a ambientes adversos de operação, nos quais são submetidos à elevadas pressões internas e externas, elevados carregamentos e tensões axiais, além de uma série de carregamentos dinâmicos. A análise local é uma etapa importante do dimensionamento de um tubo flexível e consiste em determinar as distribuições de tensões e deformações ao longo das camadas do tubo. Pacotes multiuso de elementos finitos são comumente utilizados na análise local de tubos flexíveis, mas, devido as suas naturezas genéricas, possuem limitações que variam desde a ausência de ferramentas específicas para a criação de modelos até restrições pesadas no número total de graus de liberdade para tornar exequível o processo computacional. Na Escola Politécnica da Universidade de São Paulo, dentro de uma linha de pesquisa em andamento, diversos macroelementos finitos foram formulados especificamente para a análise estrutural de tubos flexíveis, levando em consideração as suas particularidades, como por exemplo padrões de geometrias e de montagem de camadas. Entretanto, a ferramenta numérica que implementa esses elementos apresenta elevado consumo de memória e de processamento, o que limita o seu uso para modelos de grande escala. Portanto, este trabalho foi motivado por limitações de memória e processamento em análises estruturais com o método dos elementos finitos para tubos flexíveis de aplicações offshore. Neste contexto, o método elemento-a-elemento, caracterizado pela eliminação da matriz global de rigidez, foi escolhido devido ao seu potencial de redução de consumo de memória e às suas capacidades de processamento, dada a sua escalabilidade e facilidade de paralelização. Após uma extensa revisão bibliográfica em métodos numéricos a respeito do método EBE, foi escolhido a versão diagonalmente precondicionada do método do gradiente conjugado (EBE-PCG). Com o intuito de se obter maior performance computacional, os macroelementos finitos formulados por (PROVASI, 2013) foram convertidos para a linguagem C++, paralelizados e implementado em uma nova ferramenta de análise chamada de PipeFEM, totalmente escrita em C++ e que explora paralelismo em todos as etapas. O algoritmo EBE-PCG foi implementado e paralelizado com OpenMP. A escalabilidade do algoritmo PCG é diretamente influenciada pela eficiência do produto entre matriz e vetor, uma operação que no método elemento-a-elemento é calculada na base local com os blocos que compõem o modelo, o que requer técnicas de sincronização quando realizada de modo paralelo. Quatro diferentes estratégias de sincronização foram desenvolvidas, sendo a mais eficiente delas a que utilizada mapeamentos baseados em características da geometria e malha. Experimentos numéricos mostraram uma redução de quase 92% no tempo de simulação do algoritmo PCG da versão paralelizada em relação à sequencial. De modo a comparar a eficiência do PipeFEM com o pacote bem estabelecido de elementos finitos, ANSYS, um tubo simplificado foi modelado em ambos os programas. PipeFEM foi aproximadamente 82 vezes mais rápido do que o ANSYS, gastando 24.27 segundos contra 33 minutos e 18 segundos. Além disso, PipeFEM consumiu muito menos memória, 61.8MB contra 6.8GB in ANSYS. Em comparação com a versão densa do MacroFEM, uma redução superior a três ordens de grandeza no consum e de memória foi obtida. Assim, apesar da baixa taxa de convergência apresentada pelo precondicionador diagonal, a implementação está muito eficiente em termos computacionais. Portanto, os objetivos deste trabalho foram alcançados com o desenvolvimento e aplicação do método EBE, o que permitiu uma redução considerável dos custos de simulação e memória.
|
32 |
Redução dos bits de emparelhamento da máquina de fluxo de dados de Manchester. / Reducing the bits of match of Manchester dataflow machine.Magna, Patrícia 02 September 1992 (has links)
O modelo a fluxo de dados tem grande destaque em pesquisas em arquiteturas de alto desempenho. Neste modelo, o controle de execução é feito apenas pela disponibilidade dos dados, permitindo que seja explorado o máximo de paralelismo implícito em um programa. As propostas que serão expostas neste trabalho visam solucionar um particular problema da máquina de fluxo de dados de Manchester. Esta arquitetura para tratar código reentrante, impõe que as fichas de dados, além da indicação da instrução destino, possuam um rótulo. Estas informações extras, que formam 70% da ficha de dado, fazem com que a implantação da máquina seja complexa. Assim, o hardware impõe um sério limite a velocidade de processamento, impedindo a plena utilização do modelo. Neste trabalho, serão apresentadas propostas para a redução do número de informações necessárias para o correto funcionamento da máquina, possibilitando uma implementação mais simples e mais eficiente. / The dataflow model is specially relevant you research in high-performance architectures. In this model, the execution control is done by taking into account only the dates availability, thus allowing maximum exploitation of the paralelism implicit in programs. The present work is based on the Manchester dataflow machine, which, in to order you handle the reentran code, imposes the dates token you have, in addition you the destination instruction Field, albel. Additional This information, which corresponds you 70% of the dates token, compounds the machine implementation it substantially bounds the execution speed and prevents the full model utilization. This work presents approaches will be reducing the amount of information needed will be to proper machine operation in to order you achieve to simpler and lives effective implementation.
|
33 |
Proposta e simulação de uma arquitetura a fluxo de dados de segunda geração. / Proposal and simulation of data flow architecture of second generation.Magna, Patrícia 04 March 1997 (has links)
Neste trabalho é apresentada a arquitetura SEED, proposta a partir das experiências adquiridas com as arquiteturas baseadas no modelo a fluxo de dados que foram estudadas até o presente. A arquitetura SEED utiliza o modelo a fluxo de dados para escalonar e executar blocos de instruções, visando aproveitar a principal qualidade apresentada pelo modelo, que consiste em expor o máximo de paralelismo existente nos programas. No entanto, a arquitetura explora paralelismo de granularidade mais grossa que as arquiteturas a fluxo de dados, a fim de reduzir o trafego de fichas de dados na arquitetura. Esta redução tenta resolver ou amenizar problemas como a excessiva ocupação de memória e a grande complexidade exigida do hardware. Além da especificação da funcionalidade de toda a arquitetura SEED, este trabalho apresenta uma proposta para o particionamento do código. A utilização desta proposta permite a geração de blocos de códigos que podem ser executados corretamente pela arquitetura SEED. Alguns benchmarks foram gerados utilizando essa proposta de particionamento de código. Estes benchmarks foram executados no simulador da arquitetura SEED, visando analisar e avaliar o comportamento da arquitetura com diversas configurações de hardware. / In this work is presented the SEED architecture. This architecture was proposed considering the experiences obtained with existing architectures based on dataflow model. The SEED architecture uses dataflow model to schedule and execute sets of instructions, called code blocks. This approach tries to make use of the main quality of the dataflow model that is to expose the maximum parallelism of the programs. However, this architecture explores coarser granularity than the one usually considered in dataflow architectures in order to reduce the data token traffic in the architecture. This type of reduction tries to solve problems like excessive occupation of memory and high complexity of the hardware. Besides the specification of all units that compose the SEED architecture, this work also proposes a way of partitioning programs, creating code blocks that may be executed by SEED architecture. Some benchmarks were generated using this proposal for partitioning programs. These benchmarks were executed in the SEED architecture simulator, in order to analyze the behavior of the proposed architecture under special configurations.
|
34 |
Parallel VLSI Architectures for Multi-Gbps MIMO Communication SystemsJanuary 2011 (has links)
In wireless communications, the use of multiple antennas at both the transmitter and the receiver is a key technology to enable high data rate transmission without additional bandwidth or transmit power. Multiple-input multiple-output (MIMO) schemes are widely used in many wireless standards, allowing higher throughput using spatial multiplexing techniques. MIMO soft detection poses significant challenges to the MIMO receiver design as the detection complexity increases exponentially with the number of antennas. As the next generation wireless system is pushing for multi-Gbps data rate, there is a great need for high-throughput low-complexity soft-output MIMO detector. The brute-force implementation of the optimal MIMO detection algorithm would consume enormous power and is not feasible for the current technology. We propose a reduced-complexity soft-output MIMO detector architecture based on a trellis-search method. We convert the MIMO detection problem into a shortest path problem. We introduce a path reduction and a path extension algorithm to reduce the search complexity while still maintaining sufficient soft information values for the detection. We avoid the missing counter-hypothesis problem by keeping multiple paths during the trellis search process. The proposed trellis-search algorithm is a data-parallel algorithm and is very suitable for high speed VLSI implementation. Compared with the conventional tree-search based detectors, the proposed trellis-based detector has a significant improvement in terms of detection throughput and area efficiency. The proposed MIMO detector has great potential to be applied for the next generation Gbps wireless systems by achieving very high throughput and good error performance. The soft information generated by the MIMO detector will be processed by a channel decoder, e.g. a low-density parity-check (LDPC) decoder or a Turbo decoder, to recover the original information bits. Channel decoder is another very computational-intensive block in a MIMO receiver SoC (system-on-chip). We will present high-performance LDPC decoder architectures and Turbo decoder architectures to achieve 1+ Gbps data rate. Further, a configurable decoder architecture that can be dynamically reconfigured to support both LDPC codes and Turbo codes is developed to support multiple 3G/4G wireless standards. We will present ASIC and FPGA implementation results of various MIMO detectors, LDPC decoders, and Turbo decoders. We will discuss in details the computational complexity and the throughput performance of these detectors and decoders.
|
35 |
Hardware Techniques for High-Performance Transactional Memory in Many-Core Chip Multiprocessors / Técnicas Hardware para Sistemas de Memoria Transaccional de Alto Rendimiento en Procesadores MultinúcleoTitos Gil, José Rubén 08 November 2011 (has links)
Esta tesis investiga la implementación hardware eficiente de los sistemas de memoria transaccional (HTM) en un chip multiprocesador escalable (CMP), identificando aspectos que limitan el rendimiento y proponiendo técnicas que solventan dichas patologías. Las contribuciones de la tesis son varios diseños HTM complementarios que alcanzan un rendimiento robusto y evitan comportamientos patológicos, mediante la introducción de flexibilidad y adaptabilidad, sin que dichas técnicas apenas supongan un incremento en la complejidad del sistema global. Esta disertación considera tanto sistemas HTM de política ansiosa como aquellos diseñados bajo el enfoque perezoso, y afrontamos las sobrecargas en el rendimiento que son inherentes a cada política.
Quizá la contribución más relevante de esta tesis es ZEBRA, un sistema HTM de política híbrida que adapta su comportamiento en función de las características dinámicas de la carga de trabajo. / This thesis focuses on the hardware mechanisms that provide optimistic concurrency control with guarantees of atomicity and isolation, with the intent of achieving high-performance across a variety of workloads, at a reasonable cost in terms of design complexity.
This thesis identifies key inefficiencies that impact the performance of several hardware implementations of TM, and proposes mechanisms to overcome such limitations. In this dissertation we consider both eager and lazy approaches to HTM system design, and address important sources of overhead that are inherent to each policy. This thesis presents a hybrid-policy, adaptable HTM system that combines the advantages of both eager and lazy approaches in a low complexity design.
Furthermore, this thesis investigates the overheads of the simpler, fixed-policy HTM designs that leverage a distributed directory-based coherence protocol to detect data races over a scalable interconnect, and develops solutions that address some performance degrading factors.
|
36 |
Efficient graph algorithm execution on data-parallel architecturesBangalore Lakshminarayana, Nagesh 12 January 2015 (has links)
Mechanisms for improving the execution efficiency of graph algorithms on Data-Parallel Architectures were proposed and identified. Execution of graph algorithms on GPGPU architectures, the prevalent data-parallel architectures was considered. Irregular and data dependent accesses in graph algorithms were found to cause significant idle cycles in GPGPU cores. A prefetching mechanism that reduced the amount of idle cycles by prefetching a data-dependent access pattern found in graph algorithms was proposed. Storing prefetches in unused spare registers in addition to storing them in the cache was shown to be more effective by the prefetching mechanism. The design of the cache hierarchy for graph algorithms was explored. First, an exclusive cache hierarchy was shown to be beneficial at the cost of increased traffic; a region based exclusive cache hierarchy was shown to be similar in performance to an exclusive cache hierarchy while reducing on-chip traffic. Second, bypassing cache blocks at both the level one and level two caches was shown to be beneficial. Third, the use of fine-grained memory accesses (or cache sub-blocking) was shown to be beneficial. The combination of cache bypassing and fine-grained memory accesses was shown to be more beneficial than applying the two mechanisms individually. Finally, the impact of different implementation strategies on algorithm performance was evaluated for the breadth first search algorithm using different input graphs and heuristics to identify the best performing implementation for a given input graph were also discussed.
|
37 |
Redução dos bits de emparelhamento da máquina de fluxo de dados de Manchester. / Reducing the bits of match of Manchester dataflow machine.Patrícia Magna 02 September 1992 (has links)
O modelo a fluxo de dados tem grande destaque em pesquisas em arquiteturas de alto desempenho. Neste modelo, o controle de execução é feito apenas pela disponibilidade dos dados, permitindo que seja explorado o máximo de paralelismo implícito em um programa. As propostas que serão expostas neste trabalho visam solucionar um particular problema da máquina de fluxo de dados de Manchester. Esta arquitetura para tratar código reentrante, impõe que as fichas de dados, além da indicação da instrução destino, possuam um rótulo. Estas informações extras, que formam 70% da ficha de dado, fazem com que a implantação da máquina seja complexa. Assim, o hardware impõe um sério limite a velocidade de processamento, impedindo a plena utilização do modelo. Neste trabalho, serão apresentadas propostas para a redução do número de informações necessárias para o correto funcionamento da máquina, possibilitando uma implementação mais simples e mais eficiente. / The dataflow model is specially relevant you research in high-performance architectures. In this model, the execution control is done by taking into account only the dates availability, thus allowing maximum exploitation of the paralelism implicit in programs. The present work is based on the Manchester dataflow machine, which, in to order you handle the reentran code, imposes the dates token you have, in addition you the destination instruction Field, albel. Additional This information, which corresponds you 70% of the dates token, compounds the machine implementation it substantially bounds the execution speed and prevents the full model utilization. This work presents approaches will be reducing the amount of information needed will be to proper machine operation in to order you achieve to simpler and lives effective implementation.
|
38 |
Proposta e simulação de uma arquitetura a fluxo de dados de segunda geração. / Proposal and simulation of data flow architecture of second generation.Patrícia Magna 04 March 1997 (has links)
Neste trabalho é apresentada a arquitetura SEED, proposta a partir das experiências adquiridas com as arquiteturas baseadas no modelo a fluxo de dados que foram estudadas até o presente. A arquitetura SEED utiliza o modelo a fluxo de dados para escalonar e executar blocos de instruções, visando aproveitar a principal qualidade apresentada pelo modelo, que consiste em expor o máximo de paralelismo existente nos programas. No entanto, a arquitetura explora paralelismo de granularidade mais grossa que as arquiteturas a fluxo de dados, a fim de reduzir o trafego de fichas de dados na arquitetura. Esta redução tenta resolver ou amenizar problemas como a excessiva ocupação de memória e a grande complexidade exigida do hardware. Além da especificação da funcionalidade de toda a arquitetura SEED, este trabalho apresenta uma proposta para o particionamento do código. A utilização desta proposta permite a geração de blocos de códigos que podem ser executados corretamente pela arquitetura SEED. Alguns benchmarks foram gerados utilizando essa proposta de particionamento de código. Estes benchmarks foram executados no simulador da arquitetura SEED, visando analisar e avaliar o comportamento da arquitetura com diversas configurações de hardware. / In this work is presented the SEED architecture. This architecture was proposed considering the experiences obtained with existing architectures based on dataflow model. The SEED architecture uses dataflow model to schedule and execute sets of instructions, called code blocks. This approach tries to make use of the main quality of the dataflow model that is to expose the maximum parallelism of the programs. However, this architecture explores coarser granularity than the one usually considered in dataflow architectures in order to reduce the data token traffic in the architecture. This type of reduction tries to solve problems like excessive occupation of memory and high complexity of the hardware. Besides the specification of all units that compose the SEED architecture, this work also proposes a way of partitioning programs, creating code blocks that may be executed by SEED architecture. Some benchmarks were generated using this proposal for partitioning programs. These benchmarks were executed in the SEED architecture simulator, in order to analyze the behavior of the proposed architecture under special configurations.
|
39 |
Parallelized element-by-element architecture for structural analysis of flexible pipes using finite macroelements. / Arquitetura paralela elemento-a-elemento para a análise estrutural de tubos flexíveis utilizando macroelementos finitos.Fernando Geremias Toni 27 April 2018 (has links)
Flexible pipes are used in the offshore oil production to transport fluid and gas from the sea bead to the floating stations, and vice versa. These pipes have several concentric layers, of different materials, geometries and structural functions, since they are exposed to adverse operating environments, subjected to high internal and external pressures, high axial stresses and a series of dynamic loads. The local analysis is an important stage of a flexible pipe design and it consists on determining the stresses and strains distributions along the layers of the pipe. Multipurpose finite element packages are commonly used in the local analysis of flexible pipes, but they possess many limitations due to its generic nature, varying from the absence of specific tools for model creation to heavy restrictions of the number of degrees-of-freedom to make computational processing feasible. At the Polytechnic School of the University of São Paulo, within a research line in progress, several finite macroelements were formulated specifically for structural analysis of flexible pipes, taking into account their particularities, such as geometric patterns and layers assemblage. However, the numerical tools that implement these elements present very high memory and processing consumptions, limiting its usage for large-scale models. Therefore, this work has been motivated by memory and processing limitations of finite element structural analysis of flexible pipes for offshore applications. In this context, the Element-by-Element method, which does not require the global stiffness matrix, was chosen for its potential in memory reduction and processing capabilities, given its scalability and ease of parallelization. After an extensive literature review on numerical methods regarding the EBE method, it was chosen the Element-by-Element Diagonal Preconditioned Conjugate Gradient Method (EBE-PCG) algorithm. Aiming higher computational performance, the finite macroelements formulated by (PROVASI, 2013) were converted to the C++ language, implemented and parallelized in a new analysis tool, named as PipeFEM. The diagonal preconditioned EBE-PCG algorithm was implemented and parallelized with OpenMP. The scalability of the PCG algorithm is directly influenced by the efficiency of the matrix-vector product, an operation that, in the element-by-element method, is computed in a local basis with the blocks that comprise the model, and that requires synchronization techniques when performed in parallel. Four different synchronization strategies were developed, being the one based on geometric- and mesh- based mappings the most efficient of them. Numerical experiments showed a reduction of almost 92% in the EBE-PCG solution time of the parallelized version in comparison to the sequential one. In order to compare the efficiency of PipeFEM with the well-established finite element package ANSYS, a simplified flexible pipe was modeled in both software. PipeFEM was approximately 82 times faster than ANSYS to solve the problem, spending 24.27 seconds against 33 minutes and 18 seconds. In addition to this, PipeFEM required much less memory, 61.8MB against 6.8GB in ANSYS. In comparison to the dense version of MacroFEM, a reduction of more than three orders of magnitude was achieved in memory consumption. Despite the low the rate of convergence presented by the diagonal preconditioner, the implementation is very efficient in computational terms. Therefore, the objectives of this work were fulfilled with the development and application of the EBE method, allowing a reduction of memory and simulation costs. / Tubos flexíveis são utilizados na produção offshore de petróleo para o transporte de fluidos e gás natural das estruturas submersas até as estações flutuantes, e vice-versa. Estes tubos possuem diversas camadas concêntricas, de diferentes materiais, geometrias e funções estruturais, pois são expostos a ambientes adversos de operação, nos quais são submetidos à elevadas pressões internas e externas, elevados carregamentos e tensões axiais, além de uma série de carregamentos dinâmicos. A análise local é uma etapa importante do dimensionamento de um tubo flexível e consiste em determinar as distribuições de tensões e deformações ao longo das camadas do tubo. Pacotes multiuso de elementos finitos são comumente utilizados na análise local de tubos flexíveis, mas, devido as suas naturezas genéricas, possuem limitações que variam desde a ausência de ferramentas específicas para a criação de modelos até restrições pesadas no número total de graus de liberdade para tornar exequível o processo computacional. Na Escola Politécnica da Universidade de São Paulo, dentro de uma linha de pesquisa em andamento, diversos macroelementos finitos foram formulados especificamente para a análise estrutural de tubos flexíveis, levando em consideração as suas particularidades, como por exemplo padrões de geometrias e de montagem de camadas. Entretanto, a ferramenta numérica que implementa esses elementos apresenta elevado consumo de memória e de processamento, o que limita o seu uso para modelos de grande escala. Portanto, este trabalho foi motivado por limitações de memória e processamento em análises estruturais com o método dos elementos finitos para tubos flexíveis de aplicações offshore. Neste contexto, o método elemento-a-elemento, caracterizado pela eliminação da matriz global de rigidez, foi escolhido devido ao seu potencial de redução de consumo de memória e às suas capacidades de processamento, dada a sua escalabilidade e facilidade de paralelização. Após uma extensa revisão bibliográfica em métodos numéricos a respeito do método EBE, foi escolhido a versão diagonalmente precondicionada do método do gradiente conjugado (EBE-PCG). Com o intuito de se obter maior performance computacional, os macroelementos finitos formulados por (PROVASI, 2013) foram convertidos para a linguagem C++, paralelizados e implementado em uma nova ferramenta de análise chamada de PipeFEM, totalmente escrita em C++ e que explora paralelismo em todos as etapas. O algoritmo EBE-PCG foi implementado e paralelizado com OpenMP. A escalabilidade do algoritmo PCG é diretamente influenciada pela eficiência do produto entre matriz e vetor, uma operação que no método elemento-a-elemento é calculada na base local com os blocos que compõem o modelo, o que requer técnicas de sincronização quando realizada de modo paralelo. Quatro diferentes estratégias de sincronização foram desenvolvidas, sendo a mais eficiente delas a que utilizada mapeamentos baseados em características da geometria e malha. Experimentos numéricos mostraram uma redução de quase 92% no tempo de simulação do algoritmo PCG da versão paralelizada em relação à sequencial. De modo a comparar a eficiência do PipeFEM com o pacote bem estabelecido de elementos finitos, ANSYS, um tubo simplificado foi modelado em ambos os programas. PipeFEM foi aproximadamente 82 vezes mais rápido do que o ANSYS, gastando 24.27 segundos contra 33 minutos e 18 segundos. Além disso, PipeFEM consumiu muito menos memória, 61.8MB contra 6.8GB in ANSYS. Em comparação com a versão densa do MacroFEM, uma redução superior a três ordens de grandeza no consum e de memória foi obtida. Assim, apesar da baixa taxa de convergência apresentada pelo precondicionador diagonal, a implementação está muito eficiente em termos computacionais. Portanto, os objetivos deste trabalho foram alcançados com o desenvolvimento e aplicação do método EBE, o que permitiu uma redução considerável dos custos de simulação e memória.
|
40 |
Multi-Architectural Support : A Generic and Generative Approach / Support multi-architectural : une approche générique et générativeEstérie, Pierre 20 June 2014 (has links)
Le besoin constant de puissance de calcul a poussé les développeurs à concevoir de nouvelles architectures: les architectures parallèles. Le calcul scientifique dépend fortement des performances de ces dernières afin de fournir des résultats dans un temps optimal. Les applications scientifiques exécutées sur de tels systèmes doivent alors tirer partie des spécificités de ces nouvelles architectures pour être efficaces.Cette thèse présente une nouvelle approche pour la conception de logiciels embarquant des optimisations relatives aux architectures : l'approche AADEMRAL (Architecture Aware DEMRAL). Cette méthodologie a pour but de simplifier le développement de bibliothèques de calcul parallèle avec un support multi-Architectural grâce à une approche générique et générative.Cette nouvelle méthodologie est ensuite intégrée dans trois bibliothèques. La première d'entre elles, Boost.Dispatch, permet de concevoir des logiciels basés sur l'approche AADEMRAL. Boost.Dispatch est une bibliothèque C++fournissant une interface générique pour réaliser de la surcharge de fonction avisée de l'architecture sous-Jacente. Ensuite nous présentons deux bibliothèques C++ implémentées en tant que langages orientés domaine : Boost.SIMD et NT2. Leurs conceptions mettent en œuvre la méthodologie AADEMRAL et leurs implémentations sont basées sur Boost.Dispatch. Boost.SIMD propose une interface de haut niveau pour la programmation des unités vectorielles.NT2 se base sur une interface similaire à celle de Matlab et fournie un support pour les systèmes multi-Cœurs et les unités vectorielles. Enfin, nous validons les performances de ces deux outils ainsi que la robustesse de notre nouvelle approche en présentant une série de résultats obtenus sur des applications de référence. / The constant increasing need for computing power has pushed the development of parallel architectures. Scientific computing relies on the performance of such architectures to produce scientific results. Programming efficient applications that takes advantage of these computing systems remains a non trivial task. In this thesis, we present a new methodology to design architecture aware software: the AA-DEMRAL methodology. This methodology aims at simplifying the development of parallel programming tools with multi-Architectural support through a generic and generative approach. We then present three high level programming tools that rely on this approach. First, we introduce the Boost.Dispatch library that provides a way to develop software based on the AA-DEMRAL methodology. The Boost.Dispatch library is a C++ generic framework for architecture aware function dispatching. Then, we present two C++ template libraries implemented as Architecture Aware DSELs which assess the AA-DEMRAL methodology through the use of Boost.Dispatch: Boost.SIMD, that provides a high level API for SIMD extensions and NT2 , which propose a Matlab like interface with support for multi-Core and SIMD based systems. We assess the performance of these libraries and the validity of our new methodology through benchmarks.
|
Page generated in 0.1142 seconds