• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 337
  • 21
  • 17
  • 6
  • 4
  • 4
  • 4
  • 4
  • 3
  • 1
  • 1
  • Tagged with
  • 384
  • 226
  • 191
  • 184
  • 96
  • 95
  • 68
  • 57
  • 54
  • 53
  • 46
  • 45
  • 42
  • 41
  • 39
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
181

Imersões PPMC em espaços hiperbólicos e imersões plurimínimas em espaços produto

Almeida, Kelly Alves Marães de, 92-99129-8546 30 June 2017 (has links)
Submitted by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2017-08-30T19:12:42Z No. of bitstreams: 1 Tese - Kelly A. m. Almeida.pdf: 1155345 bytes, checksum: dec9667081e7741da147db25d66d7fe2 (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2017-08-30T19:12:55Z (GMT) No. of bitstreams: 1 Tese - Kelly A. m. Almeida.pdf: 1155345 bytes, checksum: dec9667081e7741da147db25d66d7fe2 (MD5) / Made available in DSpace on 2017-08-30T19:12:55Z (GMT). No. of bitstreams: 1 Tese - Kelly A. m. Almeida.pdf: 1155345 bytes, checksum: dec9667081e7741da147db25d66d7fe2 (MD5) Previous issue date: 2017-06-30 / FAPEAM - Fundação de Amparo à Pesquisa do Estado do Amazonas / Let E"(c) be a space of constant sectional curvature c # 0. We prove that minimal or pluriminimal Kahler submanifolds in En(c) x JR are surfaces. For a pluriminimal immersed submanifold into CPn x R, there exists a dense open sub-set that it admits a foliation by holomorphics (or antiholomorphics) submanifolds of CPn . We investigate pluriminimal immersions of compact Kahler manifolds with first Chern class positive into CP" x R. In this case, it is holomorphic (an-tiholoforphic) in the first factor. In addition, for a half isotropic ppmc immersion of Kahler manifolds into hyperbolic space we have that either it is decomposable in Lorentz space, or it comes from ppmc immersion of Rn or it is immersion of surfa-ces with parallel mean curvature. We also prove that ppmc immersion of compact Kahler manifolds with positive first Chern class into hyperbolic space either it is decomposable in Lorentz space, or it comes from ppmc immersion of IR". Keywords: pluriminimal immersion, ppmc immersion, Kahler manifolds, pa-rallel plurimean curvature. / Neste trabalho provamos que variedades Kãhler imersas mínima ou pluriminimante no espaço produto E"(c) x IR, onde En(c) é um espaço de curvatura seccional constante c # O, são superfícies. Enquanto as imersas pluriminimamente em CP" x IR admitem um aberto denso folheado por subvariedades holomorfas ou antiholomorfas de CP". Além disso, para variedades Kãhler compactas com primeira classe de Chern positiva, provamos que as imersões pluríminimas em CP" x IR são holomorfas em CP". Estudamos também imersões ppmc semi-isotrópica de variedades Kãhler no espaço hiperbólico e concluímos que, ou elas são decomponíveis no espaço de Lorentz, ou são provenientes de imersões ppmc no Rn, ou são imersões de superfícies com curvatura média paralela. Como consequência, verificamos que imersões ppmc de variedades Kãhler com primeira classe de Chern positiva no espaço hiperbólico ou são decomponíveis no espaço de Lorentz, ou são provenientes de imersões ppmc no Rn.
182

AvaliaÃÃo de Desempenho de uma Plataforma de Componentes Paralelos / Performance Evaluation of a Platform for Component-Based Parallel Programming

Cenez AraÃjo de Rezende 07 October 2011 (has links)
FundaÃÃo de Amparo à Pesquisa do Estado do Cearà / Reduzir a complexidade do software e permitir o desenvolvimento em larga escala de aplicaÃÃes voltados à ComputaÃÃo de Alto Desempenho (CAD) tem exigido o desenvolvimento de ferramentas com potencial capacidade de abstraÃÃo na construÃÃo de sistemas. As tecnologias que envolvem o desenvolvimento de componentes procuram alcanÃar esses requisitos, buscando oferecer suporte a reuso, interoperabilidade, produtividade e maior flexibilidade de manutenÃÃo e desenvolvimento de aplicaÃÃes de alto desempenho. No entanto, conciliar alto poder de abstraÃÃo com alto poder de expressividade na construÃÃo de componentes de aplicaÃÃes nÃo à algo trivial, o que as atuais tecnologias nÃo tÃm conseguido solucionar, uma vez que adotam as tradicionais formas de paralelismo por processos. Diante disso, a plataforma HPE (Hash Programming Environment), baseada no modelo de componentes Hash, tem buscado suportar formas mais gerais de paralelismo, conciliando expressividade com alto poder de abstraÃÃo, uma vez que o modelo Hash à baseado em interesses de software e nÃo em processo, como à feito tradicionalmente. Nesse contexto, esta dissertaÃÃo busca explorar os recursos do HPE, certificando-se de sua viabilidade no contexto de aplicaÃÃes de alto desempenho e validando suas tÃcnicas de programaÃÃo paralela baseadas em componentes. Isso tem resultado em um processo de construÃÃo de aplicaÃÃes cientÃficas sob a abordagem de componentes, tendo como base o conjunto de aplicativos NPB (Nas Parallel Benchmarks), o qual passa por um processo rigoroso de conversÃo para ser suportado pelo HPE. No processo de conversÃo e refatoraÃÃo em componentes, busca-se conservar as estruturas originais do NPB, sem alteraÃÃes significativas nos cÃdigos que declaram e inicializam as estruturas de dados, bem como os que descrevem computaÃÃes, topologia de processos e comunicaÃÃo entre os processos. Para validaÃÃo da plataforma, uma avaliaÃÃo sistemÃtica de desempenho à feita, tendo como princÃpio isolar e mensurar o peso ou o efeito da refatoraÃÃo do NPB em componentes do modelo Hash. / In order to deal with programming-in-the-large requirements in emerging applications of High Performance Computing (HPC), it is still necessary the development of new software development tools for reconciling high level of abstraction, expressiveness and high performance. The technologies behind CBHPC (Component-Based High Performance Computing) target these requirements, looking for reuse of software parts, interoperability across execution platforms, high development productivity and easy maintenance. However, to reconcile high level of abstraction, high performance and high expressiveness for parallel programming models and patterns when building HPC applications is not trivial. For this reason, most of the current technologies fail in this context, since they adopt the traditional process-oriented perspective in the architecture of parallel programs. The HPE platform (Hash Programming Environment) sits on top of the Hash component model to support general forms of parallelism, by combining high expressiveness with high level of abstraction. The Hash component model proposes a concern-oriented perspective to parallel programming, in alternative to the traditional process-oriented approach. In this context, this dissertation is about the efficacy and efficiency of HPE for HPC applications, also validating some of its parallel programming techniques based on components. For that, a set of programs from NPB (NAS Parallel Benchmarks), a widely disseminated collection of benchmarks for evaluating the performance of parallel computing platforms, written in Fortran, C and Java, have been refactored into components aimed at the HPE platform. In such refactoring, the original structure of the benchmarks has been preserved, with minimal changes in the code that declare and initialize data structures, as well as those that describe computations and communication patterns. Using the component-based versions of the benchmarks, a systematic performance evaluation has been performed for quantifying the overheads caused strictly by the component-based structure.
183

Resoluções do problema do caixeiro viajante aplicando algoritmos de aproximação, randomização e heurísticas da inteligência artificial com computação paralela

Galuppo, Fabio Razzo 19 February 2014 (has links)
Submitted by Rosa Assis (rosa_assis@yahoo.com.br) on 2017-08-07T18:49:46Z No. of bitstreams: 2 Fabio Razzo Galuppo.pdf: 3338860 bytes, checksum: d84e913fc4ebb0c6ca47cc250287a998 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Paola Damato (repositorio@mackenzie.br) on 2017-09-25T15:24:35Z (GMT) No. of bitstreams: 2 Fabio Razzo Galuppo.pdf: 3338860 bytes, checksum: d84e913fc4ebb0c6ca47cc250287a998 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2017-09-25T15:24:35Z (GMT). No. of bitstreams: 2 Fabio Razzo Galuppo.pdf: 3338860 bytes, checksum: d84e913fc4ebb0c6ca47cc250287a998 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Previous issue date: 2014-02-19 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / This work has as its essence the application of techniques collectively called parallel metaheuristic in the context of a Travelling Salesman Problem (TSP), one of the most important problems in combinatorial optimization. The approach of this work contains a compositional proposal that allows the creation of pipelines to address the problem. These techniques extracted from the Parallel Computing associated with the search algorithms of Arti cial Intelligence allow great opportunities for exploring the state space of the problem in question. Using the proposed combinations, good solutions or even optimal solutions will emerge within a satisfactory processing time, allowing its application in real-world problems. It is essential to revisit the existing solutions and provide the best alternatives for the industry to solve the TSP using contemporary computing capabilities and varieties of available equipments. In this work, are included the implementation, analysis and measurement algorithms applied to the referenced context. / Esta obra tem como essência a aplicação das ténicas denominadas coletivamente de metaheurí stica paralela no contexto do Problema do Caixeiro Viajante (PCV), um dos problemas de otimização combinatória mais importantes. A abordagem desta obra contém uma proposta composicional que permite a criação de pipelines para endereçar o problema. Estas técnicas extraídas da Computação Paralela associadas aos algoritmos de busca da Inteligência Arti cial possibilitam grandes oportunidades para a exploração do espaço de estados do problema em questão. Usando as combinações propostas, boas soluções ou, até mesmo ótimas soluções, emergirão dentro de um tempo de processamento satisfató rio, possibilitando suas aplicações na resolução de problemas reais semelhantes. É fundamental revisitar as soluções existentes e fornecer para a indústria as melhores opções para resolução do PCV utilizando as capacidades computacionais contemporâneas e as variedades de equipamentos disponíveis. Nesta obra, estão incluídos a implementação, a análise e a medição de algoritmos aplicados ao contexto referenciado.
184

Influência do comportamento estrutural no erro de posicionamento de uma máquina de cinemática paralela. / Influence of the structural behavior in the error of positioning of a parallel kinematic machine.

João Gustavo Hermanson Rosa 25 July 2007 (has links)
Apesar do esforço despendido pelas comunidades acadêmica e industrial (artigos, patentes e protótipos de laboratório), as Máquinas de Cinemática Paralela - MCPs - ainda apresentam uma participação inexpressiva no mercado de máquinasferramentas e robôs. Uma das razões para este fato são os seus baixos índices de acurácia e repetibilidade, em comparação aos das máquinas de usinagem convencionais. Este trabalho apresenta a avaliação dos mapeamentos de flexibilidade e da 1ª freqüência natural sobre o posicionamento da peça de trabalho e direções preferenciais de usinagem, dentro do espaço de trabalho disponível de uma máquina-ferramenta de cinemática paralela. Atualmente esta análise tem sido realizada em máquinas de cinemática paralela utilizando-se do princípio dos trabalhos virtuais ou parcialmente envolvendo este método e o método dos elementos finitos com a superposição linear dos resultados de ambos. Este trabalho apresenta análise de flexibilidade, utilizando apenas o método dos elementos finitos, aplicada a uma arquitetura paralela do tipo 2PRS+2PUS, com 4 graus de liberdade (duas translações - Y e Z - e duas rotações - \'teta\'x e \'teta\'YG), denominada Tetraglide. Em todas as análises feitas o grau de liberdade \'teta\'YG foi mantido constante, \'teta\'YG = 0°. Desta forma todas as análises ocorreram sobre o plano YZ. A partir dessa análise de flexibilidade são avaliadas as cargas axiais nas barras, que unem os atuadores à plataforma móvel ao longo do espaço de trabalho, determinando-se onde ocorre flambagem. Após isto, ainda com o método dos elementos finitos, obtém-se a 1ª freqüência natural ao longo de cada espaço de trabalho com orientação constante, uma vez que o conhecimento desta freqüência é fator importante na avaliação do comportamento estrutural dinâmico de máquinas-ferramentas. Após estas análises, analisam-se parâmetros estruturais em análises de sensibilidade visando maximizar a menor 1ª freqüência natural observada em cada espaço de trabalho com orientação constante. / In spite of the effort spent by the academic and industrial communities (goods, patents and laboratory prototypes), the Parallel Kinematics Machines - PKMs - they still present an inexpressive participation in the market of machine-tools and robots. One of the reasons for this fact is their low indexes of accuracy and precision, in comparison with the machines of conventional milling. This work presents the evaluation of the compliance mapping (kinetostatic analysis) and natural frequency about the positioning of the work piece and milling preferential directions, inside the available workspace of a parallel kinematics machine tool. At present this analysis has been accomplished in parallel kinematics machine using the virtual work principle or partially involving this method and the finite element method, with the overlap of the results of both. This work presents a compliance analysis just using the finite element method in parallel kinematics machine of type 2PRS+2PUS with 4 degrees of freedom (two moves - Y and Z - and two rotations - \'teta\'x e \'teta\'YG), denominated Tetraglide. In all of the done analyses the degree of freedom \'teta\'YG was maintained constant, \'teta\'YG = 0°. This way all of the analyses occurred on the plan YZ. Starting from the compliance analysis the axial loads are evaluated in the bars, which connect the actuators to the movable platform along the workspace, determining where the buckling occurs. After this, with the finite element method, 1st natural frequency is obtained along each constant-orientation workspace, once the knowledge of this frequency is important factor in the evaluation of the dynamic structural behavior of machine-tools. After these analyses, structural parameters are analyzed in sensibility analyses seeking to maximize to smallest 1st natural frequency observed in each constant-orientation workspace.
185

Estudo de técnicas de paralelização de métodos computacionais de fatoração de matrizes esparsas aplicados à redes bayesianas e redes credais / Study of parallelization techniques of computational methods for sparse matrix factorization applied to Bayesian and credal networks

Viviane Teles de Lucca Maranhão 19 August 2013 (has links)
Neste trabalho demos continuidade ao estudo desenvolvido por Colla (2007) que utilizou-se do arcabouço de álgebra linear com técnicas de fatoração de matrizes esparsas aplicadas à inferência em redes Bayesianas. Com isso, a biblioteca computacional resultante possui uma separação clara entre a fase simbólica e numérica da inferência, o que permite aproveitar os resultados obtidos na primeira etapa para variar apenas os valores numéricos. Aplicamos técnicas de paralelização para melhorar o desempenho computacional, adicionamos inferência para Redes Credais e novos algoritmos para inferência em Redes Bayesianas para melhor eciência dependendo da estrutura do grafo relacionado à rede e buscamos tornar ainda mais independentes as etapas simbólica e numérica. / In this work we continued the study by Colla (2007), who used the framework of linear algebra techniques with sparse matrix factorization applied to inference in Bayesian networks. Thus, the resulting computational library has a clear separation between the symbolic and numerical phase of inference, which allows you to use the results obtained in the rst step to vary only numeric values. We applied parallelization techniques to improve computational performance, we add inference to Credal Networks and new algorithms for inference in Bayesian networks for better eciency depending on the structure of the graph related to network and seek to become more independent symbolic and numerical steps.
186

Sobre a escolha da relaxação e ordenação das projeções no método de Kaczmarz com ênfase em implementações altamente paralelas e aplicações em reconstrução tomográfica / On the choice of relaxation and ordering of projections in Kaczmarz method with emphasis on highly prallel implementations and applications in tomographic reconstruction

Leonardo Bravo Estácio 16 May 2014 (has links)
O método de Kaczmarz é um algoritmo iterativo que soluciona sistemas lineares do tipo Ax = b através de projeções sobre hiperplanos bastante usado em aplicações que envolvem a Tomografia Computadorizada. Recentemente voltou a ser destaque após a publicação de uma versão aleatória apresentada por Strohmer e Vershynin em 2009 a qual foi provada possuir taxa de convergência esperada exponencial. Posteriormente, Eldar e Needell em 2011 sugeriram uma versão modificada do algoritmo de Strohmer e Vershynin, na qual a cada iteração é selecionada a projeção ótima a partir de um conjunto aleatório, utilizando para isto o lema de Johnson-Lindenstrauss. Nenhum dos artigos mencionados apresenta uma técnica para a escolha do parâmetro de relaxação, entretanto, a seleção apropriada deste parâmetro pode ter uma influência substancial na velocidade do método. Neste trabalho apresentamos uma metodologia para a escolha do parâmetro de relaxação, bem como implementações paralelas do algoritmo de Kaczmarz utilizando as ideias de Eldar e Needell. Nossa metodologia para seleção do parâmetro utiliza uma nova generalização dos resultados de Strohmer e Vershynin que agora leva em consideração o parâmetro λ de relaxação e, a partir daí, obtemos uma estimativa da taxa de convergência como função de λ. Escolhemos então, para uso no algoritmo, aquele que otimiza esta estimativa. A paralelização dos métodos foi realizada através da plataforma CUDA e se mostrou muito promissora, pois conseguimos, através dela, um ganho significativo na velocidade de convergência / The Kaczmarz method is an iterative algorithm for finding the solution of a system of linear equations Ax = b by projecting onto the hyperplanes widely used in applications involving Computerized Tomography. It has been recently highlighted after the publication of a random version presented by Strohmer and Vershynin in 2009 that yields probably exponential convergence in expectation. Thereafter, Eldar and Needell in 2011 suggested a modified version of Strohmer and Vershynin algorithm, which at each iteration selects the optimal projection from a random set making use of the Johnson-Lindenstrauss lemma. None of the mentioned articles presents a technique for choosing the relaxation parameter, however, the proper selection of this parameter can achieve a substantial gain on the speed of the method. In this project we present a methodology for finding the relaxation parameter, as well as parallel implementations of Kacmarzs Algorithm using the ideas of Eldar and Needell. Our methodology for parameter selection uses a new generalization on Strohmer and Vershynins results which now regards the relaxation parameter λ. Thenceforward, we obtain an estimate of the convergence rate as a function of λ. Then we use this estimate in the algorithm the optimizer of this estimate. The parallelization of the methods has been implemented through the CUDA platform and appears to be very promising, since it delivers substantial gain in the convergence speed
187

Paralelização de um modelo global de previsão do tempo em malhas localmente refinadas / Parallelization of a numerical weather prediction global model with local refinement grids

Nelson Leonardo Vidaurre Navarrete 31 October 2014 (has links)
O objetivo principal deste trabalho é a paralelização de um modelo global de previsão do tempo em diferenças finitas com refinamento local. Este é baseado nas equações primitivas, e faz uso de uma discretização semi-Lagrangiana e semi-implícita em três níveis no tempo em uma malha de Lorenz na vertical e uma malha do tipo C de Arakawa na horizontal. A discretização horizontal é feita através de diferenças finitas de segunda ordem. A equação escalar elíptica tridimensional resultante é desacoplada em um sistema de equações bidimensionais do tipo Helmholtz, o qual é resolvido por meio de um método multigrid. O modelo de paralelização foi desenvolvido para máquinas com memória distribuída, fazendo uso de MPI para passagens de mensagens e baseado em técnicas de decomposição de domínio. O acoplamento apenas local dos operadores de diferenças finitas viabiliza a decomposição em duas direções horizontais. Evitamos a decomposição vertical, tendo em vista o forte acoplamento nesta direção das parametrizações de fenômenos físicos. A estratégia de paralelização foi elaborada visando o uso eficiente de centenas ou alguns milhares de processadores, dependendo da resolução do modelo. Para tal, a malha localmente refinada é separada em três regiões: uma grossa, uma de transição e uma fina, onde cada uma delas é dividida de forma independente entre um número de processadores proporcional ao número de pontos que cada uma armazena, garantindo assim um balanceamento de carga adequado. Não obstante, para resolver o sistema de equações bidimensionais do tipo Helmholtz foi necessário mudar a estratégia de paralelização, dividindo o domínio unicamente nas direções vertical e latitudinal. Ambas partes do modelo com paralelizações diferentes estão conectadas por meio da estratégia de transposição de dados. Testamos nosso modelo utilizando até 1024 processadores e os resultados ainda mostraram uma boa escalabilidade. / The main goal of this work is the parallelization of a weather prediction model employing finite differences on locally refined meshes. The model is based on the primitive equations and uses a three-time-level semi-implicit semi-Lagrangian temporal discretization on a Lorenz-type vertical grid combined with a horizontal Arakawa C-grid. The horizontal discretization is performed by means of second order finite differences. The resulting three-dimensional scalar elliptic equation is decoupled into a set of Helmholtz-type two-dimensional equations, solved by a multigrid method. The parallelization has been written for distributed-memory machines, employing the MPI message passing standard and was based on domain decomposition techniques. The local coupling of the finite difference operators was exploited in a two-dimensional horizontal decomposition. We avoid a vertical decomposition due to the strong coupling of physical parameterization routines. The parallelization strategy has been designed in order to allow the efficient use of hundreds to a few thousand processors, depending on the model resolution. In order to achieve this, the locally refined mesh is split into three regions: a coarse, a transition and a fine one, each decomposed independently. The number of allocated processors for each region is proportional to the number of the grid-points it contains, in order to guarantee a good load-balancing distribution. However, to solve the set of Helmholtz-type bidimensional equations it was necessary to change the parallelization strategy, splitting the domain only in vertical and latitudinal directions. Both parts of the model with different parallelizations are related by means the data transposition strategy. We tested our model using up to 1024 processors and the results still showed a good scalability.
188

Uma arquitetura sistólica para solução de sistemas lineares implementada com circuitos FPGAs. / A systolic architecture to solving linear systems implemented with FPGAs devices.

Antônio Carlos de Oliveira Souza Aragão 17 December 1998 (has links)
Neste trabalho de mestrado foi desenvolvido o projeto de uma máquina paralela dedicada para solução de sistemas de equações lineares. Este é um problema presente em uma grande variedade de aplicações científicas e de engenharia e cuja solução torna-se uma tarefa computacionalmente intensiva , a medida em que o número de incógnitas aumenta. Implementou-se uma Arquitetura Sistólica unidimensional, conectada numa topologia em anel, que mapeia métodos de solução iterativos. Essa classe de arquiteturas paralelas apresenta características de simplicidade, regularidade e modularidade que facilitam implementações em hardware, sendo muito utilizadas em sistemas de computação dedicados à solução de problemas específicos, que possuem como características básicas a grande demanda computacional e a necessidade de respostas em tempo real. Foram adotadas metodologias e ferramentas avançadas para projeto de hardware que aceleram o ciclo de desenvolvimento e para a implementação foram utilizados circuitos reconfiguráveis FPGAs (Field Programmable Gate Arrays). Os resultados de desempenho são apresentados e avaliados apontado a melhor configuração da arquitetura para atingir um speedup em relação a implementações em máquinas seqüenciais. Também são discutidas as vantagens e desvantagens deste tipo de abordagem e metodologia na solução de problemas que possuem requisitos de tempo. / This dissertation presents the project of a parallel machine dedicated for solving linear systems. This is a problem that appears in a great variety of scientific and engineering applications with a solution that becomes a computationally intensive task, measured by the increasing number of unknown variables. An Systolic Architecture was implemented, connected in a ring topology, mapping an iterative solution method. This class of parallel architectures presents characteristics of simplicity, regularity and modularity that facilitate hardware implementations, being very used in dedicated computation systems to the solution of specific problems, which possess as requirements to handle great computational demand and real-time response. Advanced methodologies and tools for hardware project were adopted to accelerate the development cycle. The architecture has been implemented and verified on FPGAs (Field Programmable Gate Arrays). The performance results are presented and discussed, indicating the feasibility and efficiency of the adopted approach and methodology for this kind of problem.
189

Computação paralela em cluster de GPU aplicado a problema da engenharia nuclear

MORAES, Sérgio Ricardo dos Santos 04 1900 (has links)
Submitted by Almir Azevedo (barbio1313@gmail.com) on 2013-12-09T12:17:20Z No. of bitstreams: 1 dissertacao_mestrado_ien_2012_01.pdf: 1805099 bytes, checksum: c22681117de84a4db428c8b495af3eab (MD5) / Made available in DSpace on 2013-12-09T12:17:20Z (GMT). No. of bitstreams: 1 dissertacao_mestrado_ien_2012_01.pdf: 1805099 bytes, checksum: c22681117de84a4db428c8b495af3eab (MD5) Previous issue date: 2012 / A computação em cluster tem sido amplamente utilizada como uma alternativa de relativo baixo custo para processamento paralelo em aplicações científicas. Com a utilização do padrão de interface de troca de mensagens (MPI, do inglês Message-Passing Interface), o desenvolvimento tornou-se ainda mais acessível e difundido na comunidade científica. Uma tendência mais recente é a utilização de Unidades de Processamento Gráfico (GPU, do inglês Graphic Processing Unit), que são poderosos coprocessadores capazes de realizar centenas de instruções ao mesmo tempo, podendo chegar a uma capacidade de processamento centenas de vezes a de uma CPU. Entretanto, um microcomputador convencional não abriga, em geral, mais de duas GPUs. Portanto, propõe-se neste trabalho o desenvolvimento e avaliação de uma abordagem paralela híbrida de baixo custo na solução de um problema típico da engenharia nuclear. A ideia é utilizar a tecnologia de paralelismo em clusters (MPI) em conjunto com a de programação de GPUs (CUDA, do inglês Compute Unified Device Architecture) no desenvolvimento de um sistema para simulação do transporte de nêutrons, através de uma blindagem por meio do Método Monte Carlo. Utilizando a estrutura física de cluster composto de quatro computadores com processadores quad-core e 2 GPUs cada, foram desenvolvidos programas utilizando as tecnologias MPI e CUDA. Experimentos empregando diversas configurações, desde 1 até 8 GPUs, foram executados e comparados entre si, bem como com o programa sequencial (não paralelo). Observou-se uma redução do tempo de processamento da ordem de 2.000 vezes quando se comparada a versão paralela de 8 GPUs com a versão sequencial. Os resultados aqui apresentados são discutidos e analisados com o objetivo de destacar ganhos e possíveis limitações da abordagem proposta. / Cluster computing has been widely used as a low cost alternative for parallel processing in scientific applications. With the use of Message-Passing Interface (MPI) protocol development became even more accessible and widespread in the scientific community. A more recent trend is the use of Graphic Processing Unit (GPU), which is a powerful co-processor able to perform hundreds of instructions in parallel, reaching a capacity of hundreds of times the processing of a CPU. However, a standard PC does not allow, in general, more than two GPUs. Hence, it is proposed in this work development and evaluation of a hybrid low cost parallel approach to the solution to a nuclear engineering typical problem. The idea is to use clusters parallelism technology (MPI) together with GPU programming techniques (CUDA – Compute Unified Device Architeture) to simulate neutron transport through a slab using Monte Carlo method. By using a cluster comprised by four quad-core computers with 2 GPU each, it has been developed programs using MPI and CUDA technologies. Experiments, applying different configurations, from 1 to 8 GPUs has been performed and results were compared with the sequential (non-parallel) version. A speed up of about 2.000 times has been observed when comparing the 8- GPU with the sequential version. Results here presented are discussed and analysed with the objective of outlining gains and possible limitations of the proposed approah.
190

Implementação paralela do metodo de resolução frontal de sistemas de equações

Longhin, Gustavo Camargo 13 September 2001 (has links)
Orientador: Philippe Remy Bernard Devloo / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Civil / Made available in DSpace on 2018-08-02T02:48:48Z (GMT). No. of bitstreams: 1 Longhin_GustavoCamargo_M.pdf: 6501443 bytes, checksum: c3b310f91b0c026c56f80bf6bc4c6fba (MD5) Previous issue date: 2001 / Resumo: Para obtenção da solução do sistema de equações, geralmente elabora-se um código que armazena a matriz dos coeficientes na memória RAM. Em seguida inicia-se o processo de decomposição desta matriz. A matriz é formada pela contribuição de cada elemento do domínio aos graus de liberdade do problema. Quanto maior o problema, maior o tamanho desta matriz e consequentemente mais memória RAM será necessária para seu armazenamento. Portanto, um procedimento de montagem anterior à decomposição pode ser inviabilizado devido ao tamanho da matriz. Com esta motivação, Bruce Irons desenvolve no início da década de 70, um método de resolução que não exige uma montagem inicial da matriz de rigidez global de equações. Neste método é definida uma estrutura onde uma equação totalmente adicionada é imediatamente decomposta e armazenada num dispositivo independente. A matriz que recebe as equações totalmente adicionadas é denominada matriz frontal e com isso o método também é denominado método frontal. Sobre a estrutura frontal são aplicadas técnicas de optimização por paralelismo. São utilizados equipamentos com memória compartilhada e portanto, utilizão-se as bibliotecas oriundas da especificação posix (pthread no ambiente GNU & Linux) para desenvolvimento multi-threading. São apresentados resultados comparando o método frontal com outros métodos bem como as comparações entre os métodos seriais e os paralelos. Aplica-se um tratamento orientado a objetos para desenvolvimento dos solvers. Nota-se com a orientação a objetos um excelente grau de modularidade, documentação, extendibilidade e manutenção no código elaborado. A utilização de UML (Unified Modeling Language) é também de grande valia no desenvolvimento/planejamento do projeto / Abstract: Obtaining the solution of a system of linear equations, generally results in a code elaboration which stores the matrix coeficients in the RAM memory and afterwards, some decomposition processes starts. The matrix is assembled summing up the contributions of each element from the domain to the problem's degrees of freedom. The bigger the problem, the larger the assembled matrix, therefore a higher requirement regarding the RAM memory capacity. From this, a procedure which does not assemble the matrix of coeficients prior to its decomposition would be more interesting. With that motivation, Bruce Irons developed in the beggining of the seventies a procedure which does not require an initial assembly of the global stiffness matrix. In this method a structure is defined where a totally added equation is immediatelly decomposed and the decomposition results are stored in an independent storage device. The matrix which receives the equations contribution was called frontal matrix and so was the method. On that frontal structure parallel optimization techniques are applied. Shared memory equipments are the hardware basis for the implementation and accordingly, public domain multithreading libraries based on the posix specification are used (pthread under GNU & Linux) for the multi-threading development. Results are shown comparing standart methods against the frontal solver as well as serial codes against parallel ones. Object oriented techniques are applied for the solvers development and planning. As a result, excelent degrees of modularity, extendibiIity, documentation and management are observed. The Unified Modelling Language (UML) utilization as a helpping tool for object oriented development was also very important / Mestrado / Estruturas / Mestre em Engenharia Civil

Page generated in 0.0581 seconds