Global ETD Search

1	Co-designing Communication Middleware and Deep Learning Frameworks for High-Performance DNN Training on HPC Systems Awan, Ammar Ahmad 10 September 2020 (has links) No description available. Computer Science Artificial Intelligence Data Parallelism Model Parallelism Hybrid Parallelism Keras Caffe TensorFlow PyTorch, MPI, Eager Execution Deep Learning Scalable DNN Training MVAPICH2-GDR CUDA-Aware MPI
2	Méthode de décomposition de domaine avec parallélisme hybride et accélération non linéaire pour la résolution de l'équation du transport Sn en géométrie non-structurée / Domain decomposition method using a hybrid parallelism and a low-order acceleration for solving the Sn transport equation on unstructured geometry Odry, Nans 07 October 2016 (has links) Les schémas de calcul déterministes permettent une modélisation à moindre coût du comportement de la population de neutrons en réacteur, mais sont traditionnellement construits sur des approximations (décomposition réseau/cœur, homogénéisation spatiale et énergétique…). La thèse revient sur une partie de ces sources d’erreur, de façon à rapprocher la méthode déterministe d’un schéma de référence. L’objectif est de profiter des architectures informatiques modernes (HPC) pour résoudre le problème neutronique à l’échelle du cœur 3D, tout en préservant l’opérateur de transport et une partie des hétérogénéités de la géométrie. Ce travail est réalisé au sein du solveur cœur Sn Minaret de la plateforme de calcul Apollo3® pour des réacteurs à neutrons rapides.Une méthode de décomposition de domaine en espace, est retenue. L'idée consiste à décomposer un problème de grande dimension en sous-problèmes "indépendants" de taille réduite. La convergence vers la solution globale est assurée par échange de flux angulaires entre sous-domaines au cours d'un processus itératif. En favorisant un recours massif au parallélisme, les méthodes de décomposition de domaine contribuent à lever les contraintes en mémoire et temps de calcul. La mise en place d'un parallélisme hybride, couplant les technologies MPI et OpenMP, est en particulier propice au passage sur supercalculateur. Une méthode d'accélération de type Coarse Mesh Rebalance est ajoutée pour pallier à la pénalité de convergence constatée sur la méthode de décomposition de domaine. Le potentiel du nouveau schéma est finalement mis en évidence sur un coeur CFV 3D, construit en préservant l'hétérogénéité des assemblages absorbants. / Deterministic calculation schemes are devised to numerically solve the neutron transport equation in nuclear reactors. Dealing with core-sized problems is very challenging for computers, so much that the dedicated core codes have no choice but to allow simplifying assumptions (assembly- then core-scale steps…). The PhD work aims to correct some of these ‘standard’ approximations, in order to get closer of reference calculations: thanks to important increases in calculation capacities (HPC), nowadays one can solve 3D core-sized problems, using both high mesh refinement and the transport operator. Developments were performed inside the Sn core solver Minaret, from the new CEA neutronics platform Apollo3® for fast neutrons reactors of the CFV-kind.This work focuses on a Domain Decomposition Method in space. The fundamental idea involves splitting a core-sized problem into smaller and 'independent' subproblems. Angular flux is exchanged between adjacent subdomains. In doing so, all combined subproblems converge to the global solution at the outcome of an iterative process. Domain decomposition is well-suited to massive parallelism, allowing much more ambitious computations in terms of both memory requirements and calculation time. An hybrid MPI/OpenMP parallelism is chosen to match the supercomputers architecture. A Coarse Mesh Rebalance accelration technique is added to balance the convergence penalty observed using Domain Decomposition. The potential of the new calculation scheme is demonstrated on a 3D core of the CFV-kind, using an heterogeneous description of the absorbent rods. Equation du transport des neutrons Schémas déterministes Apollo3 Méthode de Décomposition de Domaine Parallélisme hybride MPI/OpenMP Méthode d'accélération Coarse Mesh Rebalance Neutron transport equation Deterministic schemes Apollo3 Domain Decomposition Method Hybrid parallelism MPI/OpenMP Acceleration technique Coarse Mesh Rebalance 530
3	Amélioration des méthodes de calcul de cœurs de réacteurs nucléaires dans APOLLO3 : décomposition de domaine en théorie du transport pour des géométries 2D et 3D avec une accélération non linéaire par la diffusion / Contribution to the development of methods for nuclear reactor core calculations with APOLLO3 code : domain decomposition in transport theory for 2D and 3D geometries with nonlinear diffusion acceleration Lenain, Roland 15 September 2015 (has links) Ce travail de thèse est consacré à la mise en œuvre d’une méthode de décomposition de domaine appliquée à l’équation du transport. L’objectif de ce travail est l’accès à des solutions déterministes haute-fidélité permettant de correctement traiter les hétérogénéités des réacteurs nucléaires, pour des problèmes dont la taille varie d’un motif d’assemblage en 3 dimensions jusqu’à celle d’un grand cœur complet en 3D. L’algorithme novateur développé au cours de la thèse vise à optimiser l’utilisation du parallélisme et celle de la mémoire. La démarche adoptée a aussi pour but la diminution de l’influence de l’implémentation parallèle sur les performances. Ces objectifs répondent aux besoins du projet APOLLO3, développé au CEA et soutenu par EDF et AREVA, qui se doit d’être un code portable (pas d’optimisation sur une architecture particulière) permettant de réaliser des modélisations haute-fidélité (best estimate) avec des ressources allant des machines de bureau aux calculateurs disponibles dans les laboratoires d’études. L’algorithme que nous proposons est un algorithme de Jacobi Parallèle par Bloc Multigroupe. Chaque sous domaine est un problème multigroupe à sources fixes ayant des sources volumiques (fission) et surfaciques (données par les flux d’interface entre les sous domaines). Le problème multigroupe est résolu dans chaque sous domaine et une seule communication des flux d’interface est requise par itération de puissance. Le rayon spectral de l’algorithme de résolution est rendu comparable à celui de l’algorithme de résolution classique grâce à une méthode d’accélération non linéaire par la diffusion bien connue nommée Coarse Mesh Finite Difference. De cette manière une scalabilité idéale est atteignable lors de la parallélisation. L’organisation de la mémoire, tirant parti du parallélisme à mémoire partagée, permet d’optimiser les ressources en évitant les copies de données redondantes entre les sous domaines. Les architectures de calcul à mémoire distribuée sont rendues accessibles par un parallélisme hybride qui combine le parallélisme à mémoire partagée et à mémoire distribuée. Pour des problèmes de grande taille, ces architectures permettent d’accéder à un plus grand nombre de processeurs et à la quantité de mémoire nécessaire aux modélisations haute-fidélité. Ainsi, nous avons réalisé plusieurs exercices de modélisation afin de démontrer le potentiel de la réalisation : calcul de cœur et de motifs d’assemblages en 2D et 3D prenant en compte les contraintes de discrétisation spatiales et énergétiques attendues. / This thesis is devoted to the implementation of a domain decomposition method applied to the neutron transport equation. The objective of this work is to access high-fidelity deterministic solutions to properly handle heterogeneities located in nuclear reactor cores, for problems’ size ranging from colorsets of assemblies to large reactor cores configurations in 2D and 3D. The innovative algorithm developed during the thesis intends to optimize the use of parallelism and memory. The approach also aims to minimize the influence of the parallel implementation on the performances. These goals match the needs of APOLLO3 project, developed at CEA and supported by EDF and AREVA, which must be a portable code (no optimization on a specific architecture) in order to achieve best estimate modeling with resources ranging from personal computer to compute cluster available for engineers analyses. The proposed algorithm is a Parallel Multigroup-Block Jacobi one. Each subdomain is considered as a multi-group fixed-source problem with volume-sources (fission) and surface-sources (interface flux between the subdomains). The multi-group problem is solved in each subdomain and a single communication of the interface flux is required at each power iteration. The spectral radius of the resolution algorithm is made similar to the one of a classical resolution algorithm with a nonlinear diffusion acceleration method: the well-known Coarse Mesh Finite Difference. In this way an ideal scalability is achievable when the calculation is parallelized. The memory organization, taking advantage of shared memory parallelism, optimizes the resources by avoiding redundant copies of the data shared between the subdomains. Distributed memory architectures are made available by a hybrid parallel method that combines both paradigms of shared memory parallelism and distributed memory parallelism. For large problems, these architectures provide a greater number of processors and the amount of memory required for high-fidelity modeling. Thus, we have completed several modeling exercises to demonstrate the potential of the method: 2D full core calculation of a large pressurized water reactor and 3D colorsets of assemblies taking into account the constraints of space and energy discretization expected for high-fidelity modeling. Neutronique Équation du transport des neutrons Méthode des caractéristiques courtes IDT Décomposition de domaine Coarse Mesh Finite Difference Parallélisme hybride APOLLO3 Neutronics Neutron transport equation Method of short characteristics IDT Domain decomposition method Coarse Mesh Finite Difference Hybrid parallelism APOLLO3

Search results

Co-designing Communication Middleware and Deep Learning Frameworks for High-Performance DNN Training on HPC Systems