Spelling suggestions: "subject:"calcul hauteperformance"" "subject:"calcul hautesperformances""
61 |
Méthodes de préconditionnement pour la résolution de systèmes linéaires sur des machines massivement parallèles / Preconditioning methods for solving linear systems on massively parallel machinesQu, Long 10 April 2014 (has links)
Cette thèse traite d’une nouvelle classe de préconditionneurs qui ont pour but d’accélérer la résolution des grands systèmes creux, courant dans les problèmes scientifiques ou industriels, par les méthodes itératives préconditionnées. Pour appliquer ces préconditionneurs, la matrice d’entrée doit être réorganisée avec un algorithme de dissection emboîtée. Nous introduisons également une technique de recouvrement qui s’adapte à l’idée de chevauchement des sous-domaines provenant des méthodes de décomposition de domaine, aux méthodes de dissection emboîtée pour améliorer la convergence de nos préconditionneurs.Les résultats montrent que cette technique de recouvrement nous permet d’améliorer la vitesse de convergence de Nested SSOR (NSSOR) et Nested Modified incomplete LU with Rowsum proprety (NMILUR) qui sont des préconditionneurs que nous étudions. La dernière partie de cette thèse portera sur nos contributions dans le domaine du calcul parallèle. Nous présenterons la distribution des données et les algorithmes parallèles utilisés pour la mise en oeuvre de nos préconditionneurs. Les résultats montrent que sur une grille régulière 400x400x400, le nombre d’itérations nécessaire à la résolution avec un de nos préconditionneurs, Nested Filtering Factorization préconditionneur (NFF), n’augmente que légèrement quand le nombre de sous-domaines augmente jusqu’à 2048. En ce qui concerne les performances d’exécution sur le super-calculateur Curie, il passe à l’échelle jusqu’à 2048 coeurs et il est 2,6 fois plus rapide que le préconditionneur Schwarz Additif Restreint (RAS) qui est un des préconditionneurs basés sur les méthodes de décomposition de domaine implémentés dans la bibliothèque de calcul scientifique PETSc, bien connue de la communauté. / This thesis addresses a new class of preconditioners which aims at accelerating solving large sparse systems arising in scientific and engineering problem by using preconditioned iterative methods. To apply these preconditioners, the input matrix needs to be reordered with K-way nested dissection. We also introduce an overlapping technique that adapts the idea of overlapping subdomains from domain decomposition methods to nested dissection based methods to improve the convergence of these preconditioners. Results show that such overlapping technique improves the convergence rate of Nested SSOR (NSSOR) and Nested Modified Incomplete LU with Rowsum property (NMILUR) precondtioners that we worked on. We also present the data distribution and parallel algorithms for implementing these preconditioners. Results show that on a 400x400x400 regular grid, the number of iterations with Nested Filtering Factorization preconditioner (NFF) increases slightly while increasing the number of subdomains up to 2048. In terms of runtime performance on Curie supercomputer, it scales up to 2048 cores and it is 2.6 times faster than the domain decomposition preconditioner Restricted Additive Schwarz (RAS) as implemented in PETSc.
|
62 |
Développement de méthodes de résolution d’équations aux dérivées partielles : du schéma numérique à la simulation d’une installation industrielle / Development of methods for resolving partial differential equations : from numerical scheme to simulation of industrial facilitiesCostes, Joris 22 June 2015 (has links)
Le développement d'outils de simulation efficaces demande d'appréhender à la fois la modélisation physique, la modélisation mathématique et la programmation informatique. Pour chacun de ces points, il est nécessaire de garder à l'esprit l'application visée, en effet le niveau de modélisation à adopter mais également les techniques de programmation à mettre en œuvre vont être différents selon l'utilisation que l'on envisage pour un code de calcul ou un logiciel de simulation.On commence dans ce travail de thèse par s'intéresser au niveau fin pour lequel on résout les équations d'Euler pour calculer un écoulement, on aborde ensuite la question de l'utilisation d'un code de calcul parallèle dans le contexte de la simulation d'un benchmark industriel. Enfin, on traite du niveau macroscopique associé à la simulation d'une installation industrielle complète pour lequel on utilise des relations phénoménologiques basées par exemple sur des corrélations expérimentales.Le premier chapitre traite de la détermination d'une vitesse de grille dans le contexte des méthodes ALE (Arbitrary Langrangian-Eulerian). Dans le chapitre suivant, on s’intéresse aux équations d'Euler compressibles résolues à l'aide de la méthode VFFC (Volumes Finis à Flux Caractéristiques), il s'agit d'introduire un modèle d'interface entre un fluide seul d'une part et un mélange homogène de deux fluides d'autre part, l'un des deux fluides ayant la même loi d'état que celui présent de l'autre côté de l'interface.Le troisième chapitre est consacré à la réalisation de simulations haute performance utilisant le code de calcul FluxIC basé sur la méthode VFFC avec capture d'interfaces, on s'intéresse plus particulièrement au phénomène de sloshing rencontré lors du transport de gaz naturel liquéfié par navire méthanier.Pour finir, le quatrième et dernier chapitre traite de la modélisation au niveau système d'une installation industrielle. On y présentera une approche systémique qui constitue un niveau de modélisation adapté à la simulation d'un grand nombre de composants et de leurs interactions. L'approche qui est présentée permet de concilier la modélisation de phénomènes physiques déterministes avec une modélisation stochastique visant à simuler, par exemple, le comportement de l'installation pour divers régimes de fonctionnement caractéristiques. / The development of efficient simulation tools requires an understanding of physical modeling, mathematical modeling and computer programming. For each of these domains it is necessary to bear in mind the intended application, because the use for a calculation code or simulation software will dictate the level of modeling, and also the programming techniques to be adopted.This dissertation starts with a detailed description applied in the form of fluid flow calculations using the Euler equations. Then simulation of an industrial benchmark is considered using a parallel computational method. Finally, simulation of a complete industrial plant is addressed, where phenomenological relations based on experimental correlations can be used.The first chapter deals with the determination of mesh velocity in the context of ALE (Arbitrary Lagrangian-Eulerian) methods. In the following chapter we focus on the compressible Euler equations solved using the FVCF method (Finite Volume with Characteristic Flux). In this case we consider an interface between a single fluid and a homogeneous two-fluid mixture, where one of the two mixed fluids and the single fluid have the same equation of state.The third chapter is devoted to running high performance simulations using the FluxIC computation code based on the FVCF method with interface capturing. The focus is on sloshing phenomenon encountered during transportation of Liquefied Natural Gas by LNG carriers.The fourth and final chapter deals with modeling of an industrial facility at system level. A systemic approach is presented that provides a level of modeling adapted to the simulation of a large number of components and their interactions. This approach enables users to combine deterministic modeling of physical phenomena with stochastic modeling in order to simulate the behavior of the system for a large set of operating conditions.
|
63 |
Opérateurs arithmétiques parallèles pour la cryptographie asymétrique / Parallel arithmetical operators for asymmetric cryptographyIzard, Thomas 19 December 2011 (has links)
Les protocoles de cryptographie asymétrique nécessitent des calculs arithmétiques dans différentes structures mathématiques de grandes tailles. Pour garantir une sécurité suffisante, ces tailles varient de plusieurs centaines à plusieurs milliers de bits et rendent les opérations arithmétiques coûteuses en temps de calcul. D'autre part, les architectures grand public actuelles embarquent plusieurs unités de calcul, réparties sur les processeurs et éventuellement sur les cartes graphiques. Ces ressources sont aujourd'hui facilement exploitables grâce à des interfaces de programmation parallèle comme OpenMP ou CUDA. Dans cette thèse, nous étudions la parallélisation d'opérateurs à différents niveaux arithmétique. Nous nous intéressons plus particulièrement à la multiplication entre entiers multiprécision ; à la multiplication modulaire ; et enfin à la multiplication scalaire sur les courbes elliptiques.Dans chacun des cas, nous étudions différents ordonnancements des calculs permettant d'obtenir les meilleures performances. Nous proposons également une bibliothèque permettant la parallélisation sur processeur graphique d'instances d'opérations modulaires et d'opérations sur les courbes elliptiques. Enfin, nous proposons une méthode d'optimisation automatique de la multiplication scalaire sur les courbes elliptiques pour de petits scalaires permettant l'élimination des sous-expressions communes apparaissant dans la formule et l'application systématique de transformations arithmétiques. / Asymmetric cryptography requires some computations in large size finite mathematical structures. To insure the required security, these sizes range from several hundred to several thousand of bits. Mathematical operations are thus expansive in terms of computation time. Otherwise, current architectures have several computing units, which are distribued over the processors and GPU and easily implementable using dedicated languages as OpenMP or CUDA. In this dissertation, we investigate the parallelization of some operators for different arithmetical levels.In particular, our research focuse on parallel multiprecision and modular multiplications, and the parallelization of scalar multiplication over elliptic curves. We also propose a library to parallelize modular operations and elliptic curves operations. Finally, we present a method which allow to optimize scalar elliptic curve multiplication for small scalars.
|
64 |
Optimisation de transfert de données pour les processeurs pluri-coeurs, appliqué à l'algèbre linéaire et aux calculs sur stencils / Optimization of data transfer on many-core processors, applied to dense linear algebra and stencil computationsHo, Minh Quan 05 July 2018 (has links)
La prochaine cible de Exascale en calcul haute performance (High Performance Computing - HPC) et des récent accomplissements dans l'intelligence artificielle donnent l'émergence des architectures alternatives non conventionnelles, dont l'efficacité énergétique est typique des systèmes embarqués, tout en fournissant un écosystème de logiciel équivalent aux plateformes HPC classiques. Un facteur clé de performance de ces architectures à plusieurs cœurs est l'exploitation de la localité de données, en particulier l'utilisation de mémoire locale (scratchpad) en combinaison avec des moteurs d'accès direct à la mémoire (Direct Memory Access - DMA) afin de chevaucher le calcul et la communication. Un tel paradigme soulève des défis de programmation considérables à la fois au fabricant et au développeur d'application. Dans cette thèse, nous abordons les problèmes de transfert et d'accès aux mémoires hiérarchiques, de performance de calcul, ainsi que les défis de programmation des applications HPC, sur l'architecture pluri-cœurs MPPA de Kalray. Pour le premier cas d'application lié à la méthode de Boltzmann sur réseau (Lattice Boltzmann method - LBM), nous fournissons des techniques génériques et réponses fondamentales à la question de décomposition d'un domaine stencil itérative tridimensionnelle sur les processeurs clusterisés équipés de mémoires locales et de moteurs DMA. Nous proposons un algorithme de streaming et de recouvrement basé sur DMA, délivrant 33% de gain de performance par rapport à l'implémentation basée sur la mémoire cache par défaut. Le calcul de stencil multi-dimensionnel souffre d'un goulot d'étranglement important sur les entrées/sorties de données et d'espace mémoire sur puce limitée. Nous avons développé un nouvel algorithme de propagation LBM sur-place (in-place). Il consiste à travailler sur une seule instance de données, au lieu de deux, réduisant de moitié l'empreinte mémoire et cède une efficacité de performance-par-octet 1.5 fois meilleur par rapport à l'algorithme traditionnel dans l'état de l'art. Du côté du calcul intensif avec l'algèbre linéaire dense, nous construisons un benchmark de multiplication matricielle optimale, basé sur exploitation de la mémoire locale et la communication DMA asynchrone. Ces techniques sont ensuite étendues à un module DMA générique du framework BLIS, ce qui nous permet d'instancier une bibliothèque BLAS3 (Basic Linear Algebra Subprograms) portable et optimisée sur n'importe quelle architecture basée sur DMA, en moins de 100 lignes de code. Nous atteignons une performance maximale de 75% du théorique sur le processeur MPPA avec l'opération de multiplication de matrices (GEMM) de BLAS, sans avoir à écrire des milliers de lignes de code laborieusement optimisé pour le même résultat. / Upcoming Exascale target in High Performance Computing (HPC) and disruptive achievements in artificial intelligence give emergence of alternative non-conventional many-core architectures, with energy efficiency typical of embedded systems, and providing the same software ecosystem as classic HPC platforms. A key enabler of energy-efficient computing on many-core architectures is the exploitation of data locality, specifically the use of scratchpad memories in combination with DMA engines in order to overlap computation and communication. Such software paradigm raises considerable programming challenges to both the vendor and the application developer. In this thesis, we tackle the memory transfer and performance issues, as well as the programming challenges of memory- and compute-intensive HPC applications on he Kalray MPPA many-core architecture. With the first memory-bound use-case of the lattice Boltzmann method (LBM), we provide generic and fundamental techniques for decomposing three-dimensional iterative stencil problems onto clustered many-core processors fitted withs cratchpad memories and DMA engines. The developed DMA-based streaming and overlapping algorithm delivers 33%performance gain over the default cache-based implementation.High-dimensional stencil computation suffers serious I/O bottleneck and limited on-chip memory space. We developed a new in-place LBM propagation algorithm, which reduces by half the memory footprint and yields 1.5 times higher performance-per-byte efficiency than the state-of-the-art out-of-place algorithm. On the compute-intensive side with dense linear algebra computations, we build an optimized matrix multiplication benchmark based on exploitation of scratchpad memory and efficient asynchronous DMA communication. These techniques are then extended to a DMA module of the BLIS framework, which allows us to instantiate an optimized and portable level-3 BLAS numerical library on any DMA-based architecture, in less than 100 lines of code. We achieve 75% peak performance on the MPPA processor with the matrix multiplication operation (GEMM) from the standard BLAS library, without having to write thousands of lines of laboriously optimized code for the same result.
|
65 |
Couplage d'algorithmes d'optimisation par un système multi-agents pour l'exploration distribuée de simulateurs complexes : application à l'épidémiologie / Coupling of optimisation algorithms by a multi-agent system for supporting of distributed exploration of complex simulations : an application in epidemiologyHo, The Nhan 27 June 2016 (has links)
L’étude des systèmes complexes tels que des systèmes écologiques ou urbains, nécessite sou- vent l’usage de simulateurs qui permettent de comprendre les dynamiques observées ou d’avoir une vision prospective de l’évolution du système. Cependant, le crédit donné aux résultats d’une simulation dépend fortement de la confiance qui est accordée au simulateur, et donc de la qualité de sa validation. Cette confiance ne s’obtient qu’au travers d’une étude avancée du modèle, d’une analyse de sensibilité aux paramètres et d’une confrontation des résultats de simulation et des données de terrain. Pour cela, pléthore de simulations est nécessaire, ce qui est coûteux du point de vue des ressources mobilisés (temps de calcul, processeurs et mémoire) et est souvent impossible compte tenue de la taille de l’espace des paramètres à étudier. Il est donc important de réduire de manière significative et intelligente le domaine à explorer. L’une des particularités des simulateurs représentatifs de phénomènes réels est d’avoir un espace des paramètres dont la nature et la forme est fonction : (i) des objectifs scientifiques ; (ii) de la nature des paramètres manipulés ; et (iii) surtout du systèmes complexes étudiés. Ainsi, le choix d’une stratégie d’exploration est totalement dépendante du domaine de l’étude. Les algorithmes génériques de la littérature ne sont alors pas optimaux. Compte tenu de la singularité des simulateurs complexes, des nécessités et des difficultés rencontrées de l’exploration de leur espace de paramètres. Nous envisageons de guider le tâche d’exploration des systèmes complexes en proposant le protocole d’exploration stratifié coopérative GRADEA qui hybride trois algorithmes d’exploration de différents classements dans un même environnement : la recherche en criblage pour zones d’intérêt, la recherche globale et la recherche locale. Différents stratégies d’exploration vont en parallèle parcourir l’espace de recherche pour trouver l’optimum globale du problème d’optimisation et égale- ment pour désigner partiellement la cartographie de l’espace de solutions pour comprendre le comportement émergent du modèle. Les premiers résultats du protocole d’exploration stratifié avec un exemple d’algorithmes présélectionnés d’exploration sont appliquées au simulateur du domaine environnemental pour l’aide à la conception de la planification des politiques de vaccination de la maladie rougeole au Vietnam. Le couplage d’algorithmes d’exploration est intégré sur une architecture modulaire à base d’agents qui sont en interaction avec des noeuds de calcul où sont exécutés les simulations. Cet environnement facilite d’une part le rapprochement et l’interaction entre une selection d’algorithmes d’exploration, et d’autre part l’utilisation de ressources de calcul haute performance. L’enjeu résolu jusqu’à ce temps est de proposer, à la communauté, un environnement optimisé où l’utilisateur sera en mesure : (i) de combiner des algorithmes d’exploration adaptés à son cas d’étude ; (ii) et de tirer parti des ressources disponibles de calcul haute performance pour réaliser l’exploration. / Study of complex systems such as environmental or urban systems, often requires the use of simulators for understanding the dynamics observed or getting a prospective vision of the evolution of system. However, the credit given to results of a simulation depends heavily on the trust placed in the simulator, and the quality of validation. This trust is achieved only through an advanced study on the model, a sensitivity analysis of parameters and a comparison of simulation results and collected data. For all of those, plethora of simulations is necessary, which is costly in term of computing resources (CPU time, memory and processors) and is often impossible because of the size of parameters space. It is therefore important to reduce significantly and intelligently the domain to explore. One of the special properties of representative simulators of real phenomena is that they own a parameters space, of which the nature and the form is based on: (i) the scientific objectives; (ii) the nature of manipulated parameters; and (iii) especially complex systems. Thus, the choice of an exploration strategy is totally dependent on the domain to explore. The generic algorithms in the literature are then not optimal. Because of the singularity of complex simulators, the necessities and the difficulties of exploring their parameters space, we plan to guide the exploration task of complex systems by providing GRADEA, a stratified cooperative exploration protocol, that hybrids three different algorithms of different categories in the same environment: the screening search for areas of interest, the global search and the local search. Various exploration algorithms will explore the search space by parallel manner to find the global optimum of optimization problem and also to partially describe the cartography of solutions space to understand the emergent behavior of the model. The first results of the stratified exploration protocol with an example of preselected search algorithms are applied to the environmental simulator for the design of vaccination policies of measles disease in Vietnam. The coupling of search algorithms is built on a modular and agent based architecture that interacts with a computing cluster where the simulations run. This environment facilitates both the interaction between a group of search algorithms, and also the use of high performance computing resources. The challenge is resolved to propose to community, an optimized environment where users will be able: (i) to combine search algorithms that adapted to case study; (ii) and take advantage of the available resources of high performance computing to accelerate the exploration.
|
66 |
Sélection de caractéristiques stables pour la segmentation d'images histologiques par calcul haute performance / Robust feature selection for histology images through high performance computingBouvier, Clément 18 January 2019 (has links)
L’histologie produit des images à l’échelle cellulaire grâce à des microscopes optiques très performants. La quantification du tissu marqué comme les neurones s’appuie de plus en plus sur des segmentations par apprentissage automatique. Cependant, l’apprentissage automatique nécessite une grande quantité d’informations intermédiaires, ou caractéristiques, extraites de la donnée brute multipliant d’autant la quantité de données à traiter. Ainsi, le nombre important de ces caractéristiques est un obstacle au traitement robuste et rapide de séries d’images histologiques. Les algorithmes de sélection de caractéristiques pourraient réduire la quantité d’informations nécessaires mais les ensembles de caractéristiques sélectionnés sont peu reproductibles. Nous proposons une méthodologie originale fonctionnant sur des infrastructures de calcul haute-performance (CHP) visant à sélectionner des petits ensembles de caractéristiques stables afin de permettre des segmentations rapides et robustes sur des images histologiques acquises à très haute-résolution. Cette sélection se déroule en deux étapes : la première à l’échelle des familles de caractéristiques. La deuxième est appliquée directement sur les caractéristiques issues de ces familles. Dans ce travail, nous avons obtenu des ensembles généralisables et stables pour deux marquages neuronaux différents. Ces ensembles permettent des réductions significatives des temps de traitement et de la mémoire vive utilisée. Cette méthodologie rendra possible des études histologiques exhaustives à haute-résolution sur des infrastructures CHP que ce soit en recherche préclinique et possiblement clinique. / In preclinical research and more specifically in neurobiology, histology uses images produced by increasingly powerful optical microscopes digitizing entire sections at cell scale. Quantification of stained tissue such as neurons relies on machine learning driven segmentation. However such methods need a lot of additional information, or features, which are extracted from raw data multiplying the quantity of data to process. As a result, the quantity of features is becoming a drawback to process large series of histological images in a fast and robust manner. Feature selection methods could reduce the amount of required information but selected subsets lack of stability. We propose a novel methodology operating on high performance computing (HPC) infrastructures and aiming at finding small and stable sets of features for fast and robust segmentation on high-resolution histological whole sections. This selection has two selection steps: first at feature families scale (an intermediate pool of features, between space and individual feature). Second, feature selection is performed on pre-selected feature families. In this work, the selected sets of features are stables for two different neurons staining. Furthermore the feature selection results in a significant reduction of computation time and memory cost. This methodology can potentially enable exhaustive histological studies at a high-resolution scale on HPC infrastructures for both preclinical and clinical research settings.
|
67 |
Approche haut niveau pour l’accélération d’algorithmes sur des architectures hétérogènes CPU/GPU/FPGA. Application à la qualification des radars et des systèmes d’écoute électromagnétique / High-Level Approach for the Acceleration of Algorithms on CPU/GPU/FPGA Heterogeneous Architectures. Application to Radar Qualification and Electromagnetic Listening SystemsMartelli, Maxime 13 December 2019 (has links)
A l'heure où l'industrie des semi-conducteurs fait face à des difficultés majeures pour entretenir une croissance en berne, les nouveaux outils de synthèse de haut niveau repositionnent les FPGAs comme une technologie de premier plan pour l'accélération matérielle d'algorithmes face aux clusters à base de CPUs et GPUs. Mais en l’état, pour un ingénieur logiciel, ces outils ne garantissent pas, sans expertise du matériel sous-jacent, l’utilisation de ces technologies à leur plein potentiel. Cette particularité peut alors constituer un frein à leur démocratisation. C'est pourquoi nous proposons une méthodologie d'accélération d'algorithmes sur FPGA. Après avoir présenté un modèle d'architecture haut niveau de cette cible, nous détaillons différentes optimisations possibles en OpenCL, pour finalement définir une stratégie d'exploration pertinente pour l'accélération d'algorithmes sur FPGA. Appliquée sur différents cas d'étude, de la reconstruction tomographique à la modélisation d'un brouillage aéroporté radar, nous évaluons notre méthodologie suivant trois principaux critères de performance : le temps de développement, le temps d'exécution, et l'efficacité énergétique. / As the semiconductor industry faces major challenges in sustaining its growth, new High-Level Synthesis tools are repositioning FPGAs as a leading technology for algorithm acceleration in the face of CPU and GPU-based clusters. But as it stands, for a software engineer, these tools do not guarantee, without expertise of the underlying hardware, that these technologies will be harnessed to their full potential. This can be a game breaker for their democratization. From this observation, we propose a methodology for algorithm acceleration on FPGAs. After presenting a high-level model of this architecture, we detail possible optimizations in OpenCL, and finally define a relevant exploration strategy for accelerating algorithms on FPGA. Applied to different case studies, from tomographic reconstruction to the modelling of an airborne radar jammer, we evaluate our methodology according to three main performance criteria: development time, execution time, and energy efficiency.
|
68 |
Environnement décentralisé et protocole de communication pour le calcul intensif sur grille / A decentralized environment and a protocol of communication for high performance computing on grid architectureFakih, Bilal 09 November 2018 (has links)
Dans cette thèse nous présentons un environnement décentralisé pour la mise en oeuvre des calcul intensif sur grille. Nous nous intéressons à des applications dans les domaines de la simulation numérique qui font appel à des modèles de type parallélisme de tâches et qui sont résolues par des méthodes itératives parallèles ou distribuées; nous nous intéressons aussi aux problèmes de planification. Mes contributions se situent au niveau de la conception et la réalisation d'un environnement de programmation GRIDHPC. GRIDHPC permet l'utilisation de tous les ressources de calcul, c'est-à-dire de tous les coeurs des processeurs multi-coeurs ainsi que l'utilisation du protocole de communication RMNP pour exploiter simultanément différents réseaux hauts débits comme Infiniband, Myrinet et aussi Ethernet. Notons que RMNP peut se reconfigurer automatiquement et dynamiquement en fonction des exigences de l'application, comme les schémas de calcul, c.-à-d, les schémas itératifs synchrones ou asynchrones, des éléments de contexte comme la topologie du réseau et le type de réseau comme Ethernet, Infiniband et Myrinet en choisissant le meilleur mode de communication entre les noeuds de calcul et le meilleur réseau. Nous présentons et analysons des résultats expérimentaux obtenus sur des grappes de calcul de la grille Grid5000 pour le problème de l'obstacle et le problème de planification. / This thesis aims at designing an environment for the implementation of high performance computing applications on Grid platforms. We are interested in applications like loosely synchronous applications and pleasingly parallel applications. For loosely synchronous applications, we are interested in particular in applications in the domains of numerical simulation that can be solved via parallel or distributed iterative methods, i.e., synchronous, asynchronous and hybrid iterative method; while, for pleasingly parallel applications, we are interested in planning problems. Our thesis work aims at designing the decentralized environment GRIDHPC. GRIDHPC exploits all the computing resources (all the available cores of computing nodes) using OpenMP as well as several types of networks like Ethernet, Infiniband and Myrinet of the grid platform using the reconfigurable multi network protocol RMNP. Note that RMNP can configure itself automatically and dynamically in function of application requirements like schemes of computation, i.e., synchronous or asynchronous iterative schemes, elements of context like network topology and type of network like Ethernet, Infiniband and Myrinet by choosing the best communication mode between computing nodes and the best network. We present and analyze a set of computational results obtained on Grid5000 platform for the obstacle and planning problems.
|
69 |
Memory and performance issues in parallel multifrontal factorizations and triangular solutions with sparse right-hand sides / Problèmes de mémoire et de performance de la factorisation multifrontale parallèle et de la résolution triangulaire à seconds membres creuxRouet, François-Henry 17 October 2012 (has links)
Nous nous intéressons à la résolution de systèmes linéaires creux de très grande taille sur des machines parallèles. Dans ce contexte, la mémoire est un facteur qui limite voire empêche souvent l’utilisation de solveurs directs, notamment ceux basés sur la méthode multifrontale. Cette étude se concentre sur les problèmes de mémoire et de performance des deux phases des méthodes directes les plus coûteuses en mémoire et en temps : la factorisation numérique et la résolution triangulaire. Dans une première partie nous nous intéressons à la phase de résolution à seconds membres creux, puis, dans une seconde partie, nous nous intéressons à la scalabilité mémoire de la factorisation multifrontale. La première partie de cette étude se concentre sur la résolution triangulaire à seconds membres creux, qui apparaissent dans de nombreuses applications. En particulier, nous nous intéressons au calcul d’entrées de l’inverse d’une matrice creuse, où les seconds membres et les vecteurs solutions sont tous deux creux. Nous présentons d’abord plusieurs schémas de stockage qui permettent de réduire significativement l’espace mémoire utilisé lors de la résolution, dans le cadre d’exécutions séquentielles et parallèles. Nous montrons ensuite que la façon dont les seconds membres sont regroupés peut fortement influencer la performance et nous considérons deux cadres différents : le cas "hors-mémoire" (out-of-core) où le but est de réduire le nombre d’accès aux facteurs, qui sont stockés sur disque, et le cas "en mémoire" (in-core) où le but est de réduire le nombre d’opérations. Finalement, nous montrons comment améliorer le parallélisme. Dans la seconde partie, nous nous intéressons à la factorisation multifrontale parallèle. Nous montrons tout d’abord que contrôler la mémoire active spécifique à la méthode multifrontale est crucial, et que les technique de "répartition" (mapping) classiques ne peuvent fournir une bonne scalabilité mémoire : le coût mémoire de la factorisation augmente fortement avec le nombre de processeurs. Nous proposons une classe d’algorithmes de répartition et d’ordonnancement "conscients de la mémoire" (memory-aware) qui cherchent à maximiser la performance tout en respectant une contrainte mémoire fournie par l’utilisateur. Ces techniques ont révélé des problèmes de performances dans certains des noyaux parallèles denses utilisés à chaque étape de la factorisation, et nous avons proposé plusieurs améliorations algorithmiques. Les idées présentées tout au long de cette étude ont été implantées dans le solveur MUMPS (Solveur MUltifrontal Massivement Parallèle) et expérimentées sur des matrices de grande taille (plusieurs dizaines de millions d’inconnues) et sur des machines massivement parallèles (jusqu’à quelques milliers de coeurs). Elles ont permis d’améliorer les performances et la robustesse du code et seront disponibles dans une prochaine version. Certaines des idées présentées dans la première partie ont également été implantées dans le solveur PDSLin (solveur linéaire hybride basé sur une méthode de complément de Schur). / We consider the solution of very large sparse systems of linear equations on parallel architectures. In this context, memory is often a bottleneck that prevents or limits the use of direct solvers, especially those based on the multifrontal method. This work focuses on memory and performance issues of the two memory and computationally intensive phases of direct methods, that is, the numerical factorization and the solution phase. In the first part we consider the solution phase with sparse right-hand sides, and in the second part we consider the memory scalability of the multifrontal factorization. In the first part, we focus on the triangular solution phase with multiple sparse right-hand sides, that appear in numerous applications. We especially emphasize the computation of entries of the inverse, where both the right-hand sides and the solution are sparse. We first present several storage schemes that enable a significant compression of the solution space, both in a sequential and a parallel context. We then show that the way the right-hand sides are partitioned into blocks strongly influences the performance and we consider two different settings: the out-of-core case, where the aim is to reduce the number of accesses to the factors, that are stored on disk, and the in-core case, where the aim is to reduce the computational cost. Finally, we show how to enhance the parallel efficiency. In the second part, we consider the parallel multifrontal factorization. We show that controlling the active memory specific to the multifrontal method is critical, and that commonly used mapping techniques usually fail to do so: they cannot achieve a high memory scalability, i.e. they dramatically increase the amount of memory needed by the factorization when the number of processors increases. We propose a class of "memory-aware" mapping and scheduling algorithms that aim at maximizing performance while enforcing a user-given memory constraint and provide robust memory estimates before the factorization. These techniques have raised performance issues in the parallel dense kernels used at each step of the factorization, and we have proposed some algorithmic improvements. The ideas presented throughout this study have been implemented within the MUMPS (MUltifrontal Massively Parallel Solver) solver and experimented on large matrices (up to a few tens of millions unknowns) and massively parallel architectures (up to a few thousand cores). They have demonstrated to improve the performance and the robustness of the code, and will be available in a future release. Some of the ideas presented in the first part have also been implemented within the PDSLin (Parallel Domain decomposition Schur complement based Linear solver) solver.
|
70 |
Numerical simulation of acoustic propagation in a turbulent channel flow with an acoustic liner / Simulation numérique de la propagation acoustique en canal turbulent avec traitement acoustiqueSebastian, Robin 26 November 2018 (has links)
Les matériaux absorbants acoustiques, qui sont d’un intérêt stratégique en aéronautique pour la diminution passive du bruit des réacteurs d’avion, conduisent à une physique complexe où l’écoulement turbulent, des ondes acoustiques, et l’absorbant interagissent. Cette thèse porte sur la simulation de cette interaction dans le problème modèle d’un écoulement de canal turbulent avec des parois impédantes, par le biais de simulations numériques aux grandes échelles implicites, dans un contexte de calcul haute performance.Une étude est d’abord faite des grandes échelles dans un canal turbulent avec des parois rigides, en s’intéressant plus particulièrement à l’effet d’une faible compressibilité (Mach <3) sur les caractéristiques de ces échelles.Un canal turbulent avec une paroi de type impédance est ensuite simulé, avec une condition habituelle de périodicité dans le sens de l’écoulement. On observe que pour des faibles valeurs de la résistance et des fréquences de résonance basses, l’écoulement est instable, ce qui engendre une onde le long de l’absorbant, qui modifie la turbulence et augmente la trainée.Enfin, on se tourne vers une simulation de canal spatial en levant la condition de périodicité dans la direction de l’écoulement, ce qui permet d’introduire une onde acoustique en entrée de domaine. L’atténuation de l’onde dans l’écoulement turbulent est étudiée avec des parois rigides, puis un absorbant acoustique est introduit. Dans cette configuration plus réaliste, il est confirmé que l’écoulement peut devenir instable au bord amont de l’absorbant, ce qui empêche l’atténuation de l’onde acoustique incidente. / Acoustic liners are a key technology in aeronautics for the passive reduction of the noise generated by aircraft engines. They are employed in a complex flow scenario in which the acoustic waves, the turbulent flow, and the acoustic liner are interacting.During this thesis, in a context of high performance computing, a compressible Navier-Stokes solver has been developed to perform implicit large eddy simulations of a model problem of this interaction: a turbulent plane channel flow with one wall modeled as an impedance condition.As a preliminary step the wall-turbulence in rigid channel flows and associated large-scale motions are investigated. A straightforward algorithm to detect these flow features is developed and the effect of compressibility on the flow structures and their contribution to the drag are studied. Then, the interaction between the acoustic liner and turbulent flow is investigated assuming periodicity in the streamwise direction. It is shown that low resistance and low resonance frequency tend to trigger flow instability, which modifies the conventional wall-turbulence and also results in drag increase.Finally, the simulation of a spatial channel flow was addressed. In this case no periodicity is assumed and an acoustic wave can be injected at the inlet of the domain. The effect of turbulence on sound attenuation is studied without liner, before a liner is introduced on a part of the channel bottom wall. In this more realistic case, it is confirmed that low resistance acoustic liners trigger an instability at the leading edge of the liner, resulting in drag increase and excess noise generation.
|
Page generated in 0.0907 seconds