Global ETD Search

21	Analyse multi-échelle du processus de réionisation dans les simulations cosmologiques / Multi-scales analysis of the reionization process in numerical simulations Chardin, Jonathan 19 September 2013 (has links) La période de réionisation est une transition dans l'histoire de l'Univers qui change sont état d'ionisation. Les progrès en calcul intensif permettent maintenant de modéliser l'évolution du phénomène. D'habitude, les analyses se concentrent sur l'évolution de propriétés globales dans les simulations. Différemment, j'ai mis au point une nouvelle technique d'analyse de simulations qui permet d'appréhender le phémomène global de manière locale. Elle s'appuie sur l'extraction d'un arbre de fusion de régions HII pour caractériser le processus de réionisation. La technique a été appliqué dans plusieurs simulations où différents modèles de sources ont été considérés pour étudier leur impact sur la chrono-morphologie du processus. Dans un second temps, l’arbre a permis de caractériser l'histoire de réionisation passée de galaxies de types Voie Lactée. Enfin, la technique a été appliquée dans des simulations du Groupe Local pour quantifier l'histoire de réionisation de MW et M31. / The reionization period is a major step in the history of the Universe that change its ionization state. The increasing progress in high performance computing, allows us to model the phenomenon. Usually, the simulation analyses focus on global properties to constrain the impact of the physic put in the simulations. Alternately, I implemented a method of analysis that apprehend theglobal reionization in terms of multiple ‘local reionizations’. I extracted a merger tree of HII regions from the simulations to characterize the reionization process. I applied the technique in several cosmological simulations, where different ionizing source models were tested to investigate the impact of the source model on the reionization chrono-morphology. I also used the merger tree to characterize the past reionization history of MW type galaxies. I finally applied this methodology in Local Group simulations to quantify the reionization hystory of MW and M31. Astrophysique Cosmologie Simulation Théorie Réionisation Régions HII Méthodes numériques Calcul haute performance Astrophysics Cosmology Réionization 233.1
22	Valorisation des composites thermodurcissables issus du recyclage dans une matrice cimentaire : application aux bétons à ultra-haute performance / Valorisation by crushing of thermoset composites in cementitious matrix : application in ultra-high-performance concrete Sebaïbi, Nassim 08 February 2010 (has links) Le projet de recherche présenté dans cette thèse, porte sur la conception et la caractérisation des Bétons Renforcés avec des Fibres et des Poudres (BRFP). Ces renforts (fibres et poudres) utilisés dans le béton, sont issues du recyclage des matériaux composites thermodurcissables (fibre de verre/polyester) hors usage provenant spécialement du secteur automobile (iNoPLAST, France). Dans ce projet de recherche, tous les concepts nécessaires à l'élaboration et l'application des bétons renforcés avec des fibres et des poudres ont été pris en considération. Au total, six mélanges avec différents dosages en fibres et en poudres ont été développés et testés à l'état frais (maniabilité), ainsi que, à l'état durci (essais de traction directe, essais de flexion, essais d'arrachement sur une fibre unitaire et enfin des essais de compression). Un modèle analytique a été proposé par Markovic et appliqué dans cette thèse. Ce modèle développé, basé sur le pontage des fissures par des fibres est appliqué avec succès sur le comportement à la traction du Béton Renforcé avec 11,54% en Fibres et en Poudres. / The project of research presented in this thesis, focuses on the conception and characterization an Fibre and Powder Reinforced Concrete (FPRC). These reinforcements (fibers and Powder) are recycled from thermoset composite parts (polyester matrix/fiber glass) from the automotive sector (iNoPLAST, France). In this research project, all important aspects needed for the development and application of Fibre and Powder Reinforced Concrete have been considered. In total six mixtures, with different types and amounts of fibres and powders were developed and tested in the fresh state (workability) as well as in the hardened state (uniaxial tensile tests, flexural tests, pullout tests of single fibres and compressive tests).An analytical model was proposed by Markovic is applied in this thesis. This model developed, based of the bridging of macrocrack by reinforcement is successfully applied on the behavior of tensile strength with 11,54 % in Fibers and Powders Reinforced Concrete. Béton Fibré Ultra-Performant Ultra-Haute-Performance Béton fibré Comportement mécanique Ductilité des BFUP Renforcement des bétons
23	Static/Dynamic Analyses for Validation and Improvements of Multi-Model HPC Applications. / Analyse statique/dynamique pour la validation et l'amélioration des applications parallèles multi-modèles Saillard, Emmanuelle 24 September 2015 (has links) L’utilisation du parallélisme des architectures actuelles dans le domaine du calcul hautes performances, oblige à recourir à différents langages parallèles. Ainsi, l’utilisation conjointe de MPI pour le parallélisme gros grain, à mémoire distribuée et OpenMP pour du parallélisme de thread, fait partie des pratiques de développement d’applications pour supercalculateurs. Des erreurs, liées à l’utilisation conjointe de ces langages de parallélisme, sont actuellement difficiles à détecter et cela limite l’écriture de codes, permettant des interactions plus poussées entre ces niveaux de parallélisme. Des outils ont été proposés afin de palier ce problème. Cependant, ces outils sont généralement focalisés sur un type de modèle et permettent une vérification dite statique (à la compilation) ou dynamique (à l’exécution). Pourtant une combinaison statique/- dynamique donnerait des informations plus pertinentes. En effet, le compilateur est en mesure de donner des informations relatives au comportement général du code, indépendamment du jeu d’entrée. C’est par exemple le cas des problèmes liés aux communications collectives du modèle MPI. Cette thèse a pour objectif de développer des analyses statiques/dynamiques permettant la vérification d’une application parallèle mélangeant plusieurs modèles de programmation, afin de diriger les développeurs vers un code parallèle multi-modèles correct et performant. La vérification se fait en deux étapes. Premièrement, de potentielles erreurs sont détectées lors de la phase de compilation. Ensuite, un test au runtime est ajouté pour savoir si le problème va réellement se produire. Grâce à ces analyses combinées, nous renvoyons des messages précis aux utilisateurs et évitons les situations de blocage. / Supercomputing plays an important role in several innovative fields, speeding up prototyping or validating scientific theories. However, supercomputers are evolving rapidly with now millions of processing units, posing the questions of their programmability. Despite the emergence of more widespread and functional parallel programming models, developing correct and effective parallel applications still remains a complex task. Although debugging solutions have emerged to address this issue, they often come with restrictions. However programming model evolutions stress the requirement for a convenient validation tool able to handle hybrid applications. Indeed as current scientific applications mainly rely on the Message Passing Interface (MPI) parallel programming model, new hardwares designed for Exascale with higher node-level parallelism clearly advocate for an MPI+X solutions with X a thread-based model such as OpenMP. But integrating two different programming models inside the same application can be error-prone leading to complex bugs - mostly detected unfortunately at runtime. In an MPI+X program not only the correctness of MPI should be ensured but also its interactions with the multi-threaded model, for example identical MPI collective operations cannot be performed by multiple nonsynchronized threads. This thesis aims at developing a combination of static and dynamic analysis to enable an early verification of hybrid HPC applications. The first pass statically verifies the thread level required by an MPI+OpenMP application and outlines execution paths leading to potential deadlocks. Thanks to this analysis, the code is selectively instrumented, displaying an error and synchronously interrupting all processes if the actual scheduling leads to a deadlock situation. Calcul haute performance Débogage OpenMP MPI Analyse statique High Performance Computing Debugging OpenMP MPI Static analysis
24	Virtualisation en contexte HPC / Virtualisation in HPC context Capra, Antoine 17 December 2015 (has links) Afin de répondre aux besoins croissants de la simulation numérique et de rester à la pointe de la technologie, les supercalculateurs doivent d’être constamment améliorés. Ces améliorations peuvent être d’ordre matériel ou logiciel. Cela force les applications à s’adapter à un nouvel environnement de programmation au fil de son développement. Il devient alors nécessaire de se poser la question de la pérennité des applications et de leur portabilité d’une machine à une autre. L’utilisation de machines virtuelles peut être une première réponse à ce besoin de pérennisation en stabilisant les environnements de programmation. Grâce à la virtualisation, une application peut être développée au sein d’un environnement figé, sans être directement impactée par l’environnement présent sur une machine physique. Pour autant, l’abstraction supplémentaire induite par les machines virtuelles entraine en pratique une perte de performance. Nous proposons dans cette thèse un ensemble d’outils et de techniques afin de permettre l’utilisation de machines virtuelles en contexte HPC. Tout d’abord nous montrons qu’il est possible d’optimiser le fonctionnement d’un hyperviseur afin de répondre le plus fidèlement aux contraintes du HPC que sont : le placement des fils d’exécution et la localité mémoire des données. Puis en s’appuyant sur ce résultat, nous avons proposé un service de partitionnement des ressources d’un noeud de calcul par le biais des machines virtuelles. Enfin, pour étendre nos travaux à une utilisation pour des applications MPI, nous avons étudié les solutions et performances réseau d’une machine virtuelle. / To meet the growing needs of the digital simulation and remain at the forefront of technology, supercomputers must be constantly improved. These improvements can be hardware or software order. This forces the application to adapt to a new programming environment throughout its development. It then becomes necessary to raise the question of the sustainability of applications and portability from one machine to another. The use of virtual machines may be a first response to this need for sustaining stabilizing programming environments. With virtualization, applications can be developed in a fixed environment, without being directly impacted by the current environment on a physical machine. However, the additional abstraction induced by virtual machines in practice leads to a loss of performance. We propose in this thesis a set of tools and techniques to enable the use of virtual machines in HPC context. First we show that it is possible to optimize the operation of a hypervisor to respond accurately to the constraints of HPC that are : the placement of implementing son and memory data locality. Then, based on this, we have proposed a resource partitioning service from a compute node through virtual machines. Finally, to expand our work to use for MPI applications, we studied the network solutions and performance of a virtual machine. Calcul haute performance OpenMP MPI Virtualisation High Performance Computing OpenMP MPI Virtualisation
25	Stratégie multiparamétrique pour la simulation d’assemblages de structures stratifiées / Multiparametric strategy for the simulation of assemblies with composite components Roulet, Vincent 01 December 2011 (has links) Les travaux de thèse s'inscrivent dans le cadre du projet de recherche européen MAAXIMUS (More Affordable Aircraft through eXtended, Integrated and Mature nUmerical Sizing) et portent sur la simulation numérique de problèmes d'assemblages de composants en matériaux composites stratifiés. Ces assemblages sont sources de deux types de non-linéarités. D'une part, l'interface entre les pièce conduit au traitement de non-linéarités fortes (contact, frottement). D'autre part, dans les composants de l'assemblage, le comportement du matériau stratifié est complexe, du fait des nombreux phénomènes de dégradations interagissant entre eux. Ces deux aspects ont une influence forte sur la réponse globale de l'assemblage, ce qui implique la résolution de systèmes de très grandes tailles, nécessitant généralement l'utilisation de moyens de calcul parallèles.Le couplage entre ces deux problématiques nécessite donc l'utilisation d'algorithmes de calcul parallèle dédiés et robustes, à même de traiter de nombreuses non-linéarités très fortes. Pour cela, la méthode LATIN (pour LArge Time INcrement) présente de nombreux avantages, déjà mis en évidence dans le cas de calcul d'assemblages de pièces élastiques lors de travaux précédents. Le but de ces travaux est donc d'élargir le cadre de la méthode au cas des pièces au comportement endommageable et anélastique.Un dernier aspect, qui sera abordé au sein de ces travaux, traite des fortes variabilités des coefficients intervenant dans les lois non-linéaires. Par conséquent, il est nécessaire de pouvoir traiter un très grand nombre de problèmes affectés de valeurs de coefficients différents. Pour cela, la stratégie multiparamétrique, intimement liée à la méthode LATIN, doit être étendue au cas de comportements matériau non-linéaires. Elle sera alors appliquée au travers de plusieurs paramètres variables : coefficients de frottement, précharges des éléments de fixation, seuil d'endommagement des matériaux... / The presented work, within the framework of the European research project MAAXIMUS (More Affordable Aircraft through eXtended, Integrated and Mature nUmerical Sizing), is dedicated to the numerical simulation of assemblies with components made of laminated composites. These assemblies involve two types of high non-linearities. First ones are linked to the interfaces between parts (unilateral contact and friction). Second ones are linked to the constitutive material behaviour, from its initial properties to the complex evolution of degradations. These two non-linearities have a strong influence on the response of the assembly, which involves solving systems with a high number of degrees of freedom and generally requires the use of parallel computing resources.The coupling between the two sources of non-linearities requires dedicated and robust algorithms, able to run on parallel architectures and to deal with many very strong non-linearities. The efficiency of the LATIN method (LArge Time INcrement) has already been highlighted in the case of assemblies with elastic components. A first aim of this work is thus to extend the method to the case of damageable and anelastic components' behaviour.A second aim is to deal with the variability of the coefficients involved in the non-linear laws. Each set of parameters (friction coefficients, preload of fasteners, damage threshold of material laws...) requiring a given calculation, the multiparametric strategy of the LATIN method must be extended to the case of non-linear materials in order to efficiently reduce the computation time. Aéronautique Assemblages Calcul haute performance Composites Contact Endommagement Études paramétriques Frottement Plasticité Variabilités Aeronautics Assemblies Composites
26	Algorithmes d'étiquetage en composantes connexes efficaces pour architectures hautes performances / Efficient Connected Component Labeling Algorithms for High Performance Architectures Cabaret, Laurent 28 September 2016 (has links) Ces travaux de thèse, dans le domaine de l'adéquation algorithme architecture pour la vision par ordinateur, ont pour cadre l'étiquetage en composantes connexes (ECC) dans le contexte parallèle des architectures hautes performances. Alors que les architectures généralistes modernes sont multi-coeur, les algorithmes d'ECC sont majoritairement séquentiels, irréguliers et utilisent une structure de graphe pour représenter les relations d'équivalences entre étiquettes ce qui rend complexe leur parallélisation. L'ECC permet à partir d'une image binaire, de regrouper sous une même étiquette tous les pixels connexes, il fait ainsi le pont entre les traitements bas niveaux tels que le filtrage et ceux de haut niveau tels que la reconnaissance de forme ou la prise de décision. Il est donc impliqué dans un grand nombre de chaînes de traitements qui nécessitent l'analyse d'image segmentées. L'accélération de cette étape représente donc un enjeu pour tout un ensemble d'algorithmes.Les travaux de thèse se sont tout d'abord concentrés sur les performances comparées des algorithmes de l'état de l'art tant pour l'ECC que pour l'analyse des caractéristiques des composantes connexes (ACC) afin d'en dégager une hiérarchie et d’identifier les composantes déterminantes des algorithmes. Pour cela, une méthode d'évaluation des performances, reproductible et indépendante du domaine applicatif, a été proposée et appliquée à un ensemble représentatif des algorithmes de l'état de l'art. Les résultats montrent que l'algorithme séquentiel le plus rapide est l'algorithme LSL qui manipule des segments contrairement aux autres algorithmes qui manipulent des pixels.Dans un deuxième temps, une méthode de parallélisation des algorithmes directs utilisant OpenMP a été proposé avec pour objectif principal de réaliser l’ACC à la volée et de diminuer le coût de la communication entre les threads. Pour cela, l'image binaire est découpée en bandes traitées en parallèle sur chaque coeur du l'architecture, puis une étape de fusion pyramidale d'ensembles deux à deux disjoint d'étiquettes permet d'obtenir l'image complètement étiquetée sans avoir de concurrence d'accès aux données entre les différents threads. La procédure d'évaluation des performances appliquée a des machines de degré de parallélisme variés, a démontré que la méthode de parallélisation proposée était efficace et qu'elle s'appliquait à tous les algorithmes directs. L'algorithme LSL s'est encore avéré être le plus rapide et le seul adapté à l'augmentation du nombre de coeurs du fait de son approche «segments». Pour une architecture à 60 coeurs, l'algorithme LSL permet de traiter de 42,4 milliards de pixels par seconde pour des images de taille 8192x8192, tandis que le plus rapide des algorithmes pixels est limité par la bande passante et sature à 5,8 milliards de pixels par seconde.Après ces travaux, notre attention s'est portée sur les algorithmes d'ECC itératifs dans le but de développer des algorithmes pour les architectures manycore et GPU. Les algorithmes itératifs se basant sur un mécanisme de propagation des étiquettes de proche en proche, aucune autre structure que l'image n'est nécessaire ce qui permet d'en réaliser une implémentation massivement parallèle (MPAR). Ces travaux ont menés à la création de deux nouveaux algorithmes.- Une amélioration incrémentale de MPAR utilisant un ensemble de mécanismes tels qu'un balayage alternatif, l'utilisation d'instructions SIMD ainsi qu'un mécanisme de tuiles actives permettant de répartir la charge entre les différents coeurs tout en limitant le traitement des pixels aux zones actives de l'image et à leurs voisines.- Un algorithme mettant en œuvre la relation d’équivalence directement dans l’image pour réduire le nombre d'itérations nécessaires à l'étiquetage. Une implémentation pour GPU basée sur les instructions atomic avec un pré-étiquetage en mémoire locale a été réalisée et s'est révélée efficace dès les images de petite taille. / This PHD work take place in the field of algorithm-architecture matching for computer vision, specifically for the connected component labeling (CCL) for high performance parallel architectures.While modern architectures are overwhelmingly multi-core, CCL algorithms are mostly sequential, irregular and they use a graph structure to represent the equivalences between labels. This aspects make their parallelization challenging.CCL processes a binary image and gathers under the same label all the connected pixels, doing so CCL is a bridge between low level operations like filtering and high level ones like shape recognition and decision-making.It is involved in a large number of processing chains that require segmented image analysis. The acceleration of this step is therefore an issue for a variety of algorithms.At first, the PHD work focused on the comparative performance of the State-of-the-Art algorithms, as for CCL than for the features analysis of the connected components (CCA) in order to identify a hierarchy and the critical components of the algorithms. For this, a benchmarking method, reproducible and independent of the application domain was proposed and applied to a representative set of State-of-the-Art algorithms. The results show that the fastest sequential algorithm is the LSL algorithm which manipulates segments unlike other algorithms that manipulate pixels.Secondly, a parallelization framework of directs algorithms based on OpenMP was proposed with the main objective to compute the CCA on the fly and reduce the cost of communication between threads.For this, the binary image is divided into bands processed in parallel on each core of the architecture and a pyramidal fusion step that processes the generated disjoint sets of labels provides the fully labeled image without concurrent access to data between threads.The benchmarking procedure applied to several machines of various parallelism level, shows that the proposed parallelization framework applies to all the direct algorithms.The LSL algorithm is once again the fastest and the only one suitable when the number of cores increases due to its run-based conception. With an architecture of 60 cores, the LSL algorithm can process 42.4 billion pixels per second for images of 8192x8192 pixels, while the fastest pixel-based algorithm is limited by the bandwidth and saturates at 5.8 billion pixels per second.After these works, our attention focused on iterative CCL algorithms in order to develop new algorithms for many-core and GPU architectures. The Iterative algorithms are based on a local propagation mechanism without supplementary equivalence structure which allows to achieve a massively parallel implementation (MPAR). This work led to the creation of two new algorithms.- An incremental improvement of MPAR using a set of mechanisms such as an alternative scanning, the use of SIMD instructions and an active tile mechanism to distribute the load between the different cores while limiting the processing of the pixels to the active areas of the image and to their neighbors.- An algorithm that implements the equivalence relation directly into the image to reduce the number of iterations required for labeling. An implementation for GPU, based on atomic instructions with a pre-labeling in the local memory has been realized and it has proven effective from the small images. Etiquetage Composantes connexes Parallélisme Haute performance Labeling Connected Component Parallelism High Performance
27	Vers une meilleure compréhension du concept de l'optimisme en sport : analyse exploratoire de l'expérience de joueurs de tennis d'élite et de l'influence de leurs parents Trottier, Christiane January 2005 (has links) Thèse numérisée par la Direction des bibliothèques de l'Université de Montréal. Optimisme Joueurs de tennis d'élite Influence des parents Analyses qualitatives exploratoires Cas multiples Enquête de narration Haute performance
28	Modélisation et implémentation de simulations multi-agents sur architectures massivement parallèles / Modeling and implementing multi-agents based simulations on massively parallel architectures Hermellin, Emmanuel 18 November 2016 (has links) La simulation multi-agent représente une solution pertinente pour l’ingénierie et l’étude des systèmes complexes dans de nombreux domaines (vie artificielle, biologie, économie, etc.). Cependant, elle requiert parfois énormément de ressources de calcul, ce qui représente un verrou technologique majeur qui restreint les possibilités d'étude des modèles envisagés (passage à l’échelle, expressivité des modèles proposés, interaction temps réel, etc.).Parmi les technologies disponibles pour faire du calcul intensif (High Performance Computing, HPC), le GPGPU (General-Purpose computing on Graphics Processing Units) consiste à utiliser les architectures massivement parallèles des cartes graphiques (GPU) comme accélérateur de calcul. Cependant, alors que de nombreux domaines bénéficient des performances du GPGPU (météorologie, calculs d’aérodynamique, modélisation moléculaire, finance, etc.), celui-ci est peu utilisé dans le cadre de la simulation multi-agent. En fait, le GPGPU s'accompagne d’un contexte de développement très spécifique qui nécessite une transformation profonde et non triviale des modèles multi-agents. Ainsi, malgré l'existence de travaux pionniers qui démontrent l'intérêt du GPGPU, cette difficulté explique le faible engouement de la communauté multi-agent pour le GPGPU.Dans cette thèse, nous montrons que, parmi les travaux qui visent à faciliter l'usage du GPGPU dans un contexte agent, la plupart le font au travers d’une utilisation transparente de cette technologie. Cependant, cette approche nécessite d’abstraire un certain nombre de parties du modèle, ce qui limite fortement le champ d’application des solutions proposées. Pour pallier ce problème, et au contraire des solutions existantes, nous proposons d'utiliser une approche hybride (l'exécution de la simulation est partagée entre le processeur et la carte graphique) qui met l'accent sur l'accessibilité et la réutilisabilité grâce à une modélisation qui permet une utilisation directe et facilitée de la programmation GPU. Plus précisément, cette approche se base sur un principe de conception, appelé délégation GPU des perceptions agents, qui consiste à réifier une partie des calculs effectués dans le comportement des agents dans de nouvelles structures (e.g. dans l’environnement). Ceci afin de répartir la complexité du code et de modulariser son implémentation. L'étude de ce principe ainsi que les différentes expérimentations réalisées montre l'intérêt de cette approche tant du point de vue conceptuel que du point de vue des performances. C'est pourquoi nous proposons de généraliser cette approche sous la forme d'une méthodologie de modélisation et d'implémentation de simulations multi-agents spécifiquement adaptée à l'utilisation des architectures massivement parallèles. / Multi-Agent Based Simulations (MABS) represents a relevant solution for the engineering and the study of complex systems in numerous domains (artificial life, biology, economy, etc.). However, MABS sometimes require a lot of computational resources, which is a major constraint that restricts the possibilities of study for the considered models (scalability, real-time interaction, etc.).Among the available technologies for HPC (High Performance Computing), the GPGPU (General-Purpose computing on Graphics Processing Units) proposes to use the massively parallel architectures of graphics cards as computing accelerator. However, while many areas benefit from GPGPU performances (meteorology, molecular dynamics, finance, etc.). Multi-Agent Systems (MAS) and especially MABS hardly enjoy the benefits of this technology: GPGPU is very little used and only few works are interested in it. In fact, the GPGPU comes along with a very specific development context which requires a deep and not trivial transformation process for multi-agents models. So, despite the existence of works that demonstrate the interest of GPGPU, this difficulty explains the low popularity of GPGPU in the MAS community.In this thesis, we show that among the works which aim to ease the use of GPGPU in an agent context, most of them do it through a transparent use of this technology. However, this approach requires to abstract some parts of the models, what greatly limits the scope of the proposed solutions. To handle this issue, and in contrast to existing solutions, we propose to use a nhybrid approach (the execution of the simulation is shared between both the processor and graphics card) that focuses on accessibility and reusability through a modeling process that allows to use directly GPU programming while simplifying its use. More specifically, this approach is based on a design principle, called GPU delegation of agent perceptions, consists in making a clear separation between the agent behaviors, managed by the processor, and environmental dynamics, handled by the graphics card. So, one major idea underlying this principle is to identify agent computations which can be transformed in new structures (e.g. in the environment) in order to distribute the complexity of the code and modulate its implementation. The study of this principle and the different experiments conducted show the advantages of this approach from both a conceptual and performances point of view. Therefore, we propose to generalize this approach and define a comprehensive methodology relying on GPU delegation specifically adapted to the use of massively parallel architectures for MABS. Calcul haute performance Gpgpu Sma Simulation multi-agent Méthodologie High performance computing Gpgpu Mas Mabs Methodology
29	Ordonnancement pour les nouvelles plateformes de calcul avec GPUs / Scheduling for new computing platforms with GPUs Monna, Florence 25 November 2014 (has links) De plus en plus d'ordinateurs utilisent des architectures hybrides combinant des processeurs multi-cœurs (CPUs) et des accélérateurs matériels comme les GPUs (Graphics Processing Units). Ces plates-formes parallèles hybrides exigent de nouvelles stratégies d'ordonnancement adaptées. Cette thèse est consacrée à une caractérisation de ce nouveau type de problèmes d'ordonnancement. L'objectif le plus étudié dans ce travail est la minimisation du makespan, qui est un problème crucial pour atteindre le potentiel des nouvelles plates-formes en Calcul Haute Performance.Le problème central étudié dans ce travail est le problème d'ordonnancement efficace de n tâches séquentielles indépendantes sur une plateforme de m CPUs et k GPUs, où chaque tâche peut être exécutée soit sur un CPU ou sur un GPU, avec un makespan minimal. Ce problème est NP-difficiles, nous proposons donc des algorithmes d'approximation avec des garanties de performance allant de 2 à (2q + 1)/(2q) +1/(2qk), q> 0, et des complexités polynomiales. Il s'agit des premiers algorithmes génériques pour la planification sur des machines hybrides avec une garantie de performance et une fin pratique. Des variantes du problème central ont été étudiées : un cas particulier où toutes les tâches sont accélérées quand elles sont affectées à un GPU, avec un algorithme avec un ratio de 3/2, un cas où les préemptions sont autorisées sur CPU, mais pas sur GPU, le modèle des tâches malléables, avec un algorithme avec un ratio de 3/2. Enfin, le problème avec des tâches dépendantes a été étudié, avec un algorithme avec un ratio de 6. Certains des algorithmes ont été intégré dans l'ordonnanceur du système xKaapi. / More and more computers use hybrid architectures combining multi-core processors (CPUs) and hardware accelerators like GPUs (Graphics Processing Units). These hybrid parallel platforms require new scheduling strategies. This work is devoted to a characterization of this new type of scheduling problems. The most studied objective in this work is the minimization of the makespan, which is a crucial problem for reaching the potential of new platforms in High Performance Computing. The core problem studied in this work is scheduling efficiently n independent sequential tasks with m CPUs and k GPUs, where each task of the application can be processed either on a CPU or on a GPU, with minimum makespan. This problem is NP-hard, therefore we propose approximation algorithms with performance ratios ranging from 2 to (2q+1)/(2q)+1/(2qk), q>0, and corresponding polynomial time complexities. The proposed solving method is the first general purpose algorithm for scheduling on hybrid machines with a theoretical performance guarantee that can be used for practical purposes. Some variants of the core problem are studied: a special case where all the tasks are accelerated when assigned to a GPU, with a 3/2-approximation algorithm, a case where preemptions are allowed on CPUs, the same problem with malleable tasks, with an algorithm with a ratio of 3/2. Finally, we studied the problem with dependent tasks, providing a 6-approximation algorithm. Experiments based on realistic benchmarks have been conducted. Some algorithms have been integrated into the scheduler of the xKaapi runtime system for linear algebra kernels, and compared to the state-of-the-art algorithm HEFT. Ordonnancement GPUs Algorithmes d'approximation Plateformes hétérogènes Calcul haute performance Approximation duale Job scheduling GPUs 004.3
30	Contribution à la modélisation numérique de la propagation des ondes sismiques sur architectures multicoeurs et hiérarchiques Dupros, Fabrice 13 December 2010 (has links) (PDF) En termes de prévention du risque associé aux séismes, la prédiction quantitative des phénomènes de propagation et d'amplification des ondes sismiques dans des structures géologiques complexes devient essentielle. Dans ce domaine, la simulation numérique est prépondérante et l'exploitation efficace des techniques de calcul haute performance permet d'envisager les modélisations à grande échelle nécessaires dans le domaine du risque sismique. Plusieurs évolutions récentes au niveau de l'architecture des machines parallèles nécessitent l'adaptation des algorithmes classiques utilisées pour la modélisation sismique. En effet, l'augmentation de la puissance des processeurs se traduit maintenant principalement par un nombre croissant de coeurs de calcul et les puces multicoeurs sont maintenant à la base de la majorité des architectures multiprocesseurs. Ce changement correspond également à une plus grande complexité au niveau de l'organisation physique de la mémoire qui s'articule généralement autour d'une architecture NUMA (Non Uniform Memory Access pour accès mémoire non uniforme)~de profondeur importante. Les contributions de cette thèse se situent à la fois au niveau algorithmique et numérique mais abordent également l'articulation avec les supports d'exécution optimisés pour les architectures multicoeurs. Les solutions retenues sont validées à grande échelle en considérant deux exemples de modélisation sismique. Le premier cas se situe dans la préfecture de Niigata-Chuetsu au Japon (événement du 16 juillet 2007) et repose sur la méthode des différences finies. Le deuxième exemple met en oeuvre la méthode des éléments finis. Un séisme hypothétique dans la région de Nice est modélisé en tenant compte du comportement non linéaire du sol. calcul haute performance modélisation sismique architectures NUMA processeurs multicoeurs

Search results