Global ETD Search

1	De l’exécution structurée d’applications scientiﬁques OpenMP sur architectures hiérarchiques Broquedis, François 09 December 2010 (has links) Le domaine applicatif de la simulation numérique requiert toujours plus de puissance de calcul. La technologie multicœur aide à satisfaire ces besoins mais impose toutefois de nouvelles contraintes aux programmeurs d’applications scientiﬁques qu’ils devront respecter s’ils souhaitent en tirer la quintessence. En particulier, il devient plus que jamais nécessaire de structurer le parallélisme des applications pour s’adapter au relief imposé par la hiérarchie mémoire des architectures multicœurs. Les approches existantes pour les programmer ne tiennent pas compte de cette caractéristique, et le respect de la structure du parallélisme reste à la charge du programmeur. Il reste de ce fait très difﬁcile de développer une application qui soit à la fois performante et portable.La contribution de cette thèse s’articule en trois axes. Il s’agit dans un premier temps de s’appuyer sur le langage OpenMP pour générer du parallélisme structuré, et de permettre au programmeur de transmettre cette structure au support exécutif ForestGOMP. L’exécution structurée de ces ﬂots de calcul est ensuite laissée aux ordonnanceurs Cacheet Memory développés au cours de cette thèse, permettant respectivement de maximiser la réutilisation des caches partagés et de maximiser la bande passante mémoire accessible par les programmes OpenMP. Enﬁn, nous avons étudié la composition de ces ordonnanceurs, et plus généralement de bibliothèques parallèles, en considérant cette voie comme une piste sérieuse pour exploiter efﬁcacement les multiples unités de calcul des architectures multicœurs.Les gains obtenus sur des applications scientiﬁques montrent l’intérêt d’une communication forte entre l’application et le support exécutif, permettant l’ordonnancement dynamique et portable de parallélisme structuré sur les architectures hiérarchiques. / Abstract Calcul hautes performances Support d’exécution OpenMP Multicœur Numa
2	Contributions to code optimization and high performance library generation Barthou, Denis 18 February 2008 (has links) (PDF) Le nombre de transistors des processeurs, ainsi que leur frequence, ont suivi la loi de Moore pendant plusieurs decennies, au prix d'une complexite croissante des architectures. La recente de l'accroissement en frequence a notamment deux consequences: le parallelisme est desormais un des seuls vecteurs de gain de performances, et la chaine de compilation ainsi que le systeme d'exploitation sont indispensables pour l'obtention automatique de ces performances. Du a la complexite des mecanismes architecturaux difficiles a modeliser de facon realiste, les compilateurs restent cependant loin de pouvoir generer automatiquement des applications hautes performances, meme pour un seul core. Le travail que nous presentons se focalise sur d'une part l'optimisation et la generation de bibliotheques hautes performances et leur reutilisation automatique dans un contexte applicatif, d'autre part, sur l'evaluation et la modelisation des performances an de guider l'optimisation. Les resultats de ces travaux sont suivis de perspectives de recherche. calcul hautes performances generation de bibliotheque refactorisation de code
3	De l'exécution structurée d'applications scientifiques OpenMP sur les architectures hiérarchiques. Broquedis, François 09 December 2010 (has links) (PDF) Le domaine applicatif de la simulation numérique requiert toujours plus de puissance de calcul. La technologie multicœur aide à satisfaire ces besoins mais impose toutefois de nouvelles contraintes aux programmeurs d'applications scientiﬁques qu'ils devront respecter s'ils souhaitent en tirer la quintessence. En particulier, il devient plus que jamais nécessaire de structurer le parallélisme des applications pour s'adapter au relief imposé par la hiérarchie mémoire des architectures multicœurs. Les approches existantes pour les programmer ne tiennent pas compte de cette caractéristique, et le respect de la structure du parallélisme reste à la charge du programmeur. Il reste de ce fait très difﬁcile de développer une application qui soit à la fois performante et portable.La contribution de cette thèse s'articule en trois axes. Il s'agit dans un premier temps de s'appuyer sur le langage OpenMP pour générer du parallélisme structuré, et de permettre au programmeur de transmettre cette structure au support exécutif ForestGOMP. L'exécution structurée de ces ﬂots de calcul est ensuite laissée aux ordonnanceurs Cacheet Memory développés au cours de cette thèse, permettant respectivement de maximiser la réutilisation des caches partagés et de maximiser la bande passante mémoire accessible par les programmes OpenMP. Enﬁn, nous avons étudié la composition de ces ordonnanceurs, et plus généralement de bibliothèques parallèles, en considérant cette voie comme une piste sérieuse pour exploiter efﬁcacement les multiples unités de calcul des architectures multicœurs.Les gains obtenus sur des applications scientiﬁques montrent l'intérêt d'une communication forte entre l'application et le support exécutif, permettant l'ordonnancement dynamique et portable de parallélisme structuré sur les architectures hiérarchiques. Calcul hautes performances Support d'exécution OpenMP Multicoeur Numa
4	Calcul hautes performances pour les formulations intégrales en électromagnétisme basses fréquences Rubeck, Christophe 18 December 2012 (has links) (PDF) Les méthodes intégrales sont des méthodes particulièrement bien adaptées à la modélisation des systèmes électromagnétiques car contrairement aux méthodes par éléments finis elles ne nécessitent pas le maillage des matériaux inactifs tel que l'air. Ces modèles sont donc légers en termes de nombre de degrés de liberté. Cependant ceux sont des méthodes à interactions totales qui génèrent des matrices de systèmes d'équations pleines. Ces matrices sont longues à calculer en temps processeur et coûteuses à stocker dans la mémoire vive de l'ordinateur. Nous réduisons dans ces travaux les temps de calcul grâce au parallélisme, c'est-à-dire l'utilisation de plusieurs processeurs, notamment sur cartes graphiques (GPGPU). Nous réduisons également le coût du stockage mémoire via de la compression matricielle par ondelettes (il s'agit d'un algorithme proche de la compression d'images). C'est une compression par pertes, nous avons ainsi développé un critère pour contrôler l'erreur introduite par la compression. Les méthodes développées sont appliquées sur une formulation électrostatique de calcul de capacités, mais elles sont à priori également applicables à d'autres formulations. Calcul hautes performances méthodes intégrales compression matricielle par ondelettes architecture GPGPU
5	Contribution à l'élaboration d'ordonnanceurs de processus légers performants et portables pour architectures multiprocesseurs Danjean, Vincent 23 December 2004 (has links) (PDF) En informatique, la notion de processus léger ou thread est désormais omniprésente. En effet, les threads permettent à un programme d'une part d'exploiter pleinement les ordinateurs multiprocesseurs et d'autre part d'exprimer son parallélisme intrinsèque. Dans le domaine du calcul hautes performances, les threads permettent de recouvrir des communications ou plus généralement des entrées/sorties avec du calcul. Ils permettent aussi aux divers composants de l'application de progresser indépendamment les uns des autres, ce qui est nécessaire avec l'utilisation d'environnements de programmation toujours plus complexes comme MPI ou Corba.<br /><br />Mes travaux avaient pour objectif principal d'aboutir à la conception d'une bibliothèque de threads performante sur une vaste gamme d'architectures (machines mono ou multiprocesseurs, technologie "multithreading simultané", ...) et capable d'offrir les fonctionnalités demandées par les programmes de calcul hautes performances. Dans un premier temps, j'ai proposé une extension du modèle des Scheduler Activations pour le noyau Linux permettant d'être réactif aux interruptions dans une bibliothèque de threads utilisateurs. J'ai ensuite étendu ce mécanisme de manière à unifier la gestion des interruptions et des scrutations dans un environnement multithreadé. Enfin, j'ai proposé un mécanisme de prise de traces permettant de reconstituer précisément le déroulement d'un programme multithreadé, y compris lorsque l'ordonnancement est à deux niveaux.<br /><br />Ces travaux ont été implémentés au sein du logiciel PM2. La bibliothèque Marcel offre des threads performants sur une vaste gamme de processeurs et de systèmes en restant suffisamment flexible pour permettre aux applications qui le nécessitent de diriger précisément l'ordonnancement de leurs threads. Les applications peuvent être tracées de manière à pouvoir reconstituer et observer leur comportement précis. La trace obtenue peut être convertie au format du logiciel Pajé qui permet alors de visualiser graphiquement le déroulement de l'application. processus légers ordonnancement à deux niveaux calcul hautes performances réactivité Scheduler Activations traces
6	Exploitation efficace des architectures parallèles de type grappes de NUMA à l'aide de modèles hybrides de programmation Clet-Ortega, Jérôme 18 April 2012 (has links) (PDF) Les systèmes de calcul actuels sont généralement des grappes de machines composés de nombreux processeurs à l'architecture fortement hiérarchique. Leur exploitation constitue le défi majeur des implémentations de modèles de programmation tels MPI ou OpenMP. Une pratique courante consiste à mélanger ces deux modèles pour bénéficier des avantages de chacun. Cependant ces modèles n'ont pas été pensés pour fonctionner conjointement ce qui pose des problèmes de performances. Les travaux de cette thèse visent à assister le développeur dans la programmation d'application de type hybride. Il s'appuient sur une analyse de la hiérarchie architecturale du système de calcul pour dimensionner les ressources d'exécution (processus et threads). Plutôt qu'une approche hybride classique, créant un processus MPI multithreadé par noeud, nous évaluons de façon automatique des solutions alternatives, avec plusieurs processus multithreadés par noeud, mieux adaptées aux machines de calcul modernes. Calcul hautes performances MPI OpenMP Architectures NUMA Programmation parallèle Modèles de programmation Hiérarchie de mémoire
7	Calcul hautes performances pour les formulations intégrales en électromagnétisme basses fréquences. Intégration, compression matricielle par ondelettes et résolution sur architecture GPGPU Rubeck, Christophe 18 December 2012 (has links) (PDF) Les méthodes intégrales sont des méthodes particulièrement bien adaptées à la modélisation des systèmes électromagnétiques car contrairement aux méthodes par éléments finis elles ne nécessitent pas le maillage des matériaux inactifs tel que l'air. Ces modèles sont donc légers en terme du nombre de degrés de liberté. Cependant ceux sont des méthodes à interactions totales qui génèrent des matrices de systèmes d'équations pleines. Ces matrices sont longues à calculer en temps processeur et coûteuses à stocker dans la mémoire vive de l'ordinateur. Nous réduisons dans ces travaux les temps de calcul grâce au parallélisme, c'est-à-dire l'utilisation de plusieurs processeurs, notamment sur cartes graphiques (GPGPU). Nous réduisons également le coût du stockage mémoire via de la compression matricielle par ondelettes (il s'agit d'un algorithme proche de la compression d'images). C'est une compression par pertes, nous avons ainsi développé un critère pour contrôler l'erreur introduite par la compression. Les méthodes développées sont appliquées sur une formulation électrostatique de calcul de capacités, mais elles sont à priori également applicables à d'autres formulations. [SPI:OTHER] Engineering Sciences/Other Calcul hautes performances Méthodes intégrales Compression matricielle par ondelettes Architecture GPGPU
8	Optimisation multi-niveau d'une application de traitement d'images sur machines parallèles Saidani, Tarik 06 November 2012 (has links) (PDF) Cette thèse vise à définir une méthodologie de mise en œuvre d'applications performantes sur les processeurs embarqués du futur. Ces architectures nécessitent notamment d'exploiter au mieux les différents niveaux de parallélisme (grain fin, gros grain) et de gérer les communications et les accès à la mémoire. Pour étudier cette méthodologie, nous avons utilisé un processeur cible représentatif de ces architectures émergentes, le processeur CELL. Le détecteurde points d'intérêt de Harris est un exemple de traitement régulier nécessitant des unités de calcul intensif. En étudiant plusieurs schémas de mise en oeuvre sur le processeur CELL, nous avons ainsi pu mettre en évidence des méthodes d'optimisation des calculs en adaptant les programmes aux unités spécifiques de traitement SIMD du processeur CELL. L'utilisation efficace de la mémoire nécessite par ailleurs, à la fois une bonne exploitation des transferts et un arrangement optimal des données en mémoire. Nous avons développé un outil d'abstraction permettant de simplifier et d'automatiser les transferts et la synchronisation, CELL MPI. Cette expertise nous a permis de développer une méthodologie permettant de simplifier la mise en oeuvre parallèle optimisée de ces algorithmes. Nous avons ainsi conçu un outil de programmation parallèle à base de squelettes algorithmiques : SKELL BE. Ce modèle de programmation propose une solution originale de génération d'applications à base de métaprogrammation. Il permet, de manière automatisée, d'obtenir de très bonnes performances et de permettre une utilisation efficace de l'architecture, comme le montre la comparaison pour un ensemble de programmes test avec plusieurs autres outils dédiés à ce processeur. Programmation parallèle Processeur CELL Traitement d'images Squelettes algorithmiques Calcul hautes performances Méta-programmation Processeur embarqué
9	Exploitation efficace des architectures parallèles de type grappes de NUMA à l’aide de modèles hybrides de programmation Clet-Ortega, Jérôme 18 April 2012 (has links) Les systèmes de calcul actuels sont généralement des grappes de machines composés de nombreux processeurs à l'architecture fortement hiérarchique. Leur exploitation constitue le défi majeur des implémentations de modèles de programmation tels MPI ou OpenMP. Une pratique courante consiste à mélanger ces deux modèles pour bénéficier des avantages de chacun. Cependant ces modèles n'ont pas été pensés pour fonctionner conjointement ce qui pose des problèmes de performances. Les travaux de cette thèse visent à assister le développeur dans la programmation d'application de type hybride. Il s'appuient sur une analyse de la hiérarchie architecturale du système de calcul pour dimensionner les ressources d'exécution (processus et threads). Plutôt qu'une approche hybride classique, créant un processus MPI multithreadé par noeud, nous évaluons de façon automatique des solutions alternatives, avec plusieurs processus multithreadés par noeud, mieux adaptées aux machines de calcul modernes. / Modern computing servers usually consist in clusters of computers with several multi-core CPUs featuring a highly hierarchical hardware design. The major challenge of the programming models implementations is to efficiently take benefit from these servers. Combining two type of models, like MPI and OpenMP, is a current trend to reach this point. However these programming models haven't been designed to work together and that leads to performance issues. In this thesis, we propose to assist the programmer who develop hybrid applications. We lean on an analysis of the computing system architecture in order to set the number of processes and threads. Rather than a classical hybrid approach, that is to say creating one multithreaded MPI process per node, we automatically evaluate alternative solutions, with several multithreaded processes per node, better fitted to modern computing systems. Calcul hautes performances Mpi OpenMP Numa Parallélisme (Informatique) Modèle de programmation Hiérarchie de mémoire (Informatique) HIgh performance computing Mpi OpenMP Numa Parallel Computing Programming models Memory Hierarchy
10	Vers la simulation des écoulements sanguins Chabannes, Vincent 08 July 2013 (has links) (PDF) Contrairement aux liquides ordinaires, les fluides complexes comme le sang exhibent des comportements étranges qui dépendent essentiellement des structures sous-jacentes qui les composent. La simulation des écoulements sanguins continue de poser un formidable défi pour les modélisations théoriques et numériques dont l'intérêt est de développer des méthodes et des outils de simulation pour la communauté médicale. Nous proposons dans cette thèse une contribution à ce projet qui sera majoritairement centré sur les aspects numériques et informatiques. Nous nous sommes particulièrement intéressés à l'interaction entre le sang et la paroi vasculaire, qui joue un rôle important dans les grandes artères comme l'aorte. Nous nous sommes aussi investis dans la simulation du transport des cellules sanguines dans le sang. Pour la résolution des équations aux dérivées partielles décrivant nos modèles d'hémodynamique, nous avons choisi d'utiliser des méthodes numériques dont la précision pourra être accrue de manière arbitraire. Dans ce but, les principaux ingrédients qui ont été mis en oeuvre sont (i) la méthode des éléments finis basée sur des approximations de Galerkin d'ordre arbitraire en espace et géométrie, (ii) la méthode ALE pour la prise en compte de la mobilité des domaines pour des déplacements d'ordre arbitraire, (iii) les couplages implicites et semi-implicites pour l'interaction fluide-structure. Nous proposons également une nouvelle formulation de la méthode de la frontière élargie visant à modéliser le transport de particules déformables immergées dans un fluide. Nos simulations numériques se sont appuyées sur la librairie de calcul Feel++, spécialisée dans la résolution d'EDP. Outre l'implémentation des modèles physiques, nous y avons développé diverses fonctionnalités nécessaires à la mise en oeuvre de nos méthodes : interpolation, méthode de Galerkin non standard, méthode ALE, environnement pour l'interaction fluide-structure. De plus, de par la taille des géométries et la complexité des modèles mis en jeu, le passage au calcul parallèle a été indispensable pour pouvoir réaliser nos simulations. Ainsi, nous avons décrit le développement qui a été effectué dans cette librairie pour permettre le déploiement de nos programmes sur des architectures parallèles. Méthodes de Galerkin d'ordre élévé Couplage fluide structure Écoulement sanguin Calcul hautes performances et hybrides

Search results