31 |
Contributions à la recherche dans des ensembles ordonnés : du séquentiel au parallèleGalvao Ferreira, Afonso 17 January 1990 (has links) (PDF)
Le problème de la recherche d'un élément dans un ensemble donne est un des problèmes fondamentaux en informatique non numérique, lie, par exemple, aux bases de données, a la compilation, a l'optimisation combinatoire, etc... Dans cette thèse nous abordons le problème de la recherche dans des ensembles ordonnes et quelques problèmes qui lui sont lies. Une matrice est dite triée si elle possédé une relation d'ordre total sur chaque ligne et chaque colonne. Un cas particulier est l'ensemble des matrices définies par x+y, la somme cartésienne de deux vecteurs tries. Après un tour d'horizon des problèmes de la sélection, de la recherche et du tri sur des ensembles de la forme x=y, nous démontrons des bornes inférieures et introduisons des bornes supérieures pour les problèmes de la recherche et de la sélection. Nous proposons, en outre, plusieurs algorithmes parallèles pour la recherche dans x+y. Ensuite nous montrons comment appliquer ces résultats a la resolution en parallèle du problème de décision du sac-a-dos, ou, étant donnes plusieurs objets et un sac de capacité définie a remplir, on veut décider s'il existe une combinaison des objets qui remplit exactement le sac. Des algorithmes avec une accélération optimale sont introduits pour divers modèles de machines parallèles a mémoire partagée et distribuée. Pour ce problème les approches existantes se ramènent soit a la recherche dans x+y, soit a la traversée d'un espace combinatoire a l'aide de la technique du Branch & Bound. Cette dernière technique est aussi discutée dans ce travail, ou nous présentons un algorithme de Branch & Bound en vue de la resolution de problèmes d'optimisation combinatoire sur la connexion machine. Enfin, toujours dans le domaine de l'optimisation combinatoire, nous étudions le comportement de l'algorithme de recuit simule. Nous prouvons que, malgré la confiance qu'il inspire et sa grande utilisation pour des application
|
32 |
MINI-élément et factorisation incomplètes pour la parallelisation d'un solveur de Stokes 2D : application au forgeagePerchat, Etienne 11 July 2000 (has links) (PDF)
Nous présentons dans cette contribution les techniques que nous avons mises en oeuvre pour paralléliser un code éléments finis 2D dédié à la simulation du forgeage de pièces axisymétriques. Les modèles de comportement conduisent à résoudre des équations de type Stokes généralisé, exprimées sous forme mixte en vitesse et pression. La discrétisation spatiale est effectuée par une méthode éléments finis originale basée sur une stabilisation du MINI-élément P1+P1<br />Cette approche mène à des systèmes linéaires symétriques non définis positifs que l'on peut inverser avec un solveur itératif. L'introduction de préconditionneurs par factorisation incomplète LDL(0) ainsi que l'optimisation de la résolution non-linéaire nous permet de concurrencer une méthode directe sur un maillage de plus de 3000 noeuds.<br />Une stratégie de parallélisation SPMD couplée avec un solveur itératif avec préconditionnement diagonal aboutit à, un solveur parallèle simple et efficace, ne dépendant ni de la partition ni du nombre de domaines. Différentes stratégies sont envisagées pour développer des factorisations incomplètes parallèles. Un préconditionneur additif de Schwarz est notamment proposé. Celui-ci est construit à partir des matrices locales, complétées sur leur diagonale aux interfaces et avec un coefficient de sur-relaxation. Des résultats sur des simulations industrielles sont donnés par une machine parallèle à mémoire partagée. Ceux-ci, obtenus sur des problèmes 2D et 3D, prouvent la pertinence de notre approche.<br />Les stratégies développées permettent ainsi de réduire de manière significative les temps de simulation de la majorité des cas industriels. Elles permettent aussi d'élargir les champs d'application des codes de calcul à des simulations industrielles très complexes ou avec des maillages de plus de 15000 noeuds en 2D
|
33 |
Athapascan-1 : vers un modèle de programmation parallèle adapté au calcul scientifiqueDoreille, Mathias 14 December 1999 (has links) (PDF)
Les ordinateurs parallèles offrent une alternative intéressante pour les applications de calcul scientifique, grandes consommatrices de ressources de calcul et de mémoire. Cependant, la programmation efficace de ces machines est souvent difficile et les implantations obtenues sont généralement peu portables. Nous proposons dans cette thèse un modèle de programmation parallèle permettant une programmation simple, portable et efficace des applications parallèles. Ce modèle est basé sur une décomposition explicite de l'application en tâches de calculs qui communiquent entre elles par l'intermédiaire d'objets en mémoire partagée. La sémantique des accès aux données partagées est quasi séquentielle et les précédences entre les tâches sont implicitement définies pour respecter cette sémantique. Nous présentons dans une première partie la mise en oeuvre de ce modèle de programmation dans l'interface applicative C++ Athapascan-1. Une analyse à l'exécution des dépendances de données entre tâches permet d'extraire le flot de données et donc les précédences entre les tâches à exécuter. Des algorithmes d'ordonnancement adaptables à l'application et à la machine cible sont également utilisés. Nous montrons comment, sur architecture distribuée, la connaissance du flot de données entre les tâches peut être utilisée par le système pour réduire les communications et gérer efficacement la mémoire partagée distribuée. Ce modèle de programmation et sa mise en oeuvre dans l'interface applicative Athapascan-1 sont ensuite validés expérimentalement sur différentes architectures et différentes applications d'algèbre linéaire, notamment la factorisation creuse de Cholesky avec partitionnement bidimensionnel. La facilité de programmation de ces applications grâce à cette interface et les résultats obtenus (amélioration des performances par rapport au code de factorisation dense de Cholesky de la bibliothèque ScaLapak sur une machine à 60 processeurs par exemple) confirment l'intérêt du modèle de programmation proposé.
|
34 |
Une méthode MultiMaillages MultiPhysiques parallèle pour accélérer les calculs des procédés incrémentauxRamadan, Mohamad 08 October 2010 (has links) (PDF)
L'objectif de notre travail est de réduire le temps de calcul des procédés multiphysiques incrémentaux, tout en conservant avec précision l'histoire du calcul et en prenant en compte l'aspect multiphysique. Notre choix est tombé sur la méthode MultiMaillages MultiPhysiques (MMMP). Le principe de la méthode consiste à utiliser pour chaque physique un Maillage de Calcul qui lui est optimal, et à considérer un Maillage Référence pour le stockage des résultats. Étant donné que l'application principale de notre travail de thèse est le procédé de martelage qui est un procédé couplé thermomécaniquement, on a appliqué la méthode MMMP à ce procédé en considérant 2 maillages : un maillage pour le calcul mécanique et un autre pour le calcul thermique que l'on a aussi utilisé comme Maillage Référence. La particularité du procédé de martelage est que la déformation plastique est localisée dans la zone de contact avec les outils, et à l'extérieure de cette zone la déformation est négligeable. Le maillage Mécanique est généré en se basant sur cette particularité : il est divisé en deux zones, une zone qui a une taille de mailles fine, c'est la zone de déformation (zone de contact avec les outils) et une autre, constituée par le reste du maillage c'est-à-dire là où il ne se passe presque rien ; dans cette zone on a considéré une taille déraffinée égale à deux fois la taille fine. Pour améliorer la qualité du transport qui est fait par la méthode d'interpolation inverse on a utilisé trois techniques : la première consiste à grader la zone de déformation dans le Maillage Mécanique telle qu'elle est dans le Maillage Référence, la deuxième consiste à déraffiner la zone de faible déformation par un déraffinement emboîté par nœuds, c'est à dire en éliminant des nœuds sons ajouter ou bouger les nœuds existants et la troisième concerne les variables élémentaires telles que la déformation généralisée et consiste à ne pas transporter cette variable mais à la recalculer sur le maillage d'arrivée à partir de la vitesse. Le coût élevé du transport est réduit à moins de 1 % du temps total par une technique de transport sans relocalisation qui consiste à faire la localisation du maillage d'arrivée dans le maillage de départ uniquement au premier incrément et utiliser cette localisation pour les autres incréments. Le partitionnement du Maillage Mécanique est fait indépendamment du Maillage Référence, ce qui améliore l'efficacité parallèle de la méthode. L'accélération MMMP est excellente, elle varie entre 4 et 18 en fonction du nombre de degrés de liberté, du nombre d'incréments et de la configuration de calcul. En parallèle elle chute un peu puisque le Maillage Mécanique du calcul Multimaillage a moins de degrés de liberté que le Maillage du calcul Monomaillage, cependant la méthode continue à nous offrir des accélérations même sur un très grand nombre de processeurs.
|
35 |
Équilibrage de charge prenant en compte la topologie des plates-formes de calcul parallèle pour la portabilité des performancesPilla, Laércio L. 11 April 2014 (has links) (PDF)
Cette thèse présente nos travaux de recherche qui ont comme principal objectif d'assurer la portabilité des performances et le passage à l'échelle des applications scientifiques complexes exécutées sur des plates-formes multi-coeurs parallèles et hiérarchiques. La portabilité des performances est obtenue lorsque l'ordonnancement des tâches d'une application permet de réduire les périodes d'inactivité des coeurs de la plate-forme. Cette portabilité des performances peut être affectée par différents problèmes tels que des déséquilibres de charge, des communications coûteuses et des surcoûts provenant de l'ordonnancement des tâches. Le déséquilibre de charge est la conséquence de comportements de charges irrégulières et dynamiques, où le volume de calcul varie dynamiquement en fonction de la tâche et de l'étape de simulation. Les communications coûteuses sont provoquées par un ordonnancement qui ne prend pas en compte les différents temps de c! ommunication entre tâches sur une plate-forme hiérarchique. Cela est accentué par des communications non uniformes et asymétriques au niveau mémoire et réseau. Enfin, ces surcoûts peuvent être générés par des algorithmes de placement trop complexes dont les coûts ne seraient pas compensés par les gains de performance. Pour atteindre cet objectif de portabilité des performances, notre approche repose sur une récolte d'informations précises sur la topologie de la machine qui vont aider les algorithmes d'ordonnancement de tâches à prendre les bonnes décisions. Dans ce contexte, nous avons proposé une modélisation générique de la topologie des plates-formes parallèles. Le modèle comprend des latences et des bandes passantes mesurées de la mémoire et du réseau qui mettent en évidence des asymétries. Ces informations sont utilisées par nos trois algorithmes d'équilibrage de charge nommés NucoLB, HwTopoLB, et HierarchicalLB. De plus, ces algorithmes utilisent des informations provenant de l'exécution de l'application. NucoLB se concentre sur les aspects non uniformes de plates-formes parallèles, alors que HwTopoLB considère l'ensemble de la hiérarchie pour ses décisions, et HierarchicalLB combine ces algorithmes hiérarchiquement pour réduire son surcoût d'ordonnanceme! nt de tâches. Ces algorithmes cherchent à atténuer le déséquilibre de charge et des communications coûteuses tout en limitant les surcoûts de migration des tâches. Les résultats expérimentaux avec les trois régulateurs de charge proposés ont montré des améliorations de performances sur les meilleurs algorithmes de l'état de l'art: NucoLB a présenté jusqu'à 19% d'amélioration de performances sur un noeud de calcul; HwTopoLB a amélioré les performances en moyenne de 19%, et HierarchicalLB a surclassé HwTopoLB de 22% en moyenne sur des plates-formes avec plus de dix noeuds de calcul. Ces résultats ont été obtenus en répartissant la charge entre les ressources disponibles, en réduisant les coûts de communication des applications, et en gardant les surcoûts d'équilibrage de charge faibles. En ce sens, nos algorithmes d'équilibrage de charge permettent la portabilité des performances pour les applications scientifiques tout en étant indépendant de l'application et de l'architecture du système.
|
36 |
Étude des applications des micro-afficheurs pour le phototraçage massivement parallèle de structures submicroniquesNASSOUR, Charbel 05 March 2012 (has links) (PDF)
Ce travail de thèse s'est inscrit dans la recherche et développement de la photoinscription directe massivement parallèle. L'utilisation d'un masque reconfigurable dans un phototraceur combine la rapidité de la photolithographie par projection et la flexibilité intrinsèque du modulateur spatial de lumière. Le premier axe de travail était d'améliorer la résolution, la vitesse d'écriture et la précision d'un phototraceur existant à Télécom Bretagne et à base d'un modulateur spatial de lumière à cristaux liquides afin d'atteindre la résolution limite possible avec ce système. Nous avons ainsi fabriqué des éléments optiques diffractifs (EOD) dans la photorésine de dimension critique 1 µm à 32 niveaux de phase avec une efficacité de diffraction à l'ordre 0 inférieure à 1% et celle de l'ordre +1 aux alentours de 80%. Le second volet consistait à mettre en place un nouveau phototraceur à l'aide d'un modulateur spatial de lumière à micro-miroirs et d'utiliser des nouvelles longueurs d'onde d'écriture aux alentours de 365 nm, afin d'élargir la gamme de matériaux photosensibles utilisables et d'accéder à une résolution sub-micronique. Ce phototraceur permet la fabrication des EODs binaires par écriture directe dans le matériau sol-gel hybride Ormocer avec une résolution de 700 nm. La dernière partie concernait l'étude et la première démonstration expérimentale de faisabilité de la combinaison de cette technique de phototraçage massivement parallèle avec celle de la photopolymérisation à deux photons qui permet de dépasser la limite de diffraction des systèmes de photoinscription classiques.
|
37 |
Vers un support d'exécution portable pour applications parallèles irrégulières: Athapascan-0Christaller, Michel 06 November 1996 (has links) (PDF)
Nous présentons un support d'exécution pour applications parallèles irrégulières. Par le terme irrégulier nous entendons des applications dont le comportement ne peut pas être prévu indépendamment du problème effectif à résoudre. En conséquence, le calcul d'un «bon» ordonnancement pour de telles applications est impossible. Il est alors nécessaire de permettre l'exécution dynamique et concurrente d'un grand nombre de calculs de grain éventuellement fin, et ce avec un coût minimum pour ne pas grever l'efficacité. L'approche retenue dans le cadre du projet APACHE consiste, pour assurer la portabilité efficace des applications, à exploiter le concept de polyalgorithme et à l'exprimer à l'aide d'une décomposition procédurale parallèle. L'opérateur de base de notre support d'exécution, l'appel de procédure à distance asynchrone, permet d'exprimer une telle décomposition procédurale. Cet opérateur est réalisé par le couplage lâche d'un noyau de multiprogrammation légère et d'un noyau de communication (PVM). Chaque calcul (exécution d'une procédure) est alors réalisé par un fil d'exécution différent. Nous décrivons le modèle de programmation que nous avons retenu, les choix de réalisation et l'implantation effectuée. Nous exposons en particulier le problème du couplage de la progression des calculs et de celle des communications, couplage réalisé à l'aide d'une opération «d'ordonnancement-scrutation». Cette réalisation est ensuite évaluée selon divers critères (portabilité, latence, débit, recouvrement, performances d'une application réelle). Nous présentons en dernier lieu 13 autres supports d'exécution de but semblable: utiliser la multiprogrammation légère pour améliorer le support des applications parallèles de grain variable. Nous tentons en particulier de dégager les grandes lignes de comparaison entre ces exécutifs, et présentons les diverses solutions retenues pour le couplage multiprogrammation légère/communications. Nous terminons par une indication d'un paradigme de programmation plus évolué, extension de la notion de décomposition procédurale parallèle
|
38 |
Programmation des architectures hiérarchiques et hétérogènes.Hamidouche, Khaled 10 November 2011 (has links) (PDF)
Les architectures de calcul haute performance de nos jours sont des architectures hiérarchiques et hétérogènes: hiérarchiques car elles sont composées d'une hiérarchie de mémoire, une mémoire distribuée entre les noeuds et une mémoire partagée entre les coeurs d'un même noeud. Hétérogènes due à l'utilisation des processeurs spécifiques appelés Accélérateurs tel que le processeur CellBE d'IBM et les CPUs de NVIDIA. La complexité de maîtrise de ces architectures est double. D'une part, le problème de programmabilité: la programmation doit rester simple, la plus proche possible de la programmation séquentielle classique et indépendante de l'architecture cible. D'autre part, le problème d'efficacité: les performances doivent êtres proches de celles qu'obtiendrait un expert en écrivant le code à la main en utilisant des outils de bas niveau. Dans cette thèse, nous avons proposé une plateforme de développement pour répondre à ces problèmes. Pour cela, nous proposons deux outils : BSP++ est une bibliothèque générique utilisant des templates C++ et BSPGen est un framework permettant la génération automatique de code hybride à plusieurs niveaux de la hiérarchie (MPI+OpenMP ou MPI + Cell BE). Basée sur un modèle hiérarchique, la bibliothèque BSP++ prend les architectures hybrides comme cibles natives. Utilisant un ensemble réduit de primitives et de concepts intuitifs, BSP++ offre une simplicité d'utilisation et un haut niveau d' abstraction de la machine cible. Utilisant le modèle de coût de BSP++, BSPGen estime et génère le code hybride hiérarchique adéquat pour une application donnée sur une architecture cible. BSPGen génère un code hybride à partir d'une liste de fonctions séquentielles et d'une description de l'algorithme parallèle. Nos outils ont été validés sur différentes applications de différents domaines allant de la vérification et du calcul scientifique au traitement d'images en passant par la bioinformatique. En utilisant une large sélection d'architecture cible allant de simple machines à mémoire partagée au machines Petascale en passant par les architectures hétérogènes équipées d'accélérateurs de type Cell BE.
|
39 |
Imagerie de diffusion en temps-réel : correction du bruit et inférence de la connectivité cérébraleBrion, Véronique 30 April 2013 (has links) (PDF)
La plupart des constructeurs de systèmes d'imagerie par résonance magnétique (IRM) proposent un large choix d'applications de post-traitement sur les données IRM reconstruites a posteriori, mais très peu de ces applications peuvent être exécutées en temps réel pendant l'examen. Mises à part certaines solutions dédiées à l'IRM fonctionnelle permettant des expériences relativement simples ainsi que d'autres solutions pour l'IRM interventionnelle produisant des scans anatomiques pendant un acte de chirurgie, aucun outil n'a été développé pour l'IRM pondérée en diffusion (IRMd). Cependant, comme les examens d'IRMd sont extrêmement sensibles à des perturbations du système hardware ou à des perturbations provoquées par le sujet et qui induisent des données corrompues, il peut être intéressant d'investiguer la possibilité de reconstruire les données d'IRMd directement lors de l'examen. Cette thèse est dédiée à ce projet innovant. La contribution majeure de cette thèse a consisté en des solutions de débruitage des données d'IRMd en temps réel. En effet, le signal pondéré en diffusion peut être corrompu par un niveau élevé de bruit qui n'est plus gaussien, mais ricien ou chi non centré. Après avoir réalisé un état de l'art détaillé de la littérature sur le bruit en IRM, nous avons étendu l'estimateur linéaire qui minimise l'erreur quadratique moyenne (LMMSE) et nous l'avons adapté à notre cadre de temps réel réalisé avec un filtre de Kalman. Nous avons comparé les performances de cette solution à celles d'un filtrage gaussien standard, difficile à implémenter car il nécessite une modification de la chaîne de reconstruction pour y être inséré immédiatement après la démodulation du signal acquis dans l'espace de Fourier. Nous avons aussi développé un filtre de Kalman parallèle qui permet d'appréhender toute distribution de bruit et nous avons montré que ses performances étaient comparables à celles de notre méthode précédente utilisant un filtre de Kalman non parallèle. Enfin, nous avons investigué la faisabilité de réaliser une tractographie en temps-réel pour déterminer la connectivité structurelle en direct, pendant l'examen. Nous espérons que ce panel de développements méthodologiques permettra d'améliorer et d'accélérer le diagnostic en cas d'urgence pour vérifier l'état des faisceaux de fibres de la substance blanche.
|
40 |
Implémentation et évaluation d'un système logique parallèleChassin de Kergommeaux, Jacques 23 November 1989 (has links) (PDF)
Cette thèse est consacrée à l'implémentation de PEPSys (Parallel ECRC Prolog System) sur un multiprocesseur à mémoire partagée et à l'évaluation de cette implémentation. Le projet PEPSys vise à exploiter le parallélisme en programmation logique pour obtenir, sur les multiprocesseurs existants actuellement, des gains de performances relativement aux systèmes Prolog les plus efficaces. Un langage, extension de Prolog, un modèle de calcul et une machine abstraite basée sur la WAM ont été définis et validés par une implémentation sur multiprocesseur et une simulation d'architecture parallèle extensible. Le modèle de calcul supporte les parallélismes OU et ET indépendant ainsi que leur combinaison avec l'exécution séquentielle et le retour-arrière. L'implémentat,ion de PEPSys qui fait l'objet de cette thèse constitue l'un des premiers systèmes logiquesO.U-parallèles à procurer des gains de performances, relativement aux systèmes Prolog séquentiels efficaces. Les nombreuses mesures présentées dans la thèse permettent de valider cette implémentation ainsi que les principaux mécanismes du modèle de calcul, tout en suggérant des optimisations
|
Page generated in 0.0368 seconds