Spelling suggestions: "subject:"calcul parallèle"" "subject:"calcul parrallèle""
131 |
Système d'agents mobiles pour les architectures de calculs auto-adaptatifs / Mobile Agent System dedicated to adaptable numerical architectureDumont, Cyril 28 May 2014 (has links)
Ce travail appartient au domaine de la simulation numérique sur des plates-formes d'exécution distribuées hétérogènes telles que des grilles de calcul. Ce type de plate-forme se caractérise par des possibles changements de condition d'exécution et par une probabilité importante de défaillance de certains composants. Une application qui s'exécute dans un tel environnement se doit d'être adaptable à son contexte d'exécution et tolérante aux pannes. Face à la complexité croissante de la mise en place de cas de calcul sur des grilles de calcul, nous proposons une plateforme logicielle pour la résolution de cas de calcul numérique dans un environnement distribué hétérogène. Nos travaux apportent une solution qui se base sur un système d'agents mobiles, ce qui permet à une application de s'adapter au changement de son environnement d'exécution. Dans un premier temps, nous utilisons le langage pi calcul d'ordre supérieur pour spécifier une « ferme de travailleurs » capable de participer à la résolution de tout type de cas de calcul. Ensuite, nous énonçons des propriétés qui caractérisent le bon fonctionnement de ce système avec une logique temporelle TCTL. Pour cela, nous souhaitons modéliser notre système à l'aide d'automates temporisés à partir des termes définis par la spécification formelle en pi calcul. Dans ce but, nous définissons une transformation de termes écrits en pi calcul en automates temporisés. Les propriétés sont alors vérifiées avec l'outil UppAal. Pour valider ce travail de modélisation, nous avons réalisé le framework MCA (pour Mobile Computing Architecture). Celui-ci propose un ensemble d'outils facilitant la mise en place de composants sur un environnement distribué hétérogène dans le but d'effectuer la résolution de cas de calcul. La librairie avec laquelle sont développés ces composants, qu'ils soient mobiles ou non, est implantée en Java et se base les technologies Jini et JavaSpaces. Enfin, nous réalisons l'évaluation du framework MCA en procédant à la résolution de trois cas de calcul différents. Chacune de ces expériences, réalisées sur une grappe de 20 noeuds, nous permet de montrer les caractéristiques essentielles de notre framework : une simplicité de programmation, un faible surcoût en temps d'exécution sans l'activation de la tolérance aux pannes et une tolérance aux pannes efficace / This work belongs to the domain of numerical simulation on heterogeneous distributed platforms such as grids. This type of platform is characterized by possible changes in execution conditions and a significant probability of some components failure. An application running in such an environment must be adaptable to its execution context and fault tolerant. Facing the growing complexity of implementing computation cases on grid computing, we propose a software platform which solves numerical computation cases in a distributed heterogeneous environment. Our work provides a solution based on a mobile agent system, which allows an application to adapt to change in its execution environment. At first, we use the higher-order pi calculus language to specify a « farm of workers » able to take part in solving any type of computation case. Then we set the properties that characterize the system's correct execution with a temporal logic TCTL. In order to do this, we perform a temporal modeling system based on terms defined by the formal specification in pi calculus. To achieve this transformation, we define a translation of terms written in pi calculus into timed automata. The properties are verified with the UppAal tool. To validate this modeling work, we develop the MCA (for Mobile Computing Architecture) framework. It offers a set of tools which facilitate the implementation of distributed heterogeneous components in order to solve computation cases. These components, mobile or not, are developed with a library written in Java and which uses Jini and JavaSpaces technologies. Finally, our framework is evaluated through the resolution of three different computation cases. Each of these experiments, performed on a 20 node cluster allow us to highlight our framework's main characteristics : programming simplicity, low overhead in execution time without the fault tolerance activation and efficient fault tolerance
|
132 |
Absorption de l'eau et des nutriments par les racines des plantes : modélisation, analyse et simulation / Water and nutrient uptake by plant roots : modeling, analysis and simulationTournier, Pierre-Henri 04 February 2015 (has links)
Dans le contexte du développement d'une agriculture durable visant à préserver les ressources naturelles et les écosystèmes, il s'avère nécessaire d'approfondir notre compréhension des processus souterrains et des interactions entre le sol et les racines des plantes.Dans cette thèse, on utilise des outils mathématiques et numériques pour développer des modèles mécanistiques explicites du mouvement de l'eau et des nutriments dans le sol et de l'absorption racinaire, gouvernés par des équations aux dérivées partielles non linéaires. Un accent est mis sur la prise en compte explicite de la géométrie du système racinaire et des processus à petite échelle survenant dans la rhizosphère, qui jouent un rôle majeur dans l'absorption racinaire.La première étude est dédiée à l'analyse mathématique d'un modèle d'absorption du phosphore (P) par les racines des plantes. L'évolution de la concentration de P dans la solution du sol est gouvernée par une équation de convection-diffusion avec une condition aux limites non linéaire à la surface de la racine, que l'on considère ici comme un bord du domaine du sol. On formule ensuite un problème d'optimisation de forme visant à trouver les formes racinaires qui maximisent l'absorption de P.La seconde partie de cette thèse montre comment on peut tirer avantage des récents progrès du calcul scientifique dans le domaine de l'adaptation de maillage non structuré et du calcul parallèle afin de développer des modèles numériques du mouvement de l'eau et des solutés et de l'absorption racinaire à l'échelle de la plante, tout en prenant en compte les phénomènes locaux survenant à l'échelle de la racine unique. / In the context of the development of sustainable agriculture aiming at preserving natural resources and ecosystems, it is necessary to improve our understanding of underground processes and interactions between soil and plant roots.In this thesis, we use mathematical and numerical tools to develop explicit mechanistic models of soil water and solute movement accounting for root water and nutrient uptake and governed by nonlinear partial differential equations. An emphasis is put on resolving the geometry of the root system as well as small scale processes occurring in the rhizosphere, which play a major role in plant root uptake.The first study is dedicated to the mathematical analysis of a model of phosphorus (P) uptake by plant roots. The evolution of the concentration of P in the soil solution is governed by a convection-diffusion equation with a nonlinear boundary condition at the root surface, which is included as a boundary of the soil domain. A shape optimization problem is formulated that aims at finding root shapes maximizing P uptake.The second part of this thesis shows how we can take advantage of the recent advances of scientific computing in the field of unstructured mesh adaptation and parallel computing to develop numerical models of soil water and solute movement with root water and nutrient uptake at the plant scale while taking into account local processes at the single root scale.
|
133 |
Bayesian iterative reconstruction methods for 3D X-ray Computed Tomography / Méthodes bayésiennes de reconstruction itérative pour la tomographie 3D à rayons XChapdelaine, Camille 12 April 2019 (has links)
Dans un contexte industriel, la tomographie 3D par rayons X vise à imager virtuellement une pièce afin d'en contrôler l'intérieur. Le volume virtuel de la pièce est obtenu par un algorithme de reconstruction, prenant en entrées les projections de rayons X qui ont été envoyés à travers la pièce. Beaucoup d'incertitudes résident dans ces projections à cause de phénomènes non contrôlés tels que la diffusion et le durcissement de faisceau, causes d'artefacts dans les reconstructions conventionnelles par rétroprojection filtrée. Afin de compenser ces incertitudes, les méthodes de reconstruction dites itératives tentent de faire correspondre la reconstruction à un modèle a priori, ce qui, combiné à l'information apportée par les projections, permet d'améliorer la qualité de reconstruction. Dans ce contexte, cette thèse propose de nouvelles méthodes de reconstruction itératives pour le contrôle de pièces produites par le groupe SAFRAN. Compte tenu de nombreuses opérations de projection et de rétroprojection modélisant le processus d'acquisition, les méthodes de reconstruction itératives peuvent être accélérées grâce au calcul parallèle haute performance sur processeur graphique (GPU). Dans cette thèse, les implémentations sur GPU de plusieurs paires de projecteur-rétroprojecteur sont décrites. En particulier, une nouvelle implémentation pour la paire duale dite à empreinte séparable est proposée. Beaucoup de pièces produites par SAFRAN pouvant être vues comme des volumes constants par morceaux, un modèle a priori de Gauss-Markov-Potts est introduit, à partir duquel est déduit un algorithme de reconstruction et de segmentation conjointes. Cet algorithme repose sur une approche bayésienne permettant d'expliquer le rôle de chacun des paramètres. Le caractère polychromatique des rayons X par lequel s'expliquent la diffusion et le durcissement de faisceau est pris en compte par l'introduction d'un modèle direct séparant les incertitudes sur les projections. Allié à un modèle de Gauss-Markov-Potts sur le volume, il est montré expérimentalement que ce nouveau modèle direct apporte un gain en précision et en robustesse. Enfin, l'estimation des incertitudes sur la reconstruction est traitée via l'approche bayésienne variationnelle. Pour obtenir cette estimation en un temps de calcul raisonnable, il est montré qu'il est nécessaire d'utiliser une paire duale de projecteur-rétroprojecteur. / In industry, 3D X-ray Computed Tomography aims at virtually imaging a volume in order to inspect its interior. The virtual volume is obtained thanks to a reconstruction algorithm based on projections of X-rays sent through the industrial part to inspect. In order to compensate uncertainties in the projections such as scattering or beam-hardening, which are cause of many artifacts in conventional filtered backprojection methods, iterative reconstruction methods bring further information by enforcing a prior model on the volume to reconstruct, and actually enhance the reconstruction quality. In this context, this thesis proposes new iterative reconstruction methods for the inspection of aeronautical parts made by SAFRAN group. In order to alleviate the computational cost due to repeated projection and backprojection operations which model the acquisition process, iterative reconstruction methods can take benefit from the use of high-parallel computing on Graphical Processor Unit (GPU). In this thesis, the implementation on GPU of several pairs of projector and backprojector is detailed. In particular, a new GPU implementation of the matched Separable Footprint pair is proposed. Since many of SAFRAN's industrial parts are piecewise-constant volumes, a Gauss-Markov-Potts prior model is introduced, from which a joint reconstruction and segmentation algorithm is derived. This algorithm is based on a Bayesian approach which enables to explain the role of each parameter. The actual polychromacy of X-rays, which is responsible for scattering and beam-hardening, is taken into account by proposing an error-splitting forward model. Combined with Gauss-Markov-Potts prior on the volume, this new forward model is experimentally shown to bring more accuracy and robustness. At last, the estimation of the uncertainties on the reconstruction is investigated by variational Bayesian approach. In order to have a reasonable computation time, it is highlighted that the use of a matched pair of projector and backprojector is necessary.
|
134 |
Optimisation des applications multimédia sur des processeurs multicœurs embarqués / Optimization of multimedia applications on embedded multicore processorsBaaklini, Elias Michel 12 February 2014 (has links)
L’utilisation de plusieurs cœurs pour l’exécution des applications mobiles sera l’approche dominante dans les systèmes embarqués pour les prochaines années. Cette approche permet en générale d’augmenter les performances du système sans augmenter la vitesse de l’horloge. Grâce à cela, la consommation d’énergie reste modérée. Toutefois, la concurrence entre les tâches doit être exploitée afin d’améliorer les performances du système dans les différentes situations où l’application peut s’exécuter. Les applications multimédias comme la vidéoconférence ou la vidéo haute définition, ont de nombreuses nouvelles fonctionnalités qui nécessitent des calculs complexes par rapport aux normes précédentes de codage vidéo. Ces applications créent une charge de travail très importante sur les systèmes multiprocesseurs. L’exploitation du parallélisme pour les applications multimédia, comme le codec vidéo H.264/AVC, peut se faire à différents niveaux : au niveau de données ou bien au niveau tâches. Dans le cadre de cette thèse de doctorat, nous proposons de nouvelles solutions pour une meilleure exploitation du parallélisme dans les applications multimédia sur des systèmes embarqués ayant une architecture parallèle symétrique (ou SMP pour Symmetric Multi-Processor). Des approches innovantes pour le décodeur H.264/AVC qui traitent des composantes de couleur et des blocs de l’image en parallèle sont proposées et expérimentées. / Parallel computing is currently the dominating architecture in embedded systems. Concurrency improves the performance of the system rather without increasing the clock speed which affects the power consumption of the system. However, concurrency needs to be exploited in order to improve the system performance in different applications environments. Multimedia applications (real-Time conversational services such as video conferencing, video phone, etc.) have many new features that require complex computations compared to previous video coding standards. These applications have a challenging workload for future multiprocessors. Exploiting parallelism in multimedia applications can be done at data and functional levels or using different instruction sets and architectures. In this research, we design new parallel algorithms and mapping methodologies in order to exploit the natural existence of parallelism in multimedia applications, specifically the H.264/AVC video decoder. We mainly target symmetric shared-Memory multiprocessors (SMPs) for embedded devices such as ARM Cortex-A9 multicore chips. We evaluate our novel parallel algorithms of the H.264/AVC video decoder on different levels: memory load, energy consumption, and execution time.
|
135 |
Une architecture évolutive flexible et reconfigurable dynamiquement pour les systèmes embarqués haute performance / A scalable flexible and dynamic reconfigurable architecture for high performance embedded computingViswanathan, Venkatasubramanian 12 October 2015 (has links)
Dans cette thèse, nous proposons une architecture reconfigurable scalable et flexible, avec un réseau de communication parallèle « full-duplex switched » ainsi que le modèle d’exécution approprié ce qui nous a permis de redéfinir les paradigmes de calcul, de communication et de reconfiguration dans les systèmes embarqués à haute performance (HPEC). Ces systèmes sont devenus très sophistiqués et consommant des ressources pour trois raisons. Premièrement, ils doivent capturer et traiter des données en temps réel à partir de plusieurs sources d’E/S parallèles. Deuxièmement, ils devraient adapter leurs fonctionnalités selon l’application ou l’environnement. Troisièmement, à cause du parallélisme potentiel des applications, multiples instances de calcul réparties sur plusieurs nœuds sont nécessaires, ce qui rend ces systèmes massivement parallèles. Grace au parallélisme matériel offert par les FPGAs, la logique d’une fonction peut être reproduite plusieurs fois pour traiter des E/S parallèles, faisant du modèle d’exécution « Single Program Multiple Data » (SPMD) un modèle préféré pour les concepteurs d’architectures parallèles sur FPGA. En plus, la fonctionnalité de reconfiguration dynamique est un autre attrait des composants FPGA permettant la réutilisation efficace des ressources matérielles limitées. Le défi avec les systèmes HPEC actuels est qu’ils sont généralement conçus pour répondre à des besoins spécifiques d’une application engendrant l’obsolescence rapide du matériel. Dans cette thèse, nous proposons une architecture qui permet la personnalisation des nœuds de calcul (FPGA), la diffusion des données (E/S, bitstreams) et la reconfiguration de plusieurs nœuds de calcul en parallèle. L’environnement logiciel exploite les attraits du réseau de communication pour implémenter le modèle d’exécution SPMD.Enfin, afin de démontrer les avantages de notre architecture, nous avons mis en place une application d’encodage H.264 sécurisé distribué évolutif avec plusieurs protocoles de communication avioniques pour les données et le contrôle. Nous avons utilisé le protocole « serial Front Panel Data Port (sFPDP) » d’acquisition de données à haute vitesse basé sur le standard FMC pour capturer, encoder et de crypter le flux vidéo. Le système mis en œuvre s’appuie sur 3 FPGA différents, en respectant le modèle d’exécution SPMD. En outre, nous avons également mis en place un système d’E/S modulaire en échangeant des protocoles dynamiquement selon les besoins du système. Nous avons ainsi conçu une architecture évolutive et flexible et un modèle d’exécution parallèle afin de gérer plusieurs sources vidéo d’entrée parallèles. / In this thesis, we propose a scalable and customizable reconfigurable computing platform, with a parallel full-duplex switched communication network, and a software execution model to redefine the computation, communication and reconfiguration paradigms in High Performance Embedded Systems. High Performance Embedded Computing (HPEC) applications are becoming highly sophisticated and resource consuming for three reasons. First, they should capture and process real-time data from several I/O sources in parallel. Second, they should adapt their functionalities according to the application or environment variations within given Size Weight and Power (SWaP) constraints. Third, since they process several parallel I/O sources, applications are often distributed on multiple computing nodes making them highly parallel. Due to the hardware parallelism and I/O bandwidth offered by Field Programmable Gate Arrays (FPGAs), application can be duplicated several times to process parallel I/Os, making Single Program Multiple Data (SPMD) the favorite execution model for designers implementing parallel architectures on FPGAs. Furthermore Dynamic Partial Reconfiguration (DPR) feature allows efficient reuse of limited hardware resources, making FPGA a highly attractive solution for such applications. The problem with current HPEC systems is that, they are usually built to meet the needs of a specific application, i.e., lacks flexibility to upgrade the system or reuse existing hardware resources. On the other hand, applications that run on such hardware architectures are constantly being upgraded. Thus there is a real need for flexible and scalable hardware architectures and parallel execution models in order to easily upgrade the system and reuse hardware resources within acceptable time bounds. Thus these applications face challenges such as obsolescence, hardware redesign cost, sequential and slow reconfiguration, and wastage of computing power.Addressing the challenges described above, we propose an architecture that allows the customization of computing nodes (FPGAs), broadcast of data (I/O, bitstreams) and reconfiguration several or a subset of computing nodes in parallel. The software environment leverages the potential of the hardware switch, to provide support for the SPMD execution model. Finally, in order to demonstrate the benefits of our architecture, we have implemented a scalable distributed secure H.264 encoding application along with several avionic communication protocols for data and control transfers between the nodes. We have used a FMC based high-speed serial Front Panel Data Port (sFPDP) data acquisition protocol to capture, encode and encrypt RAW video streams. The system has been implemented on 3 different FPGAs, respecting the SPMD execution model. In addition, we have also implemented modular I/Os by swapping I/O protocols dynamically when required by the system. We have thus demonstrated a scalable and flexible architecture and a parallel runtime reconfiguration model in order to manage several parallel input video sources. These results represent a conceptual proof of a massively parallel dynamically reconfigurable next generation embedded computers.
|
136 |
Décomposition en temps réel de signaux iEMG : filtrage bayésien implémenté sur GPU / On-line decomposition of iEMG signals using GPU-implemented Bayesian filteringYu, Tianyi 28 January 2019 (has links)
Un algorithme de décomposition des unités motrices constituant un signal électromyographiques intramusculaires (iEMG) a été proposé au laboratoire LS2N. Il s'agit d'un filtrage bayésien estimant l'état d'un modèle de Markov caché. Cet algorithme demande beaucoup de temps d'execution, même pour un signal ne contenant que 4 unités motrices. Dans notre travail, nous avons d'abord validé cet algorithme dans une structure série. Nous avons proposé quelques modifications pour le modèle de recrutement des unités motrices et implémenté deux techniques de pré-traitement pour améliorer la performance de l'algorithme. Le banc de filtres de Kalman a été remplacé par un banc de filtre LMS. Le filtre global consiste en l'examen de divers scénarios arborescents d'activation des unités motrices: on a introduit deux techniques heuristiques pour élaguer les divers scénarios. On a réalisé l'implémentation GPU de cet algorithme à structure parallèle intrinsèque. On a réussi la décomposition de 10 signaux expérimentaux enregistrés sur deux muscules, respectivement avec électrode aiguille et électrode filaire. Le nombre d'unités motrices est de 2 à 8. Le pourcentage de superposition des potentiels d'unité motrice, qui représente la complexité de signal, varie de 6.56 % à 28.84 %. La précision de décomposition de tous les signaux sont plus que 90 %, sauf deux signaux en 30 % MVC , sauf pour deux signaux qui sont à 30 % MVC et dont la précision de décomposition est supérieure à 85%. Nous sommes les premiers à réaliser la décomposition en temps réel pour un signal constitué de 10 unités motrices. / :A sequential decomposition algorithm based on a Hidden Markov Model of the EMG, that used Bayesian filtering to estimate the unknown parameters of discharge series of motor units was previously proposed in the laboratory LS2N. This algorithm has successfully decomposed the experimental iEMG signal with four motor units. However, the proposed algorithm demands a high time consuming. In this work, we firstly validated the proposed algorithm in a serial structure. We proposed some modifications for the activation process of the recruitment model in Hidden Markov Model and implemented two signal pre-processing techniques to improve the performance of the algorithm. Then, we realized a GPU-oriented implementation of this algorithm, as well as the modifications applied to the original model in order to achieve a real-time performance. We have achieved the decomposition of 10 experimental iEMG signals acquired from two different muscles, respectively by fine wire electrodes and needle electrodes. The number of motor units ranges from 2 to 8. The percentage of superposition, representing the complexity of iEMG signal, ranges from 6.56 % to 28.84 %. The accuracies of almost all experimental iEMG signals are more than90 %, except two signals at 30 % MVC (more than 85 %). Moreover, we realized the realtime decomposition for all these experimental signals by the parallel implementation. We are the first one that realizes the real time full decomposition of single channel iEMG signal with number of MUs up to 10, where full decomposition means resolving the superposition problem. For the signals with more than 10 MUs, we can also decompose them quickly, but not reaching the real time level.
|
137 |
Précision de modèle et efficacité algorithmique : exemples du traitement de l'occultation en stéréovision binoculaire et de l'accélération de deux algorithmes en optimisation convexe / Model accuracy and algorithmic efficiency : examples of occlusion handling in binocular stereovision and the acceleration of two convex optimization algorithmsTan, Pauline 28 November 2016 (has links)
Le présent manuscrit est composé de deux parties relativement indépendantes.La première partie est consacrée au problème de la stéréovision binoculaire, et plus particulièrement au traitement de l'occultation. En partant d'une analyse de ce phénomène, nous en déduisons un modèle de régularité qui inclut une contrainte convexe de visibilité. La fonctionnelle d'énergie qui en résulte est minimisée par relaxation convexe. Les zones occultées sont alors détectées grâce à la pente horizontale de la carte de disparité avant d'être densifiées.Une autre méthode gérant l'occultation est la méthode des graph cuts proposée par Kolmogorov et Zabih. L'efficacité de cette méthode justifie son adaptation à deux problèmes auxiliaires rencontrés en stéréovision, qui sont la densification de cartes éparses et le raffinement subpixellique de cartes pixelliques.La seconde partie de ce manuscrit traite de manière plus générale de deux algorithmes d'optimisation convexe, pour lequels deux variantes accélérées sont proposées. Le premier est la méthode des directions alternées (ADMM). On montre qu'un léger relâchement de contraintes dans les paramètres de cette méthode permet d'obtenir un taux de convergence théorique plus intéressant.Le second est un algorithme de descentes proximales alternées, qui permet de paralléliser la résolution approchée du problème Rudin-Osher-Fatemi (ROF) de débruitage pur dans le cas des images couleurs. Une accélération de type FISTA est également proposée. / This thesis is splitted into two relatively independant parts. The first part is devoted to the binocular stereovision problem, specifically to the occlusion handling. An analysis of this phenomena leads to a regularity model which includes a convex visibility constraint. The resulting energy functional is minimized by convex relaxation. The occluded areas are then detected thanks to the horizontal slope of the disparity map and densified. Another method with occlusion handling was proposed by Kolmogorov and Zabih. Because of its efficiency, we adapted it to two auxiliary problems encountered in stereovision, namely the densification of sparse disparity maps and the subpixel refinement of pixel-accurate maps.The second part of this thesis studies two convex optimization algorithms, for which an acceleration is proposed. The first one is the Alternating Direction Method of Multipliers (ADMM). A slight relaxation in the parameter choice is shown to enhance the convergence rate. The second one is an alternating proximal descent algorithm, which allows a parallel approximate resolution of the Rudin-Osher-Fatemi (ROF) pure denoising model, in color-image case. A FISTA-like acceleration is also proposed.
|
138 |
Méthodes itératives à retard pour architecture massivement parallèles / Iterative methods with retards for massively parallel architectureZhang, Hanyu 29 September 2016 (has links)
Avec l'avènement de machine parallèles multi-coeurs, de nombreux algorithmes doivent être modifiés ou conçus pour s'adapter à ces architectures. Ces algorithmes consistent pour la plupart à diviser le problème original en plusieurs petits sous-problèmes et à les distribuer sur les différentes unités de calcul disponibles. La résolution de ces petits sous-problèmes peut être exécutée en parallèle, des communications entre les unités de calcul étant indispensables pour assurer la convergence de ces méthodes.Ma thèse propose de nouveaux algorithmes parallèles pour résoudre de grands systèmes linéaires.Les algorithmes proposés sont ici basés sur la méthode du gradient. Deux points fondamentaux de la méthode du gradient sont la direction de descente de la solution approchée et la valeur du pas de descente, qui détermine la modification à effectuer à chaque itération. Nous proposons dans cette thèse de calculer la direction et le pas indépendamment et localement sur chaque unité de calcul, ce qui nécessite moins de synchronisation entre les processeurs, et par suite rend chaque itération simple et plus rapide, et rend son extension dans un contexte asynchrone possible.Avec les paramètres d'échelle appropriés pour le pas des longueurs, la convergence peut être démontrée pour les deux versions synchrone et asynchrone des algorithmes. De nombreux tests numériques illustrent l’efficacité de ces méthodes.L'autre partie de ma thèse propose d'utiliser une méthode d'extrapolation pour accélérer les méthodes itératives classiques avec retard. Bien que les séquences de vecteur générées par des méthodes itératives asynchrones générales classiques ne peut être accélérée, nous sommes en mesure de démontrer que, une fois le modèle de calcul et de communication fixés au cours de l’exécution, la séquence de vecteurs générés peut être accéléré. De nombreux tests numériques illustrent l’efficacité de ces accélérations dans le cas des méthodes avec retard. / With the increase of architectures composed of multi-cores, many algorithms need to revisited and be modified to exploit the power of these new architectures. These algorithms divide the original problem into “small pieces” and distribute these pieces to different processors at disposal, thus communications among them are indispensible to assure the convergence. My thesis mainly focus on solving large sparse systems of linear equations in parallel with new methods. These methods are based on the gradient methods. Two key parameters of the gradient methods are descent direction and step-length of descent for each iteration. Our methods compute the directions locally, which requires less synchronization and computation, leading to faster iterations and make easy asynchronization possible. Convergence can be proved in both synchronized or asynchronized cases. Numerical tests demonstrate the efficiency of these methods. The other part of my thesis deal with the acceleration of the vector sequences generated by classical iterative algorithms. Though general chaotic sequences may not be accelerated, it is possible to prove that with any fixed retard pattern, then the generated sequence can be accelerated. Different numerical tests demonstrate its efficiency.
|
139 |
Environnement décentralisé et protocole de communication pour le calcul intensif sur grille / A decentralized environment and a protocol of communication for high performance computing on grid architectureFakih, Bilal 09 November 2018 (has links)
Dans cette thèse nous présentons un environnement décentralisé pour la mise en oeuvre des calcul intensif sur grille. Nous nous intéressons à des applications dans les domaines de la simulation numérique qui font appel à des modèles de type parallélisme de tâches et qui sont résolues par des méthodes itératives parallèles ou distribuées; nous nous intéressons aussi aux problèmes de planification. Mes contributions se situent au niveau de la conception et la réalisation d'un environnement de programmation GRIDHPC. GRIDHPC permet l'utilisation de tous les ressources de calcul, c'est-à-dire de tous les coeurs des processeurs multi-coeurs ainsi que l'utilisation du protocole de communication RMNP pour exploiter simultanément différents réseaux hauts débits comme Infiniband, Myrinet et aussi Ethernet. Notons que RMNP peut se reconfigurer automatiquement et dynamiquement en fonction des exigences de l'application, comme les schémas de calcul, c.-à-d, les schémas itératifs synchrones ou asynchrones, des éléments de contexte comme la topologie du réseau et le type de réseau comme Ethernet, Infiniband et Myrinet en choisissant le meilleur mode de communication entre les noeuds de calcul et le meilleur réseau. Nous présentons et analysons des résultats expérimentaux obtenus sur des grappes de calcul de la grille Grid5000 pour le problème de l'obstacle et le problème de planification. / This thesis aims at designing an environment for the implementation of high performance computing applications on Grid platforms. We are interested in applications like loosely synchronous applications and pleasingly parallel applications. For loosely synchronous applications, we are interested in particular in applications in the domains of numerical simulation that can be solved via parallel or distributed iterative methods, i.e., synchronous, asynchronous and hybrid iterative method; while, for pleasingly parallel applications, we are interested in planning problems. Our thesis work aims at designing the decentralized environment GRIDHPC. GRIDHPC exploits all the computing resources (all the available cores of computing nodes) using OpenMP as well as several types of networks like Ethernet, Infiniband and Myrinet of the grid platform using the reconfigurable multi network protocol RMNP. Note that RMNP can configure itself automatically and dynamically in function of application requirements like schemes of computation, i.e., synchronous or asynchronous iterative schemes, elements of context like network topology and type of network like Ethernet, Infiniband and Myrinet by choosing the best communication mode between computing nodes and the best network. We present and analyze a set of computational results obtained on Grid5000 platform for the obstacle and planning problems.
|
140 |
Vers des mécanismes génériques de communication et une meilleure maîtrise des affinités dans les grappes de calculateurs hiérarchiquesGoglin, Brice 15 April 2014 (has links) (PDF)
Avec l'utilisation de plus en plus répandue de la simulation numérique dans de nombreuses branches de l'industrie, le calcul haute performance devient essentiel à la société. Si les plates-formes de calcul parallèle de plus en plus puissantes continuent à être construites, leur utilisation devient cependant de plus en plus un casse-tête. En effet, leur complexité croît avec la multiplication des ressources de calcul et de stockage impliquées, leurs fonctionnalités hétérogènes, et leur répartition non-uniforme. De nouveaux outils logiciels sont nécessaires pour faciliter l'exploitation de ces plates-formes. Je présente tout d'abord mes travaux visant à rendre plus accessibles et portables les mécanismes de communication développés par les constructeurs de réseaux haute performance pour le calcul. J'ai appliqué ce principe d'une part aux réseaux traditionnels de type Ethernet, et d'autre part aux communications entre processus locaux, afin d'améliorer les performances du passage de messages (MPI) sans dépendre de technologies matérielles spécialisées. J'explique ensuite comment faciliter la gestion des calculateurs hiérarchiques modernes. Il s'agit, d'une part, de modéliser ces plates-formes en représentant l'organisation des ressources de manière suffisamment simple pour masquer les détails techniques du matériel, et suffisamment précise pour permettre aux algorithmes de prendre des décisions de placement ou d'ordonnancement ; d'autre part, je propose des outils améliorant la gestion des architectures modernes où l'accès à la mémoire et aux périphériques n'est plus uniforme. Cela permet d'améliorer les performances de bibliothèques de calcul parallèle en tenant compte de la localité.
|
Page generated in 0.0509 seconds