Spelling suggestions: "subject:"coeurs"" "subject:"moeurs""
21 |
Placement de tâches dynamique et flexible sur processeur multicoeur asymétrique en fonctionnalités / Dynamic and flexible task mapping on functionally asymmetric multi-core processorAminot, Alexandre 01 October 2015 (has links)
Pour répondre aux besoins de plus en plus hétérogènes des applications (puissance et efficacité énergétique), nous nous intéressons dans cette thèse aux architectures émergentes de type multi-cœur asymétrique en fonctionnalités (FAMP). Ces architectures sont caractérisées par une mise en œuvre non-uniforme des extensions matérielles dans les cœurs (ex. unitée de calculs à virgule flottante (FPU)). Les avantages en surface sont apparents, mais qu'en est-il de l'impact au niveau logiciel, énergétique et performance?Pour répondre à ces questions, la thèse explore la nature de l'utilisation des extensions dans des applications de l'état de l'art et compare différentes méthodes existantes. Pour optimiser le placement de tâches et ainsi augmenter l'efficacité, la thèse propose une solution dynamique au niveau ordonnanceur, appelée ordonnanceur relaxé.Les extensions matérielles sont intéressantes car elles permettent des accélérations difficilement atteignables par la parallélisation sur un multi-cœur. Néanmoins, leurs utilisations par les applications sont faibles et leur coût en termes de surface et consommation énergétique sont importants.En se basant sur ces observations, les points suivants ont été développés:Nous présentons une étude approfondie sur l'utilisation de l'extension vectorielle et FPU dans des applications de l'état de l'artNous comparons plusieurs solutions de gestion des extensions à différent niveaux de granularité temporelle d'action pour comprendre les limites de ces solutions et ainsi définir à quel niveau il faut agir. Peu d'études traitent la question de la granularité d'action pour gérer les extensions.Nous proposons une solution pour estimer en ligne la dégradation de performance à exécuter une tâche sur un cœur sans extension. Afin de permettre la mise à l'échelle des multi-cœurs, le système d'exploitation doit avoir de la flexibilité dans le placement de tâches. Placer une tâche sur un cœur sans extension peut avoir d'importantes conséquences en énergie et en performance. Or à ce jour, il n'existe pas de solution pour estimer cette potentielle dégradation.Nous proposons un ordonnanceur relaxé, basé notre modèle d'estimation de dégradation, qui place les tâches sur un ensemble de cœurs hétérogènes de manière efficace. Nous étudions la flexibilité gagnée ainsi que les conséquences aux niveaux performances et énergie.Les solutions existantes proposent des méthodes pour placer les tâches sur un ensemble de cœurs hétérogènes, or, celles-ci n'étudient pas le compromis entre qualité de service et gain en consommation pour les architectures FAMP.Nos expériences sur simulateur ont montré que l'ordonnanceur peut atteindre une flexibilité de placement significative avec une dégradation en performance de moins de 2%. Comparé à un multi-cœur symétrique, notre solution permet un gain énergétique moyen au niveau cœur de 11 %. Ces résultats sont très encourageant et contribuent au développement d'une plateforme complète FAMP. Cette thèse a fait l'objet d'un dépôt de brevet, de trois communications scientifiques internationales (plus une en soumission), et a contribué à deux projets européens. / To meet the increasingly heterogeneous needs of applications (in terms of power and efficiency), this thesis focus on the emerging functionally asymmetric multi-core processor (FAMP) architectures. These architectures are characterized by non-uniform implementation of hardware extensions in the cores (ex. Floating Point Unit (FPU)). The area savings are apparent, but what about the impact in software, energy and performance?To answer these questions, the thesis investigates the nature of the use of extensions in state-of-the-art's applications and compares various existing methods. To optimize the tasks mapping and increase efficiency, the thesis proposes a dynamic solution at scheduler level, called relaxed scheduler.Hardware extensions are valuable because they speed up part of code where the parallelization on multi-core isn't efficient. However, the hardware extensions are under-exploited by applications and their cost in terms of area and power consumption are important.Based on these observations, the following contributions have been proposed:We present a detailed study on the use of vector and FPU extensions in state-of-the-art's applicationsWe compare multiple extension management solutions at different levels of temporal granularity of action, to understand the limitations of these solutions and thus define at which level we must act. Few studies address the issue of the granularity of action to manage extensions.We offer a solution for estimating online performance degradation to run a task on a core without a given extension. To allow the scalability of multi-core, the operating system must have flexibility in the placement of tasks. Placing a task on a core with no extension can have important consequences for energy and performance. But to date, there is no way to estimate this potential degradation.We offer a relaxed scheduler, based on our degradation estimation model, which maps the tasks on a set of heterogeneous cores effectively. We study the flexibility gained and the implications for performance and energy levels. Existing solutions propose methods to map tasks on a heterogeneous set of cores, but they do not study the tradeoff between quality of service and consumption gain for FAMP architectures.Our experiments with simulators have shown that the scheduler can achieve a significantly higher mapping flexibility with a performance degradation of less than 2 %. Compared to a symmetrical multi-core, our solution enables an average energy gain at core level of 11 %. These results are very encouraging and contribute to the development of a comprehensive FAMP platform . This thesis has been the subject of a patent application, three international scientific communications (plus one submission), and contributes to two active european projects.
|
22 |
Maîtrise de la couche hyperviseur sur les architectures multi-coeurs COTS dans un contexte avionique / Hypervisor control of COTS multi-cores processors in order to enforce determinism for future avionics equipmentJean, Xavier 18 June 2015 (has links)
Nous nous intéressons dans cette thèse à la maîtrise de processeurs multi-cœurs COTS dans le but de les rendre utilisables dans des équipements avioniques, qui ont des exigences temps réelles dures. L’objectif est de permettre l'application de méthodes connues d’évaluation de pire temps d’exécution (WCET) sur un ensemble de tâches représentatif d’applications avioniques. Au cours de leur exécution, les tâches exécutées sur différents cœurs vont accéder simultanément à des ressources matérielles qui sont partagées entre les cœurs, en particulier la mémoire principale. Cela pourra entraîner des mises en attente de certains accès que l'on qualifie d'interférences. Ces interférences peuvent avoir un impact élevé sur le temps d'exécution du logiciel embarqué. Sur un processeur COTS, qui est acheté dans le commerce et vise un marché plus large que l'avionque, cet impact n'est pas borné. Nous cherchons à garantir l'absence d'interférences grâce à des moyens logiciels, dans la mesure où les processeurs COTS ne proposent pas de mécanismes adéquats au niveau matériel. Nous cherchons à étendre des concepts de logiciel déterministe de telle sorte à les rendre compatibles avec un objectif de réutilisation de logiciel existant. A cet effet, nous introduisons la notion de logiciel de contrôle, qui est un élément fonctionnellement neutre, répliqué sur tous les cœurs, et qui contrôle les dates des accès des cœurs aux ressources communes de telle sorte à offrir une isolation temporelle entre ces accès. Nous étudions dans cette thèse le problème de faisabilité d'un logiciel de contrôle sur un processeur COTS, et de son efficacité vis à vis d'applications avioniques. / We focus in this thesis on issues related to COTS multi-core processors mastering, especially regarding hard real-time constraints, in order to enable their usage in future avionics equipment. We aim at applying existing Worst Case Execution Time (WCET) evaluation methods on a set of tasks similar to those we can find in avionics software. At runtime, tasks executed among different cores are likely to access hardware resources at the same time, e.g. the main memory. It may lead to additional delays due to hardware contention, called “interferences”. Interferences slow down embedded software within ranges that may be important. Additionnally, no bound has been established for their impact on WCET when using COTS processors, that target larger markets than avionics. We try to provide guarantees that all interferences are eliminated through software, as COTS processors do not provide adequate mechanisms at hardware level. We extend deterministic software concepts that have been developed in the state of the art, in order to make them compliant with the use of legacy software. We introduce the concept of "control software", which is functionnaly neutral, is replicated among all cores, and performs active control of core's accesses to shared resources, so that concurrent accesses are temporally isolated. We formalize and study in this thesis the problem of control software feasibility on COTS processors, and questions of efficiency with regard to legacy avionics software.
|
23 |
Couplages multi-physiques : évaluation des impacts méthodologiques lors de simulations de couplages neutronique/thermique/mécanique. / Multi-physics couplings : methodology impact evaluation for neutron transport /heat transfer /mechanics coupling simulations.Patricot, Cyril 22 March 2016 (has links)
L’objectif de cette thèse est l’étude des méthodes de couplage entre neutronique, thermique et mécanique. Après une revue générale des techniques de couplage, on s’est intéressé à la prise en compte de déformations mécaniques dans les simulations neutroniques. Les codes actuels de neutronique utilisant des méthodes déterministes ne sont généralement pas capables de traiter une géométrie déformée. Ce type de calcul a pourtant un intérêt fort pour la filière rapide et est un prérequis indispensable pour l’étude du couplage envisagée.Deux approches ont été identifiées et implémentées pour répondre à cette problématique, selon que l’on utilise un maillage de calcul mobile ou fixe. Elles ont été testées et confrontées sur les essais de gerbage du réacteur Phénix. Le couplage a été étudié ensuite, avec l’approche à maillage mobile, sur l’expérience Godiva qui présente un couplage à la fois conceptuellement simple et fort entre les physiques qui nous intéressent. Ces travaux ont permis de mettre en avant l’utilisation de la méthode de factorisation quasi-statique en neutronique qui permet de coupler efficacement un solveur de neutronique cinétique avec une autre discipline. Travail plus amont, le développement d’un solveur directement multiphysique a également été exploré. L’utilisation de l’algorithme de Newton sur les formes discrétisées des équations couplées a donné de bons résultats et semble être une approche généralisable à d’autres couplages.Cette thèse débouche ainsi à la fois sur une meilleure compréhension de la physique des cœurs déformés et sur des outils opérationnels pour leur simulation, mais aussi sur des recommandations très générales pour la mise en œuvre de calculs couplés. / The objective of this thesis is to study coupling techniques between neutron transport, heat transfer and mechanics. First, a very general review of coupling techniques in the literature was done. Then we worked on neutron transport simulations in wrapped cores. Most of current deterministic codes for neutron transport are not able to deal with deformed geometry. This kind of computations is however of special interest for fast neutrons reactors and is a prerequisite for our planned coupling study.Two approaches were identified and implemented to take into account core deformations, using respectively mobile and fixed meshing. They were tested and compared on the flowering tests of the reactor Phenix. The coupling itself was studied afterwards, on the Godiva experiment. It was chosen because of the direct, strong and time-dependent coupling it involves. On this case, the “quasi-static” factorization of neutron flux was shown to be an effective way to couple a space- and time-dependent neutron transport solver with another discipline. We also investigated the development of a unique multiphysics solver. The well-known Newton algorithm applied to the discretized forms of the coupled equations was shown to be an efficient tool, which could be generalized to other couplings.This thesis therefore leads, on the one hand, to a better understanding of the physics of deformed cores and to operational tools to simulate these effects, and on the other hand, to very general advices for multiphysics calculations.
|
24 |
Méthode et outils de génération de code pour les plateformes multi-cœurs fondés sur la représentation de haut niveau des applications et des architecturesEl Mrabti, Amin 08 December 2010 (has links) (PDF)
La complexité des systèmes sur puce s'accentue pour supporter les nouvelles applications dans le domaine des télécommunications et du multimédia. La tendance actuelle des nouvelles architectures matérielles converge vers des plateformes multi-cœurs à plusieurs unités de calcul (processeurs, DSP, IP) interconnectées par un réseau sur puce qui peut être configurable au niveau de ses interfaces réseau. Pour ce genre d'architectures, les environnements de génération de code classiques ne sont plus adaptés. Cette thèse propose un flot de génération de code de configuration pour le déploiement des applications de type flots de données sur les architectures à base d'IPs interconnectés à travers un réseau sur puce configurable. Le flot commence par un modèle de haut niveau de l'application et de l'architecture et propose une méthodologie de partitionnement des ressources. Le processus de génération de code passe par plusieurs étapes modélisées par diverses représentations intermédiaires du système. Le flot a été développé par la suite dans un environnement basé sur le standard IEEE 1685 (IP-XACT). Le flot proposé a été appliqué pour la génération et la validation du code de configuration en vue de déployer une application 3GPP-LTE de télécommunication sur la plateforme Magali. Le flot a ensuite été généralisé pour supporter, en plus de la génération du code de configuration, la génération du code logiciel exécutable par les processeurs.
|
25 |
Study of NAD(P)H fluorescence in living cardiomyocytes by spectrally resolved time-correlated single photon countingYing, Cheng January 2007 (has links)
Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal.
|
26 |
Methods and algorithms for solving linear systems of equations on massively parallel computers / Méthodes et algorithmes pour la résolution des systèmes d'équations linéaires sur les ordinateurs massivement parallèlesDonfack, Simplice 07 March 2012 (has links)
Les processeurs multi-cœurs sont considérés de nos jours comme l'avenir des calculateurs et auront un impact important dans le calcul scientifique. Cette thèse présente une nouvelle approche de résolution des grands systèmes linéaires creux et denses, qui soit adaptée à l'exécution sur les futurs machines pétaflopiques et en particulier celles ayant un nombre important de cœurs. Compte tenu du coût croissant des communications comparé au temps dont les processeurs mettent pour effectuer les opérations arithmétiques, notre approche adopte le principe de minimisation des communications au prix de quelques calculs redondants et utilise plusieurs adaptations pour atteindre de meilleures performances sur les machines multi-cœurs. Nous décomposons le problème à résoudre en plusieurs phases qui sont ensuite mises en œuvre séparément. Dans la première partie, nous présentons un algorithme basé sur le partitionnement d'hypergraphe qui réduit considérablement le remplissage ("fill-in") induit lors de la factorisation LU des matrices creuses non symétriques. Dans la deuxième partie, nous présentons deux algorithmes de réduction de communication pour les factorisations LU et QR qui sont adaptés aux environnements multi-cœurs. La principale contribution de cette partie est de réorganiser les opérations de la factorisation de manière à réduire la sollicitation du bus tout en utilisant de façon optimale les ressources. Nous étendons ensuite ce travail aux clusters de processeurs multi-cœurs. Dans la troisième partie, nous présentons une nouvelle approche d'ordonnancement et d'optimisation. La localité des données et l'équilibrage des charges représentent un sérieux compromis pour le choix des méthodes d'ordonnancement. Sur les machines NUMA par exemple où la localité des données n'est pas une option, nous avons observé qu'en présence de perturbations systèmes (" OS noise"), les performances pouvaient rapidement se dégrader et devenir difficiles à prédire. Pour cela, nous présentons une approche combinant un ordonnancement statique et dynamique pour ordonnancer les tâches de nos algorithmes. Nos résultats obtenues sur plusieurs architectures montrent que tous nos algorithmes sont efficaces et conduisent à des gains de performances significatifs. Nous pouvons atteindre des améliorations de l'ordre de 30 à 110% par rapport aux correspondants de nos algorithmes dans les bibliothèques numériques bien connues de la littérature. / Multicore processors are considered to be nowadays the future of computing, and they will have an important impact in scientific computing. In this thesis, we study methods and algorithms for solving efficiently sparse and dense large linear systems on future petascale machines and in particular these having a significant number of cores. Due to the increasing communication cost compared to the time the processors take to perform arithmetic operations, our approach embrace the communication avoiding algorithm principle by doing some redundant computations and uses several adaptations to achieve better performance on multicore machines.We decompose the problem to solve into several phases that would be then designed or optimized separately. In the first part, we present an algorithm based on hypergraph partitioning and which considerably reduces the fill-in incurred in the LU factorization of sparse unsymmetric matrices. In the second part, we present two communication avoiding algorithms that are adapted to multicore environments. The main contribution of this part is to reorganize the computations such as to reduce bus contention and using efficiently resources. Then, we extend this work for clusters of multi-core processors. In the third part, we present a new scheduling and optimization approach. Data locality and load balancing are a serious trade-off in the choice of the scheduling strategy. On NUMA machines for example, where the data locality is not an option, we have observed that in the presence of noise, performance could quickly deteriorate and become difficult to predict. To overcome this bottleneck, we present an approach that combines a static and a dynamic scheduling approach to schedule the tasks of our algorithms.Our results obtained on several architectures show that all our algorithms are efficient and lead to significant performance gains. We can achieve from 30 up to 110% improvement over the corresponding routines of our algorithms in well known libraries.
|
27 |
Problématique de la polarité dans les nanofils de ZnO localisés, et hétérostructures reliées pour l’opto-électronique / The issue of polarity in well-ordered ZnO nanowires, and their related heterostructures for optoelectronic applicationsCossuet, Thomas 17 December 2018 (has links)
Le développement d’architectures nanostructurées originales composées de matériaux abondants et non-toxiques fait l’objet d’un fort intérêt de la communauté scientifique pour la fabrication de dispositifs fonctionnels efficaces et à bas coût suivant des méthodes d’élaborations faciles à mettre en œuvre. Les réseaux de nanofils de ZnO élaborés par dépôt en bain chimique sont, à ce titre, extrêmement prometteurs. L’étude des propriétés de ces réseaux de nanofils et leur intégration efficace au sein de dispositifs nécessitent toutefois un contrôle avancé de leurs propriétés structurales et physiques, notamment en terme de polarité, à l’aide de techniques de lithographies avancées.Le dépôt en bain chimique des nanofils de ZnO est d’abord effectué sur des monocristaux de ZnO de polarité O et Zn préparés par lithographie assistée par faisceau d’électrons. Par cette approche de croissance localisée, un effet significatif de la polarité des nanofils de ZnO est mis en évidence sur le mécanisme de croissance des nanofils, ainsi que sur leurs propriétés électriques et optiques. La possibilité de former des nanofils de ZnO sur des monocristaux de ZnO semipolaires nous a de plus permis d’affiner la compréhension de leurs mécanismes de croissance sur les couches d’amorces polycristallines de ZnO. Par la suite, le dépôt des nanofils de ZnO en bain chimique est développé sur des couches d’amorces polycristallines de ZnO préparés à l’aide de la lithographie assistée par nano-impression. Suivant cette approche, des réseaux de nanofils de ZnO localisés sont formées sur de grandes surfaces, ce qui permet d’envisager leur intégration future au sein de dispositifs fonctionnels.Les nanofils de ZnO sont ensuite combinés avec des coquilles semiconductrices de type p par des méthodes de dépôt chimique en phase liquide ou en phase vapeur afin de fabriquer des hétérostructures cœurs-coquilles originales. Le dépôt de couches successives par adsorption et réaction (SILAR) d’une coquille absorbante de SnS de phase cubique est optimisé sur des nanofils de ZnO recouverts d’une fine couche protectrice de TiO2, ouvrant la voie à la fabrication de cellules solaires à absorbeur extrêmement mince. Enfin, un photo-détecteur UV autoalimenté prometteur, présentant d’excellentes performances en termes de réponse spectrale et de temps de réponse, est réalisé par le dépôt chimique en phase vapeur d’une coquille de CuCrO2 sur les nanofils de ZnO. / Over the past decade, the development of novel nanostructured architectures has raised increasing interest within the scientific community in order to meet the demand for low-cost and efficient functional devices composed of abundant and non-toxic materials. A promising path is to use ZnO nanowires grown by chemical bath deposition as building blocks for these next generation functional devices. However, the precise control of the ZnO nanowires structural uniformity and the investigation of their physical properties, particularly in terms of polarity, remain key technological challenges for their efficient integration into functional devices.During this PhD, the chemical bath deposition of ZnO nanowires is combined with electron beam lithography prepared ZnO single crystal substrates of O- and Zn-polarity following the selective area growth approach. The significant effects of polarity on the growth mechanism of ZnO nanowires, as well as on their electrical and optical properties, are highlighted by precisely investigating the resulting well-ordered O- and Zn-polar ZnO nanowire arrays. An alternative nano-imprint lithography technique is subsequently used to grow well-ordered ZnO nanowire arrays over large areas on various polycrystalline ZnO seed layers, thus paving the way for their future integration into devices. We also demonstrate the possibility to form ZnO nanowires by chemical bath deposition on original semipolar ZnO single crystal substrates. These findings allowed a comprehensive understanding of the nucleation and growth mechanisms of ZnO nanowires on polycrystalline ZnO seed layers.In a device perspective, the ZnO nanowires are subsequently combined with p type semiconducting shells by liquid and vapor chemical deposition techniques to form original core-shell heterostructures. The formation of a cubic phase SnS absorbing shell is optimized by the successive ionic layer adsorption and reaction (SILAR) process on ZnO nanowire arrays coated with a thin protective TiO2 shell, which pave the way for their integration into extremely thin absorber solar cells. A self-powered UV photo-detector with fast response and state of the art performances is also achieved by the chemical vapor deposition of a CuCrO2 shell on ZnO nanowire arrays.
|
28 |
Développement d’une méthode stochastique de propagation des incertitudes neutroniques associées aux grands coeurs de centrales nucléaires : application aux réacteurs de génération III / Development of a neutronics uncertainty propagation stochastic method associated to large cores : application to GEN-III nuclear power plantsVolat, Ludovic 10 October 2018 (has links)
Les réacteurs nucléaires de génération III s'inscrivent dans la continuité des réacteurs à eau sous pression actuels, tout en présentant un certain nombre d'améliorations en terme de sûreté, de rendement et d'environnement.Parmi les caractéristiques de ces réacteurs, la taille importante du coeur et l'utilisation d'un réflecteur lourd se traduisent par une meilleure efficacité neutronique et une meilleure protection de la cuve.Du fait de leur grande taille, le risque de basculement de la nappe de puissance neutronique est exacerbé. Le basculement est donc un paramètre d'intérêt à prendre en compte dans les études de sûreté. Par ailleurs, le calcul de l'incertitude associée à la nappe de puissance neutronique est difficilement atteignable par les méthodes déterministes actuellement implémentées dans les codes de neutronique.Ce travail de thèse a donc porté sur le développement d'une méthode stochastique innovante de propagation des incertitudes neutroniques. Tout en étant basée sur des résultats probabilistes, elle tire parti de la puissance croissante des moyens de calcul informatique afin de parcourir tous les états du réacteur statistiquement prévus.Après avoir été validée, cette méthode a été appliquée à un benchmark de grand coeur de l'OCDE/AEN avec des valeurs de covariances issues d'une analyse critique. Ainsi, pour ce système, l'incertitude associée au facteur de multiplication effectif des neutrons keff $(1\sigma)$ vaut 638 pcm . Par ailleurs, le basculement total vaut 8.8 \% $(1\sigma)$, et l'incertitude maximale associée à l'insertion d'un groupe de barres absorbantes utilisées pour son pilotage vaut 11~\% $(1\sigma)$. / Generation III Light Water Reactors undoubtedly follow design guidelines comparable to those of current PWRs. Furthermore, they take advantage of enhanced features in terms of safety, energy efficiency, radiation protection and environment. Then, we talk about an evolutionary approach. Amongst those improvements, the significant size and the use of a heavy reflector translate into a better neutronics efficacy, leading to intrinsic enrichment benefits then to natural uranium profits. They contribute to the core vessel preservation as well.Because of their large dimensions, the neutronic bulge of this kind of reactors is emphasized. Therefore, it is a parameter of interest in the reactor safety studies. Nevertheless, the uncertainty related to the radial power map is hardly reachable by using the numerical methods implemented in the neutronics codes.Given the above, this PhD work aims to develop an innovative stochastic neutronics uncertainties propagation method. By using recent probabilistic results, it makes good use of the growing calculation means in order to explore all the physical states of the reactor statiscally foreseen.After being validated , our method has been applied to a reactor proposed in the framework of a large core OECD/NEA international benchmark with carefully chosen covariances values. Thus, for this system, the uncertainties related to the keff reaches 638~pcm $(1\sigma)$. What is more, the total bulge equals 8.8~\% $(1\sigma)$ and the maximal uncertainty related to the insertion of a group of control rods reaches 11~\% $(1\sigma)$.
|
29 |
Algorithmes Branch and Bound parallèles hétérogènes pour environnements multi-coeurs et multi-GPUChakroun, Imen 28 June 2013 (has links) (PDF)
Les algorithmes Branch and Bound (B&B) sont attractifs pour la résolution exacte de problèmes d'optimisation combinatoire (POC) par exploration d'un espace de recherche arborescent. Néanmoins, ces algorithmes sont très gourmands en temps de calcul pour des instances de problèmes de grande taille (exemple : benchmarks de Taillard pour FSP) même en utilisant le calcul sur grilles informatiques [Mezmaz et al., IEEE IPDPS'2007]. Le calcul massivement parallèle fourni à travers les plates-formes de calcul hétérogènes d'aujourd'hui [TOP500 ] est requis pour traiter effi cacement de telles instances. Le dé fi est alors d'exploiter tous les niveaux de parallélisme sous-jacents et donc de repenser en conséquence les modèles parallèles des algorithmes B&B. Dans cette thèse, nous nous attachons à revisiter la conception et l'implémentation des ces algorithmes pour la résolution de POC de grande taille sur (larges) plates-formes de calcul multi-coeurs et multi-GPUs. Le problème d'ordonnancement Flow-Shop (FSP) est considéré comme étude de cas. Une étude expérimentale préliminaire sur quelques grandes instances du FSP a révélé que l'arbre de recherche est hautement irrégulier (en forme et en taille) et très large (milliards de milliards de noeuds), et que l'opérateur d'évaluation des bornes est exorbitant en temps de calcul (environ 97% du temps de B&B). Par conséquent, notre première contribution est de proposer une approche GPU avec un seul coeur CPU (GB&B) dans laquelle seul l'opérateur d'évaluation est exécuté sur GPU. L'approche traite deux dé fis: la divergence de threads et l'optimisation de la gestion de la mémoire hiérarchique du GPU. Comparée à une version séquentielle, des accélérations allant jusqu'à ( 100) sont obtenues sur Nvidia Tesla C2050. L'analyse des performances de GB&B a montré que le surcoût induit par le transfert des données entre le CPU et le GPU est élevé. Par conséquent, l'objectif de la deuxième contribution est d'étendre l'approche (LL-GB&B) a fin de minimiser la latence de communication CPU-GPU. Cet objectif est réalisé grâce à une parallélisation à grain fin sur GPU des opérateurs de séparation et d'élagage. Le défi majeur relevé ici est la divergence de threads qui est due à la nature fortement irrégulière citée ci-dessus de l'arbre exploré. Comparée à une exécution séquentielle, LL-GB&B permet d'atteindre des accélérations allant jusqu'à ( 160) pour les plus grandes instances. La troisième contribution consiste à étudier l'utilisation combinée des GPUs avec les processeurs multi-coeurs. Deux scénarios ont été explorés conduisant à deux approches: une concurrente (RLL-GB&B) et une coopérative (PLL-GB&B). Dans le premier cas, le processus d'exploration est eff ectué simultanément par le GPU et les coeurs du CPU. Dans l'approche coopérative, les coeurs du CPU préparent et transfèrent les sous-problèmes en utilisant le streaming CUDA tandis que le GPU eff ectue l'exploration. L'utilisation combinée du multi-coeur et du GPU a montré que l'utilisation de RLL-GB&B n'est pas bénéfi que et que PLL-GB&B permet une amélioration allant jusqu'à (36%) par rapport à LL-GB&B. Sachant que récemment des grilles de calcul comme Grid5000 (certains sites) ont été équipées avec des GPU, la quatrième contribution de cette thèse traite de la combinaison du calcul sur GPU et multi-coeur avec le calcul distribué à grande échelle. Pour ce faire, les diff érentes approches proposées ont été réunies dans un méta-algorithme hétérofigène qui sélectionne automatiquement l'algorithme à déployer en fonction de la con figuration matérielle cible. Ce méta-algorithme est couplé avec l'approche B&B@Grid proposée dans [Mezmaz et al., IEEE IPDPS'2007]. B&B@Grid répartit les unités de travail (sous-espaces de recherche codés par des intervalles) entre les noeuds de la grille tandis que le méta-algorithme choisit et déploie localement un algorithme de B&B parallèle sur les intervalles reçus. L'approche combinée nous a permis de résoudre à l'optimalité et e fficacement les instances (20 20) de Taillard.
|
30 |
Study of NAD(P)H fluorescence in living cardiomyocytes by spectrally resolved time-correlated single photon countingYing, Cheng January 2007 (has links)
Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal
|
Page generated in 0.0435 seconds