Global ETD Search

1	DRAC: Un système de contrôle d'exécution pour multiprocesseur à mémoire partagée Pillon, Mauricio 30 November 2004 (has links) (PDF) Les besoins continus en puissance de calcul restent un moteur important dans l'évolution des technologies des ordinateurs. Dans le domaine scientifique, par exemple, on trouve facilement des applications capables d'épuiser la puissance de calcul même sur des machines parmi les plus récentes. Dans le cas specifique des machines parallèles, nous nous intéressons au problème de performances des machines multiprocesseurs à mémoire partagée. Le rapport entre les capacités de la hiérarchie mémoire et la vitesse des processeurs est à l'origine d'un des problèmes de performances fondamentaux. On parle de contention ou de goulot d'étranglement mémoire afin de signifier que la saturation de l'accès à la partie haute de la hiérarchie mémoire est responsable d'une baisse de performances. La technologie de la fabrication des processeurs évolue en effet généralement plus rapidement que celle de la mémoire centrale. L'interconnexion entre la mémoire centrale et les processeurs est un des points cruciaux dans l'architecture des multiprocesseurs, en effet ce point est fréquent. Dans ce contexte, nous proposons l'utilisation des compteurs matériels en tant qu'élément d'un système de contrôle permettant de modifier l'ordonnancement de l'exécution des processus en présence d'une contention. La politique de contrôle retenue consiste à maximiser le rendement de la machine. Le contrôle d'exécution des processus est basé sur l'estimation des performances via l'observation de l'utilisation mémoire. Ce mécanisme d'estimation est l'issue d'une étude sur l'impact des capacités des hiérarchies mémoires sur les performances des multiprocesseurs. compteurs de performance multiprocesseur
2	Méthodologie d'identification et d'évitement des cycles de gel du processeur pour l'optimisation de la performance du logiciel sur le matériel / Avoidance and identification methodology of processor stall cycles for software-on-hardware performance optimization Njoyah ntafam, Perrin 20 April 2018 (has links) L’un des objectifs de la microélectronique est de concevoir et fabriquer des SoCs de petites tailles, à moindre coût et visant des marchés tel que l’internet des objets. À matériel fixe sur lequel l’on ne dispose d’aucune marge de manœuvre, l’un des challenges pour un développeur de logiciels embarqués est d’écrire son programme de manière à ce qu’à l’exécution, le logiciel développé puisse utiliser au mieux les capacités de ces SoCs. Cependant, ces programmes n’utilisent pas toujours correctement les capacités de traitement disponibles sur le SoC. L’estimation et l’optimisation de la performance du logiciel devient donc une activité cruciale. A l’exécution, ces programmes sont très souvent victimes de l’apparition de cycles de gel de processeur dus à l’absence de données en mémoire cache. Il existe plusieurs approches permettant d’éviter ces cycles de gel de processeur. Par l’exemple l’utilisation des options de compilation adéquates pour la génération du meilleur code exécutable possible. Cependant les compilateurs n’ont qu’une idée abstraite (sous forme de formules analytiques) de l’architecture du matériel sur lequel le logiciel s’exécutera. Une alternative est l’utilisation des processeurs « Out–Of–Order ». Mais ces processeurs sont très couteux en terme de coût de fabrication car nécessites une surface de silicium importante pour l’implantation de ces mécanismes. Dans cette thèse, nous proposons une méthode itérative basée sur les plateformes virtuelles précises au niveau du cycle qui permet d’identifier les instructions du programme à optimiser responsables à l’exécution, de l’apparition des cycles de gel de processeur dus à l’absence de données dans le cache L1. L’objectif est de fournir au développeur des indices sur les emplacements du code source de son programme en langage de haut niveau (C/C++ typiquement) qui sont responsables de ces gels. Pour chacune de ces instructions, nous fournissons leur contribution au rallongement du temps d’exécution totale du programme. Finalement nous estimons le gain potentiel maximal qu’il est possible d’obtenir si tous les cycles de gel identifiés sont évités en insérant manuellement dans le code source du programme à optimiser, des instructions de pré–chargement de données dirigé par le logiciel. / One of microelectronics purposes is to design and manufacture small-sized, low-cost SoCs targeting markets such as the Internet of Things. With fixed hardware on which there is no possible flexibility, one of the challenges for an embedded software developer is to write his program so that, at runtime, the software developed can make the best use of these SoC capabilities. However, these programs do not always properly use the available SoC processing capabilities. Software performance estimation and optimization is then a crucial activity. At runtime, these programs are very often victims of processor data stall cycles. There are several approaches to avoiding these processor data stall cycles. For example, using the appropriate compilation options to generate the best executable code. However, the compilers have only an abstract knowledge (as analytical formulas) of the hardware architecture on which the software will be executed. Another way of solving this issue is to use Out-Of- Order processors. But these processors are very expensive in terms of manufacturing cost because they require a large silicon surface for the implementation of the Out-Of-Order mechanism. In this thesis, we propose an iterative methodology based on cycle accurate virtual platforms, which helps identifying precisely instructions of the program which are responsible of the generation of processor data stall cycles. The goal is to provide the developer with clues on the source code lignes of his program’s in high level language (C/C++ typically) which are responsible of these stalls. For each instructions, we provide their contribution to lengthening of the total program execution time. Finally, we estimate the maximum potential gain that can be achieved if all identified stall cycles are avoided by manually inserting software preloading instructions into the source code of the program to optimize. Architecture matérielle Logiciel embarqué Performance logicielle Modélisation / Simulation Hierarchie mémoire Benchmarking Hardware architecture Embedded software SW performance Modeling / Simulation Memory hierachy Benchmarking 004

Search results

DRAC: Un système de contrôle d'exécution pour multiprocesseur à mémoire partagée

Méthodologie d'identification et d'évitement des cycles de gel du processeur pour l'optimisation de la performance du logiciel sur le matériel / Avoidance and identification methodology of processor stall cycles for software-on-hardware performance optimization