• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 337
  • 189
  • 134
  • 56
  • 45
  • 44
  • 4
  • 4
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • Tagged with
  • 922
  • 922
  • 922
  • 404
  • 394
  • 351
  • 351
  • 329
  • 325
  • 320
  • 319
  • 316
  • 314
  • 313
  • 313
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
231

Study on Propulsive Characteristics of Magnetic Sail and Magneto Plasma Sail by Plasma Particle Simulations / 粒子シミュレーションによる磁気セイル・磁気プラズマセイルの推力特性に関する研究

Ashida, Yasumasa 23 January 2014 (has links)
京都大学 / 0048 / 新制・課程博士 / 博士(工学) / 甲第17984号 / 工博第3813号 / 新制||工||1584(附属図書館) / 80828 / 京都大学大学院工学研究科電気工学専攻 / (主査)教授 山川 宏, 教授 松尾 哲司, 准教授 中村 武恒 / 学位規則第4条第1項該当 / Doctor of Philosophy (Engineering) / Kyoto University / DFAM
232

Simulation Study on Enhancements of Energetic Heavy Ions in the Magnetosphere / 計算機シミュレーションによる磁気圏高エネルギー重イオン急増現象の解明

Nakayama, Yohei 23 January 2017 (has links)
京都大学 / 0048 / 新制・課程博士 / 博士(工学) / 甲第20089号 / 工博第4256号 / 新制||工||1659(附属図書館) / 33205 / 京都大学大学院工学研究科電気工学専攻 / (主査)教授 大村 善治, 教授 松尾 哲司, 准教授 小嶋 浩嗣 / 学位規則第4条第1項該当 / Doctor of Philosophy (Engineering) / Kyoto University / DFAM
233

Designing and Building Efficient HPC Cloud with Modern Networking Technologies on Heterogeneous HPC Clusters

Zhang, Jie, Zhang January 2018 (has links)
No description available.
234

Architecture-aware Algorithm Design of Sparse Tensor/Matrix Primitives for GPUs

Nisa, Israt 02 October 2019 (has links)
No description available.
235

Designing Fast, Resilient and Heterogeneity-Aware Key-Value Storage on Modern HPC Clusters

Shankar, Dipti 30 September 2019 (has links)
No description available.
236

Ein HPC-tauglicher Spektralelemente-Löser auf der Grundlage von statischer Kondensation und Mehrgittermethoden

Haupt, Lars 19 June 2019 (has links)
Arbeitstitel: Erweiterte mathematische Methoden zur Simulation von turbulenten Strömungsvorgängen auf parallelen Rechnern:Inhaltsverzeichnis 1 Einleitung 3 2 Numerische Simulation physikalischer Prozesse 6 2.1 Königsdisziplin - Turbulente Strömungssimulation 6 2.2 Vom mathematischen Modell zur numerischen Lösung 9 2.2.1 Räumliche und zeitliche Diskretisierung 9 2.2.2 Allgemeine Reduktion auf Poisson- und Helmholtz-Gleichungen 11 2.3 Anforderungen an effiziente Lösungsverfahren 12 3 Basiskomponenten des entwickelten Verfahrens 16 3.1 Spektralelemente-Methode 16 3.1.1 Grundlagen 17 3.1.2 Gewählte Ansatzfunktionen und Stützstellen 20 3.1.3 Struktur des linearen Operators 24 3.2 Statische Kondensation 25 3.3 Geometrisches Mehrgitterverfahren 26 4 Das Spektralelemente basierte Mehrgitterverfahren auf kondensierten Gittern 31 4.1 Stand der Forschung 31 4.2 Mehrgitterverfahren auf kondensierten Gittern 32 4.2.1 Konzeption wirkungsvoller Glätter 34 4.3 Nachweis optimaler Eigenschaften 41 4.3.1 Lineare Komplexität 41 4.3.2 Ausgezeichnete Konvergenzgeschwindigkeit 43 4.3.3 Robustheit gegenüber Gitterverfeinerung 46 5 Konzeption des parallelen Mehrgitterlösers 49 5.1 Parallelrechner und Leistungsbewertungskriterien 49 5.2 Stand der Forschung 52 5.3 Grundlegende Struktur und Parallelisierung 54 5.3.1 Analyse des Speicherbedarfs 54 5.3.2 Zwei- und dreidimensionale Zerlegung 58 5.3.3 Parallelisierung und Kommunikation 62 6 Ergebnisse 65 6.1 Implementierung des Lösers 65 6.2 Hardwarespezifikation des Testsystems 66 6.3 Bewertung der Implementierung 68 6.3.1 Sequentieller Anwendungsfall 68 6.3.2 Nachweis der Skalierbarkeit im parallelen Anwendungsfall 76 6.3.3 Vergleich mit etablierten Lösungsansätzen bzw. Lösern 87 7 Zusammenfassung und Ausblick 89 Abbildungsverzeichnis 92 Tabellenverzeichnis 94 Abkürzungsverzeichnis 95 Symbolverzeichnis 96 Literaturverzeichnis 98 A Weiterführende Messergebnisse 106 A.1 Relative Mehrkosten der parallelen Implementierung 106 A.2 Sequentielle Lösungszeiten ohne Nachglättung im 2D-Fall 107 A.3 Sequentielle Lösungszeiten ohne Nachglättung im 3D-Fall 108 / Die rechnergestützte Simulation physikalischer Prozesse ist ein fester Bestandteil im Alltag von Wissenschaftlern aus den unterschiedlichsten Wissensbereichen. Unabhängig davon, ob das Ziel die Vorhersage des Wetters von morgen, die Konzentrationsbestimmung von Fluidteilchen in Mischprozessen oder die Erschaffung von Werkstoffen mit optimalen Materialeigenschaften ist, ohne den Einsatz von leistungsfähigen Rechnern ist dieses Ziel nicht zu erreichen. Aus dieser inhärenten Kopplung lässt sich eine grundlegende Aussage bzgl. der Laufzeit durchzuführender Simulationen ableiten. Schnellere Rechentechnik reduziert automatisch die Laufzeit einer bereits bestehenden Simulation und somit auch die Wartezeit auf die potentiell zu erwartenden Erkenntnisse. Zeitgleich ist die so erreichte Reduktion der Berechnungszeit auch ein Maß für die mögliche Erhöhung des Detailgrades einer bestehenden Simulation und somit auch ein Indikator für den zusätzlich zu erwartenden Erkenntnisgewinn. Ein Blick auf die seit 1993 herausgegebene Top500-Liste der schnellsten Supercomputer zeigt ein annähernd gleichbleibend exponentielles Wachstum der Rechenleistung. Dieser durch eine Interpretation von „Moores-Law“ beschriebene Sachverhalt wird laut aktuellen Prognosen auch in den nächsten Jahren bestehen bleiben. Für die im Bereich der Simulation tätigen Wissenschaftler gleicht dies einem Versprechen, dass ohne deren Zutun auch in Zukunft mit stetig kürzeren Simulationszeiten zu rechnen ist. Immer vorausgesetzt, es können genug finanzielle Mittel für die neue Hardware akquiriert werden. Doch dieser Schein trügt. Eine genauere Analyse der Entwicklung der Rechentechnik der letzten Jahre zeigt zwei maßgebliche Veränderungen. Zum einen stagniert die maximale Taktrate einer einzelnen CPU seit Erreichen der 4 GHz Grenze im Jahr 2004 und zum anderen wird, insbesondere seit der Einführung der ersten Dual Core CPU’s 2005, gesteigerte Rechenleistung fast gänzlich durch die Verwendung einer Vielzahl von Rechenkernen erreicht. Das aktuell mit mehr als zehn Millionen Rechenkernen an Position 1 der Top500-Liste geführte System TaihuLight (deu. Licht der Göttlichkeit) verdeutlicht die Dimensionen dieser Entwicklung. Die für dieses System in Aussicht gestellte maximale Rechenleistung von circa 125 Billiarden gleitkommaoperationen pro Sekunde, kann dabei nur von einer perfekt parallelisierten Simulationsrechnung erreicht werden. „Amdahls-Law“ zeigt jedoch, dass dieser perfekte Zustand, aufgrund von unvermeidlichen sequentiellen Abschnitten in den einzelnen im Programm verwendeten Algorithmen, nicht zu erreichen ist. Die genaue Abweichung vom vollparallelisierten Idealzustand wird dabei durch die sogenannte parallele Effizienz quantifiziert. Deren Wert muss hierbei per Definition zwischen Null und Eins liegen. Dem Paradigma „eine hohe parallele Effizienz ergibt eine hohe Rechenleistung und dies führt zur kürzestmöglichen Simulationslaufzeit“ folgend, wurden in den letzten Jahren die unterschiedlichsten Simulationsprogramme auf eben diese Effizienz getrimmt. In den meisten Fällen wurden hierfür Codes verwendet, die auf eine sehr lange Historie zurückgreifen, so dass alte bestehende Strukturen und Algorithmen unabhängig von deren wirklicher Eignung parallelisiert wurden. Diese Entwicklung führt jedoch mehr und mehr dazu, dass die Entwickler den Blick für die Vielseitigkeit der Faktoren, die zu einer akzeptablen Simulationslaufzeit führen, verlieren. Werden zum Beispiel Methoden niederer Ordnung, wie dies etwa bei den Standard Finite-Differenzen-Verfahren der Fall ist, zur Diskretisierung des Simulationsgebietes eingesetzt, steigt die Zahl der für kleine Lösungsfehler benötigten Gitterpunkte so schnell an, dass jedweder Arbeitsspeicher vor Erreichen der benötigten Genauigkeit aufgebraucht ist. Im Gegensatz dazu sind Methoden höherer Ordnung, wie dies etwa bei den Standard Finite-Elemente-Verfahren der Fall ist, aufgrund ihrer suboptimalen numerischen Komplexität kaum besser geeignet. Ein ähnliches Bild ergibt sich bei den Algorithmen, mit denen die Gleichungssysteme in den einzelnen Simulationsschritten gelöst werden. Stellvertretend sei hier das Jacobi-Verfahren genannt, welches sich zwar durch eine parallele Effizienz nahe Eins auszeichnet, jedoch zum einen eine nicht optimale quadratische numerische Komplexität und zum anderen eine von der Auflösung des Simulationsgitters abhängige maximale Iterationszahl besitzt. Sofern die Anwender der etablierten Simulationsprogramme keine Kosten für den Zugang zu Hochleistungsrechnern zu erwarten haben und diese Rechner immer wieder massiv ausgebaut werden, stellen die genannten Einschränkungen fürs Erste nur bedingt ein Problem dar. Denn, eine Simulation die nach Hinzunahme einer bestimmten Zahl von Rechenkernen um annähernd diesen Faktor beschleunigt wird ist etwas Ausgezeichnetes. Werden den Anwendern jedoch, wie bereits von immer mehr Universitätsrechenzentren diskutiert und in der Industrie bereits gängige Praxis, die Kosten für den Energieverbrauch in Rechnung gestellt, ergibt sich ein gänzlich anderes Bild. Ein Bild, in dem der Effizienz, die die angewandten Methoden bzw. die eingesetzten Algorithmen erreichen, die größte Bedeutung zufällt. Die Effizienz einer Methode wird hierbei ungenauerweise oft nur anhand deren Implementierung als Algorithmus bestimmt. Jedoch kann eine effizient implementierte Methode mit numerisch ungünstigen Eigenschaften einer nicht effizient implementierten Methode mit numerisch optimalen Eigenschaften deutlich unterlegen sein. Demnach ist es offensichtlich, dass nur für eine effizient implementierte Methode mit optimalen numerischen Eigenschaften die kürzestmögliche Simulationslaufzeit erreicht werden kann. Der Fokus der vorliegenden Arbeit liegt deshalb zu allererst auf dem Nachweis der optimalen numerisch/mathematischen Eigenschaften der entwickelten Methode. Diese Eigenschaften sind: lineare numerische Komplexität, Robustheit des Verfahrens gegenüber Gitterverfeinerungen im Simulationsgebiet und eine bisher unerreichte Konvergenzrate. Abschließend wird zusätzlich die Eignung der Methoden bzgl. deren Verwendung auf aktuellen Hochleistungsrechnern unter Verwendung von Zehntausenden von Rechenkernen belegt und auch deren effiziente Implementierung bzw. Umsetzung dargelegt. Ziel dieser Arbeit ist die Entwicklung effizienter mathematischer Methoden zur numerischen Simulation von physikalischen Prozessen und deren hochskalierende Implementierung auf Hochleistungsrechnern. Unter allen denkbaren Aufgabenstellungen zählen hierbei insbesondere diejenigen zu den herausforderndsten, die der Strömungsmechanik zugeordnet sind. Besonders die direkte numerische Simulation (DNS), welche zur Analyse von turbulenten Strömungsphänomenen eingesetzt wird, stellt hierbei höchste Ansprüche an die eingesetzten numerischen Verfahren. Die Entwicklung und Umsetzung der im Rahmen dieser Arbeit vorgestellten Methoden ist deshalb auf die Anwendung im Rahmen der turbulenten Strömungssimulation ausgerichtet. Diese Fokussierung dient jedoch allein dem Beleg der Leistungsfähigkeit und stellt keine prinzipielle Einschränkung der Methode dar.:Inhaltsverzeichnis 1 Einleitung 3 2 Numerische Simulation physikalischer Prozesse 6 2.1 Königsdisziplin - Turbulente Strömungssimulation 6 2.2 Vom mathematischen Modell zur numerischen Lösung 9 2.2.1 Räumliche und zeitliche Diskretisierung 9 2.2.2 Allgemeine Reduktion auf Poisson- und Helmholtz-Gleichungen 11 2.3 Anforderungen an effiziente Lösungsverfahren 12 3 Basiskomponenten des entwickelten Verfahrens 16 3.1 Spektralelemente-Methode 16 3.1.1 Grundlagen 17 3.1.2 Gewählte Ansatzfunktionen und Stützstellen 20 3.1.3 Struktur des linearen Operators 24 3.2 Statische Kondensation 25 3.3 Geometrisches Mehrgitterverfahren 26 4 Das Spektralelemente basierte Mehrgitterverfahren auf kondensierten Gittern 31 4.1 Stand der Forschung 31 4.2 Mehrgitterverfahren auf kondensierten Gittern 32 4.2.1 Konzeption wirkungsvoller Glätter 34 4.3 Nachweis optimaler Eigenschaften 41 4.3.1 Lineare Komplexität 41 4.3.2 Ausgezeichnete Konvergenzgeschwindigkeit 43 4.3.3 Robustheit gegenüber Gitterverfeinerung 46 5 Konzeption des parallelen Mehrgitterlösers 49 5.1 Parallelrechner und Leistungsbewertungskriterien 49 5.2 Stand der Forschung 52 5.3 Grundlegende Struktur und Parallelisierung 54 5.3.1 Analyse des Speicherbedarfs 54 5.3.2 Zwei- und dreidimensionale Zerlegung 58 5.3.3 Parallelisierung und Kommunikation 62 6 Ergebnisse 65 6.1 Implementierung des Lösers 65 6.2 Hardwarespezifikation des Testsystems 66 6.3 Bewertung der Implementierung 68 6.3.1 Sequentieller Anwendungsfall 68 6.3.2 Nachweis der Skalierbarkeit im parallelen Anwendungsfall 76 6.3.3 Vergleich mit etablierten Lösungsansätzen bzw. Lösern 87 7 Zusammenfassung und Ausblick 89 Abbildungsverzeichnis 92 Tabellenverzeichnis 94 Abkürzungsverzeichnis 95 Symbolverzeichnis 96 Literaturverzeichnis 98 A Weiterführende Messergebnisse 106 A.1 Relative Mehrkosten der parallelen Implementierung 106 A.2 Sequentielle Lösungszeiten ohne Nachglättung im 2D-Fall 107 A.3 Sequentielle Lösungszeiten ohne Nachglättung im 3D-Fall 108
237

Distributed multi-processing for high performance computing

Algire, Martin January 2000 (has links)
No description available.
238

Realistic Galaxy Simulations: Feedback, Magnetic Fields and the ISM

Robinson, Hector January 2021 (has links)
The evolution of galaxies rely on a wide variety of physics, and numerical simulations are one of the main tools used to study them. In this thesis we develop a framework for what models can be used to realistically simulate galaxies and study their evolution. We begin with setting specific requirements on the numerical resolution of galaxies, and then test the effects of different stellar feedback models on isolated disk galaxies. We then investigate the addition of magnetic fields into the simulations, and what role they play in determining the contents, behaviour, and star formation, within the interstellar medium of galaxies. / Thesis / Master of Science (MSc) / We develop a framework used to realistically simulate the evolution of galaxies. Specifically we investigate the addition of supernova and magnetic field models, and provide solutions to eliminate the dependence of those models on numerical resolution.
239

Predictability of Optimal Core Distribution Based on Weight and Speedup

Eriksson, Rasmus January 2022 (has links)
Efficient use of hardware resources is a vital part of getting good results within high performance computing. This thesis explores the predictability of optimal CPU-core distribution between two tasks running in parallel on a shared-memory machine, with the intent to reach the shortest total runtime possible. The predictions are based on the weight and speedup of each task, in regards to the CPU-frequency decrease that comes with a growing number of active cores in modern CPUs. The weight of a task is the number of floating point operations needed to compute it to completion. The Intel oneAPI Math Kernel Library is used to create a set of different tasks, where each task consists of a single call to a dgemm-routine. Two prediction algorithms for optimal core distribution are presented and used in this thesis. Their predictions are compared to the fastest distribution observed by either running the tasks back-to-back, with each using all available cores, or running the tasks simultaneously in two parallel regions. Experimental results suggest that there is merit to this method, with the best of the two algorithms having a 14/15 prediction-accuracy of the core distribution resulting in the fastest run.
240

Research on High-performance and Scalable Data Access in Parallel Big Data Computing

Yin, Jiangling 01 January 2015 (has links)
To facilitate big data processing, many dedicated data-intensive storage systems such as Google File System(GFS), Hadoop Distributed File System(HDFS) and Quantcast File System(QFS) have been developed. Currently, the Hadoop Distributed File System(HDFS) [20] is the state-of-art and most popular open-source distributed file system for big data processing. It is widely deployed as the bedrock for many big data processing systems/frameworks, such as the script-based pig system, MPI-based parallel programs, graph processing systems and scala/java-based Spark frameworks. These systems/applications employ parallel processes/executors to speed up data processing within scale-out clusters. Job or task schedulers in parallel big data applications such as mpiBLAST and ParaView can maximize the usage of computing resources such as memory and CPU by tracking resource consumption/availability for task assignment. However, since these schedulers do not take the distributed I/O resources and global data distribution into consideration, the data requests from parallel processes/executors in big data processing will unfortunately be served in an imbalanced fashion on the distributed storage servers. These imbalanced access patterns among storage nodes are caused because a). unlike conventional parallel file system using striping policies to evenly distribute data among storage nodes, data-intensive file systems such as HDFS store each data unit, referred to as chunk or block file, with several copies based on a relative random policy, which can result in an uneven data distribution among storage nodes; b). based on the data retrieval policy in HDFS, the more data a storage node contains, the higher the probability that the storage node could be selected to serve the data. Therefore, on the nodes serving multiple chunk files, the data requests from different processes/executors will compete for shared resources such as hard disk head and network bandwidth. Because of this, the makespan of the entire program could be significantly prolonged and the overall I/O performance will degrade. The first part of my dissertation seeks to address aspects of these problems by creating an I/O middleware system and designing matching-based algorithms to optimize data access in parallel big data processing. To address the problem of remote data movement, we develop an I/O middleware system, called SLAM, which allows MPI-based analysis and visualization programs to benefit from locality read, i.e, each MPI process can access its required data from a local or nearby storage node. This can greatly improve the execution performance by reducing the amount of data movement over network. Furthermore, to address the problem of imbalanced data access, we propose a method called Opass, which models the data read requests that are issued by parallel applications to cluster nodes as a graph data structure where edges weights encode the demands of load capacity. We then employ matching-based algorithms to map processes to data to achieve data access in a balanced fashion. The final part of my dissertation focuses on optimizing sub-dataset analyses in parallel big data processing. Our proposed methods can benefit different analysis applications with various computational requirements and the experiments on different cluster testbeds show their applicability and scalability.

Page generated in 0.075 seconds