Global ETD Search

1	Using GPU-aware message passing to accelerate high-fidelity fluid simulations / Användning av grafikprocessormedveten meddelandeförmedling för att accelerera nogranna strömningsmekaniska datorsimuleringar Wahlgren, Jacob January 2022 (has links) Motivated by the end of Moore’s law, graphics processing units (GPUs) are replacing general-purpose processors as the main source of computational power in emerging supercomputing architectures. A challenge in systems with GPU accelerators is the cost of transferring data between the host memory and the GPU device memory. On supercomputers, the standard for communication between compute nodes is called Message Passing Interface (MPI). Recently, many MPI implementations support using GPU device memory directly as communication buffers, known as GPU-aware MPI. One of the most computationally demanding applications on supercomputers is high-fidelity simulations of turbulent fluid flow. Improved performance in high-fidelity fluid simulations can enable cases that are intractable today, such as a complete aircraft in flight. In this thesis, we compare the MPI performance with host memory and GPU device memory, and demonstrate how GPU-aware MPI can be used to accelerate high-fidelity incompressible fluid simulations in the spectral element code Neko. On a test system with NVIDIA A100 GPUs, we find that MPI performance is similar using host memory and device memory, except for intra-node messages in the range of 1-64 KB which is significantly slower using device memory, and above 1 MB which is faster using device memory. We also find that the performance of high-fidelity simulations in Neko can be improved by up to 2.59 times by using GPU-aware MPI in the gather–scatter operation, which avoids several transfers between host and device memory. / Motiverat av slutet av Moores lag så har grafikprocessorer (GPU:er) börjat ersätta konventionella processorer som den huvudsakliga källan till beräkningingskraft i superdatorer. En utmaning i system med GPU-acceleratorer är kostnaden att överföra data mellan värdminnet och acceleratorminnet. På superdatorer är Message Passing Interface (MPI) en standard för kommunikation mellan beräkningsnoder. Nyligen stödjer många MPI-implementationer direkt användning av acceleratorminne som kommunikationsbuffertar, vilket kallas GPU-aware MPI. En av de mest beräkningsintensiva applikationerna på superdatorer är nogranna datorsimuleringar av turbulenta flöden. Förbättrad prestanda i nogranna flödesberäkningar kan möjliggöra fall som idag är omöjliga, till exempel ett helt flygplan i luften. I detta examensarbete jämför vi MPI-prestandan med värdminne och acceleratorminne, och demonstrerar hur GPU-aware MPI kan användas för att accelerera nogranna datorsimuleringar av inkompressibla flöden i spektralelementkoden Neko. På ett testsystem med NVIDIA A100 GPU:er finner vi att MPI-prestandan är liknande med värdminne och acceleratorminne. Detta gäller dock inte för meddelanden inom samma beräkningsnod i intervallet 1-64 KB vilka är betydligt långsammare med acceleratorminne, och över 1 MB vilka är betydligt snabbare med acceleratorminne. Vi finner också att prestandan av nogranna datorsimuleringar i Neko kan förbättras upp till 2,59 gånger genom användning av GPU-aware MPI i den så kallade gather– scatter-operationen, vilket undviker flera överföringar mellan värdminne och acceleratorminne. high-performance computing computational fluid dynamics spectral element method graphical processing units message passing interface högprestandaberäkningar beräkningsströmningsdynamik spektralelementmetoden grafikprocessorer meddelandeförmedlingsgränssnitt Computer Sciences Datavetenskap (datalogi)
2	Towards an Efficient Spectral Element Solver for Poisson’s Equation on Heterogeneous Platforms / Mot en effektiv spektrala element-lösare för Poissons ekvation på heterogena plattformar Nylund, Jonas January 2022 (has links) Neko is a project at KTH to refactor the widely used fluid dynamics solver Nek5000 to support modern hardware. Many aspects of the solver need adapting for use on GPUs, and one such part is the main communication kernel, the Gather-Scatter (GS) routine. To avoid race conditions in the kernel, atomic operations are used, which can be inefficient. To avoid the use of atomics, elements were grouped in such a way that when multiple writes to the same address are necessary, they will always come in blocks. This way, each block can be assigned to a single thread and handled sequentially, avoiding the need for atomic operations altogether. In the scope of the thesis, a Poisson solver was also ported from CPU to Nvidia GPUs. To optimise the Poisson solver, a batched matrix multiplication kernel was developed to efficiently perform small matrix multiplications in bulk, to better utilise the GPU. Optimisations using shared memory and kernel unification was done. The performance of the different implementations was tested on two systems using a GTX1660 and dual Nvidia A100 respectively. The results show only small differences in performance between the two versions of the GS kernels when only considering computational cost, and in a multi-rank setup the communication time completely overwhelms any potential difference. The shared memory matrix multiplication kernel yielded around a 20% performance boost for the Poisson solver. Both versions vastly outperformed cuBLAS. The unified kernel also had a large positive impact on the performance, yielding up to a 50% increase in throughput. / Neko är ett KTH-projekt med syfte att vidareutveckla det populära beräkningsströmningsdynamik-programmet Nek5000 för moderna datorsystem. Speciell vikt har lagts vid att stödja heterogena plattformar med dedikerade accelleratorer för flyttalsberäkningar. Den idag vanligast förekommande sådana är grafikkort (GPUer). En viktig del av Neko är Gather-Scatter (GS)-funktionen, som är den huvudsakliga kommunikations-funktionen mellan processer i programmet. I GS-funktionen kan race conditions uppstå då flera trådar skriver till samma minnesaddress samtidigt. Detta kan undvikas med atomic operations, men användande av dessa kan ha negativ inverkan på prestanda. I detta masterarbete utvecklades en alternativ implementation där element i GS-algoritmen grupperades på sådant sätt att alla operationer på samma element kommer i block. På så sätt kan de enkelt behandlas i sekvens och därmed undvika behovet av atomic operations. Inom ramen för masterarbetet implementerades en numerisk lösare av Poisson’s ekvation för GPUer. Optimering av koden genom att göra matrismultiplikationer i bulk genomfördes, och vidare genom utnyttjande av shared memory. Prestandan utvärderades på två olika datorsystem med en GTX1660 respektive två A100 GPUer. Enbart små skillnader sågs mellan de olika GS-implementationerna, med en svag fördel om ca 5% högre prestanda för den grupperade varianten i högupplösta domäner. Poisson-lösaren visade på höga prestandasiffror jämfört med cuBLAS-biblioteket. Neko CUDA Heterogeneous hardware GPU Gather-Scatter HPC CFD Neko CUDA Heterogena plattformar GPU Gather-Scatter Högprestandabe-räkningar Beräkningsströmningsdynamik Computer and Information Sciences Data- och informationsvetenskap
3	Time-Resolved Adaptive Finite Element Simulations for Building Aerodynamics : A proof of concept on minimal computational resources / Tidsupplösta adaptiva finita elementsimuleringar för byggnadsaerodynamik : Ett koncepttest med minimala beräkningsresurser van Beers, Linde January 2021 (has links) The effect of building geometry on the wind environment of cities is such that it can cause problems like wind danger, discomfort and poor ventilation of airborne pollutants. Computational fluid dynamics (CFD) can play a role in assessing changes in wind environment caused by building projects before realisation at little cost. However, the current state-of-the-art methods, RANS and LES, force a steep trade-off between accuracy and computational cost, and neither method is truly predictive. Time-resolved adaptive direct finite element simulation (DFS) is a method for CFD that is predictive and automatically optimises the mesh for a goal quantity, making it both efficient and accurate. In this thesis, DFS was implemented in FEniCS and used on basic validation cases to provide a proof of concept for the use of this method in the building aerodynamics, on resources freely available to anyone. The results show that the method is accurate to within 10% of the validation data with respect to the goal quantity. Visually, the expected flow features are clearly identifiable. DFS was successfully applied to a relatively complicated building geometry, with a total computation time of about 120 core-hours. We conclude that DFS has significant potential as a method for evaluating urban wind environments. Furthermore, because of its ease of use and lack of parameters, DFS can play an important role in helping architects, designers and students understand the effect of urban geometries on the wind environment. This report provides a basis for further research on DFS for building aerodynamics, as validation on more diverse urban geometries is still necessary. / Effekten av byggnaders form och geometri är så viktig att den kan ge problem för ventilation av t.ex. föroreningar, för energieffektivitet, och för vindfaror med t.ex. hög vindhastihet som kan vara farligt eller skapa obehag. Beräkningsströmningsdynamik (CFD) kan ha en roll i bedömningen av byggnadsprojekt i ett tidigt skede till liten kostnad. Dock är de etablerade och ledande metodikerna, RANS och LES, inte prediktiva och tvingar fram en kompromiss mellan beräkningskosnad och noggrannhet. Vår metodik “Time-resolved adaptive direct finite element simulation” (DFS) är en metod för CFD som är prediktiv och automatiskt optimerar beräkningsnätet (och därmed beräkningskostnaden) för en given målkvantitet, som ger både effektivitet och noggrannhet. I denna avhandling implementerades DFS i FEniCS och användes i grundläggande valideringsfall för att ge ett proof of conceptför användning av denna metod i byggnadsaerodynamik, på resurser som är fritt tillgängliga för alla. Resultaten visar att metoden är korrekt inom 10% av valideringsdata med avseende på målkvantiteten. Visuellt är de förväntade flödesfunktionerna tydligt identifierbara. DFS applicerades framgångsrikt på en relativt komplicerad byggnadsgeometri med en total beräkningstid på cirka 120 kärntimmar, vilket är en försumbar kostnad. Vi drar slutsatsen att DFS har en betydande potential som metod för utvärdering av stadsvindmiljöer. Dessutom, på grund av dess användarvänlighet och frihet från parametrar, kan DFS spela en viktig roll för att hjälpa arkitekter, designers och studenter att förstå effekterna av stadsgeometrier på vindmiljön. Denna rapport ger en grund för vidare forskning om DFS för aerodynamik, eftersom validering av mer olika stadsgeometrier fortfarande är nödvändig. Building aerodynamics Computational fluid dynamics Wind engineering FEniCS Adaptive mesh refinement Atmospheric boundary layer Direct finite element simulation Byggnadsaerodynamik Beräkningsströmningsdynamik Vindteknik FEniCS Adaptiv nätförfining Atmosfäriskt gränsskikt Direkt finita elementsimulering Computer Sciences Datavetenskap (datalogi)
4	Machine Learning for Air Flow Characterization : An application of Theory-Guided Data Science for Air Fow characterization in an Industrial Foundry / Maskininlärning för Luftflödeskarakterisering : En applikation för en Teorivägledd Datavetenskapsmodell för Luftflödeskarakterisering i en Industrimiljö Lundström, Robin January 2019 (has links) In industrial environments, operators are exposed to polluted air which after constant exposure can cause irreversible lethal diseases such as lung cancer. The current air monitoring techniques are carried out sparely in either a single day annually or at few measurement positions for a few days.In this thesis a theory-guided data science (TGDS) model is presented. This hybrid model combines a steady state Computational Fluid Dynamics (CFD) model with a machine learning model. Both the CFD model and the machine learning algorithm was developed in Matlab. The CFD model serves as a basis for the airflow whereas the machine learning model addresses dynamical features in the foundry. Measurements have previously been made at a foundry where five stationary sensors and one mobile robot were used for data acquisition. An Echo State Network was used as a supervised learning technique for airflow predictions at each robot measurement position and Gaussian Processes (GP) were used as a regression technique to form an Echo State Map (ESM). The stationary sensor data were used as input for the echo state network and the difference between the CFD and robot measurements were used as teacher signal which formed a dynamic correction map that was added to the steady state CFD. The proposed model utilizes the high spatio-temporal resolution of the echo state map whilst making use of the physical consistency of the CFD. The initial applications of the novel hybrid model proves that the best qualities of these two models could come together in symbiosis to give enhanced characterizations.The proposed model could have an important role for future characterization of airflow and more research on this and similar topics are encouraged to make sure we properly understand the potential of this novel model. / Industriarbetare utsätts för skadliga luftburna ämnen vilket över tid leder till högre prevalens för lungsjukdomar så som kronisk obstruktiv lungsjukdom, stendammslunga och lungcancer. De nuvarande luftmätningsmetoderna genomförs årligen under korta sessioner och ofta vid få selekterade platser i industrilokalen. I denna masteruppsats presenteras en teorivägledd datavetenskapsmodell (TGDS) som kombinerar en stationär beräkningsströmningsdynamik (CFD) modell med en dynamisk maskininlärningsmodell. Både CFD-modellen och maskininlärningsalgoritmen utvecklades i Matlab. Echo State Network (ESN) användes för att träna maskininlärningsmodellen och Gaussiska Processer (GP) används som regressionsteknik för att kartlägga luftflödet över hela industrilokalen. Att kombinera ESN med GP för att uppskatta luftflöden i stålverk genomfördes första gången 2016 och denna modell benämns Echo State Map (ESM). Nätverket använder data från fem stationära sensorer och tränades på differensen mellan CFD-modellen och mätningar genomfördes med en mobil robot på olika platser i industriområdet. Maskininlärningsmodellen modellerar således de dynamiska effekterna i industrilokalen som den stationära CFD-modellen inte tar hänsyn till. Den presenterade modellen uppvisar lika hög temporal och rumslig upplösning som echo state map medan den också återger fysikalisk konsistens som CFD-modellen. De initiala applikationerna för denna model påvisar att de främsta egenskaperna hos echo state map och CFD används i symbios för att ge förbättrad karakteriseringsförmåga. Den presenterade modellen kan spela en viktig roll för framtida karakterisering av luftflöden i industrilokaler och fler studier är nödvändiga innan full förståelse av denna model uppnås. Machine learning ML Echo State Map ESM Echo State Network ESN Gaussian Process GP Computational Fluid Dynamics CFD Theory-Guided Data Science TGDS Physics-Guided Data Science Data science Cross-discipline Hybrid model MatLab Maskininlärning ML Echo State Map ESM Echo State Network ESN Gaussiska Processer GP Beräkningsströmningsdynamik CFD MatLab Other Physics Topics Annan fysik Computer Sciences Datavetenskap (datalogi)

1

Page generated in 0.0808 seconds