Global ETD Search

1	Accelerating a Molecular Docking Application by Leveraging Modern Heterogeneous Computing Systems / Accelerering av en Molekylär Dockningsapplikation genom att Utnyttja Moderna Heterogena Datorsystem Schieffer, Gabin January 2023 (has links) In drug development, molecular docking methods aim at characterizing the binding of a drug-like molecule to a protein. In a typical drug development process, a docking task is repeated millions of time, which makes optimization efforts essential. In particular, modern heterogeneous architectures, such as GPUs, allow for significant acceleration opportunities. AutoDock-GPU, a state-of-the-art GPU-accelerated molecular docking software, estimates the geometrical conformation of a docked ligand-protein complex by minimizing an energy-based scoring function. Our profiling results indicated that a reduction operation, which is performed several millions times in a single docking run, limits performance in AutoDock-GPU. Thus, we proposed a method to accelerate the block-level sum reduction of four-element vectors by using matrix operations. We implemented our method to make use of the high throughput capabilities offered by NVIDIA Tensor Cores to perform matrix operations. We evaluated our approach by designing a simple benchmark, and achieved a 4 to 7-fold runtime improvement compared to the original method. We then integrated our reduction operation into AutoDock-GPU and evaluated it on multiple chemical complexes on three GPUs. This evaluation allowed to assess the possibility to use half-precision reduction operations in parts of AutoDock-GPU code, without detrimental effects on the simulation result. In addition, our implementation achieved an average 27% improvement on the overall docking time during a real-world docking run. / Vid läkemedelsutveckling syftar molekylär dockningsmetoder till att karakterisera bindningen av en läkemedelsliknande molekyl till ett protein. I en typisk läkemedelsutvecklingsprocess upprepas en dockinguppgift miljontals gånger, vilket gör optimeringsinsatser nödvändiga. Framför allt moderna heterogena arkitekturer som GPU:er ger betydande accelerationsmöjligheter. AutoDock-GPU, en modern GPU-accelererad programvara för molekylär dockning, uppskattar den geometriska konformationen hos ett ligand-protein-komplex genom att minimera en energibaserad poängsättningsfunktion. Våra profileringsresultat visade att en reduktionsoperation, som utförs flera miljoner gånger i en enda dockningskörning, begränsar prestandan i AutoDock-GPU. Vi har därför föreslagit en metod för att accelerera summareduktionen på blocknivå av vektorer med fyra element med hjälp av matrisoperationer. Vi implementerade vår metod för att utnyttja den höga genomströmningskapacitet som erbjuds av NVIDIA Tensor Cores för att utföra matrisoperationer. Vi utvärderade vårt tillvägagångssätt genom att utforma ett enkelt testfall och uppnådde en 4- till 7-faldig förbättring av körtiden jämfört med den ursprungliga metoden. Vi integrerade sedan vår reduktionsoperation i AutoDock-GPU och utvärderade den på flera kemiska komplex på tre GPU:er. Denna utvärdering lät oss bedöma möjligheten att använda reduktionsoperationer med halvprecision i delar av AutoDock-GPU-koden, utan negativa effekter på simuleringsresultatet. Dessutom uppnådde vår version en genomsnittlig förbättring på 27% av den totala dockningstiden under en riktig dockningskörning. Molecular docking AutoDock GPU Tensor Core Drug Discovery Molekylär dockning AutoDock GPU Tensor Core Läkemedelsutveckling Computer Sciences Datavetenskap (datalogi) Computer and Information Sciences Data- och informationsvetenskap
2	Register Caching for Energy Efficient GPGPU Tensor Core Computing / Registrera cachelagring för energieffektiv GPGPU Tensor Core Computing Qian, Qiran January 2023 (has links) The General-Purpose GPU (GPGPU) has emerged as the predominant computing device for extensive parallel workloads in the fields of Artificial Intelligence (AI) and Scientific Computing, primarily owing to its adoption of the Single Instruction Multiple Thread architecture, which not only provides a wealth of thread context but also effectively hide the latencies exposed in the single threads executions. As computational demands have evolved, modern GPGPUs have incorporated specialized matrix engines, e.g., NVIDIA’s Tensor Core (TC), in order to deliver substantially higher throughput for dense matrix computations compared with traditional scalar or vector architectures. Beyond mere throughput, energy efficiency is a pivotal concern in GPGPU computing. The register file is the largest memory structure on the GPGPU die and typically accounts for over 20% of the dynamic power consumption. To enhance energy efficiency, GPGPUs incorporate a technique named register caching borrowed from the realm of CPUs. Register caching captures temporal locality among register operands to reduce energy consumption within a 2- level register file structure. The presence of TC raises new challenges for Register Cache (RC) design, as each matrix instruction applies intensive operand delivering traffic on the register file banks. In this study, we delve into the RC design trade-offs in GPGPUs. We undertake a comprehensive exploration of the design space, encompassing a range of workloads. Our experiments not only reveal the basic design considerations of RC but also clarify that conventional caching strategies underperform, particularly when dealing with TC computations, primarily due to poor temporal locality and the substantial register operand traffic involved. Based on these findings, we propose an enhanced caching strategy featuring a look-ahead allocation policy to minimize unnecessary cache allocations for the destination register operands. Furthermore, to leverage the energy efficiency of Tensor Core computing, we highlight an alternative instruction scheduling framework for Tensor Core instructions that collaborates with a specialized caching policy, resulting in a remarkable reduction of up to 50% in dynamic energy consumption within the register file during Tensor Core GEMM computations. / Den allmänna ändamålsgrafikprocessorn (GPGPU) har framträtt som den dominerande beräkningsenheten för omfattande parallella arbetsbelastningar inom områdena för artificiell intelligens (AI) och vetenskaplig beräkning, huvudsakligen tack vare dess antagande av arkitekturen för enkel instruktion, flera trådar (Single Instruction Multiple Thread), vilket inte bara ger en mängd trådcontext utan också effektivt döljer de latenser som exponeras vid enskilda trådars utförande. När beräkningskraven har utvecklats har moderna GPGPU:er inkorporerat specialiserade matrismotorer, t.ex., NVIDIAs Tensor Core (TC), för att leverera avsevärt högre genomströmning för täta matrisberäkningar jämfört med traditionella skalär- eller vektorarkitekturer. Bortom endast genomströmning är energieffektivitet en central oro inom GPGPUberäkning. Registerfilen är den största minnesstrukturen på GPGPU-dien och svarar vanligtvis för över 20% av den dynamiska effektförbrukningen För att förbättra energieffektiviteten inkorporerar GPGPU:er en teknik vid namn registercachning, lånad från CPU-världen. Registercachning fångar temporal lokalitet bland registeroperanderna för att minska energiförbrukningen inom en 2-nivåers registerfilstruktur. Närvaron av TC innebär nya utmaningar för Register Cache (RC)-design, eftersom varje matrisinstruktion genererar intensiv operandleverans på registerfilbankarna. I denna studie fördjupar vi oss i RC-designavvägandena i GPGPU:er. Vi genomför en omfattande utforskning av designutrymmet, som omfattar olika arbetsbelastningar. Våra experiment avslöjar inte bara de grundläggande designövervägandena för RC utan klargör också att konventionella cachestrategier underpresterar, särskilt vid hantering av TC-beräkningar, främst på grund av dålig temporal lokalitet och den betydande trafiken med registeroperand. Baserat på dessa resultat föreslår vi en förbättrad cachestrategi med en look-ahead-alloceringspolicy för att minimera onödiga cacheallokeringar för destinationens registeroperand. Dessutom, för att dra nytta av energieffektiviteten hos Tensor Core-beräkning, belyser vi en alternativ instruktionsplaneringsram för Tensor Core-instruktioner som samarbetar med en specialiserad cachelayout, vilket resulterar i en anmärkningsvärd minskning av upp till 50% i dynamisk energiförbrukning inom registerfilen under Tensor Core GEMM-beräkningar. Computer Architecture GPGPU Tensor Core GEMM Energy Efficiency Register File Cache Instruction Scheduling Datorarkitektur GPGPU Tensor Core GEMM energieffektivitet registerfil cache instruktionsschemaläggning Computer and Information Sciences Data- och informationsvetenskap

Search results

Accelerating a Molecular Docking Application by Leveraging Modern Heterogeneous Computing Systems / Accelerering av en Molekylär Dockningsapplikation genom att Utnyttja Moderna Heterogena Datorsystem

Register Caching for Energy Efficient GPGPU Tensor Core Computing / Registrera cachelagring för energieffektiv GPGPU Tensor Core Computing