Return to search

Towards Efficient Resource Allocation for Embedded Systems

Das Hauptthema ist die dynamische Ressourcenverwaltung in eingebetteten Systemen, insbesondere die Verwaltung von Rechenzeit und Netzwerkverkehr auf einem MPSoC. Die Idee besteht darin, eine Pipeline für die Verarbeitung von Mobiler Kommunikation auf dem Chip dynamisch zu schedulen, um die Effizienz der Hardwareressourcen zu verbessern, ohne den Ressourcenverbrauch des dynamischen Schedulings dramatisch zu erhöhen. Sowohl Software- als auch Hardwaremodule werden auf Hotspots im Ressourcenverbrauch untersucht und optimiert, um diese zu entfernen. Da Applikationen im Bereich der Signalverarbeitung normalerweise mit Hilfe von SDF-Diagrammen beschrieben werden können, wird deren dynamisches Scheduling optimiert, um den Ressourcenverbrauch gegenüber dem üblicherweise verwendeten statischen Scheduling zu verbessern. Es wird ein hybrider dynamischer Scheduler vorgestellt, der die Vorteile von Processing-Networks und der Planung von Task-Graphen kombiniert. Es ermöglicht dem Scheduler, ein Gleichgewicht zwischen der Parallelisierung der Berechnung und der Zunahme des dynamischen Scheduling-Aufands optimal abzuwägen. Der resultierende dynamisch erstellte Schedule reduziert den Ressourcenverbrauch um etwa 50%, wobei die Laufzeit im Vergleich zu einem statischen Schedule nur um 20% erhöht wird. Zusätzlich wird ein verteilter dynamischer SDF-Scheduler vorgeschlagen, der das Scheduling in verschiedene Teile zerlegt, die dann zu einer Pipeline verbunden werden, um mehrere parallele Prozessoren einzubeziehen. Jeder Scheduling-Teil wird zu einem Cluster mit Load-Balancing erweitert, um die Anzahl der parallel laufenden Scheduling-Jobs weiter zu erhöhen. Auf diese Weise wird dem vorhandene Engpass bei dem dynamischen Scheduling eines zentralisierten Schedulers entgegengewirkt, sodass 7x mehr Prozessoren mit dem Pipelined-Clustered-Dynamic-Scheduler für eine typische Signalverarbeitungsanwendung verwendet werden können.

Das neue dynamische Scheduling-System setzt das Vorhandensein von drei verschiedenen Kommunikationsmodi zwischen den Verarbeitungskernen voraus. Bei der Emulation auf Basis des häufig verwendeten RDMA-Protokolls treten Leistungsprobleme auf. Sehr gut kann RDMA für einmalige Punkt-zu-Punkt-Datenübertragungen verwendet werden, wie sie bei der Ausführung von Task-Graphen verwendet werden. Process-Networks verwenden normalerweise Datenströme mit hohem Volumen und hoher Bandbreite. Es wird eine FIFO-basierte Kommunikationslösung vorgestellt, die einen zyklischen Puffer sowohl im Sender als auch im Empfänger implementiert, um diesen Bedarf zu decken. Die Pufferbehandlung und die Datenübertragung zwischen ihnen erfolgen ausschließlich in Hardware, um den Software-Overhead aus der Anwendung zu entfernen. Die Implementierung verbessert die Zugriffsverwaltung mehrerer Nutzer auf flächen-effiziente Single-Port Speichermodule. Es werden 0,8 der theoretisch möglichen Bandbreite, die normalerweise nur mit flächenmäßig teureren Dual-Port-Speichern erreicht wird. Der dritte Kommunikationsmodus definiert eine einfache Message-Passing-Implementierung, die ohne einen Verbindungszustand auskommt. Dieser Modus wird für eine effiziente prozessübergreifende Kommunikation des verteilten Scheduling-Systems und der engen Ansteuerung der restlichen Prozessoren benötigt. Eine Flusskontrolle in Hardware stellt sicher, dass eine große Anzahl von Sendern Nachrichten an denselben Empfänger senden kann. Dabei wird garantiert, dass alle Nachrichten korrekt empfangen werden, ohne dass eine Verbindung hergestellt werden muss und die Nachrichtenlaufzeit gering bleibt.

Die Arbeit konzentriert sich auf die Optimierung des Codesigns von Hardware und Software, um die kompromisslose Ressourceneffizienz der dynamischen SDF-Graphen-Planung zu erhöhen. Besonderes Augenmerk wird auf die Abhängigkeiten zwischen den Ebenen eines verteilten Scheduling-Systems gelegt, das auf der Verfügbarkeit spezifischer hardwarebeschleunigter Kommunikationsmethoden beruht.:1 Introduction
1.1 Motivation
1.2 The Multiprocessor System on Chip Architecture
1.3 Concrete MPSoC Architecture
1.4 Representing LTE/5G baseband processing as Static Data Flow
1.5 Compuation Stack
1.6 Performance Hotspots Addressed
1.7 State of the Art
1.8 Overview of the Work
2 Hybrid SDF Execution
2.1 Addressed Performance Hotspot
2.2 State of the Art
2.3 Static Data Flow Graphs
2.4 Runtime Environment
2.5 Overhead of Deloying Tasks to a MPSoC
2.6 Interpretation of SDF Graphs as Task Graphs
2.7 Interpreting SDF Graphs as Process Networks
2.8 Hybrid Interpretation
2.9 Graph Topology Considerations
2.10 Theoretic Impact of Hybrid Interpretation
2.11 Simulating Hybrid Execution
2.12 Pipeline SDF Graph Example
2.13 Random SDF Graphs
2.14 LTE-like SDF Graph
2.15 Key Lernings
3 Distribution of Management
3.1 Addressed Performance Hotspot
3.2 State of the Art
3.3 Revising Deployment Overhead
3.4 Distribution of Overhead
3.5 Impact of Management Distribution to Resource Utilization
3.6 Reconfigurability
3.7 Key Lernings
4 Sliced FIFO Hardware
4.1 Addressed Performance Hotspot
4.2 State of the Art
4.3 System Environment
4.4 Sliced Windowed FIFO buffer
4.5 Single FIFO Evaluation
4.6 Multiple FIFO Evalutaion
4.7 Hardware Implementation
4.8 Key Lernings
5 Message Passing Hardware
5.1 Addressed Performance Hotspot
5.2 State of the Art
5.3 Message Passing Regarded as Queueing
5.4 A Remote Direct Memory Access Based Implementation
5.5 Hardware Implementation Concept
5.6 Evalutation of Performance
5.7 Key Lernings
6 Summary / The main topic is the dynamic resource allocation in embedded systems, especially the allocation of computing time and network traffic on an multi processor system on chip (MPSoC). The idea is to dynamically schedule a mobile communication signal processing pipeline on the chip to improve hardware resource efficiency while not dramatically improve resource consumption because of dynamic scheduling overhead. Both software and hardware modules are examined for resource consumption hotspots and optimized to remove them. Since signal processing can usually be described with the help of static data flow (SDF) graphs, the dynamic handling of those is optimized to improve resource consumption over the commonly used static scheduling approach. A hybrid dynamic scheduler is presented that combines benefits from both processing networks and task graph scheduling. It allows the scheduler to optimally balance parallelization of computation and addition of dynamic scheduling overhead. The resulting dynamically created schedule reduces resource consumption by about 50%, with a runtime increase of only 20% compared to a static schedule. Additionally, a distributed dynamic SDF scheduler is proposed that splits the scheduling into different parts, which are then connected to a scheduling pipeli ne to incorporate multiple parallel working processors. Each scheduling stage is reworked into a load-balanced cluster to increase the number of parallel scheduling jobs further. This way, the still existing dynamic scheduling bottleneck of a centralized scheduler is widened, allowing handling 7x more processors with the pipelined, clustered dynamic scheduler for a typical signal processing application.

The presented dynamic scheduling system assumes the presence of three different communication modes between the processing cores. When emulated on top of the commonly used remote direct memory access (RDMA) protocol, performance issues are encountered. Firstly, RDMA can neatly be used for single-shot point-to-point data transfers, like used in task graph scheduling. Process networks usually make use of high-volume and high-bandwidth data streams. A first in first out (FIFO) communication solution is presented that implements a cyclic buffer on both sender and receiver to serve this need. The buffer handling and data transfer between them are done purely in hardware to remove software overhead from the application. The implementation improves the multi-user access to area-efficient single port on-chip memory modules. It achieves 0.8 of the theoretically possible bandwidth, usually only achieved with area expensive dual-port memories. The third communication mode defines a lightweight message passing (MP) implementation that is truly connectionless. It is needed for efficient inter-process communication of the distributed and clustered scheduling system and the worker processing units’ tight coupling. A hardware flow control assures that an arbitrary number of senders can spontaneously start sending messages to the same receiver. Yet, all messages are guaranteed to be correctly received while eliminating the need for connection establishment and keeping a low message delay.

The work focuses on the hardware-software codesign optimization to increase the uncompromised resource efficiency of dynamic SDF graph scheduling. Special attention is paid to the inter-level dependencies in developing a distributed scheduling system, which relies on the availability of specific hardwareaccelerated communication methods.:1 Introduction
1.1 Motivation
1.2 The Multiprocessor System on Chip Architecture
1.3 Concrete MPSoC Architecture
1.4 Representing LTE/5G baseband processing as Static Data Flow
1.5 Compuation Stack
1.6 Performance Hotspots Addressed
1.7 State of the Art
1.8 Overview of the Work
2 Hybrid SDF Execution
2.1 Addressed Performance Hotspot
2.2 State of the Art
2.3 Static Data Flow Graphs
2.4 Runtime Environment
2.5 Overhead of Deloying Tasks to a MPSoC
2.6 Interpretation of SDF Graphs as Task Graphs
2.7 Interpreting SDF Graphs as Process Networks
2.8 Hybrid Interpretation
2.9 Graph Topology Considerations
2.10 Theoretic Impact of Hybrid Interpretation
2.11 Simulating Hybrid Execution
2.12 Pipeline SDF Graph Example
2.13 Random SDF Graphs
2.14 LTE-like SDF Graph
2.15 Key Lernings
3 Distribution of Management
3.1 Addressed Performance Hotspot
3.2 State of the Art
3.3 Revising Deployment Overhead
3.4 Distribution of Overhead
3.5 Impact of Management Distribution to Resource Utilization
3.6 Reconfigurability
3.7 Key Lernings
4 Sliced FIFO Hardware
4.1 Addressed Performance Hotspot
4.2 State of the Art
4.3 System Environment
4.4 Sliced Windowed FIFO buffer
4.5 Single FIFO Evaluation
4.6 Multiple FIFO Evalutaion
4.7 Hardware Implementation
4.8 Key Lernings
5 Message Passing Hardware
5.1 Addressed Performance Hotspot
5.2 State of the Art
5.3 Message Passing Regarded as Queueing
5.4 A Remote Direct Memory Access Based Implementation
5.5 Hardware Implementation Concept
5.6 Evalutation of Performance
5.7 Key Lernings
6 Summary

Identiferoai:union.ndltd.org:DRESDEN/oai:qucosa:de:qucosa:85829
Date06 June 2023
CreatorsHasler, Mattis
ContributorsFettweis, Gerhard, Rückert, Ulrich, Technische Universität Dresden
Source SetsHochschulschriftenserver (HSSS) der SLUB Dresden
LanguageEnglish
Detected LanguageEnglish
Typeinfo:eu-repo/semantics/publishedVersion, doc-type:doctoralThesis, info:eu-repo/semantics/doctoralThesis, doc-type:Text
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0038 seconds