• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 9
  • 3
  • Tagged with
  • 13
  • 13
  • 13
  • 8
  • 6
  • 6
  • 5
  • 4
  • 4
  • 4
  • 4
  • 4
  • 3
  • 3
  • 3
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Adaptive sampling-based motion planning with control barrier functions

Ahmad, Ahmad Ghandi 27 September 2021 (has links)
In this thesis we modified a sampling-based motion planning algorithm to improve sampling efficiency. First, we modify the RRT* motion planning algorithm with a local motion planner that guarantees collision-free state trajectories without explicitly checking for collision with obstacles. The control trajectories are generated by solving a sequence of quadratic programs with Control Barrier Functions (CBF) constraints. If the control trajectories satisfy the CBF constraints, the state trajectories are guaranteed to stay in the free subset of the state space. Second, we use a stochastic optimization algorithm to adapt the sampling density function of RRT* to increase the probability of sampling in promising regions in the configuration space. In our approach, we use the nonparametric generalized cross-entropy (GCE) method is used for importance sampling, where a subset of the sampled RRT* trajectories is incrementally exploited to adapt the density function. The modified algorithms, the Adaptive CBF-RRT* and the CBF-RRT*, are demonstrated with numerical examples using the unicycle dynamics. The Adaptive CBF-RRT* has been shown to yield paths with lower cost with fewer tree vertexes than the CBF-RRT*. / 2022-03-27T00:00:00Z
2

Online data-driven control of safety-critical systems

Cohen, Max H. 30 May 2023 (has links)
The rising levels of autonomy exhibited by complex cyber-physical systems have brought questions related to safety and adaptation to the forefront of the minds of controls and robotics engineers. Often, such autonomous systems are deemed to be safety-critical in the sense that failures during operation could significantly harm the system itself, other autonomous systems, or, in the worst-case, humans interacting with such a system. Complicating the design of control and decision-making algorithms for safety-critical systems is that they must cope with various degrees of uncertainty as they are deployed autonomously in increasingly real-world environments. These challenges motivate the use of learning-based techniques that can adapt to such uncertainties while adhering to safety-critical constraints. The main objective of this dissertation is to present a unified framework for the design of controllers that learn from data online with formal guarantees of safety. Rather than using a controller trained on an a priori dataset collected offline that is then statically deployed on a system, we are interested in using real-time data to continuously update the control policy online and cope with uncertainties that are challenging to characterize until deployment. We approach the problem of designing such learning-based control algorithms for safety-critical systems through the use of certificate functions, such as Control Lyapunov Functions (CLFs) and Control Barrier Functions (CBFs), from nonlinear control theory. To this end, we first discuss how modern data-driven techniques can be integrated into traditional adaptive control frameworks to develop classes of CLFs and CBFs that facilitate the design of both controllers and learning algorithms that guarantee, respectively, stability and safety by construction. Next, we shift from the problem of safe adaptive control to safe reinforcement learning where we demonstrate how similar ideas from adaptive control can be extended to safely learn the value functions of optimal control problems online using data from a single trajectory. Finally, we discuss an extension of the aforementioned approaches to richer control specifications given in the form of temporal logic formulas, which provide a formal way to express complex control objectives beyond that of stability and safety. / 2025-05-30T00:00:00Z
3

Control of Dynamical Systems subject to Spatio-Temporal Constraints

Charitidou, Maria January 2022 (has links)
Over the last decades, autonomous robots have been considered in a variety of applications such  as persistent monitoring, package delivery and cooperative transportation. These applications often require the satisfaction of a set of complex tasks that need to be possibly performed in a timely manner. For example, in search and rescue missions, UAVs are expected to cover a set of regions within predetermined time intervals in order to increase the probability of identifying the victims of an accident. Spatio-temporal tasks of this form can be easily expressed in Signal Temporal Logic (STL), a predicate language that allow us to formally introduce time-constrained tasks such as visit area A between 0 and 5 min or robot 1 should move in a formation with robot 2 until robot 1 reaches region B between 5 and 20 sec. Existing approaches in control under spatio-temporal tasks encode the STL constraints using mixed-integer expressions. In the majority of these works, receding horizon schemes are designed and long planning horizons are considered that depend on the temporal constraints of the STL tasks. As a result, the complexity of these problems may increase with the number of the tasks or the length of the time interval within which a STL task needs to be satisfied. Other approaches, consider a limited STL fragment and propose computationally efficient feedback controllers that ensure the satisfaction of the STL task with a minimum, desired robustness. Nevertheless, these approaches do not consider actuation limitations that are always present in real-world systems and thus, yield controllers of arbitrarily large magnitude.  In this thesis, we consider the control problem under spatio-temporal constraints for systems that are subject to actuation limitations. In the first part, receding horizon control schemes (RHS) are proposed that ensure the satisfaction or minimal violation of a given set of STL tasks. Contrary to existing approaches, the planning horizon of the RHS scheme can be chosen independent of the STL task and hence, arbitrarily small, given the initial feasibility of the problem. Combining the advantages of the RHS and feedback strategies, we encode the STL tasks using control barrier functions that are designed either online or offline and design controllers that aim at maximizing the robustness of the STL task. The recursive feasibility property of the framework is established and a lower bound on the violation of the STL formula is derived. In the next part, we consider a multi-agent system that is subject to a STL task whose satisfaction may involve a large number of agents in the team. Then, the goal is to decompose the global task into local ones the satisfaction of each one of which  depends only on a given sub-team of agents. The proposed decomposition method enables the design of decentralized controllers under local STL tasks avoiding unnecessary communication among agents.  In the last part of the thesis, the coordination problem of multiple platoons is considered and related tasks such as splitting, merging and distance maintenance are expressed as Signal Temporal Logic tasks. Then, feedback control techniques are employed ensuring the satisfaction the STL formula, or alternatively minimal violation in presence of actuation limitations. / De senaste ̊artiondena har autonoma robotar sett en rad nya användningsområden, såsom ̈overvakning, paketleverans och kooperativ transport. Dessa innebär ofta att en samling komplexa uppgifter måste lösas på kort tid. Inom Search and Rescue (SAR), till exempel, krävs att drönare hinner genomsöka vissa geografiska regioner inom givna tidsintervall. Detta för att ̈oka chansen att identifierade drabbade vid en olycka. Den här typen av uppgift i tid och rum (spatio-temporal) kan enkelt uttryckas med hjälp av Signal Temporal Logic (STL). STL ̈är ett språk som tillåter oss att på ett formellt sätt formulera tidsbegränsade uppgifter, såsom besök område A mellan o och 5 minuter, eller robot 1 ska röra sig i formationtillsammans med robot 2 till dess att robot 1 når område B mellan 5 och 20 sekunder. Nuvarande lösningar till styrproblem av spatio-temporal-typen kodar STL-begränsningar med hjälp av mixed-integer-uttryck. Majoriteten av lösningarna involverar receding-horizon-metoder med långa tidshorisonter som beror av tidsbegränsningarna i STL-uppgifterna. Detta leder till att problemens komplexitet ̈ökar med antalet deluppgifter inom och tiden för STL-uppgifterna. Andra lösningar bygger på restriktiva STL-fragment och beräkningsmässigt effektiva ̊aterkopplingsregulatorer som garanterar STL-begränsningarna med minimal önskad robusthet. Dessvärre tar dessa sällan hänsyn till fysiska begräsningar hos regulatorn och ger ofta godtyckligt stora styrsignaler. I den här licentiatuppsatsen behandlar vi styrproblem med begräsningar i rum och tid, samt den ovan nämnda typen av fysiska regulatorbegränsningar. I den första delen presenterar vi receding-horizon-metoder (RHS) som uppfyller kraven i STL-uppgifter, eller minimalt bryter mot dessa. Till skillnad från tidigare lösningar så kan tidshorisonten i våra RHS-metoder väljas oberoende av STL-uppgifterna och därmed göras godtyckligt kort, så länge ursprungsproblemet ̈ar lösbart. Genom att formulera STL-uppgifterna som control barrier funktioner kan vi kombinera fördelarna hos RHS och ̊återkoppling. Vi härleder en rekursiv lösbarhetsegenskap och en undre gräns på ̈overträdelsen av STL-kraven. I den andra delen behandlar vi multi-agent-system med uppgifter i tid och rum som berör många agenter. Målet är att bryta ner den globala uppgiften i fler men enklare lokala uppgifter som var och en bara involverar en given delmängd av agenterna. Vår nedbrytning till ̊åter oss att konstruera decentraliserade regulatorer som löser lokala STL-uppgifter, och kan i och med det markant minska kommunikationskostnaderna i j̈ämförelse med centraliserad styrning. I den sista delen av uppsatsen behandlar vi samordning av flera grupper. Vi uttrycker uppgifter såsom delning, sammanslagning och avståndshållning med hjälp av STL, och utnyttjar sedan ̊aterkoppling för att uppfylla eller minimalt bryta mot kraven. / <p>QC 20220311</p>
4

Extending Boids for Safety-Critical Search and Rescue

Hengstebeck, Cole Martin 31 May 2023 (has links)
No description available.
5

Safety-critical optimal control in autonomous traffic systems

Xu, Kaiyuan 30 August 2023 (has links)
Traffic congestion is a central problem in transportation systems, especially in urban areas. The rapid development of Connected and Automated Vehicles (CAVs) and new traffic infrastructure technologies provides a promising solution to solve this problem. This work focuses on the safety-critical optimal control of CAVs in autonomous traffic systems. The dissertation starts with the roundabout problem of controlling CAVs travelling through a roundabout so as to jointly minimize their travel time, energy consumption, and centrifugal discomfort while providing speed-dependent safety guarantees. A systematic approach is developed to determine the safety constraints for each CAV dynamically. The joint optimal control and control barrier function (OCBF) controller is applied, where the unconstrained optimal control solution is derived which is subsequently optimally tracked by a real-time controller while guaranteeing the satisfaction of all safety constraints. Secondly, the dissertation deals with the feasibility problem of OCBF. The feasibility problem arises when the control bounds conflict with the Control Barrier Function (CBF) constraints and is solved by adding a single feasibility constraint to the Quadratic Problem (QP) in the OCBF controller to derive the feasibility guaranteed OCBF. The feasibility guaranteed OCBF is applied in the merging control problem which provably guarantees the feasibility of all QPs derived from the OCBF controller. Thirdly, the dissertation deals with the performance loss of OCBF due to the improperly selected reference trajectory which deviates largely from the complete optimal solution especially when the vehicle limitations are tight. A neural network is used to learn the control policy from data retrieved by offline calculation from the complete optimal solutions. Tracking the learnt reference trajectory with CBF outperforms OCBF in simulation experiments. Finally, a hierarchical framework of modular control zones (CZ) is proposed to extend the safety-critical optimal control of CAV from a single CZ to a traffic network. The hierarchical modular CZ framework is developed consisting of a lower-level OCBF controller and a higher-level feedback flow controller to coordinate adjacent CZs which outperforms a direct extension of the OCBF framework to multiple CZs without any flow control in simulation.
6

Safety-Critical Teleoperation with Time-Varying Delays : MPC-CBF-based approaches for obstacle avoidance / Säkerhetskritisk teleoperation med tidsvarierande fördröjningar

Periotto, Riccardo January 2023 (has links)
The thesis focuses on the design of a control strategy for safety-critical remote teleoperation. The main goal is to make the controlled system track the desired velocity specified by a human operator while avoiding obstacles despite communication delays. Different methods adopting Control Barrier Functions (CBFs) and Model Predictive Control (MPC) have been explored and tested. In this combination, CBFs are used to define the safety constraints the system has to respect to avoid obstacles, while MPC provides the framework for filtering the desired input by solving an optimization problem. The resulting input is sent to the remote system, where appropriate low-level velocity controllers translate it into system-specific commands. The main novelty of the thesis is a method to make the CBFs robust against the uncertainties affecting the system’s state due to network delays. Other techniques are investigated to improve the quality of the system information starting from the delayed one and to formulate the optimization problem without knowing the specific dynamic of the controlled system. The results show how the proposed method successfully solves the safetycritical teleoperation problem, making the controlled systems avoid obstacles with different types of network delay. The controller has also been tested in simulation and on a real manipulator, demonstrating its general applicability when reliable low-level velocity controllers are available. / Avhandlingen fokuserar på utformningen av en kontrollstrategi för säkerhetskritisk fjärrstyrd teleoperation. Huvudmålet är att få det kontrollerade systemet att följa den önskade hastigheten som specificeras av en mänsklig operatör samtidigt som hinder undviks trots kommunikationsfördröjningar. Olika metoder som använder Control Barrier Functions (CBFs) och Model Predictive Control har undersökts och testats. I denna kombination används CBFs för att definiera de säkerhetsbegränsningar som systemet måste respektera för att undvika hinder, medan MPC utgör ramverket för filtrering av den önskade indata genom att lösa ett optimeringsproblem. Den resulterande indata skickas till fjärrsystemet, där lämpliga hastighetsregulatorer på låg nivå översätter den till systemspecifika kommandon. Den viktigaste nyheten i avhandlingen är en metod för att göra CBFs robust mot de osäkerheter som påverkar systemets tillstånd på grund av nätverksfördröjningar. Andra tekniker undersöks för att förbättra kvaliteten på systeminformationen med utgångspunkt från den fördröjda informationen och för att formulera optimeringsproblemet utan att känna till det kontrollerade systemets specifika dynamik. Resultaten visar hur den föreslagna metoden framgångsrikt löser det säkerhetskritiska teleoperationsproblemet, vilket gör att de kontrollerade systemen undviker hinder med olika typer av nätverksfördröjningar. Styrningen har också testats i simulering och på en verklig manipulator, vilket visar dess allmänna tillämpbarhet när tillförlitliga lågnivåhastighetsregulatorer finns tillgängliga.
7

Application of Discrete Time High Order Control Barrier Functions for a prototype multi-spacecraft inspection of the ISS

Marchesini, Gregorio January 2023 (has links)
In the past few years, the application of Control Barrier Functions (CBF) and High Order Control Barrier Functions (HOCBF) as a suitable framework to ensure safety for autonomous systems has attracted increasing interest. In particular, autonomous space systems are frequently subject to safety-critical constraints due to the high costs involved in manufacturing and launching. In the present work, the application of a sample data MPC controller subject to CBF and HOCBF constraints is explored as a suitable solution for spacecraft formation flight operations. Specifically, a prototype inspection mission of the International Space Station through a multi-agent formation of CubeSats is explored. Each CubeSat is assumed to be injected in a passive relative orbit around the ISS and controlled such that the state of each agent is maintained within a prescribed safe corridor from its reference relative orbit. Moreover, appropriate conditions on the minimum control authority required to guarantee the constraints satisfaction within the MPC scheme formulation are derived and a numerical procedure to assess the recursive feasibility of the designed controller is presented. Moreover, suitable analytical modifications of the classical CBF and HOCBF constraints definitions are introduced such that the presented sample data MPC control scheme is guaranteed to ensure safety for the state of each agent in between sampling intervals. Lastly, the final control strategy is validated numerically by means of computer simulation. / Under de senaste åren har tillämpningen av Kontrollbarriärfunktioner (CBF) och Högre ordningens kontrollbarriärfunktioner (HOCBF) som ett lämpligt ramverk för att säkerställa säkerhet för autonoma system väckt ett ökande intresse. Autonoma rymdsystem är ett område med särskilt fokus på säkerhetsbegränsningar på grund av de höga tillverknings och uppskjutningskostnaderna. I detta arbete undersöks tillämpningen av en MPC-kontroller med CBF och HOCBF bivillkor för applikation inom formationsflygningsoperationer för rymdfarkoster. Detta görs genom att ett prototypinspektionsuppdrag på Internationella Rymdstationen (ISS) genom en multi-agent formation av CubeSats tas fram. Varje CubeSat är ämnad att injiceras i en passiv relativ omloppsbana runt ISS och styras sådant att varje agents tillstånd bevaras inom en föreskriven säker korridor från dess passiva relativa referensomloppsbana. Lämpliga villkor för den minsta styrbarheten som krävs för att garantera att MPC-schemaformuleringens begränsningar är tillfredsställda härleds, och en numerisk procedur för att bedöma den rekursiva genomförbarheten för den designade kontrollern presenteras. Vidare introduceras lämpliga analytiska modifieringar av de klassiska CBF- och HOCBF-begränsningsdefinitionerna så att det presenterade MPC-kontrollschemat med provdata garanterar säkerheten för varje agents tillstånd mellan dess samplingsintervall. Till sist valideras den slutliga kontrollstrategin numeriskt via datorsimuleringar.
8

Motion Planning for Aggressive Flights of an Unmanned Aerial Vehicle

Medén, Alexander, Warberg, Erik January 2021 (has links)
Autonomous Unmanned Aerial Vehicles (UAV) havegreat potential in executing various complex tasks due to theirflexibility and relatively small size. The aim of this paper is todevelop a motion planner capable of generating a trajectory withaggressive maneuvers through narrow spaces without collision.The approach utilizes a framework using an optimized variantof the Rapidly-exploring Random Tree (RRT) algorithm, calledRRT*, with a Control Barrier Functions (CBF) based obstacleavoidance algorithm as well as a motion primitive generator. If amotion primitive collides with an obstacle, the obstacle avoidancealgorithm will attempt to reach the end state of a motion primitivein a collision free manner while complying with the actuationconstraints. From the collision free trajectories an optimal path iscontinuously searched for by RRT* by minimizing a cost in jerk.The performance of RRT* and the obstacle avoidance are testedin simulations independently and jointly, in several differentscenarios. The resulting motion planner successfully finds ahigh-level trajectory for the different scenarios. Limitations ofthe method as well as possible areas of improvements are alsodiscussed at the end of this paper. / Autonoma UAV har goda möjligheter för att utföra flera olika komplexa uppgifter tack vare deras flexibilitet och storlek. Denna rapport redogör för en rörelseplaneringsalgoritm som kombinerar manövrerbarheten hos en UAV för att skapa en kollisionsfri bana som innehåller aggressiva manövreringar genom trånga utrymmen. Tillvägagångssättet innefattar att kombinera Rapidly-exploring Random Tree (RRT*) med en algoritm för att undvika hinder baserad på Control Barrier Functions (CBF), samt att låta banan delas upp i segment, så kallade motion primitives, som genereras var för sig. Om en motion primitive kolliderar kommer den hinderundvikande algoritmen göra ett försök att nå dess målposition medan kollision undviks och manövreringsbegränsningarna uppfylls. Med en samling genomförbara motion primitives söker RRT* efter en kontinuerlig bana optimerad med hänsyn till en kostnad i ryck. Prestandan för RRT* och den hinderundvikande algoritmen simuleras både separat och tillsammans. Den resulterande rörelseplaneraren lyckas hitta en genomförbar bana för vardera scenario. Begränsningar av metoden samt potentiella förbättringsområden diskuteras i slutet av denna rapport. / Kandidatexjobb i elektroteknik 2021, KTH, Stockholm
9

An input-sample method for zonotopic obstacle avoidance with discrete-time control barrier functions

Xiong, Xiong January 2022 (has links)
In this thesis, we consider the motion planning problem for an autonomous vehicle in an obstacle-cluttered environment approximated by zonotopes, and we propose an input sampling algorithm leveraging discrete-time control barrier function conditions (DCBF). Specifically, an optimization-based control barrier function that takes into account the geometric shapes of the vehicle and obstacles is constructed and verified. We then propose a discrete-time CBF that guarantees the safety during the inter-sampling intervals. It is worth noting that we do not need an explicit expression of the barrier function, but instead, an numerically efficient algorithm is proposed to evaluate and implement the CBF/DCBF conditions. Finally, an RRT algorithm is incorporated that draws the input sampling from the input space restricted to DCBF condition. Thanks to our proposed DCBF and input sampling method approach, our proposed method is less conservative, computationally efficient and guarantees the safety during the sampling intervals. Numerical simulation with unicycle model has been done to demonstrate the favorable properties of the algorithm. / I det här dokumentet tar vi upp problemet med rörelseplanering för ett autonomt fordon i en hinderfylld miljö som approximeras av zonotoper och föreslår en algoritm för insatsprovtagning som utnyttjar diskreta villkor för kontrollbarriärfunktioner (DCBF). Vi konstruerar och verifierar en optimeringsbaserad kontrollbarriärfunktion som tar hänsyn till fordonets och hindrens geometriska former. Vi föreslår sedan en diskret CBF i diskret tid som garanterar säkerheten under intervallerna mellan provtagningarna. Det är värt att notera att vi inte behöver ett explicit uttryck för barriärfunktionen, utan istället föreslås en numeriskt effektiv algoritm för att utvärdera och genomföra CBF/DCBF-villkoren. Slutligen införlivas en RRT-algoritm som drar inmatningsprovtagningen från inmatningsutrymmet som är begränsat till DCBF-villkoret. Tack vare vår föreslagna metod för DCBF och insatsprovtagning är vår föreslagna metod mindre konservativ, beräkningsmässigt effektiv och garanterar säkerheten under provtagningsintervallerna. Numerisk simulering med encykelmodell har gjorts för att verifiera algoritmen.
10

Improving Behavior Trees that Use Reinforcement Learning with Control Barrier Functions : Modular, Learned, and Converging Control through Constraining a Learning Agent to Uphold Previously Achieved Sub Goals / Förbättra beteendeträd som använder förstärkningsinlärning med kontrollbarriärfunktioner : modulär, inlärd och konvergerande kontroll genom att tvinga en lärande agent att upprätthålla tidigare uppnådda delmål

Wagner, Jannik January 2023 (has links)
This thesis investigates combining learning action nodes in behavior trees with control barrier functions based on the extended active constraint conditions of the nodes and whether the approach improves the performance, in terms of training time and policy quality, compared to a purely learning-based approach. Behavior trees combine several behaviors, called action nodes, into one behavior by switching between them based on the current state. Those behaviors can be hand-coded or learned in so-called learning action nodes. In these nodes, the behavior is a reinforcement learning agent. Behavior trees can be constructed in a process called backward chaining. In order to ensure the success of a backward-chained behavior tree, each action node must uphold previously achieved subgoals. So-called extended active constraint conditions formalize this notion as conditions that must stay true for the action node to continue execution. In order to incentivize upholding extended active constraint conditions in learning action nodes, a negative reward can be given to the agent upon violating extended active constraint conditions. However, this approach does not guarantee not violating the extended active constraint conditions since it is purely learning-based. Control barrier functions can be used to restrict the actions available to an agent so that it stays within a safe subset of the state space. By defining the safe subset of the state space as the set in which the extended active constraint conditions are satisfied, control barrier functions can be employed to, ideally, guarantee that the extended active constraint conditions will not be violated. The results show that significantly less training is needed to get comparable, or slightly better, results, when compared to not using control barrier functions. Furthermore, extended active constraint conditions are considerably less frequently violated and the overall performance is slightly improved. / Denna avhandling undersöker kombinationen av inlärningsregulatornoder i beteendeträd med styrbarriärfunktioner baserade på utökade aktiva begränsningsvillkor för noderna, samt om detta tillvägagångssätt förbättrar prestandan avseende tränings- och policynkvalitet, jämfört med ett rent inlärningsbaserat tillvägagångssätt. Beteendeträd kombinerar flera regulatorer, kallade regulatornoder, till en enda regulator genom att växla mellan dem baserat på det aktuella tillståndet. Dessa regulatorer kan vara handkodade eller inlärda i så kallade inlärningsnoder. I dessa noder är regulatorn en förstärkningsinlärningsagent. Beteendeträd kan konstrueras genom en process som kallas bakåtkoppling. För att säkerställa framgången för ett bakåtkopplat beteendeträd måste varje regulatornod upprätthålla tidigare uppnådda delmål. Utökade aktiva begränsningsvillkor formaliserar denna uppfattning som villkor som inte får överträdas för att regulatornoden ska fortsätta exekvera. För att uppmuntra till att upprätthålla utökade aktiva begränsningsvillkor i inlärningsnoder kan en negativ belöning ges till agenten vid överträdelse av utökade aktiva begränsningsvillkor. Denna metod garanterar dock inte att utökade aktiva begränsningsvillkor inte kommer att överträdas, eftersom den är helt inlärningsbaserad. Kontrollbarriärfunktioner kan användas för att begränsa de åtgärder som är tillgängliga för en agent så att den förblir inom en säker delmängd av tillståndsrymden. Genom att definiera den säkra delmängden av tillståndsrymden som den uppsättning där de utökade aktiva begränsningsvillkoren uppfylls kan kontrollbarriärfunktioner användas för att, i bästa fall, garantera att de utökade aktiva begränsningsvillkoren inte kommer att överträdas. Resultaten visar att det krävs betydligt mindre träning för att få jämförbara, eller något bättre, resultat jämfört med att inte använda kontrollbarriärfunktioner. Dessutom överträds utökade aktiva begränsningsvillkor betydligt mer sällan och den övergripande prestandan är något förbättrad. I would like to thank Katrina Liang and Petter Ögren for translating the to Swedish. / Diese Arbeit untersucht die Kombination von Lernaktionsknoten in Verhaltensbäumen mit Kontrollbarrierefunktionen, die auf den erweiterten aktiven Einschränkungsbedingungen und Vorbedingungen der Knoten basieren, und ob dieser Ansatz die Leistung hinsichtlich Trainingszeit und Qualität der erlernten Strategie im Vergleich zu einem rein lernbasierten Ansatz verbessert. Verhaltensbäume kombinieren mehrere Regler, die als Aktionsknoten bezeichnet werden, zu einem zusammengesetzten Regler, indem sie abhängig vom aktuellem Zustand zwischen ihnen wechseln. Diese Regler können entweder manuell programmiert oder in sogenannten lernenden Aktionsknoten erlernt werden. In diesen Knoten ist der Regler ein Reinforcement Learning Agent. Verhaltensbäume können in einem Prozess namens Rückwärtsverkettung erstellt werden. Um den Erfolg eines rückwärtsverketteten Verhaltensbaums sicherzustellen, muss jeder Aktionsknoten zuvor erreichte Teilerfolge aufrechterhalten. Sogenannte erweiterte aktive Einschränkungsbedingungen formalisieren diesen Gedanken als Bedingungen, die nicht verletzt werden dürfen, damit der Aktionsknoten die Ausführung fortsetzen kann. Um einen Anreiz für die Aufrechterhaltung erweiterter aktiver Einschränkungsbedingungen in Lernaktionsknoten zu schaffen, kann dem Agenten bei Verstoß gegen erweiterte aktive Einschränkungsbedingungen eine negative Belohnung gewährt werden. Diese Herangehensweise garantiert jedoch nicht die Einhaltung der erweiterten aktiven Einschränkungsbedingungen, da sie rein lernbasiert ist. Kontrollbarrierefunktionen können verwendet werden, um die verfügbaren Aktionen eines Agenten zu beschränken, damit dieser in einer sicheren Teilmenge des Zustandsraums bleibt. Indem die sichere Teilmenge des Zustandsraums als die Menge definiert wird, in der die erweiterten aktiven Einschränkungsbedingungen erfüllt sind, können Kontrollbarrierefunktionen idealerweise verwendet werden, um sicherzustellen, dass die erweiterten aktiven Einschränkungsbedingungen nicht verletzt werden. Die Ergebnisse zeigen, dass im Vergleich zur Nichtverwendung von Kontrollbarrierefunktionen deutlich weniger Training erforderlich ist, um vergleichbare oder etwas bessere Ergebnisse zu erzielen. Darüber hinaus werden erweiterte aktive Einschränkungsbedingungen deutlich seltener verletzt und die Gesamtleistung wird leicht verbessert.

Page generated in 0.5185 seconds