Global ETD Search

11	Improving Behavior Trees that Use Reinforcement Learning with Control Barrier Functions : Modular, Learned, and Converging Control through Constraining a Learning Agent to Uphold Previously Achieved Sub Goals / Förbättra beteendeträd som använder förstärkningsinlärning med kontrollbarriärfunktioner : modulär, inlärd och konvergerande kontroll genom att tvinga en lärande agent att upprätthålla tidigare uppnådda delmål Wagner, Jannik January 2023 (has links) This thesis investigates combining learning action nodes in behavior trees with control barrier functions based on the extended active constraint conditions of the nodes and whether the approach improves the performance, in terms of training time and policy quality, compared to a purely learning-based approach. Behavior trees combine several behaviors, called action nodes, into one behavior by switching between them based on the current state. Those behaviors can be hand-coded or learned in so-called learning action nodes. In these nodes, the behavior is a reinforcement learning agent. Behavior trees can be constructed in a process called backward chaining. In order to ensure the success of a backward-chained behavior tree, each action node must uphold previously achieved subgoals. So-called extended active constraint conditions formalize this notion as conditions that must stay true for the action node to continue execution. In order to incentivize upholding extended active constraint conditions in learning action nodes, a negative reward can be given to the agent upon violating extended active constraint conditions. However, this approach does not guarantee not violating the extended active constraint conditions since it is purely learning-based. Control barrier functions can be used to restrict the actions available to an agent so that it stays within a safe subset of the state space. By defining the safe subset of the state space as the set in which the extended active constraint conditions are satisfied, control barrier functions can be employed to, ideally, guarantee that the extended active constraint conditions will not be violated. The results show that significantly less training is needed to get comparable, or slightly better, results, when compared to not using control barrier functions. Furthermore, extended active constraint conditions are considerably less frequently violated and the overall performance is slightly improved. / Denna avhandling undersöker kombinationen av inlärningsregulatornoder i beteendeträd med styrbarriärfunktioner baserade på utökade aktiva begränsningsvillkor för noderna, samt om detta tillvägagångssätt förbättrar prestandan avseende tränings- och policynkvalitet, jämfört med ett rent inlärningsbaserat tillvägagångssätt. Beteendeträd kombinerar flera regulatorer, kallade regulatornoder, till en enda regulator genom att växla mellan dem baserat på det aktuella tillståndet. Dessa regulatorer kan vara handkodade eller inlärda i så kallade inlärningsnoder. I dessa noder är regulatorn en förstärkningsinlärningsagent. Beteendeträd kan konstrueras genom en process som kallas bakåtkoppling. För att säkerställa framgången för ett bakåtkopplat beteendeträd måste varje regulatornod upprätthålla tidigare uppnådda delmål. Utökade aktiva begränsningsvillkor formaliserar denna uppfattning som villkor som inte får överträdas för att regulatornoden ska fortsätta exekvera. För att uppmuntra till att upprätthålla utökade aktiva begränsningsvillkor i inlärningsnoder kan en negativ belöning ges till agenten vid överträdelse av utökade aktiva begränsningsvillkor. Denna metod garanterar dock inte att utökade aktiva begränsningsvillkor inte kommer att överträdas, eftersom den är helt inlärningsbaserad. Kontrollbarriärfunktioner kan användas för att begränsa de åtgärder som är tillgängliga för en agent så att den förblir inom en säker delmängd av tillståndsrymden. Genom att definiera den säkra delmängden av tillståndsrymden som den uppsättning där de utökade aktiva begränsningsvillkoren uppfylls kan kontrollbarriärfunktioner användas för att, i bästa fall, garantera att de utökade aktiva begränsningsvillkoren inte kommer att överträdas. Resultaten visar att det krävs betydligt mindre träning för att få jämförbara, eller något bättre, resultat jämfört med att inte använda kontrollbarriärfunktioner. Dessutom överträds utökade aktiva begränsningsvillkor betydligt mer sällan och den övergripande prestandan är något förbättrad. I would like to thank Katrina Liang and Petter Ögren for translating the to Swedish. / Diese Arbeit untersucht die Kombination von Lernaktionsknoten in Verhaltensbäumen mit Kontrollbarrierefunktionen, die auf den erweiterten aktiven Einschränkungsbedingungen und Vorbedingungen der Knoten basieren, und ob dieser Ansatz die Leistung hinsichtlich Trainingszeit und Qualität der erlernten Strategie im Vergleich zu einem rein lernbasierten Ansatz verbessert. Verhaltensbäume kombinieren mehrere Regler, die als Aktionsknoten bezeichnet werden, zu einem zusammengesetzten Regler, indem sie abhängig vom aktuellem Zustand zwischen ihnen wechseln. Diese Regler können entweder manuell programmiert oder in sogenannten lernenden Aktionsknoten erlernt werden. In diesen Knoten ist der Regler ein Reinforcement Learning Agent. Verhaltensbäume können in einem Prozess namens Rückwärtsverkettung erstellt werden. Um den Erfolg eines rückwärtsverketteten Verhaltensbaums sicherzustellen, muss jeder Aktionsknoten zuvor erreichte Teilerfolge aufrechterhalten. Sogenannte erweiterte aktive Einschränkungsbedingungen formalisieren diesen Gedanken als Bedingungen, die nicht verletzt werden dürfen, damit der Aktionsknoten die Ausführung fortsetzen kann. Um einen Anreiz für die Aufrechterhaltung erweiterter aktiver Einschränkungsbedingungen in Lernaktionsknoten zu schaffen, kann dem Agenten bei Verstoß gegen erweiterte aktive Einschränkungsbedingungen eine negative Belohnung gewährt werden. Diese Herangehensweise garantiert jedoch nicht die Einhaltung der erweiterten aktiven Einschränkungsbedingungen, da sie rein lernbasiert ist. Kontrollbarrierefunktionen können verwendet werden, um die verfügbaren Aktionen eines Agenten zu beschränken, damit dieser in einer sicheren Teilmenge des Zustandsraums bleibt. Indem die sichere Teilmenge des Zustandsraums als die Menge definiert wird, in der die erweiterten aktiven Einschränkungsbedingungen erfüllt sind, können Kontrollbarrierefunktionen idealerweise verwendet werden, um sicherzustellen, dass die erweiterten aktiven Einschränkungsbedingungen nicht verletzt werden. Die Ergebnisse zeigen, dass im Vergleich zur Nichtverwendung von Kontrollbarrierefunktionen deutlich weniger Training erforderlich ist, um vergleichbare oder etwas bessere Ergebnisse zu erzielen. Darüber hinaus werden erweiterte aktive Einschränkungsbedingungen deutlich seltener verletzt und die Gesamtleistung wird leicht verbessert. Behavior Trees Reinforcement Learning Control Barrier Functions Robotics Artificial Intelligence Verhaltensbäume Verstärkendes Lernen Kontrollbarrierefunktionen Robotik Künstliche Intelligenz Beteendeträd Förstärkningsinlärning Kontrollbarriärfunktioner Robotik Artificiell Intelligens Computer Sciences Datavetenskap (datalogi)
12	Distributed Control for Spatio-Temporally Constrained Systems Wiltz, Adrian January 2023 (has links) In this thesis, we develop methods leading towards the distributed control of spatio-temporally constrained systems. Overall, we focus on two different approaches: a model predictive control approach and an approach based on ensuring set-invariance via control barrier functions. Developing a distributed control framework for spatio-temporally constrained systems is challenging since multiple subsystems are interconnected via time-varying state constraints. Often, such constraints are only implicitly given as logic formulas, for example in Signal Temporal Logic (STL). Our approach to dealing with spatio-temporal constraints is as follows. We aim at combining the computational efficiency of low-level feedback controllers with planning algorithms. Low-level feedback controllers shall ensure the satisfaction of parts of spatio-temporal constraints such as coupling state constraints or short term time-constraints. In contrast, planning algorithms account for those parts that require computationally intense planning operations. Powerful low-level controllers can simplify the planning task significantly. For this reason, the focus of this thesis is on the development of low level feedback controllers. In the first part, we focus on handling coupling state constraints using a model predictive control (MPC) approach. Commonly, the distributed handling of coupling state constraints requires a sequential or iterative MPC scheme which however is computationally time-intense. We address this issue by employing consistency constraints to develop a parallelized distributed model predictive controller (DMPC). By using consistency constraints, each subsystem guarantees to its neighbors that its states stay within a particular neighborhood around a reference trajectory. Furthermore, we propose extensions to robust and iterative schemes. Building up on this, also systems with bounded dynamic couplings can be controlled. In the second part, we focus on methods for ensuring set-invariance. In particular, we focus on control barrier functions (CBF). We show how spatio-temporal constraints that comprise disjunctions (logic OR) can be encoded in non-smooth time-varying control barrier functions and how subgradients can be used to synthesize an efficient gradient-based controller. For these results, controllability assumptions must be invoked. To extend the results to systems with weaker controllability properties, we investigate the connection between controllability properties and the construction of CBFs. As a result, we propose a construction method for CBFs based on finite horizon predictions. The constructed CBF exhibits favorable properties for the extension of the previous results on encoding spatio-temporal constraints in CBFs to systems with weaker controllability properties. At last, we investigate with a case study how set-invariance methods can be used to implicitly coordinate systems subject to coupled state constraints. Our proposed method is fully decentralized and subsystems coordinate themselves purely via their actions and the adjustment of their individual constraints. In the end, we draw a conclusion and outline how the presented results contribute to the development of a distributed control framework for spatio-temporally constrained systems. / I den här avhandlingen utvecklar vi metoder som leder till distribuerad styrning av tillstånds-temporalt begränsade system. Vi följer två olika tillvägagångssätt: å ena sidan en modellprediktiv styrning och å andra sidan ett tillvägagångssätt som bygger på att säkerställa invarians i mängden via kontrollbarriärfunktioner. Det är en utmaning att utveckla ett ramverk för distribuerad styrning för tillstånds-temporalt begränsade system, eftersom flera delsystem är sammankopplade via sina tillståndsbegränsningar som varierar över tiden. Ofta ges sådana begränsningar endast implicit som logiska formler, till exempel i Signal Temporal Logic (STL). Vår metod för att hantera tillstånds- och tidsmässiga begränsningar är följande. Vi strävar efter att kombinera beräkningseffektiviteten hos återkopplingsregulatorer på låg nivå med planeringsalgoritmer. Återkopplingsregulatorer på låg nivå skall säkerställa att delar av de tillstånds- och tidsmässiga begränsningarna uppfylls, t.ex. sammankopplande tillståndsbegränsningar eller kortsiktiga tidsbegränsningar, medan planeringsalgoritmerna tar hänsyn till de delar som kräver beräkningsintensiva planeringsoperationer. Kraftfulla styrsystem på låg nivå kan förenkla planeringsuppgiften avsevärt. Därför fokuserar vi i denna avhandlingen på utvecklingen av återkopplingsregulatorer på låg nivå. I den första delen fokuserar vi på att hantera sammankopplande tillståndsbegränsningar för distribuerade system med hjälp av en modell prediktiv styrning (MPC). Vanligtvis kräver den distribuerade hanteringen av kopplingsbegränsningar ett sekventiellt eller iterativt MPC-system som dock är tidskrävande. Därför utvecklar vi en parallelliserad distribuerad modell prediktiv styrning (DMPC) baserad på konsistensbegränsningar. Därigenom garanterar ett delsystem till sina grannar att det håller sig inom ett visst område runt en referensbana. Den generiska formuleringen av vårt DMPC-system möjliggör flera realiseringar. En särskild realisering föreslås. Dessutom utvecklas utvidgningar till ett robust och iterativt system samt ett DMPC-system för system med begränsade dynamiska kopplingar. I den andra delen fokuserar vi på metoder för att säkerställa invariansen av mängder. Vi fokuserar särskilt på kontrollbarriärfunktioner (CBF). Vi visar hur tillstånds- och tidsmässiga begränsningar kan inkodas i icke-glatta tidsvarierande kontrollbarriärfunktioner och hur subgradienter kan användas för att konstruera en effektiv gradientbaserad styrning. För dessa resultat måste antaganden om kontrollerbarhet åberopas. För att utvidga detta resultat till system med svagare kontrollerbarhetsegenskaper undersöker vi kopplingen mellan dynamiska systems kontrollerbarhetsegenskaper och konstruktionen av en CBF. Som ett resultat av detta föreslår vi en konstruktionsmetod för CBF:er som bygger på förutsägelser för ändliga horisonter. Den konstruerade CBF:n uppvisar gynnsamma egenskaper för att utvidga det tidigare resultatet om kodning av rums-temporala begränsningar i CBF:er till system med svagare kontrollerbarhetsegenskaper. Slutligen undersöker vi med hjälp av en fallstudie hur metoder för att säkerställa invariansen av mängder kan användas för att implicit samordna system som är kopplade via tillståndsbegränsningar. Vår föreslagna metod är helt decentraliserad och delsystemen samordnar sig själva endast via sina handlingar och justeringen av sina individuella begränsningar. Slutligen drar vi en slutsats och beskriver hur de presenterade resultaten bidrar till utvecklingen av ett ramverk för distribuerad styrning av tillstånds- och tidsmässigt begränsade system. / <p>QC 20230520</p> distributed model predictive control control barrier functions spatio-temporal constraints constrained control multiagent systems distribuerad modell prediktiv styrning kontrollbarriärfunktion tillstånds-temporala begränsningar begränsade system multiagentsystem Control Engineering Reglerteknik
13	Enhancing Safety for Autonomous Systems via Reachability and Control Barrier Functions Jason King Ching Lo (10716705) 06 May 2021 (has links) <div>In this thesis, we explore different methods to enhance the safety and robustness for autonomous systems. We achieve this goal using concepts and tools from reachability analysis and control barrier functions. We first take on a multi-player reach-avoid game that involves two teams of players with competing objectives, namely the attackers and the defenders. We analyze the problem and solve the game from the attackers' perspectives via a moving horizon approach. The resulting solution provides a safety guarantee that allows attackers to reach their goals while avoiding all defenders. </div><div><br></div><div>Next, we approach the problem of target re-association after long-term occlusion using concepts from reachability as well as Bayesian inference. Here, we set out to find the probability identity matrix that associates the identities of targets before and after an occlusion. The solution of this problem can be used in conjunction with existing state-of-the-art trackers to enhance their robustness.</div><div><br></div><div>Finally, we turn our attention to a different method for providing safety guarantees, namely control barrier functions. Since the existence of a control barrier function implies the safety of a control system, we propose a framework to learn such function from a given user-specified safety requirement. The learned CBF can be applied on top of an existing nominal controller to provide safety guarantees for systems.</div> Aerospace Engineering Control Systems, Robotics and Automation Automation and Control Engineering Autonomous Vehicles Autonomous Systems Autonomous Vehicle safety-critical control game theory approach Optimal Control optimization method reachability analysis techniques control barrier functions robotics system
14	Control barrier function-enabled human-in-the-loop control for multi-robot systems : Centralized and distributed approaches / Kontrollbarriärfunktion som möjliggör mänsklig kontroll i kretsloppet för flerrobotsystem : Centraliserade och distribuerade tillvägagångssätt Nan Fernandez-Ayala, Victor January 2022 (has links) Autonomous multi-robot systems have found many real-world applications in factory settings, rescue tasks and light shows. Albeit these successful applications, the multi-robot system is usually pre-programmed with limited flexibility for online adaptation. Having a human-in-the-loop feature would provide additional flexibility such as handling unexpected situations, detecting and correcting bad behaviours and supporting the automated decision making. In addition, it would also allow for an extra level of cooperation between the robots and the human that facilitates certain real-world tasks, for example in the agricultural sector. Control barrier functions (CBFs), as a convenient modular-design tool, will be mainly explored. CBFs have seen a lot of development in recent years and extending them to the field of multi-robot systems is still new. In particular, creating an original distributed approach, instead of a centralized one, will be one of the key topics of this Master’s thesis project. In this thesis work, several multi-robot coordination protocols and safety constraints will be identified and these constraints will be enforced using a control barrier function-enabled mixer module. This module will take in the commands from both the planner and the human operator, prioritizing the commands from the human operator as long as the safety constraints are not violated. Otherwise, the mixer module will filter the commands and send out a safe alternative. The underlying multi-robot tasks are expected to be achieved whenever feasible. Simulations in ROS, Python and MATLAB environments are developed to experimentally assess the safety and optimality of the system, and experiments with real robots in a lab are performed to show the applicability of this algorithm. Finally, a distributed approach to the mixer module has been developed, based on previous research and extended to allow for more versatility. This is of key importance since it would allow each robot to compute its own controller based on local information, making the multi-robot system both more robust and flexible to be deployed on real-world applications. / Autonoma multirobotsystem har fått många verkliga tillämpningar i fabriksmiljöer, räddningsuppdrag och ljusshower. Trots dessa framgångsrika tillämpningar är multirobotsystemet vanligtvis förprogrammerat med begränsad flexibilitet för anpassning online. En människa i loopen skulle ge ytterligare flexibilitet, t.ex. när det gäller att hantera oväntade situationer, upptäcka och korrigera dåliga beteenden och stödja det automatiska beslutsfattandet. Dessutom skulle det också möjliggöra en extra samarbetsnivå mellan robotarna och människan som underlättar vissa verkliga uppgifter, till exempel inom jordbrukssektorn. Kontrollbarriärfunktioner (CBF), som ett bekvämt verktyg för modulbaserad utformning, kommer huvudsakligen att undersökas. CBF:er har utvecklats mycket under de senaste åren och det är fortfarande nytt att utvidga dem till flerrobotsystem. Att skapa ett originellt distribuerat tillvägagångssätt i stället för ett centraliserat kommer att vara ett av de viktigaste ämnena i detta examensarbete. I detta examensarbete kommer flera samordningsprotokoll och säkerhetsbegränsningar för flera robotar att identifieras och dessa begränsningar kommer att upprätthållas med hjälp av en mixermodul med kontrollbarriärfunktion. Denna modul kommer att ta emot kommandon från både planeraren och den mänskliga operatören och prioritera kommandon från den mänskliga operatören så länge säkerhetsbegränsningarna inte överträds. I annat fall kommer mixermodulen att filtrera kommandona och skicka ut ett säkert alternativ. De underliggande multirobotuppgifterna förväntas uppnås närhelst det är möjligt. Simuleringar i ROS-, Python- och MATLAB-miljöerna utvecklas för att experimentellt bedöma systemets säkerhet och optimalitet, och experiment med riktiga robotar i ett labb utförs för att visa algoritmens tillämpbarhet. Slutligen har ett distribuerat tillvägagångssätt för mixermodulen utvecklats, baserat på tidigare forskning och utökat för att möjliggöra större mångsidighet. Detta är av central betydelse eftersom det skulle göra det möjligt för varje robot att beräkna sin egen styrning utifrån lokal information, vilket gör systemet med flera robotar både mer robust och flexibelt för att kunna användas i verkliga tillämpningar. Multi-robot systems Human-in-the-loop control Control barrier functions Safety constraints ROS Implementation Multirobotsystem Human-in-the-loop-kontroll Kontrollera barriärfunktionerna Säkerhetsbegränsningar ROS-implementering Elektroteknik och elektronik

Page generated in 0.104 seconds