Global ETD Search

11	Improving Behavior Trees that Use Reinforcement Learning with Control Barrier Functions : Modular, Learned, and Converging Control through Constraining a Learning Agent to Uphold Previously Achieved Sub Goals / Förbättra beteendeträd som använder förstärkningsinlärning med kontrollbarriärfunktioner : modulär, inlärd och konvergerande kontroll genom att tvinga en lärande agent att upprätthålla tidigare uppnådda delmål Wagner, Jannik January 2023 (has links) This thesis investigates combining learning action nodes in behavior trees with control barrier functions based on the extended active constraint conditions of the nodes and whether the approach improves the performance, in terms of training time and policy quality, compared to a purely learning-based approach. Behavior trees combine several behaviors, called action nodes, into one behavior by switching between them based on the current state. Those behaviors can be hand-coded or learned in so-called learning action nodes. In these nodes, the behavior is a reinforcement learning agent. Behavior trees can be constructed in a process called backward chaining. In order to ensure the success of a backward-chained behavior tree, each action node must uphold previously achieved subgoals. So-called extended active constraint conditions formalize this notion as conditions that must stay true for the action node to continue execution. In order to incentivize upholding extended active constraint conditions in learning action nodes, a negative reward can be given to the agent upon violating extended active constraint conditions. However, this approach does not guarantee not violating the extended active constraint conditions since it is purely learning-based. Control barrier functions can be used to restrict the actions available to an agent so that it stays within a safe subset of the state space. By defining the safe subset of the state space as the set in which the extended active constraint conditions are satisfied, control barrier functions can be employed to, ideally, guarantee that the extended active constraint conditions will not be violated. The results show that significantly less training is needed to get comparable, or slightly better, results, when compared to not using control barrier functions. Furthermore, extended active constraint conditions are considerably less frequently violated and the overall performance is slightly improved. / Denna avhandling undersöker kombinationen av inlärningsregulatornoder i beteendeträd med styrbarriärfunktioner baserade på utökade aktiva begränsningsvillkor för noderna, samt om detta tillvägagångssätt förbättrar prestandan avseende tränings- och policynkvalitet, jämfört med ett rent inlärningsbaserat tillvägagångssätt. Beteendeträd kombinerar flera regulatorer, kallade regulatornoder, till en enda regulator genom att växla mellan dem baserat på det aktuella tillståndet. Dessa regulatorer kan vara handkodade eller inlärda i så kallade inlärningsnoder. I dessa noder är regulatorn en förstärkningsinlärningsagent. Beteendeträd kan konstrueras genom en process som kallas bakåtkoppling. För att säkerställa framgången för ett bakåtkopplat beteendeträd måste varje regulatornod upprätthålla tidigare uppnådda delmål. Utökade aktiva begränsningsvillkor formaliserar denna uppfattning som villkor som inte får överträdas för att regulatornoden ska fortsätta exekvera. För att uppmuntra till att upprätthålla utökade aktiva begränsningsvillkor i inlärningsnoder kan en negativ belöning ges till agenten vid överträdelse av utökade aktiva begränsningsvillkor. Denna metod garanterar dock inte att utökade aktiva begränsningsvillkor inte kommer att överträdas, eftersom den är helt inlärningsbaserad. Kontrollbarriärfunktioner kan användas för att begränsa de åtgärder som är tillgängliga för en agent så att den förblir inom en säker delmängd av tillståndsrymden. Genom att definiera den säkra delmängden av tillståndsrymden som den uppsättning där de utökade aktiva begränsningsvillkoren uppfylls kan kontrollbarriärfunktioner användas för att, i bästa fall, garantera att de utökade aktiva begränsningsvillkoren inte kommer att överträdas. Resultaten visar att det krävs betydligt mindre träning för att få jämförbara, eller något bättre, resultat jämfört med att inte använda kontrollbarriärfunktioner. Dessutom överträds utökade aktiva begränsningsvillkor betydligt mer sällan och den övergripande prestandan är något förbättrad. I would like to thank Katrina Liang and Petter Ögren for translating the to Swedish. / Diese Arbeit untersucht die Kombination von Lernaktionsknoten in Verhaltensbäumen mit Kontrollbarrierefunktionen, die auf den erweiterten aktiven Einschränkungsbedingungen und Vorbedingungen der Knoten basieren, und ob dieser Ansatz die Leistung hinsichtlich Trainingszeit und Qualität der erlernten Strategie im Vergleich zu einem rein lernbasierten Ansatz verbessert. Verhaltensbäume kombinieren mehrere Regler, die als Aktionsknoten bezeichnet werden, zu einem zusammengesetzten Regler, indem sie abhängig vom aktuellem Zustand zwischen ihnen wechseln. Diese Regler können entweder manuell programmiert oder in sogenannten lernenden Aktionsknoten erlernt werden. In diesen Knoten ist der Regler ein Reinforcement Learning Agent. Verhaltensbäume können in einem Prozess namens Rückwärtsverkettung erstellt werden. Um den Erfolg eines rückwärtsverketteten Verhaltensbaums sicherzustellen, muss jeder Aktionsknoten zuvor erreichte Teilerfolge aufrechterhalten. Sogenannte erweiterte aktive Einschränkungsbedingungen formalisieren diesen Gedanken als Bedingungen, die nicht verletzt werden dürfen, damit der Aktionsknoten die Ausführung fortsetzen kann. Um einen Anreiz für die Aufrechterhaltung erweiterter aktiver Einschränkungsbedingungen in Lernaktionsknoten zu schaffen, kann dem Agenten bei Verstoß gegen erweiterte aktive Einschränkungsbedingungen eine negative Belohnung gewährt werden. Diese Herangehensweise garantiert jedoch nicht die Einhaltung der erweiterten aktiven Einschränkungsbedingungen, da sie rein lernbasiert ist. Kontrollbarrierefunktionen können verwendet werden, um die verfügbaren Aktionen eines Agenten zu beschränken, damit dieser in einer sicheren Teilmenge des Zustandsraums bleibt. Indem die sichere Teilmenge des Zustandsraums als die Menge definiert wird, in der die erweiterten aktiven Einschränkungsbedingungen erfüllt sind, können Kontrollbarrierefunktionen idealerweise verwendet werden, um sicherzustellen, dass die erweiterten aktiven Einschränkungsbedingungen nicht verletzt werden. Die Ergebnisse zeigen, dass im Vergleich zur Nichtverwendung von Kontrollbarrierefunktionen deutlich weniger Training erforderlich ist, um vergleichbare oder etwas bessere Ergebnisse zu erzielen. Darüber hinaus werden erweiterte aktive Einschränkungsbedingungen deutlich seltener verletzt und die Gesamtleistung wird leicht verbessert. Behavior Trees Reinforcement Learning Control Barrier Functions Robotics Artificial Intelligence Verhaltensbäume Verstärkendes Lernen Kontrollbarrierefunktionen Robotik Künstliche Intelligenz Beteendeträd Förstärkningsinlärning Kontrollbarriärfunktioner Robotik Artificiell Intelligens Computer Sciences Datavetenskap (datalogi)
12	Learning a Reactive Task Plan from Human Demonstrations : Building Behavior Trees using Learning from Demonstration and Planning Constraints / Automatisk inlärning av en reaktiv uppgiftsplan från mänskliga demonstrationer : Byggande av beteendeträd via inlärning från demonstrationer och planeringsbivillkor Gustavsson, Oscar January 2021 (has links) Robot programming can be an expensive and tedious task and companies may have to employ dedicated staff. A promising framework that can alleviate some of the most repetitive tasks and potentially make robots more accessible to non-experts is Learning from Demonstration (LfD). LfD is a framework where the robot learns how to solve a task by observing a human demonstrating it. A representation of the learned policy is needed and Behavior Trees (BTs) are promising. They are a representation of a controller that organizes the switching between tasks and naturally provides the modularity required for learning and the reactivity required for operating in an uncertain environment. Furthermore, BTs are transparent, allowing the user to inspect the policy and verify its safety before executing it. Learning BTs from demonstration has not been studied much in the past. The aim of this thesis is therefore to investigate the feasibility of using BTs in the context of LfD and how such a structure could be learned. To evaluate the feasibility of BTs and answering how they can be learned, a new algorithm for learning BTs from demonstration is presented and evaluated. The algorithm detects similarities between multiple demonstrations to infer in what reference frames different parts of a task occur. The similarities are also used to detect hidden task constraints and goal conditions that are given to a planner that outputs a reactive task plan in the form of a BT. The algorithm is evaluated on manipulation tasks in both simulation and a real robot. The results show that the resulting BT can successfully solve the task while being robust to initial conditions and reactive towards disturbances. These results suggest that BTs are a suitable policy representation for LfD. Furthermore, the results suggest that the presented algorithm is capable of learning a reactive and fault-tolerant task plan and can be used as a basis for future algorithms. / Robotprogrammering kan vara kostsamt och repetitivt och företag kan behöva anställa särskild personal. Ett lovande ramverk som kan underlätta några av de mest repetitiva uppgifterna och potentiellt göra robotar mer tillgängliga för icke-experter är Inlärning från Demonstrationer (eng. Learning from Demonstration, LfD). LfD är ett ramverk där roboten lär sig lösa en uppgift genom att observera hur en människa gör det. En representation av den inlärda policyn behövs och Beteendeträd (eng. Behavior Trees, BTs) är lovande. De är en representation av en kontroller som organiserar växlandet mellan olika uppgifter och tillhandahåller naturligt den moduläritet som krävs för lärande och den reaktivitet som krävs för att verka i en oviss miljö. Dessutom är BTs transparenta, vilket gör det möjligt för användaren att inspektera policyn och verifiera dess säkerhet innan den körs. Att lära sig BTs från demonstrationer har inte studerats mycket tidigare. Syftet med det här arbetet är därför att undersöka genomförbarheten av att använda BTs inom sammanhanget av LfD och hur en sådan struktur kan läras. För att utvärdera genomförbarheten hos BTs och svara på hur de kan läras in presenteras och utvärderas en ny algoritm för inlärning av BTs. Algoritmen detekterar likheter mellan flera demonstrationer för att avgöra i vilken referensram olika delar av uppgiften sker. Likheterna används även för att upptäcka dolda bivillkor och målvillkor i uppgiften som ges till en planerare som skapar en reaktiv uppgiftsplan i form av en BT. Algoritmen utvärderas på manipuleringsuppgifter både i simulering och på en verklig robot. Resultaten visar att de resulterande BTs kan lösa uppgifterna med framgång och samtidigt vara robusta mot begynnelsevillkor och reaktiva mot störningar. Resultaten antyder att BTs är lämpade som en policyrepresentation för LfD. Vidare antyder resultaten att den presenterade algoritmen är kapabel att lära sig en reaktiv och feltolerant uppgiftsplan och kan användas som en utgångspunkt för framtida algoritmer. Behavior Trees Learning from Demonstration Robotics Robot learning Human-robot interaction Beteendeträd Inlärning från Demonstrationer Robotik Robotinlärning Människa- robotinteraktion Elektroteknik och elektronik
13	Evoluční návrh využívající gramatickou evoluci / Evolutionary Design Using Grammatical Evolution Repík, Tomáš January 2017 (has links) p, li { white-space: pre-wrap; } Evoluce v přírodě slouží jako zdroj inspirace pro tuto práci . Základní myšlenkou je využití generativní síly gramatik v kombinaci s evolučním přístupem . Nabyté znalosti jsou aplikovány na hledání strategií chování v rozmanitých prostředích . Stromy chování jsou modelem , který bývá běžně použit na řízení rozhodování různých umělých inteligencí . Tato práce se zabývá hledáním stromů chování , které budou řídit jedince řešící nasledující dva problémy : upravenou verzi problému cesty koněm šachovnicí a hraní hry Pirátské kostky . Při hledání strategie hráče kostek , byla použita konkurenční koevoluce . Důvodem je obtížnost návrhu spravedlivé fitness funkce hodnotící výkony hráčů .

Search results

Evoluční návrh využívající gramatickou evoluci / Evolutionary Design Using Grammatical Evolution