Reinforcement Learning (RL) is popular to solve complex tasks in robotics, but using it in scenarios where humans collaborate closely with robots can lead to hazardous situations. In an autonomous warehouse, mobile robotic units share the workspace with human workers which can lead to collisions, because the positions of humans or non-static obstacles are not known by the robot. Such a scenario requires the robot to use some form of visual input from a lidar sensor or RGB camera, to learn how to adjusts its velocity commands to keep a safe distance and reduced speed when approaching obstacles. This is essential to train an RL-based robotic controller to be safe, however, it does not address the issue to make training itself safer, which in foresight is crucial to enable real-world training. This thesis proposes an agent setup with modified reward structure to train a local planner for a Turtlebot robot with lidar sensor that satisfies safety while maximizing the RL reward. Additionally, it presents a shielding approach that can intervene on a complex controller, by using a safe, sub-optimal backup policy in case the agent enters unsafe states. Two agents, an unshielded agent and one with shielding, are trained with this method in a simulated autonomous warehouse to investigate the effects of shielding during training. For evaluation we compare four conditions: Both agents are deployed once with activated shield and once without it. Those four conditions are analysed in regards to safety and efficiency. Finally, a comparison to the performance of the baseline Trajectory Planner is conducted. The results show that shielding during training facilitates task completion and reduces collisions by 25% compared to the unshielded agent. On the other hand, unshielded training yields better safety results during deployment. Generally, an active shield during deployment contributes to efficiency of the agent, independent of the training setup. The system design is integrated into the Robot Operating System (ROS) where its modular design makes the method compatible with different (RL) algorithms and deployable in OpenAI gym environments. / Reinforcement learning (RL) är en vanlig metod för att lösa komplexa uppgifter inom robotik. Användningen av den i scenarier där människor arbetar nära robotar kan dock leda till farliga situationer. I ett autonomt lager delar mobila robotenheter arbetsområdet med mänskliga arbetare, vilket kan leda till kollisioner eftersom roboten inte känner till människornas positioner eller icke-statiska hinder. I ett sådant scenario måste roboten använda någon form av visuell information från en lidarsensor eller RGB-kamera för att lära sig hur den ska anpassa sina hastighetsinstruktioner för att hålla ett säkert avstånd och minskad hastighet när den närmar sig hinder. Detta är viktigt för att träna RL-baserad robotstyrning så att den blir säker. Det löser dock inte problemet med att göra själva utbildningen säkrare, vilket är avgörande för att möjliggöra utbildning i den verkliga världen. I det här examensarbeten presenteras en agentuppsättning med en modifierad belöningsstruktur för att träna en lokal planerare för en Turtlebot robot med en lidarsensor. Detta ger säkerhet samtidigt som belöningen maximeras. Dessutom presenteras en skyddsmekanism som kan ingripa i det komplexa styrsystemet och byta till ett säkert, suboptimalt reservstyrprogram om agenten hamnar i osäkra tillstånd. Två agenter tränas med denna metod i ett simulerat autonomt lager, en agent utan och en med sköld, för att undersöka effekterna av sköldning under träningen. Fyra konfigurationer jämförs för utvärdering: Båda ämnena används en gång med skölden aktiverad och en gång utan. Dessa fyra konfigurationer analyseras med avseende på säkerhet och effektivitet. Slutligen görs en jämförelse med Trajectory Planner som utgångspunkt. Resultaten visar att skydd under träningen gör det lättare att slutföra uppgiften snabbare och minskar antalet kollisioner med 25% jämfört med en agent utan skydd. Å andra sidan leder träning utan avskärmning till bättre säkerhetsmätningar under arbetet. Generellt sett bidrar en aktiv sköld under installationen till agentens effektivitet, oavsett hur utbildningen är upplagd. Systemet är integrerat i Robot Operating System (ROS). Dess modulära utformning möjliggör kompatibilitet med olika RL-algoritmer, liksom användning av metoden i OpenAI gymmiljöer.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-321855 |
Date | January 2022 |
Creators | Vordemann, Lukas |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2022:609 |
Page generated in 0.0024 seconds