Spelling suggestions: "subject:"säker förstärkningsinlärning"" "subject:"säker förstärkningsinlärnings""
1 |
Safe Reinforcement Learning for Remote Electrical Tilt Optimization / Optimering av Fjärrlutning med Säker FörstärkningsinlärningIakovidis, Grigorios January 2021 (has links)
The adjustment of the vertical tilt angle of Base Station (BS) antennas, also known as Remote Electrical Tilt (RET) optimization, is a simple and efficient method of optimizing modern telecommunications networks. Reinforcement Learning (RL) is a machine learning framework that can solve complex problems like RET optimization due to its capability to learn from experience and adapt to dynamic environments. However, conventional RL methods involve trial-and-error processes which can result in short periods of poor network performance which is unacceptable to mobile network operators. This unreliability has prevented RL solutions from being deployed in real-world mobile networks. In this thesis, we formulate the RET optimization problem as a Safe Reinforcement Learning (SRL) problem and attempt to train an RL policy that can offer performance improvement guarantees with respect to an existing baseline policy. We utilize a recent SRL method called Safe Policy Improvement through Baseline Bootstrapping (SPIBB) to improve over a baseline by training an RL agent on a offline dataset of environment interactions gathered by the baseline. We evaluate our solution using a simulated environment and show that it is effective at improving a tilt update policy in a safe manner, thus providing a more reliable RL solution to the RET optimization problem and potentially enabling future real-world deployment. / Justeringen av den vertikala lutningsvinkeln hos basstationens antenner, även kallad Remote Electrical Tilt (RET) optimering, är en enkel och effektiv metod för att optimera moderna telenät. Förstärkningsinlärning är en maskininlärningsram som kan lösa komplexa problem som RET-optimering tack vare dess förmåga att lära sig av erfarenhet och anpassa sig till dynamiska miljöer. Konventionella förstärkningsinlärning metoder innebär emellertid försök och felprocesser som kan leda till korta perioder av dålig nätverksprestanda, vilket är oacceptabelt förmobilnätoperatörerna. Denna otillförlitlighet har hindrat förstärkningsinlärning lösningar från att användas i verkliga mobila nätverk. I denna hypotes formulerar vi problemet med RET-optimering som ett problem med Säker Förstärkningsinlärning(SF) och försöker utbilda en förstärkningsinlärning policy som kan erbjuda garantier för förbättrad prestanda i förhållande till en befintlig grundläggandepolicy. Vi använder en nyligen genomförd SF-metod som kallas Safe PolicyImprovement by Baseline Bootstrapping (SPIBB) för att förbättra en baslinje genom att utbilda en förstärkningsinlärning agent på en offlinedatabaserad datamängdmed miljöinteraktioner som samlats in vid baslinjen. Vi utvärderar vår lösning med hjälp av en simulerad miljö och visar att den är effektiv när det gäller att förbättra politiken för tippuppdatering på ett säkert sätt, vilket ger en mer tillförlitligförstärkningsinlärning lösning på problemet med RET-optimering och eventuellt möjliggör framtida realglobal driftsättning.
|
2 |
Safe Reinforcement Learning for Human-Robot Collaboration : Shielding of a Robotic Local Planner in an Autonomous Warehouse Scenario / Säker förstärkningsinlärning för samarbete mellan människa och robot : Skydd av en lokal robotplanerare i ett autonomt lagerscenarioVordemann, Lukas January 2022 (has links)
Reinforcement Learning (RL) is popular to solve complex tasks in robotics, but using it in scenarios where humans collaborate closely with robots can lead to hazardous situations. In an autonomous warehouse, mobile robotic units share the workspace with human workers which can lead to collisions, because the positions of humans or non-static obstacles are not known by the robot. Such a scenario requires the robot to use some form of visual input from a lidar sensor or RGB camera, to learn how to adjusts its velocity commands to keep a safe distance and reduced speed when approaching obstacles. This is essential to train an RL-based robotic controller to be safe, however, it does not address the issue to make training itself safer, which in foresight is crucial to enable real-world training. This thesis proposes an agent setup with modified reward structure to train a local planner for a Turtlebot robot with lidar sensor that satisfies safety while maximizing the RL reward. Additionally, it presents a shielding approach that can intervene on a complex controller, by using a safe, sub-optimal backup policy in case the agent enters unsafe states. Two agents, an unshielded agent and one with shielding, are trained with this method in a simulated autonomous warehouse to investigate the effects of shielding during training. For evaluation we compare four conditions: Both agents are deployed once with activated shield and once without it. Those four conditions are analysed in regards to safety and efficiency. Finally, a comparison to the performance of the baseline Trajectory Planner is conducted. The results show that shielding during training facilitates task completion and reduces collisions by 25% compared to the unshielded agent. On the other hand, unshielded training yields better safety results during deployment. Generally, an active shield during deployment contributes to efficiency of the agent, independent of the training setup. The system design is integrated into the Robot Operating System (ROS) where its modular design makes the method compatible with different (RL) algorithms and deployable in OpenAI gym environments. / Reinforcement learning (RL) är en vanlig metod för att lösa komplexa uppgifter inom robotik. Användningen av den i scenarier där människor arbetar nära robotar kan dock leda till farliga situationer. I ett autonomt lager delar mobila robotenheter arbetsområdet med mänskliga arbetare, vilket kan leda till kollisioner eftersom roboten inte känner till människornas positioner eller icke-statiska hinder. I ett sådant scenario måste roboten använda någon form av visuell information från en lidarsensor eller RGB-kamera för att lära sig hur den ska anpassa sina hastighetsinstruktioner för att hålla ett säkert avstånd och minskad hastighet när den närmar sig hinder. Detta är viktigt för att träna RL-baserad robotstyrning så att den blir säker. Det löser dock inte problemet med att göra själva utbildningen säkrare, vilket är avgörande för att möjliggöra utbildning i den verkliga världen. I det här examensarbeten presenteras en agentuppsättning med en modifierad belöningsstruktur för att träna en lokal planerare för en Turtlebot robot med en lidarsensor. Detta ger säkerhet samtidigt som belöningen maximeras. Dessutom presenteras en skyddsmekanism som kan ingripa i det komplexa styrsystemet och byta till ett säkert, suboptimalt reservstyrprogram om agenten hamnar i osäkra tillstånd. Två agenter tränas med denna metod i ett simulerat autonomt lager, en agent utan och en med sköld, för att undersöka effekterna av sköldning under träningen. Fyra konfigurationer jämförs för utvärdering: Båda ämnena används en gång med skölden aktiverad och en gång utan. Dessa fyra konfigurationer analyseras med avseende på säkerhet och effektivitet. Slutligen görs en jämförelse med Trajectory Planner som utgångspunkt. Resultaten visar att skydd under träningen gör det lättare att slutföra uppgiften snabbare och minskar antalet kollisioner med 25% jämfört med en agent utan skydd. Å andra sidan leder träning utan avskärmning till bättre säkerhetsmätningar under arbetet. Generellt sett bidrar en aktiv sköld under installationen till agentens effektivitet, oavsett hur utbildningen är upplagd. Systemet är integrerat i Robot Operating System (ROS). Dess modulära utformning möjliggör kompatibilitet med olika RL-algoritmer, liksom användning av metoden i OpenAI gymmiljöer.
|
3 |
Safe Reinforcement Learning for Social Human-Robot Interaction : Shielding for Appropriate Backchanneling Behavior / Säker förstärkningsinlärning för social människa-robotinteraktion : Avskärmning för lämplig uppbackningsbeteendeAkif, Mohamed January 2023 (has links)
Achieving appropriate and natural backchanneling behavior in social robots remains a challenge in Human-Robot Interaction (HRI). This thesis addresses this issue by utilizing methods from Safe Reinforcement Learning in particular shielding to improve social robot backchanneling behavior. The aim of the study is to develop and implement a safety shield that guarantees appropriate backchanneling. In order to achieve that, a Recurrent Neural Network (RNN) is trained on a human-human conversational dataset. Two agents are built; one uses a random algorithm to backchannel and another uses shields on top of its algorithm. The two agents are tested using a recorded human audio, and later evaluated in a between-subject user study with 41 participants. The results did not show any statistical significance between the two conditions, for the chosen significance level of α < 0.05. However, we observe that the agent with shield had a better listening behavior, more appropriate backchanneling behavior and missed less backchanneling opportunities than the agent without shields. This could indicate that shields have a positive impact on the robot’s behavior. We discuss potential explanations for why we did not obtain statistical significance and shed light on the potential for further exploration. / Att uppnå lämpligt och naturligt upbbackningsbeteende i sociala robotar är fortfarande en utmaning i Människa-Robot Interaktion (MRI). Den här avhandlingen tar upp detta problem genom att använda metoder från säker förstärkningsinlärning i synnerhet avskärmning för att förbättra sociala robotars upbbackningsbeteende. Syftet med studien är att utveckla och implementera en säkerhetsavskärmning som garanterar lämplig upbbackning. För att uppnå det, tränas ett återkommande neuralt nätverk på en människa-människa konversationsdatamängd. Två agenter byggs; en använder en slumpmässig algoritm för att upbbacka och en annan använder avskärmninng ovanpå sin algoritm. De två agenterna testas med hjälp av ett inspelat mänskligt ljud och utvärderas senare i en användarstudie med 41 deltagare. Resultaten visade inte någon statistisk signifikans mellan de två skicken, för den valda signifikansnivån < 0, 05. Vi observerar dock att agenten med avskärmning hade ett bättre lyssningsbeteende, mer lämplig upbbackningsbeteende och missade mindre upbbacknings-möjligheter än agenten utan avskärmning. Detta kan indikera att avskärmning har en positiv inverkan på robotarnas beteende. Vi diskuterar potentiella förklaringar till varför vi inte fick statistisk signifikans och belyser potentialen för ytterligare utforskning.
|
Page generated in 0.1134 seconds