Global ETD Search

1	Stuck state avoidance through PID estimation training of Q-learning agent / Förhindrande av odefinierade tillstånd vid Q-learning träning genom PID estimering Moritz, Johan, Winkelmann, Albin January 2019 (has links) Reinforcement learning is conceptually based on an agent learning through interaction with its environment. This trial-and-error learning method makes the process prone to situations in which the agent is stuck in a dead-end, from which it cannot keep learning. This thesis studies a method to diminish the risk that a wheeled inverted pendulum, or WIP, falls over during training by having a Qlearning based agent estimate a PID controller before training it on the balance problem. We show that our approach is equally stable compared to a Q-learning agent without estimation training, while having the WIP falling over less than half the number of times during training. Both agents succeeds in balancing the WIP for a full hour in repeated tests. / Reinforcement learning baseras på en agent som lär sig genom att interagera med sin omgivning. Denna inlärningsmetod kan göra att agenten hamnar i situationer där den fastnar och inte kan fortsätta träningen. I denna examensuppsats utforskas en metod för att minska risken att en självkörande robot faller under inlärning. Detta görs genom att en Q-learning agent tränas till att estimera en PID kontroller innan den tränar på balanseringsproblemet. Vi visar att vår metod är likvärdigt stabil jämfört med en Q-learning agent utan estimeringsträning. Under träning faller roboten färre än hälften så många gånger när den kontrolleras av vår metod. Båda agenterna lyckas balansera roboten under en hel timme. Q-learning QL PID wheeled inverted pendulum WIP reinforcement learning estimation training Q-learning QL PID självbalanserande robot reinforcement learning estimeringsträning Computer and Information Sciences Data- och informationsvetenskap

Search results

Stuck state avoidance through PID estimation training of Q-learning agent / Förhindrande av odefinierade tillstånd vid Q-learning träning genom PID estimering