Global ETD Search

Return to search

Stuck state avoidance through PID estimation training of Q-learning agent / Förhindrande av odefinierade tillstånd vid Q-learning träning genom PID estimering

Reinforcement learning is conceptually based on an agent learning through interaction with its environment. This trial-and-error learning method makes the process prone to situations in which the agent is stuck in a dead-end, from which it cannot keep learning. This thesis studies a method to diminish the risk that a wheeled inverted pendulum, or WIP, falls over during training by having a Qlearning based agent estimate a PID controller before training it on the balance problem. We show that our approach is equally stable compared to a Q-learning agent without estimation training, while having the WIP falling over less than half the number of times during training. Both agents succeeds in balancing the WIP for a full hour in repeated tests. / Reinforcement learning baseras på en agent som lär sig genom att interagera med sin omgivning. Denna inlärningsmetod kan göra att agenten hamnar i situationer där den fastnar och inte kan fortsätta träningen. I denna examensuppsats utforskas en metod för att minska risken att en självkörande robot faller under inlärning. Detta görs genom att en Q-learning agent tränas till att estimera en PID kontroller innan den tränar på balanseringsproblemet. Vi visar att vår metod är likvärdigt stabil jämfört med en Q-learning agent utan estimeringsträning. Under träning faller roboten färre än hälften så många gånger när den kontrolleras av vår metod. Båda agenterna lyckas balansera roboten under en hel timme.

http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-264562

Q-learning

PID

wheeled inverted pendulum

WIP

reinforcement learning

estimation training

Q-learning

PID

självbalanserande robot

reinforcement learning

estimeringsträning

Computer and Information Sciences

Data- och informationsvetenskap

Identifer	oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-264562
Date	January 2019
Creators	Moritz, Johan, Winkelmann, Albin
Publisher	KTH, Skolan för elektroteknik och datavetenskap (EECS)
Source Sets	DiVA Archive at Upsalla University
Language	English
Detected Language	Swedish
Type	Student thesis, info:eu-repo/semantics/bachelorThesis, text
Format	application/pdf
Rights	info:eu-repo/semantics/openAccess
Relation	TRITA-EECS-EX ; 2019:385

Page generated in 0.0133 seconds

Stuck state avoidance through PID estimation training of Q-learning agent / Förhindrande av odefinierade tillstånd vid Q-learning träning genom PID estimering

Description

Links & Downloads

Tags

Additional Fields