Reinforcement learning (RL) is one of the three main areas in machine learning (ML) with a solid theoretical background and progress. Generally, RL can provide solutions to many real- world applications, such as self-driving cars and protein folding. A class of RL problems with an infinite number of actions from each state has recently received significant attention, namely infinite action space RL problems. There are several standard algorithms for RL problems, and depending on the nature of the problem, one should choose a proper RL algorithm which can be a challenging task. To compare RL algorithms, we carefully implement them on different tasks and store the relevant results. To have a fair comparison, we tune the algorithms and iteratively test and update them beforehand. This study compares four different RL algorithms. Our results show that the RL algorithms that store the steps of their path, or have a model for the environment, have the highest rate of convergence. By updating the value of every step of the path after a reward, instead of only looking backward a single step, the algorithms find a solution faster and more often. Having a model to help the algorithm plan ahead also contributed to faster and more stable learning. RL algorithms that use a deep neural network for evaluation are the least stable. Our results can provide a good basis for selecting appropriate algorithms for infinite action space RL problems. It can be built upon, simplifying the development of improvements for researchers on the RL algorithms that exist today. / Förstärkningsinlärning är ett av de tre huvudområdena inom maskininlärning med en stark teoretisk bakgrund och stor utveckling. I allmänhet kan förstärkningsinlärning tillhandahålla lösningar för många applikationer som används i praktiken, såsom självkörande bilar och proteinveckning. En klass av förstärkningsinlärningsproblem med oändligt antal handlingar från varje tillstånd har nyligen fått betydande uppmärksamhet, nämligen förstärkningsinlärningsproblem med oändliga handlingsrum. Det finns flera standardalgoritmer för förstärkningsinlärningsproblem och en utmanande uppgift blir därför att välja en passande förstärkningsinlärningsalgoritm beroende på problemets natur. För att jämföra algoritmerna implementerar vi dem noggrant på olika uppgifter och lagrar relevanta resultat. För att få en rättvis jämförelse justerar vi och testar algoritmerna iterativt och uppdaterar dem i förväg. Denna studie jämför fyra olika förstärkningsinlärningsalgoritmer. Våra resultat visar att de algoritmer som lagrar varje steg under vägen, eller har en modell för miljön, har den högsta konvergensgraden. Genom att uppdatera värdet för varje steg på vägen efter en belöning, istället för att bara se bakåt ett steg, hittar algoritmerna en lösning snabbare och oftare. Att ha en modell för att hjälpa algoritmen att planera sina handlingar bidrar också till snabbare och mer stabilt lärande. Förstärkningsinlärningsalgoritmer som använder ett djupt neuralt nätverk för evaluering är minst stabila. Våra resultat kan ge en bra grund för att välja lämpliga algoritmer för förstärkningsinlärningsproblem med oändliga handlingsrum. Det här kan byggas vidare på, vilket förenklar utvecklingen av förbättringar för forskare på de förstärkningsinlärningsalgoritmer som finns idag.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-303569 |
Date | January 2021 |
Creators | Larsson, Axel |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2021:562 |
Page generated in 0.003 seconds