Global ETD Search

1	Playing Atari Breakout Using Deep Reinforcement Learning Nils Martin Lidman, Jonas, Jonsson, Simon January 2022 (has links) This report investigates the implementation of a Deep Reinforcement Learning (DRL) algorithm for complex tasks. The complex task chosen was the classic game Breakout, first introduced on the Atari 2600 console.The selected DRL algorithm was Deep Q-Network(DQN) since it is one of the first and most fundamental DRL algorithms. To test the DQN algorithm, it was first applied to CartPole which is a common control theory problem, using values describing the system as input.The implementation was then slightly modified to process images when employed for Breakout, in which it was successful. The application received a higher score than a professional human game tester. However, work remains to be done to achieve performance similar to state-of-theartimplementations of the DQN algorithm. / Denna rapport undersöker tillämpningen av en Deep Reinforcement Learning (DRL) algoritm för komplexa uppgifter. Den komplexa uppgift som valdes var Breakout från konsolen Atari 2600. DRL-algoritmen som användes var Deep Q-Network (DQN), eftersom det var en av de första och mest grundläggande DRL-algoritmer. För att kontrollera DQN-algoritmen tillämpades den först på CartPole, vilket är ett vanligt problem från reglerteknik, med tal som beskriver systemet som indata. Implementationen var sedan aningen modifierad för att kunna hantera bilder när den användes till Breakout, i vilken den presterade väl. Applikationen fick fler poäng än en proffesionell speltestare. Det finns dock andra implemeteringar som har fått högre poäng, och mer arbete behövs för att uppnå likvärdiga resultat. / Kandidatexjobb i elektroteknik 2022, KTH, Stockholm Reinforcement learning CartPole Breakout DQN Elektroteknik och elektronik
2	Control of an Inverted Pendulum Using Reinforcement Learning Methods Kärn, Joel January 2021 (has links) In this paper the two reinforcement learning algorithmsQ-learning and deep Q-learning (DQN) are used tobalance an inverted pendulum. In order to compare the two, bothalgorithms are optimized to some extent, by evaluating differentvalues for some parameters of the algorithms. Since the differencebetween Q-learning and DQN is a deep neural network (DNN),some benefits of a DNN are then discussed.The conclusion is that this particular problem is simple enoughfor the Q-learning algorithm to work well and is preferable,even though the DQN algorithm solves the problem in fewerepisodes. This is due to the stability of the Q-learning algorithmand because more time is required to find a suitable DNN andevaluate appropriate parameters for the DQN algorithm, than tofind the proper parameters for the Q-learning algorithm. / I denna rapport används två algoritmer inom förstärkningsinlärning och djup Q-inlärning (DQN), för att balancera en omvänd pendel. För att jämföra dem så optimeras algoritmerna i viss utsträckning genom att testa olika värden för vissa av deras parametrar. Eftersom att skillnaden mellan Q-inlärning och DQN är ett djupt neuralt nätverk (DNN) så diskuterades fördelen med ett DNN. Slutstatsen är att för ett så pass enkelt problem så fungerar Q-inlärningsalgoritmen bra och är att föredra, trots att DQNalgoritmen löser problemet på färre episoder. Detta är pågrund av Q-inlärningsalgoritmens stabilitet och att mer tid krävs för att hitta ett passande DNN och hitta lämpliga parametrar för DQN-algoritmen än vad det krävs för att hitta bra parametrar för Q-inlärningsalgoritmen. / Kandidatexjobb i elektroteknik 2021, KTH, Stockholm Reinforcement Learning Q-learning DQN CartPole Inverted Pendulum OpenAI Elektroteknik och elektronik
3	Deep Reinforcement Learning in Cart Pole and Pong Kuurne Uussilta, Dennis, Olsson, Viktor January 2020 (has links) In this project, we aim to reproduce previous resultsachieved with Deep Reinforcement Learning. We present theMarkov Decision Process model as well as the algorithms Q-learning and Deep Q-learning Network (DQN). We implement aDQN agent, first in an environment called CartPole, and later inthe game Pong.Our agent was able to solve the CartPole environment in lessthan 300 episodes. We assess the impact some of the parametershad on the agents performance. The performance of the agentis particularly sensitive to the learning rate and seeminglyproportional to the dimension of the neural network. The DQNagent implemented in Pong was unable to learn, performing atthe same level as an agent picking actions at random, despiteintroducing various modifications to the algorithm. We discusspossible sources of error, including the RAM used as input,possibly not containing sufficient information. Furthermore, wediscuss the possibility of needing additional modifications to thealgorithm in order to achieve convergence, as it is not guaranteedfor DQN. / Målet med detta projekt är att reproducera tidigare resultat som uppnåtts med Deep Reinforcement Learning. Vi presenterar Markov Decision Process-modellen samt algoritmerna Q-learning och Deep Q-learning Network (DQN). Vi implementerar en DQN agent, först i miljön CartPole, sedan i spelet Pong. Vår agent lyckades lösa CartPole på mindre än 300 episoder. Vi gör en bedömning av vissa parametrars påverkan på agentens prestanda. Agentens prestanda är särskilt känslig för värdet på ”learning rate” och verkar vara proportionell mot dimensionen av det neurala nätverket. DQN-agenten som implementerades i Pong var oförmögen att lära sig och spelade på samma nivå som en agent som agerar slumpmässigt, trots att vi introducerade diverse modifikationer. Vi diskuterar möjliga felkällor, bland annat att RAM, som används som indata till agenten, eventuellt saknar tillräcklig information. Dessutom diskuterar vi att ytterligare modifikationer kan vara nödvändiga för uppnå konvergens eftersom detta inte är garanterat för DQN. / Kandidatexjobb i elektroteknik 2020, KTH, Stockholm Artificial Intelligence Machine Learning Rein-forcement Learning Deep Q-learning Network CartPole Pong Elektroteknik och elektronik

1

Page generated in 0.0338 seconds