Global ETD Search

1	Training reinforcement learning model with custom OpenAI gym for IIoT scenario Norman, Pontus January 2022 (has links) Denna studie består av ett experiment för att se, som ett test, hur bra det skulle fungera att implementera en industriell gymmiljö för att träna en reinforcement learning modell. För att fastställa det här tränas modellen upprepade gånger och modellen testas. Om modellen lyckas lösa scenariot, som är en representation av miljön, räknas den träningsiterationen som en framgång. Tiden det tar att träna för ett visst antal spelavsnitt mäts. Antalet avsnitt det tar för reinforcement learning modellen att uppnå ett acceptabelt resultat på 80 % av maximal poäng mäts och tiden det tar att träna dessa avsnitt mäts. Dessa mätningar utvärderas och slutsatser dras om hur väl reinforcement learning modellerna fungerade. Verktygen som används är Q-learning algoritmen implementerad på egen hand och djup Q-learning med TensorFlow. Slutsatsen visade att den manuellt implementerade Q-learning algoritmen visade varierande resultat beroende på miljödesign och hur länge modellen tränades. Det gav både hög och låg framgångsfrekvens varierande från 100 % till 0 %. Och tiderna det tog att träna agenten till en acceptabel nivå var 0,116, 0,571 och 3,502 sekunder beroende på vilken miljö som testades (se resultatkapitlet för mer information om hur modellerna ser ut). TensorFlow-implementeringen gav antingen 100 % eller 0 % framgång och eftersom jag tror att de polariserande resultaten berodde på något problem med implementeringen så valde jag att inte göra fler mätningar än för en miljö. Och eftersom modellen aldrig nådde ett stabilt utfall på mer än 80 % mättes ingen tid på länge den behöver tränas för denna implementering. / This study consists of an experiment to see, as a proof of concept, how well it would work to implement an industrial gym environment to train a reinforcement learning model. To determine this, the reinforcement learning model is trained repeatedly and tested. If the model completes the training scenario, then that training iteration counts as a success. The time it takes to train for certain amount of game episodes is measured. The number of episodes it takes for the reinforcement learning model to achieve an acceptable outcome of 80% of maximum score is measured and the time it takes to train those episodes are measured. These measurements are evaluated, and conclusions are drawn on how well the reinforcement learning models worked. The tools used is the Q-learning algorithm implemented on its own and deep Q-learning with TensorFlow. The conclusion showed that the manually implemented Q-learning algorithm showed varying results depending on environment design and how long the agent is trained. It gave both high and low success rate varying from 100% to 0%. And the times it took to train the agent to an acceptable level was 0.116, 0.571 and 3.502 seconds depending on what environment was tested (see the result chapter for more information on the environments). The TensorFlow implementation gave either 100% or 0% success rate and since I believe the polarizing results was because of some issue with the implementation I chose to not do more measurements than for one environment. And since the model never reached a stable outcome of more than 80% no time for long it needs to train was measured for this implementation. Q-learning. Reinforcement Learning OpenAI gym Q-learning. Reinforcement Learning OpenAI gym Software Engineering Programvaruteknik
2	Implementing an OpenAI Gym for Machine Learning of Microgrid Electricity Trading Lundholm, André January 2021 (has links) Samhället går idag bort från centraliserad energi mot decentraliserade system. Istället för att köpa från stora företag som skapar el från fossila bränslen har många förnybara alternativ kommit. Eftersom konsumenter kan generera solenergi med solpaneler kan de också bli producenter. Detta skapar en stor marknad för handel av el mellan konsumenter i stället för företag. Detta skapar ett så kallat mikronät. Syftet med denna avhandling är att hitta en lösning för att köpa och sälja på dessa mikronät. Genom att använda en Q-learning-lösning med OpenAI Gym-verktygslådan och en mikronätsimulering syftar denna avhandling till att svara på följande frågor: I vilken utsträckning kan Qlearning användas för att köpa och sälja energi i ett mikrosystem, hur lång tid tar det köp och sälj algoritm för att träna och slutligen påverkar latens genomförbarheten av Q-learning för mikronät. För att svara på dessa frågor måste jag mäta latens och utbildningstid för Q-learninglösningen. En neural nätverkslösning skapades också för att jämföra med Q-learning-lösningen. Från dessa resultat kunde jag säga att en del av det inte var så tillförlitligt, men vissa slutsatser kunde fortfarande göras. För det första är den utsträckning som Q-learning kan användas för att köpa och sälja ganska bra om man bara tittar på noggrannhetsresultaten på 97%, men detta sitter på mikronätets simulering för att vara korrekt. Hur lång tid det tar att köpa och sälja algoritm för att träna uppmättes till cirka 12 sekunder. Latensen anses vara noll med Q-learning-lösningen, så den har stor genomförbarhet. Genom dessa frågor kan jag dra slutsatsen att en Q-learning OpenAI Gym-lösning är genomförbart. / Society is today moving away from centralized power towards decentralized systems. Instead of buying from large companies that create electricity from fossil fuels, many renewable alternatives have arrived. Since consumers can generate solar power with solar panels, they can also become the producers. This creates a large market for trading electricity between consumer instead of companies. This creates a so called microgrid. The purpose of this thesis is to find a solution to buying and selling on these microgrids. By using a Q-learning solution with the OpenAI Gym toolkit and a microgrid simulation this thesis aims to answer the following questions: To what extent can Q-learning be used to buy and sell energy in a microgrid system, how long does it take the buy and sell algorithm to train and finally does latency affect the feasibility of Q-learning for microgrids. To answer these questions, I must measure the latency and training time of the Q-learning solution. A neural network solution was also created to compare to the Q-learning solution. From these results I could tell some of it was not that reliable, but some conclusions could still be made. First, the extent that Q-learning can be used to buy and sell is quite great if just looking at the accuracy results of 97%, but this is on the microgrid simulation to be correct. How long it takes to buy and sell algorithm to train was measured to about 12 seconds. The latency is considered zero with the Q-learning solution, so it has great feasibility. Through these questions I can conclude that a Qlearning OpenAI Gym solution is a viable one. Q-learning Microgrids Python Neural networks OpenAI Gym Q-learning Mikronät Python Neurala nätverk OpenAI Gym Software Engineering Programvaruteknik

Search results

Training reinforcement learning model with custom OpenAI gym for IIoT scenario

Implementing an OpenAI Gym for Machine Learning of Microgrid Electricity Trading