Spelling suggestions: "subject:"förstärkande ininlärning"" "subject:"förstärkande lärinlärning""
1 |
Playstyle Generation with Multimodal Generative Adversarial Imitation Learning : Style-reward from Human Demonstration for Playtesting Agents / Spelstilsgenerering med Multimodal Generativ Motståndarimitationsinlärning : Spelstilsbelöning från Demonstrationer för Playtesting-AgenterAhlberg, William January 2023 (has links)
Playtesting plays a crucial role in video game production. The presence of gameplay issues and faulty design choices can be of great detriment to the overall player experience. Machine learning has the potential to be applied to automated playtesting solutions, removing mundane and repetitive testing, and allowing game designers and playtesters to focus their efforts on rewarding tasks. It is important in playtesting to consider the different playstyles players might use to adapt game design choices accordingly. With Reinforcement learning, it is possible to create high quality agents able to play and traverse complex game environments with fairly simple task-rewards. However, an automated playtesting solution must also be able to incorporate unique behaviour which mimic human playstyles. It can often be difficult to handcraft a quantitative style-reward to drive agent learning, especially for those with limited reinforcement learning experience, like game developers. MultiGAIL, Multimodal Generative Adversarial Imitation Learning, is a proposed learning algorithm able to generate autonomous agents imbued with human playstyles from recorded playstyle demonstrations. The proposed method requires no handcrafted style-reward, and can generate novel intermediate playstyles from demonstrated ones. MultiGAIL is evaluated in game environments resembling complex 3D games with both discrete and continuous action spaces. The playstyle the agent exhibits is easily controllable at inference with an auxiliary input parameter. Evaluation shows the agent is able to successfully replicate the underlying playstyles in human demonstrations, and that novel playstyles generate explainable action distributions indicative of the level of blending the auxiliary input declares. The results indicate that MultiGAIL could be a suitable solution to incorporate style behaviours in playtesting autonomous agents, and can be easily be used by those with limited domain knowledge of reinforcement learning. / ”Playtesting” har en viktig roll i TV-spelsutveckling. Fel i spel, såsom buggar och dålig speldesign kan drastiskt försämra spelupplevelsen. Maskininlärning kan användas för att automatisera testandet av spel och därmed ta bort behovet för människor att utföra repetitiva och tråkiga test. Spelutvecklare och speltestare kan då istället inrikta sig på mer nyttiga uppgifter. I playtesting så behöver de diverse spelstilar som spelare kan ha beaktas, så att spelutvecklare har möjligheten att anpassa spelet därefter. Förstärkande inlärning har använts för att skapa högkvalitativa agenter som kan spela och navigera komplexa spelmiljöer genom att definiera relativt simpla belöningsfunktioner. Dock är uppgiften att skapa en belöningsfunktion som formar agenten att följa specifika spelstilar en mycket svårare uppgift. Att anta att de utan förkunskaper inom maskininlärning och förstärkande inlärning, som spelutvecklare, ska kunna skapa sådana belöningsfunktioner är orealistiskt. MultiGAIL, Multimodal Generative Adversarial Imitation Learning", är en maskininlärningsalgoritm som kan generera autonoma agenter som efterföljer spelstilar med hjälp av tillgången till inspelade spelstilsdemonstrationer. Metoden kräver inga hårdkodade stilbelöningar och kan interpolera de spelstilarna funna i demonstrationerna, därav skapa nya beteenden för agenterna. MultiGAIL evalueras i spelmiljöer liknande komplexa 3D spel och kan använda både diskreta och kontinuerliga åtgärdsrum. Den spelstil agenten uppvisar kan enkelt kontrolleras vid inferens av en varierbar parameter. Vår evaluering visar att metoden kan lära agenten att korrekt imitera de spelstilar som definieras av inspelade demonstrationer. Nya spelstilar generade av MultiGAIL har förutsägbara beteenden utefter värdet på den varierande parametern. MultiGAIL kan mycket troligt användas för att skapa playtesting autonoma agenter som beter sig utefter specifika spelstilar utan att behöva definiera en belöningsfunktion.
|
2 |
A comparison of algorithms used in traffic control systems / En jämförelse av algoritmer i trafiksystemBjörck, Erik, Omstedt, Fredrik January 2018 (has links)
A challenge in today's society is to handle a large amount of vehicles traversing an intersection. Traffic lights are often used to control the traffic flow in these intersections. However, there are inefficiencies since the algorithms used to control the traffic lights do not perfectly adapt to the traffic situation. The purpose of this paper is to compare three different types of algorithms used in traffic control systems to find out how to minimize vehicle waiting times. A pretimed, a deterministic and a reinforcement learning algorithm were compared with each other. Test were conducted on a four-way intersection with various traffic demands using the program Simulation of Urban MObility (SUMO). The results showed that the deterministic algorithm performed best for all demands tested. The reinforcement learning algorithm performed better than the pretimed for low demands, but worse for varied and higher demands. The reasons behind these results are the deterministic algorithm's knowledge about vehicular movement and the negative effects the curse of dimensionality has on the training of the reinforcement learning algorithm. However, more research must be conducted to ensure that the results obtained are trustworthy in similar and different traffic situations. / En utmaning i dagens samhälle är att hantera en stor mängd fordon som kör igenom en korsning. Trafikljus används ofta för att kontrollera trafikflödena genom dessa korsningar. Det finns däremot ineffektiviteter eftersom algoritmerna som används för att kontrollera trafikljusen inte är perfekt anpassade till trafiksituationen. Syftet med denna rapport är att jämföra tre typer av algoritmer som används i trafiksystem för att undersöka hur väntetid för fordon kan minimeras. En tidsbaserad, en deterministisk och en förstärkande inlärning-algoritm jämfördes med varandra. Testerna utfördes på en fyrvägskorsning med olika trafikintensiteter med hjälp av programmet Simulation of Urban MObility (SUMO). Resultaten visade att den deterministiska algoritmen presterade bäst för alla olika trafikintensiteter. Inlärningsalgoritmen presterade bättre än den tidsbaserade på låga intensiteter, men sämre på varierande och högre intensiteter. Anledningarna bakom resultaten är att den deterministiska algoritmen har kunskap om hur fordon rör sig samt att dimensionalitetsproblem påverkar träningen av inlärningsalgoritmen negativt. Det krävs däremot mer forskning för att säkerställa att resultaten är pålitliga i liknande och annorlunda trafiksituationer.
|
3 |
Exploring the effects of state-action space complexity on training time for AlphaZero agents / Undersökning av påverkan av spelkomplexitet på träningstiden för AlphaZero-agenterGlimmerfors, Tobias January 2022 (has links)
DeepMind’s development of AlphaGo took the world by storm in 2016 when it became the first computer program to defeat a world champion at the game of Go. Through further development, DeepMind showed that the underlying algorithm could be made more general, and applied to a large set of problems. This thesis will focus on the AlphaZero algorithm and what parameters affect the rate at which an agent is able to learn through self-play. We investigated the effect that the neural network size has on the agent’s learning as well as how the environment complexity affects the agent’s learning. We used Connect4 as the environment for our agents, and by varying the width of the board we were able to simulate environments with different complexities. For each board width, we trained an AlphaZero agent and tracked the rate at which it improved. While we were unable to find a clear correlation between the complexity of the environment and the rate at which the agent improves, we found that a larger neural network both improved the final performance of the agent as well as the rate at which it learns. Along with this, we also studied what impact the number of MonteCarlo tree search iterations have on an already trained AlphaZero agent. Unsurprisingly, we found that a higher number of iterations led to an improved performance. However, the difference between using only the priors of the neural network and a series of Monte-Carlo tree search iterations is not very large. This suggest that using solely the priors can sometimes be useful if inferences need to made quickly. / DeepMinds utveckling av AlphaGo blev ett stort framsteg året 2016 då det blev första datorprogrammet att besegra världsmästaren i Go. Med utvecklingen av AlphaZero visade DeepMind att en mer generell algoritm kunde användas för att lösa en större mängd problem. Den här rapporten kommer att fokusera på AlphaZero-algoritmen och hur olika parametrar påverkar träningen. Vi undersökte påverkan av neuronnätets storlek och spelkomplexiteten på agentens förmåga att förbättra sig. Med hjälp av 4 i rad som testningsmiljö för våra agenter, och genom att ändra på bredden på spelbrädet kunde vi simulera olika komplexa spel. För varje bredd som vi testade, tränade vi en AlphaZero-agent och mätte dens förbättring. Vi kunde inte hitta någon tydlig korrelation mellan spelets komplexitet och agentens förmåga att lära sig. Däremot visade vi att ett större neuronnät leder till att agenten förbättrar sig mer, och dessutom lär sig snabbare. Vi studerade även påverkan av att variera antalet trädsökningar för en färdigtränad agent. Våra experiment visar på att det finns en korrelation mellan agentens spelstyrka och antalet trädsökningar, där fler trädsökningar innebär en förbättrad förmåga att spela spelet. Skillnaden som antalet trädsökningar gör visade sig däremot inte vara så stor som förväntad. Detta visar på att man kan spara tid under inferensfasen genom att sänka antalet trädsökningar, med en minimal bestraffning i prestanda.
|
4 |
Model Based Reinforcement Learning for Automatic Tuning of Cavity Filters / Modellbaserad förstärkningsinlärning för automatisk inställning av filterNimara, Doumitrou Daniil January 2021 (has links)
As telecommunication continues developing, the demand for mass production of well calibrated Base Transceiver Stations (BTS) components increases. Cavity Filters are an essential piece of every BTS; however, manufacturing tolerances often lead to detuned filters which require costly post-production fine tuning. Model Free Reinforcement Learning has been proposed to automate this process; however agents are not sample efficient. This is especially problematic, as agent training with newer, more precise environment simulators is time demanding. This work aims to leverage Model Based Reinforcement Learning to improve sample efficiency, while maintaining the same degree of accuracy. To this end, we evaluate and improve upon the performance of three state-of-the-art methods, present in the literature. The proposed modifications on these methods can serve as a template for their application on other, high dimensional non image data problems. In particular, the proposed modification on the Dreamer is modular, improves training stability and greatly decreases sample complexity. More specifically, sample complexity was reduced by a factor of 4 for the 6p2z filter and by a factor of 10 for 8p4z. Furthermore, hyperparameter sensitivity analysis is provided to add extra insight behind each approach. Overall, results facilitate further research in this field. The reduced sample complexity opens the possibility of training on more accurate simulators of more complicated filters, which would previously be intractable due to the high amount of samples required. / Moderna mobilnät är uppbyggda av massproducerade basstationer (Base Tranciever Stations), som var och en innehåller ett antal kavitetsfilter. Dessa filter är mycket känsliga, vilket gör att de efter produktion behöver finjusteras manuellt för att fungera som avsett. För att automatisera denna process har man tidigare använt Model Free Reinforcement Learning (MFRL). Denna teknik kräver dock mycket beräkningar, vilket är problematiskt, eftersom man skulle vilja genomföra träningen med mer komplexa simuleringsmodeller, vilket inte går i dagsläget. I detta arbete skall vi undersöka möjligheten att använda Model Based Reinforcement Learning (MBRL) för att lösa samma problem med färre beräkningssteg. Vi utvärderar, och anpassar, därför tre befintliga MBRL-algoritmer till problemet. Dessa anpassningar kan även överföras till andra problem. Den anpassning som görs på Dreamer-algoritmen är modulär, förbättrar stabiliteten i träningen, och minskar antalet beräkningar som behövs. I detalj så minskade antalet beräkningar med en faktor 4 för ett så-kallat 6p2z-filter och en faktor 10 för ett 8p4z-filter. En känslighetsanalys vad gäller hyperparametrar har också gjorts för varje metod. Rapportens resultat kan användas i vidare forskning på så sätt att det minskade antalet beräkningar gör att man kan använda mer realistiska modeller, av mer komplicerade filter, på ett sätt som tidigare inte var möjligt.
|
5 |
Deep Reinforcement Learning for Temperature Control in Buildings and Adversarial AttacksAmmouri, Kevin January 2021 (has links)
Heating, Ventilation and Air Conditioning (HVAC) systems in buildings are energy consuming and traditional methods used for building control results in energy losses. The methods cannot account for non-linear dependencies in the thermal behaviour. Deep Reinforcement Learning (DRL) is a powerful method for reaching optimal control in many different control environments. DRL utilizes neural networks to approximate the optimal actions to take given that the system is in a given state. Therefore, DRL is a promising method for building control and this fact is highlighted by several studies. However, neural network polices are known to be vulnerable to adversarial attacks, which are small, indistinguishable changes to the input, which make the network choose a sub-optimal action. Two of the main approaches to attack DRL policies are: (1) the Fast Gradient Sign Method, which uses the gradients of the control agent’s network to conduct the attack; (2) to train a a DRL-agent with the goal to minimize performance of control agents. The aim of this thesis is to investigate different strategies for solving the building control problem with DRL using the building simulator IDA ICE. This thesis is also going to use the concept of adversarial machine learning by applying the attacks on the agents controlling the temperature inside the building. We first built a DRL architecture to learn how to efficiently control temperature in a building. Experiments demonstrate that exploration of the agent plays a crucial role in the training of the building control agent, and one needs to fine-tune the exploration strategy in order to achieve satisfactory performance. Finally, we tested the susceptibility of the trained DRL controllers to adversarial attacks. These tests showed, on average, that attacks trained using DRL methods have a larger impact on building control than those using FGSM, while random perturbation have almost null impact. / Ventilationssystem i byggnader är energiförbrukande och traditionella metoder som används för byggnadskontroll resulterar i förlust av energisparande. Dessa metoder kan inte ta hänsyn till icke-linjära beroenden i termisk beteenden. Djup förstärkande inlärning (DRL) är en kraftfull metod för att uppnå optimal kontroll i många kontrollmiljöer. DRL använder sig av neurala nätverk för att approximera optimala val som kan tas givet att systemet befinner sig i en viss stadie. Därför är DRL en lovande metod för byggnadskontroll och detta faktumet är markerat av flera studier. Likväl, neurala nätverk i allmänhet är kända för att vara svaga mot adversarial attacker, vilket är små ändringar i inmatningen, som gör att neurala nätverket väljer en åtgärd som är suboptimal. Syftet med denna anvhandling är att undersöka olika strategier för att lösa byggnadskontroll-problemet med DRL genom att använda sig av byggnadssimulatorn IDA ICE. Denna avhandling kommer också att använda konceptet av adversarial machine learning för att attackera agenterna som kontrollerar temperaturen i byggnaden. Det finns två olika sätt att attackera neurala nätverk: (1) Fast Gradient Sign Method, som använder gradienterna av kontrollagentens nätverk för att utföra sin attack; (2) träna en inlärningsagent med DRL med målet att minimera kontrollagenternas prestanda. Först byggde vi en DRL-arkitektur som lärde sig kontrollera temperaturen i en byggad. Experimenten visar att utforskning av agenten är en grundläggande faktor för träningen av kontrollagenten och man måste finjustera utforskningen av agenten för att nå tillfredsställande prestanda. Slutligen testade vi känsligheten av de tränade DRL-agenterna till adversarial attacker. Dessa test visade att i genomsnitt har det större påverkan på kontrollagenterna att använda DRL metoder än att använda sig av FGSM medans att attackera helt slumpmässigt har nästan ingen påverkan.
|
6 |
Interference Aware Distributed Network Formation with Reinforcement LearningOkur, Berkcan January 2021 (has links)
Ad-hoc networks suffer from dynamicity due to mobility of the nodes or node addition/removal to/from the system. This means, the formed topology may not be connected anymore or better topologies can be found as time passes if the position of the nodes changes or some nodes in the network is broken. Therefore, there is a need for an adaptive solution to make the network’s performance stable against these changes. A centralized manner induces a single point of failure, when the control unit’s service is unavailable, networks can not be formed and communication among the nodes is broken. Hence, a system that distributes the decision-making ability to nodes would be better to increase the robustness of the network. A detailed literature survey about the distributed network formation showed that two critical gaps that need to be filled. Firstly, provided solutions assumed that nodes are using the omnidirectional antennas, hence, they can make transmission and reception in all directions which inherently increases the total interference in the system. Therefore, we come up with the idea of using directional antennas to reduce the interference which requires antennas to point out each other for successful communication. This creates an optimization problem in terms of selecting directions of a certain amount of antennas deployed on a node to maximize the capacity while ensuring connectivity. Secondly, proposed distributed network formation solutions in literature depend on sequential decision-making algorithms that each node waits its turn to make a decision. In that case, deciding or distributing the rank of the nodes is another challenge that needs to be solved by the distributed algorithm. Therefore, in this work, we focused to design a distributed network formation algorithm for a system with directional antennas where all decisions are made simultaneously by nodes in the system. As a result, it is shown that the proposed reinforcement learning-based algorithm is successful and promising to give nodes the ability to adapt to new conditions cooperatively. / Ad-hoc-nätverk lider av dynamik på grund av nodernas mobilitet eller nodtillägg/borttagning till/från systemet. Detta betyder att den bildade topologin kanske inte är ansluten längre eller bättre topologier kan hittas allt eftersom nodernas position ändras eller om några noder i nätverket bryts. Därför finns det ett behov av en adaptiv lösning för att göra nätverkets prestanda stabil mot dessa förändringar. Ett centraliserat sätt inducerar en enda felpunkt, när kontrollenhetens tjänst inte är tillgänglig, nätverk kan inte bildas och kommunikationen mellan noderna bryts. Därför skulle ett system som fördelar beslutsförmågan till noder vara bättre för att öka nätverkets robusthet. En detaljerad litteraturundersökning om den distribuerade nätverksbildningen visade att två kritiska luckor måste fyllas. För det första antog förutsatta lösningar att noder använder rundstrålande antenner, och därför kan de göra sändning och mottagning i alla riktningar, vilket i sig ökar den totala störningen i systemet. Därför kommer vi på idén att använda riktade antenner för att minska störningarna som kräver att antenner pekar ut varandra för framgångsrik kommunikation. Detta skapar ett optimeringsproblem när det gäller att välja riktningar för en viss mängd antenner som är utplacerade på en nod för att maximera kapaciteten samtidigt som anslutningsmöjligheterna säkerställs. För det andra är föreslagna lösningar för distribuerad nätverksbildning i litteraturen beroende av sekventiella beslutsfattande algoritmer som varje nod väntar på sin tur för att fatta ett beslut. I så fall är att bestämma eller fördela nodernas rangordning en annan utmaning som måste lösas av den distribuerade algoritmen. Därför fokuserade vi i detta arbete på att designa en distribuerad nätverksbildningsalgoritm för ett system med riktade antenner där alla beslut fattas samtidigt av noder i systemet. Som ett resultat har det visat sig att den föreslagna förstärkningsinlärningsbaserade algoritmen är framgångsrik och lovande för att ge noder förmågan att anpassa sig till nya förhållanden i samarbete.
|
7 |
Parameter Tuning in a Jet Printing Machine usingReinforcement Learning / Parameterjustering i en jet printermaskin med enFörstärkande inlärningsalgoritmMURTAZA, ALEXANDER January 2021 (has links)
Surface mount technology is a common way to assembly electrical components onto PrintedCircuit Boards (PCB). To assemble the components, solder paste is used. One way to apply solderpaste onto PCB is jet printing.The quality of the solder paste deposits on the PCB depends on the properties of the solder pasteand the ejection parameters settings of the jet printer. Every solder paste is unique with its owncharacteristics. Solder paste dots are of good quality if the positioning of the dot is good, the dotis circular, and the number of satellites is at a minimum. A satellite is a droplet that has fallenoutside the main droplet. The parameters that have the most effect on the solder paste are thewaveform parameters Rise time and Voltage level.This master thesis examined the possibility to design and implement a feedback-based machinelearning algorithm that can find the most suitable value for the Rise time and Voltage level, thatgives good quality of the solder paste deposits. The algorithm that was used was a ReinforcementLearning algorithm. Reinforcement Learning is a reward-based learning algorithm where an agentlearns to interact with an environment by using trial and error. The specific algorithm that wasused was a Deep-Q-Learning algorithm. In this master thesis, it was also examined how the cameraresolution affects the decision of the algorithm. To see the implication of the camera resolution,two machines were used, an older and a newer machine were used where one of the biggestdifferences is that the camera resolution.It was concluded that a Deep-Q-Learning algorithm can be used to find the most suitable value forthe waveform parameters Rise time and Voltage level, which results in specified quality of thesolder paste deposits. It was also concluded that the algorithm converges faster for a lower cameraresolution, but the results obtained are more optional with the higher camera resolution. / Ytmontering är en metod som används för att montera elektriska komponenter på kretskort. Föratt kunna montera komponenterna används lödpasta. En teknik för att applicera lödpasta påkretskort är jet printing.Kvaliteten på lödpastavolymen på ett kretskort beror dels på egenskaperna hos lödpastan, dels påutskjutningssparametrarna hos jetprintern. Varje lödpasta är unik med hänsyn till flödesegenskaper. En lödpastadeposition har god kvalitet om depositionen har en bra position, omdepositionen är cirkulär och om mängden satelliter är minimal. En satellit är en droppe lödpastasom fallit utanför huvuddepositionen. Parametrarna som har störst effekt på lödpasta ärvågformsparameterna stigtid och spänningsnivå.Detta examensarbete undersökte möjligheten att hitta en feedbackbaserad maskininlärningsalgoritm som kan hitta de mest lämpliga värdena för stigtiden och spänningsnivå som ger godkvalitet på lödpastadepositionen. Algoritmen som användes var en Förstärkande inlärningsalgoritm.Förstärkande inlärning är en belöningsbaserad inlärningsalgoritm där en agent lär sig attinteragera med en miljö genom att använda trial and error. Den specifika algoritmen som användesvar en Deep-Q-Learning-algoritm. I examensarbetet undersöktes även hur kameraupplösningenspåverkar algoritmen och dess beslut. För att undersöka detta användes två maskiner, en nyare ochäldre version där att kameraupplösningen är lägre.Slutsatsen som drogs var att en Deep-Q-Learning-algoritm kan användas för att hitta det mestlämpliga värdena för vågformsparametrarna stigtid och spänningsnivå. En annan slutsats somdrogs var att algoritmen konvergerade snabbare när kameraupplösningen är lägre. Parapeternasom är optimala för den kameran med lägre upplösning är inte optimala för den kameran medhögre upplösning.
|
8 |
Managing Climate Overshoot Risk with Reinforcement Learning : Carbon Dioxide Removal, Tipping Points and Risk-constrained RL / Hantering av risk vid överskjutning av klimatmål med förstärkande inlärning : Koldioxidinfångning, tröskelpunkter och riskbegränsad förstärkande inlärningKerakos, Emil January 2024 (has links)
In order to study how to reach different climate targets, scientists and policymakers rely on results from computer models known as Integrated Assessment Models (IAMs). These models are used to quantitatively study different ways of achieving warming targets such as the Paris goal of limiting warming to 1.5-2.0 °C, deriving climate mitigation pathways that are optimal in some sense. However, when applied to the Paris goal many IAMs derive pathways that overshoot the temperature target: global temperature temporarily exceeds the warming target for a period of time, before decreasing and stabilizing at the target. Although little is known with certainty about the impacts of overshooting, recent studies indicate that there may be major risks entailed. This thesis explores two different ways of including overshoot risk in a simple IAM by introducing stochastic elements to it. Then, algorithms from Reinforcement Learning (RL) are applied to the model in order to find pathways that take overshoot risk into consideration. In one experiment we apply standard risk-neutral RL to the DICE model extended with a probabilistic damage function and carbon dioxide removal technologies. In the other experiment, the model is further augmented with a probabilistic tipping element model. Using risk-constrained RL we then train an algorithm to optimally control this model, whilst controlling the conditional-value-at-risk of triggering tipping elements below a user-specified threshold. Although some instability and convergence issues are present during training, in both experiments the agents are able to achieve policies that outperform a simple baseline. Furthermore, the risk-constrained agent is also able to (approximately) control the tipping risk metric below a desired threshold in the second experiment. The final policies are analysed for domain insights, indicating that carbon removal via temporal carbon storage solutions could be a sizeable contributor to negative emissions on a time-horizon relevant for overshooting. In the end, recommended next steps for future work are discussed. / För att studera hur globala klimatmål kan nås använder forskare och beslutsfattare resultat från integrerade bedömningsmodeller (IAM:er). Dessa modeller används för att kvantitativt förstå olika vägar till temperaturmål, så som Parisavtalets mål om att begränsa den globala uppvärmningen till 1.5-2.0 °C. Resultaten från dessa modeller är så kallade ”mitigation pathways” som är optimala utifrån något uppsatt kriterium. När sådana modellkörningar görs med Parismålet erhålls dock ofta optimala pathways som överskjuter temperaturmålet tillfälligt: den globala temperaturen överstiger målet i en period innan den sjunker och till slut stabiliseras vid det satta målet. Kunskapen om vilken påverkan en överskjutning har är idag begränsad, men flertalet nyligen gjorda studier indikerar att stora risker potentiellt kan medföras. I denna uppsats utforskas två olika sätt att inkludera överskjutningsrisk i en enkel IAM genom användandet av stokastiska element. Därefter används Förstärkande Inlärning på modellen för att erhålla modellösningar som tar hänsyn till överkjutningsrisk. I ett av experimenten utökas IAM:en med en stokastisk skadefunktion och tekniker för koldioxidinfångning varpå vanlig Förstärkande Inlärning appliceras. I det andra experimentet utökas modellen ytterligare med en stokastisk modell för tröskelpunkter. Med hjälp av risk-begränsad Förstärkande Inlärning tränas därefter en modell för att optimalt kontrollera denna IAM samtidigt som risken att utlösa tröskelpunkter kontrolleras till en nivå satt av användaren. Även om en viss grad av instabilitet och problem med konvergens observeras under inlärningsprocessen så lyckas agenterna i båda experimenten hitta beslutsregler som överträffar en enkel baslinje. Vidare lyckas beslutsregeln som erhålls i det andra experimentet, med den risk-begränsade inlärningen, approximativt kontrollera risken att utlösa tröskelpunkter till det specificerade värdet. Efter träning analyseras de bästa beslutsreglerna i syfte att finna domänmässiga insikter, varav en av dessa insikter är att temporära kollager kan ge betydande bidrag för koldioxidinfångning i en tidshorisont relevant vid överskjutning. Slutligen diskuteras möjliga nästa steg för framtida arbeten inom området.
|
9 |
Deep Reinforcement Learning on Social Environment Aware Navigation based on MapsSanchez, Victor January 2023 (has links)
Reinforcement learning (RL) has seen a fast expansion in recent years of its successful application to a range of decision-making and complex control tasks. Moreover, deep learning offers RL the opportunity to enlarge its spectrum of complex fields. Social Robotics is a domain that involves challenges like Human-Robot Interaction which bears inspiration for development in deep RL. Autonomous systems demand a fast and efficient environment perception so as to guarantee safety. However, while being attentive to its surrounding, a robot needs to take decisions to navigate optimally and avoid potential obstacles. In this thesis, we investigate a deep RL method for mobile robot end-to-end navigation in a social environment. Using the observation collected in a simulation environment, a convolutional neural network is trained to predict an appropriate set of discrete angular and linear velocities for a robot based on its egocentric local occupancy grid map. We compare a random learning way to a curriculum learning approach to ameliorate speed convergence during training. We divide the main problem by analysing separately end-to-end navigation and obstacle avoidance in static and dynamic environments. For each problem, we propose an adaptation that aims to improve the surrounding awareness of the agent. The qualitative and quantitative evaluations of the investigated approach were performed in simulations. The results show that the end-to-end navigation map-based model is easy to set up and shows similar performance as a Model Predictive Control approach. However, we discern that obstacle avoidance is harder to translate to a deep RL framework. Despite this difficulty, using different RL methods and configurations will definitely help and bring ideas for improvement for future work. / Förstärkande Inlärning (RL) har sett en snabb expansion de senaste åren för sin fruktbara tillämpning på en rad beslutsfattande och komplexa kontrolluppgifter. Dessutom erbjuder djupinlärning RL möjligheten att utöka sitt spektrum till komplexa områden. Social Robotics är en domän som involverar utmaningar som människa-robot interaktion som bär inspiration för utveckling i djup RL. Autonoma system kräver en snabb och effektiv miljöuppfattning för att garantera säkerheten. Men samtidigt som den är uppmärksam på sin omgivning, måste en robot fatta beslut för att navigera optimalt och undvika potentiella hinder. I detta examensarbete undersöker vi en djup RL-metod för mobil robot-end-to-end-navigering i en social miljö. Med hjälp av observationen som samlats in i en simuleringsmiljö tränas ett faltningsneuralt nätverk för att förutsäga en lämplig uppsättning diskreta vinkel- och linjärhastigheter för en robot baserat på dess egocentriska rutnätskarta över lokala beläggningar. Vi jämför ett slumpmässigt inlärningssätt med läroplansinlärningsmetod för att förbättra hastighetskonvergensen. Vi delar upp huvudproblemet genom att separat analysera end-to-end-navigering och undvikande av hinder i statisk och dynamisk miljö. För varje problem föreslår vi en anpassning som syftar till att agenten bättre förstår sin omgivning. De kvalitativa och kvantitativa utvärderingarna av det undersökta tillvägagångssättet utfördes endast i simuleringar. Resultaten visar att den heltäckande navigationskartbaserade modellen är lätt att distribuera och visar liknande prestanda som en modell för prediktiv kontroll. Vi ser dock att undvikande av hinder är svårare att översätta till ett djupt RL-ramverk. Trots denna svårighet kommer användning av olika RL-metoder och konfiguration definitivt att hjälpa och ge idéer om förbättringar för framtida arbete. / L’apprentissage par renforcement (RL) a connu une expansion rapide ces dernières années pour ses applications à une gamme de tâches de prise de décision et de contrôle complexes. Le deep learning offre au RL la possibilité d’élargir son spectre à des domaines complexes. La robotique sociale est un domaine qui implique des défis tels que l’interaction homme-robot, source d’inspiration pour le développement en RL profond. Les systèmes autonomes exigent une perception rapide et efficace de l’environnement afin de garantir la sécurité. Cependant, tout en étant attentif à son environnement, un robot doit prendre des décisions pour naviguer de manière optimale et éviter les obstacles potentiels. Dans cette thèse, nous étudions une méthode de RL profond pour la navigation de bout a bout de robots mobiles dans un environnement social. À l’aide de l’observation recueillie dans un environnement de simulation, un réseau neuronal convolutif prédit un ensemble adapté de vitesses angulaires et linéaires discrètes pour un robot en fonction de sa carte de grille d’occupation locale égocentrique. Nous comparons une méthode d’apprentissage aléatoire à une approche d’apprentissage du curriculum pour accelerer la convergence durant l’entrainement. Nous divisons le problème principal en analysant séparément la navigation de bout a bout et l’évitement d’obstacles dans un environnement statique et dynamique. Pour chaque problème, nous proposons une adaptation visant à ce que l’agent comprenne mieux son environnement. Les évaluations qualitatives et quantitatives de l’approche étudiée ont été effectuées uniquement dans des simulations. Les résultats montrent que le modèle basé sur la carte de navigation de bout en bout est facile à déployer et affiche des performances similaires à celles d’une approche de contrôle prédictif de modèle. Cependant, nous discernons que l’évitement d’obstacles est plus difficile à traduire dans un cadre RL profond. Malgré cette difficulté, l’utilisation de différentes méthodes et configurations RL aidera certainement et apportera une idée d’amélioration pour les travaux futurs.
|
10 |
Model-based Residual Policy Learning for Sample Efficient Mobile Network Optimization / Modell-baserad residual-policyinlärning för dataeffektiv optimering av mobila nätverkEriksson Möllerstedt, Viktor January 2022 (has links)
Reinforcement learning is a powerful tool which enables an agent to learn how to control complex systems. However, during the early phases of training, the performance is often poor. Increasing sample efficiency means that fewer interactions with the environment are necessary before achieving good performance, minimizing risk and cost in real world deployment or saving simulation time. We present a novel reinforcement learning method, which we call Model-based Residual Policy Learning, that learns a residual to an existing expert policy using a model-based approach for maximum sample efficiency. We compared its sample efficiency to several methods, including a state-of-the-art model-free method. The comparisons were done on two tasks: coverage and capacity optimization via antenna tilt control for telecommunication networks, as well as a common robotics benchmark task. Performance was measured as the mean episodic reward collected during training. In the coverage and capacity optimization task, the reward signal was a sum of the log reference signal received power, throughput, and signal to interference plus noise ratio averaged across users in the cells. Our method was more sample efficient than the baselines across the board. The sample efficiency was especially good for the coverage and capacity optimization task. We also found that using an expert policy helped to maintain a good initial performance. In the ablation studies of the two components of our method, the complete method achieved the highest sample efficiency in the majority of the experiments. / Förstärkande inlärning är ett kraftfullt verktyg för att lära en agent att kontrollera komplexa system. Dock så är prestandan oftast dålig i början av träningen. Med att öka dataeffektiviteten menar vi att färre interaktioner med omgivningen är nödvändiga innan en bra prestanda uppnås, vilket minimerar risk och kostnad vid användning i verkligheten, eller minskar simuleringstiden. Vi presenterar en ny metod för förstärkande inlärning vilken vi kallar Modell-baserad residual-policyinlärning, som tränar en korrektionsterm till en expert-policy med hjälp av ett modell-baserat tillvägagångssätt för maximal dataeffektivitet. Vi jämförde dess dataeffektivitet med ett flertal metoder, bland annat en av de främsta modell-fria metoderna. Jämförelsen gjordes på två problem; optimering av täckning och kapacitet för telekommunikationsnätverk via styrning av antennernas nedåtlutning, samt ett vanligt förekommande testproblem inom robotik. Prestandan mättes med den genomsnittliga belöningen per episod insamlad av agenten under träningsprocessen. I täckning och kapacitet optimeringsproblemet så definierade vi belöningssignalen som summan av medelvärdet av logaritmen av den mottagna referenssignalens styrka (RSRP), dataöverföringshastigheten (throughput) och kvoten mellan signal och interferens plus brus (SINR) över antalet användare i cellerna. Vår metod var mer dataeffektiv än de som vi jämförde med i samtliga experiment. Dataeffektiviteten var särskilt hög för optimering av täckning och kapacitet. Vi fann även att användningen av en expert-policy hjälpte till att bibehålla en bra tidig prestanda. En ablationsstudie av vår metods två komponenter visade att den fullständiga metoden hade bäst dataeffektivitet i majoriteten av experimenten.
|
Page generated in 0.1021 seconds