Return to search

S-MARL: An Algorithm for Single-To-Multi-Agent Reinforcement Learning : Case Study: Formula 1 Race Strategies

A Multi-Agent System is a group of autonomous, intelligent, interacting agents sharing an environment that they observe through sensors, and upon which they act with actuators. The behaviors of these agents can be either defined upfront by programmers or learned by trial-and-error resorting to Reinforcement Learning. In this last context, the approaches proposed by literature can be categorized either as Single-Agent or Multi-Agent. The former approaches experience more stable training at the cost of defining upfront the policies of all the agents that are not learning, with the risk of limiting the performances of the learned policy. The latter approaches do not have such a limitation but experience higher training instability. Therefore, we propose a new approach based on the transition from Single-Agent to Multi-Agent Reinforcement Learning that exploits the benefits of both approaches: higher stability at the beginning of the training to learn the environment’s dynamics, and unconstrained agents in the latest phases. To conduct this study, we chose Formula 1 as the Multi-Agent System, a complex environment with more than two interacting agents. In doing so, we designed a realistic racing simulation environment, framed as a Markov Decision Process, able to reproduce the core dynamics of races. After that, we trained three agents based on Semi-Gradient Q-Learning with different frameworks: pure Single-Agent, pure Multi-Agent, and Single-to-Multi-Agent. The results established that, given the same initial conditions and training episodes, our approach outperforms both the Single-Agent and Multi-Agent frameworks, obtaining higher scores in the proposed benchmarks. / Ett system med flera agenter är en grupp autonoma, intelligenta, interagerande agenter som delar en miljö som de observerar med hjälp av sensorer och som de agerar på med hjälp av agenter. Beteendena hos dessa agenter kan antingen definieras i förväg av programmerare eller läras in genom försök och misstag med hjälp av förstärkningsinlärning. I det sistnämnda sammanhanget kan de metoder som föreslagits i litteraturen kategoriseras som antingen en eller flera agenter. De förstnämnda tillvägagångssätten ger en stabilare utbildning till priset av att man i förväg måste definiera politiken för alla de agenter som inte lär sig, vilket innebär en risk för att den inlärda politikens prestanda begränsas. De senare metoderna har inte en sådan begränsning men upplever en högre instabilitet i utbildningen. Därför föreslår vi en ny metod som bygger på övergången från förstärkningsinlärning med en agent till förstärkningsinlärning med flera agenter och som utnyttjar fördelarna med båda metoderna: högre stabilitet i början av utbildningen för att lära sig miljöns dynamik och agenter utan begränsningar i de senaste faserna. För att genomföra den här studien valde vi Formel 1 som ett system med flera agenter, en komplex miljö med mer än två interagerande agenter. Vi utformade därför en realistisk simulering av tävlingar som är utformad som en Markov-beslutsprocess och som kan återge den centrala dynamiken i tävlingar. Därefter tränade vi tre agenter baserat på Semi-Gradient Q-Learning med olika ramar: ren Single-Agent, ren Multi-Agent och Single-to-Multi-Agent. Resultaten visade att vår metod, med samma startvillkor och träningsepisoder, överträffar både Single-Agent- och Multi-Agent-ramarna och får högre poäng i de föreslagna riktmärkena.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-328238
Date January 2023
CreatorsDavide, Marinaro
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2023:201

Page generated in 0.0026 seconds