Return to search

Interaction Aware Decision Making for Automated Vehicles Based on Reinforcement Learning

Decision-making is one of the key challenges blocking full autonomy of automated vehicles. In highway scenarios, automated vehicles are expected to be aware of their surroundings and make decisions by interacting with other road participants to drive safely and efficiently. In this thesis, one and multistep lookahead rollout algorithm and its variants are applied to address this problem. The results are evaluated using metrics related to safety and efficiency and compared with the DQN baseline. To improve the collision-avoidance performance of the ego-vehicle, I combine the idea of fortified rollout and rollout with multiple heuristics and propose the safe rollout method for the decision-making problem of automated vehicles. The experimental results show that the rollout agents have decent decision-making performance and can outperform the DQN baseline by collecting higher total reward. Experiments are also conducted to investigate the agent’s ability to adapt to varying behaviour of surrounding vehicles, as well as the impact of different horizon and reward function setting. The difference between deterministic and stochastic problems and its impact on the performance of different rollout agents is discussed. Two approaches to implement data-driven simulation are presented, and the feasibility of utilizing these data-driven simulator as control and decision support is investigated. / Beslutsfattande är en av de viktigaste utmaningarna som blockerar full autonomi för automatiserade fordon. I motorvägsscenarier, förväntas automatiserade fordon att vara medvetna om sin omgivning och fatta beslut genom att samspela med andra vägdeltagare för att köra säkert och effektivt. I den här avhandlingen tillämpas en och flerstegs lookahead-utrullningsalgoritm och dess varianter för att lösa detta problem. Resultaten utvärderas med hjälp av mått relaterade till säkerhet och effektivitet och jämförs med DQN-baslinjen. För att förbättra ego-fordonets kollisionsundvikande prestanda kombinerar jag idén om förstärkt utrullning och utrullning med flera heuristiker och föreslår den säkra utrullningsmetoden för beslutsfattande problem med automatiserade fordon. De experimentella resultaten visar att utrullningsagenterna har rimligt beslutsfattande prestanda och kan prestera bättre än DQN-baslinjen med högre total belöning. Experiment genomförs också för att undersöka agentens förmåga att anpassa sig till olika beteenden hos omgivande fordon, samt påverkan av olika horisont- och belöningsfunktionsinställningar. Skillnaden mellan deterministiska och stokastiska problem och dess inverkan på prestandan hos olika utrullningsagenter diskuteras. Två tillvägagångssätt för att implementera datadriven simulering presenteras, och möjligheten att använda dessa datadrivna simulatorer som styr- och beslutsstöd undersöks.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-321527
Date January 2022
CreatorsWang, Ning
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2022:721

Page generated in 0.0016 seconds