Return to search

Improving robustness of beyond visual range strategies with adapted training distributions / Förbättring av robustheten i luftstridsstrategier bortom visuell räckvidd med anpassat träningsmotstånd

A key obstacle for training an autonomous agent in real air-to-air combat is the lack of available training data, which makes it difficult to apply supervised learning techniques. Self-play is a method that can be used where an agent trains against itself or against versions of itself without imitation data or human instruction. Agents training only against themselves learn brittle strategies that do not generalize very well, which is why training against a distribution of strategies is necessary to improve robustness. In this thesis, we study two problems. First, what is a robust strategy, and how do we evaluate it? Secondly, how do we increase the robustness of strategies learned in a self-play setting by adapting the training distribution? The problems are significant to study because self-play is a very promising method of training not only for air combat but in any non-cooperative problem setting where a simulator can be used to gather training data with no human in the loop. Specifically, in the aircraft industry, the cost of gathering samples is incredibly high. To evaluate the robustness of a population of strategies we turned to evolutionary game theory and connected theα-rank algorithm to what we perceive as robustness. Theα-rank induces a strict ordering over the set, which we then take as an evaluation of the robustness of the strategies. We validated that a highα-rank correlated well with performing well in an out of population evaluation. To study how the robustness of a population correlated with training distributions, we trained populations against four different training distributions. We used the uniform, δ-uniform, andα-rank distributions that rely on no information, information on the training process, and information on the robustness of agents, respectively. We also designed a novel amortizedα-rank training distribution that combines the information behind the δ-uniform and α-rank distributions, and we showed that it induced superior robustness properties in the learned strategies. Our efforts indicate that even better training distributions can be produced, which is useful when looking at using self-play in the future. / Ett stort hinder vid träning av en autonom agent för riktig luftstrid är bristen på träningsdata vilket gör det svårt att applicera övervakad inlärning. Självspelande är en metod där agenter tränar mot sig själva eller mot versioner av sig själva utan tillgång till data att imitera och utan mänsklig instruktion. Agenter som tränar enbart mot sig själva lär sig dock sköra strategier som inte generaliserar tillräckligt väl. Därför krävs träning mot en distribution av strategier för att en agent ska kunna bli robust. I denna uppsats studerar vi två problem. Ett, vad är en robust strategi och hur utvärderar vi den? Två, hur ökar vi robustheten hos strategier som tränats fram via självspelande genom att anpassa träningsdistributionen? Problemen är relevanta att studera på grund av att självspelande är en lovande metod som kan användas inte bara för luftstrid utan för ett brett spektrum av icke-kooperativa problemområden där en simulator kan användas för att genomföra datainsamling utan en människa i loopen. Speciellt inom flygplansindustrin är kostnaden för insamling av riktig träningsdata extremt hög. För att utvärdera robustheten i en population av strategier vände vi oss tillevolutionär spelteori och koppladeα-rank-algoritmen till vad vi uppfattar som robusthet.α-rank, som vi tolkar som en utvärdering av robusthet, induceraren strikt ranking över en mängd av strategier. Vi validerade att en högα-rankkorrelerade väl med goda resultat vid en utvärdering av strategierna i en annan population. För att studera hur robustheten i en population korrelerade med användandet av olika träningsdistributioner tränade vi populationer mot fyra olika tränings-distributioner. Vi använde den uniforma distributionen, den δ-uniforma distributionen ochα-rank-distributionen, som baseras på ingen information, information om träningsprocessen respektive information om agenternas robusthet. Videsignade även en amorteradα-rank-distribution, som kombinerar informationen bakom den δ-uniforma distributionen ochα-rank-distributionen, och vi visade att träning mot den nya distributionen resulterade i mer robusta strategier. Våra resultat indikerar att det är möjligt att skräddarsy ännu bättre träningsdistributioner, vilket är användbart när vi tittar på att utnyttja själv-spelande i högre grad i framtiden.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-312257
Date January 2022
CreatorsMalmgren, Dennis
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageEnglish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2022:36

Page generated in 0.0019 seconds