Global ETD Search

1	Improving robustness of beyond visual range strategies with adapted training distributions / Förbättring av robustheten i luftstridsstrategier bortom visuell räckvidd med anpassat träningsmotstånd Malmgren, Dennis January 2022 (has links) A key obstacle for training an autonomous agent in real air-to-air combat is the lack of available training data, which makes it difficult to apply supervised learning techniques. Self-play is a method that can be used where an agent trains against itself or against versions of itself without imitation data or human instruction. Agents training only against themselves learn brittle strategies that do not generalize very well, which is why training against a distribution of strategies is necessary to improve robustness. In this thesis, we study two problems. First, what is a robust strategy, and how do we evaluate it? Secondly, how do we increase the robustness of strategies learned in a self-play setting by adapting the training distribution? The problems are significant to study because self-play is a very promising method of training not only for air combat but in any non-cooperative problem setting where a simulator can be used to gather training data with no human in the loop. Specifically, in the aircraft industry, the cost of gathering samples is incredibly high. To evaluate the robustness of a population of strategies we turned to evolutionary game theory and connected theα-rank algorithm to what we perceive as robustness. Theα-rank induces a strict ordering over the set, which we then take as an evaluation of the robustness of the strategies. We validated that a highα-rank correlated well with performing well in an out of population evaluation. To study how the robustness of a population correlated with training distributions, we trained populations against four different training distributions. We used the uniform, δ-uniform, andα-rank distributions that rely on no information, information on the training process, and information on the robustness of agents, respectively. We also designed a novel amortizedα-rank training distribution that combines the information behind the δ-uniform and α-rank distributions, and we showed that it induced superior robustness properties in the learned strategies. Our efforts indicate that even better training distributions can be produced, which is useful when looking at using self-play in the future. / Ett stort hinder vid träning av en autonom agent för riktig luftstrid är bristen på träningsdata vilket gör det svårt att applicera övervakad inlärning. Självspelande är en metod där agenter tränar mot sig själva eller mot versioner av sig själva utan tillgång till data att imitera och utan mänsklig instruktion. Agenter som tränar enbart mot sig själva lär sig dock sköra strategier som inte generaliserar tillräckligt väl. Därför krävs träning mot en distribution av strategier för att en agent ska kunna bli robust. I denna uppsats studerar vi två problem. Ett, vad är en robust strategi och hur utvärderar vi den? Två, hur ökar vi robustheten hos strategier som tränats fram via självspelande genom att anpassa träningsdistributionen? Problemen är relevanta att studera på grund av att självspelande är en lovande metod som kan användas inte bara för luftstrid utan för ett brett spektrum av icke-kooperativa problemområden där en simulator kan användas för att genomföra datainsamling utan en människa i loopen. Speciellt inom flygplansindustrin är kostnaden för insamling av riktig träningsdata extremt hög. För att utvärdera robustheten i en population av strategier vände vi oss tillevolutionär spelteori och koppladeα-rank-algoritmen till vad vi uppfattar som robusthet.α-rank, som vi tolkar som en utvärdering av robusthet, induceraren strikt ranking över en mängd av strategier. Vi validerade att en högα-rankkorrelerade väl med goda resultat vid en utvärdering av strategierna i en annan population. För att studera hur robustheten i en population korrelerade med användandet av olika träningsdistributioner tränade vi populationer mot fyra olika tränings-distributioner. Vi använde den uniforma distributionen, den δ-uniforma distributionen ochα-rank-distributionen, som baseras på ingen information, information om träningsprocessen respektive information om agenternas robusthet. Videsignade även en amorteradα-rank-distribution, som kombinerar informationen bakom den δ-uniforma distributionen ochα-rank-distributionen, och vi visade att träning mot den nya distributionen resulterade i mer robusta strategier. Våra resultat indikerar att det är möjligt att skräddarsy ännu bättre träningsdistributioner, vilket är användbart när vi tittar på att utnyttja själv-spelande i högre grad i framtiden. Reinforcement Learning Game Theory Air Combat Neural Networks Förstärkningsinlärning Spelteori Luftstrid Neuronnät Computer and Information Sciences Data- och informationsvetenskap
2	Artificiella neurala nät för datorseende hos en luftmålsrobot / Artificial Neural Nets for Computer Vision with an Air-target Missile Hård af Segerstad, Per January 2018 (has links) Studiens syfte är att öka förståelsen för möjligheterna med modern artificiell intelligens (AI) vid militär användning genom att bidra med information om ny teknik. Moderna civila applikationer av datorseende som skapats genom användande av så kallade artificiella neurala nät visar resultat som närmar sig den mänskliga synens nivå när det gäller att känna igen olika saker i sin omgivning. Denna studie motiveras av dessa observationer inom området AI i förhållande till situationer i luftstrid då pilotens syn används för att känna igen flygplan innan det bekämpas. Exempelvis vid användande av hjälmsikte riktar pilotens ögon målsökaren hos en luftmålsrobot mot det flygplan som robotens målsökare sedan låser på. Utanför visuella avstånd kan pilotens ögon av naturliga skäl inte användas på detta sätt, varför datorseende använt i en luftmålsrobot undersöks. Resultaten från studien stödjer att datorseende genom användande av artificiella neurala nät kan användas i en luftmålsrobot samt att datorseende kan utföra uppgiften att känna igen stridsflygplan. / This study is aimed at increasing the knowledge to those concerned within the Armed Forces by providing information on the possibilities of modern artificial intelligence (AI). Motivation comes from observations of civilian technology on the use of AI in the field of Computer Vision showing performance equaling the level of the human vision when using the technology of Deep Learning of Artificial Neural Nets. In air-combat aircraft the pilot´s vision is used for recognizing the aircraft that is about to be shot down. For example when utilizing helmet mounted displays, the seeker of an air-target-missile is directed upon the aircraft on which the pilot´s eyes are looking. However when air-target-missiles are utilized beyond visual range the pilot´s vision cannot help in directing the seeker on a specific target. Therefore computer vision within an air-target-missile is studied. The results of the study support that the technology of neural networks may be used in an air-target-missile and that computer vision provided by this technology can do the job of recognizing a combat aircraft. Military utility Artificial Intelligence Computer Vision Deep Learning Artificial Neural Networks Air-target Missile Air-Combat Militär nytta Artificiell Intelligens datorseende djupinlärning artificiella neurala nät luftmålsrobot luftstrid Övrig annan teknik

Search results

Improving robustness of beyond visual range strategies with adapted training distributions / Förbättring av robustheten i luftstridsstrategier bortom visuell räckvidd med anpassat träningsmotstånd

Artificiella neurala nät för datorseende hos en luftmålsrobot / Artificial Neural Nets for Computer Vision with an Air-target Missile