Global ETD Search

1	Extracting Behaviour Trees from Deep Q-Networks : Using learning from demostration to transfer knowledge between models. / Extraktion av beteendeträd från djupa Q-nätverk Nordström, Zacharias January 2020 (has links) In recent years the advancement in machine learning have solved more and more complex problems. But still these techniques are not commonly used in the industry. One problem is that many of the techniques are black boxes, it is hard to analyse them to make sure that their behaviour is safe. This property makes them unsuitable for safety critical systems. The goal of this thesis is to examine if the deep learning technique Deep Q-network could be used to create a behaviour tree that can solve the same problem. A behaviour tree is a tree representation of a flow structure that is used for representing behaviours, often used in video games or robotics. To solve the problem two simulators are used, one models a cart that shall balance a pole called cart pole, the other is a static world which needs to be navigated called grid world. Inspiration is taken from the learning from demonstration field to use the Deep Q-network as a teacher and then create a decision tree. During the creation of the decision tree two attributes are used for pruning; to look at the trees accuracy or performance. The thesis then compare three techniques, called Naive, BT Espresso, and BT Espresso Simplified. The techniques are used to transform the extracted decision tree into a behaviour tree. When it comes to the performance of the created behaviour trees they all manage to complete the simulator scenarios in the same, or close to, capacity as the trained Deep Q-network. The trees created from the performance pruned decision tree are generally smaller and less complex, but they have worse accuracy. For cart pole the trees created from the accuracy pruned tree has around 10 000 nodes but the performance pruned trees have around 10-20 nodes. The difference in grid world is smaller going from 35-45 nodes to 40-50 nodes. To get the smallest tree with the best performance then the performance pruned tree should be used with the BT Espresso Simplified algorithm. This thesis have shown that it is possible to use knowledge from a trained Deep Q-network model to create a Behaviour tree that can complete the same task. / Under de senaste åren har ett antal framsteg inom maskininlärning gjorts vilket har lett till att mer och mer komplexa problem har kunnat lösas. Dock är dessa tekniker ofta inte använda av industrin. Ett av problemen är att många av de bättre teknikerna beter sig som svarta lådor, det är väldigt svårt att analyser vad de kommer att göra. Denna egenskap gör att de inte är lämpliga att användas i säkerhetskritiska system. Målet med denna avhandling är att undersöka möjligheten att använda den djupa inlärningstekniken djupa q-nätverk kan användas för att skapa ett beteendeträd som är kapabelt att lösa samma problem. Ett beteendeträd är en flödesstruktur som används för att representera beteenden, ofta använt i dataspel eller för robotar. För att undersöka problemet så används två simulatorer, den ena modellerar en vagn som ska balansera en stav och kallas vagnstav (cart pole). Den andra simulatorn är en statisk värld där målet för agenten är att ta sig till en definierad målplats, vilken kallas rutvärld (grid world). För att lösa problemet tas inspiration från ett angränsande fält kallat inlärning från demonstration. Istället för att använda en mänsklig lärare ansätts det djupa q-nätverket som lärare och används för att skapa ett beslutsträd. Beslutsträdet är sedan reducerat genom att kolla på trädets träffsäkerhet eller hur mycket belöning trädet får. Tre tekniker jämförs för att transformera beslutsträdet till ett beteendeträd, teknikerna heter Naiv, BT Espresso och BT Espresso förenklad. Alla skapade beteendeträd lyckas klara av problemet i simulatorn de är skapade för. De hade liknande prestanda som det djupa q-nätverket. När beslutsträden var reducerat på belöning resulterade det i generellt mindre beteendeträd, dock så hade de inte full träffsäkerhet mot det djupa q-nätverket. För vagnstav simulatorn hade beteendeträden som skapats från träffsäkerhets beslutsträden runt 10 000 noder, mot belönings kapade träd som hade runt 10–20 noder. I rutvärlden var skillnaden mindre med 40–50 noder för träd skapade från träffsäkerhet reducerade beslutsträde och 35–45 noder för belöning reducerade beslutsträd. Denna avhandling har påvisat att det går att skapa beteende träd från en tränad djup q-nätverksmodell för ett scenario och om det minsta trädet som klarar scenariot är att önskat bör belönings reducerade beslutsträd användas med BT Espresso förenkling algoritmen. Behaviour tree deep q-network extraction Computer Sciences Datavetenskap (datalogi)
2	Evaluating how Non-player Character personalities affect the game experience in Future Happiness Challenge Nermansson, Niklas January 2016 (has links) Artificial Intelligence (AI) is used in many games and quite often the Non-Player Character(NPC)s simulate humans. To make the human NPCs believable and feel alive they need to be as human-like as possible in their behaviour. Three features commonly used to make an NPC human-like are needs, like eating or sleeping, social relationships and personalities. The objective of this thesis was to create an AI with different personalities that the NPCs may have in the game Future Happiness Challenge (FHC) and compare these personalities as well as try to find out whether personalities enhance the game experience. Three different personalities are implemented; Selfish, Selfless and Balanced. These are used as FHC presents the option to play either selfish or selfless. It can be played as a team or as an individualist that does not care about the others. This thesis tries to answer the question whether a player prefers a selfless NPC to a selfish in a game where this option is available. These extremes are also compared to a balanced NPC. When implementing the AI and the personalities, a Behaviour Tree (BT) was used and the main features of this implementation is presented to give an example of how personalities can be implemented in a game like FHC. The results suggest that personalities enhance the game experience and an interesting correlation can be seen between the players preference of an NPC and their own personality when playing the game. Rather than always preferring a selfish or a selfless NPC, the players seem to prefer the NPC which has a personality closely related to their own within the game. / Artificiell intelligens (AI) används i många spel och det är vanligt att datorstyrda karaktärer (Non-Player Characters) föreställer människor. För att göra dessa karaktärer trovärdiga och ge känslan av att leva så behöver deras beteenden göras så mänskliga som möjligt. Tre egenskaper som ofta används för att göra karaktärerna mänskliga är behov, såsom att äta eller sova, sociala relationer och personligheter. Målet med det här arbetet var att skapa en AI med olika personligheter som karaktärerna kan ha i spelet Future Happiness Challenge (FHC) och jämföra dessa personligheter samt försöka ta reda på om personligheter ökar spelupplevelsen. Tre olika personligheter implementerades; självisk, osjälvisk och balanserad. Dessa valdes då FHC ger spelaren möjligheten att spela antingen själviskt eller osjälviskt. Det kan spelas som ett lag eller som en egoist som inte bryr sig om de andra. Denna rapport försöker svara på frågan om spelaren föredrar en osjälvisk karaktär över en självisk i ett spel där denna möjlighet finns. Dessa extrema personligheter jämförs också med en balanserad. Under utvecklingen av AIn och personligheterna användes tekniken Behaviour Tree (BT) och större delen av implementationen är presenterad i detta arbete för att ge ett exempel på hur personligheter kan implementeras i ett spel som FHC. Resultaten föreslår att personligheter ökar spelupplevelsen och ett intressant samband kan ses mellan spelarnas preferens av NPC och spelarnas personligheter i FHC. Istället för att alltid föredra en självisk eller osjälvisk NPC, verkar spelarna föredra den NPC som har en personlighet lik sin egen i spelet. Artificial Intelligence Non-Player Character Personalities Behavior Tree Artificiell intelligens Non-Player Character Personligheter Behaviour Tree Software Engineering Programvaruteknik
3	Evaluating behaviour tree integration in the option critic framework in Starcraft 2 mini-games with training restricted by consumer level hardware Lundberg, Fredrik January 2022 (has links) This thesis investigates the performance of the option critic (OC) framework combined with behaviour trees (BTs) in Starcraft 2 mini-games when training time is constrained by a time frame limited by consumer level hardware. We test two such combination models: BTs as macro actions (OCBT) and BTs as options (OCBToptions) and measure the relative performance to the plain OC model through an ablation study. The tests were conducted in two of the mini-games called build marines (BM) and defeat zerglings and banelings (DZAB) and a set of metrics were collected, including game score. We find that BTs improve the performance in the BM mini-game using both OCBT and OCBToptions, but in DZAB the models performed equally. Additionally, results indicate that the improvement in BM scores does not stem solely from the complexity of the BTs but from the OC model learning to use the BTs effectively and learning beneficial options in relation to the BT options. Thus, it is concluded that BTs can improve performance when training time is limited by consumer level hardware. / Denna avhandling undersöker hur kombinationen av option critic (OC) ramverket och beteendeträd (BT) förbättrar resultatet i Starcraft 2 minispel när träningstiden är begränsad av konsumenthårdvara. Vi testar två kombinationsmodeller: BT som makrohandlingar (OCBT) och BT som options (OCBToptions) och mäter den relativa förbättringen jämte OC modellen med en ablationsstudie. Testen utfördes i två minispel build marines (BM) och defeat zerglings and banelings (DZAB) och olika typer av data insamlades, bland annat spelpoängen. Vi fann att BT förbättrade resultatet i BM på båda hierarkiska nivåerna men i DZAB var resultaten ungefär lika mellan de olika modellerna. Resultaten indikerar också att förbättringen i BM inte beror bara på BT komplexitet utan på att OC modellen lär sig att använda BT och lär sig options som kompletterar dess BT options. Vi finner därför att BT kan förbättra resultaten när träningen är begränsad av konsumenthårdvara. Hierarchical reinforcement learning reinforcement learning behaviour tree option critic Starcraft 2 Hierarkiskt förstärkningsinlärning förstärkningsinlärning beteendeträd option critic Starcraft 2 Computer Sciences Datavetenskap (datalogi)

1

Page generated in 0.0335 seconds