Global ETD Search

31	Reinforcement Learning in Problems with Continuous Action Spaces : a Comparative Study Larsson, Axel January 2021 (has links) Reinforcement learning (RL) is one of the three main areas in machine learning (ML) with a solid theoretical background and progress. Generally, RL can provide solutions to many real- world applications, such as self-driving cars and protein folding. A class of RL problems with an infinite number of actions from each state has recently received significant attention, namely infinite action space RL problems. There are several standard algorithms for RL problems, and depending on the nature of the problem, one should choose a proper RL algorithm which can be a challenging task. To compare RL algorithms, we carefully implement them on different tasks and store the relevant results. To have a fair comparison, we tune the algorithms and iteratively test and update them beforehand. This study compares four different RL algorithms. Our results show that the RL algorithms that store the steps of their path, or have a model for the environment, have the highest rate of convergence. By updating the value of every step of the path after a reward, instead of only looking backward a single step, the algorithms find a solution faster and more often. Having a model to help the algorithm plan ahead also contributed to faster and more stable learning. RL algorithms that use a deep neural network for evaluation are the least stable. Our results can provide a good basis for selecting appropriate algorithms for infinite action space RL problems. It can be built upon, simplifying the development of improvements for researchers on the RL algorithms that exist today. / Förstärkningsinlärning är ett av de tre huvudområdena inom maskininlärning med en stark teoretisk bakgrund och stor utveckling. I allmänhet kan förstärkningsinlärning tillhandahålla lösningar för många applikationer som används i praktiken, såsom självkörande bilar och proteinveckning. En klass av förstärkningsinlärningsproblem med oändligt antal handlingar från varje tillstånd har nyligen fått betydande uppmärksamhet, nämligen förstärkningsinlärningsproblem med oändliga handlingsrum. Det finns flera standardalgoritmer för förstärkningsinlärningsproblem och en utmanande uppgift blir därför att välja en passande förstärkningsinlärningsalgoritm beroende på problemets natur. För att jämföra algoritmerna implementerar vi dem noggrant på olika uppgifter och lagrar relevanta resultat. För att få en rättvis jämförelse justerar vi och testar algoritmerna iterativt och uppdaterar dem i förväg. Denna studie jämför fyra olika förstärkningsinlärningsalgoritmer. Våra resultat visar att de algoritmer som lagrar varje steg under vägen, eller har en modell för miljön, har den högsta konvergensgraden. Genom att uppdatera värdet för varje steg på vägen efter en belöning, istället för att bara se bakåt ett steg, hittar algoritmerna en lösning snabbare och oftare. Att ha en modell för att hjälpa algoritmen att planera sina handlingar bidrar också till snabbare och mer stabilt lärande. Förstärkningsinlärningsalgoritmer som använder ett djupt neuralt nätverk för evaluering är minst stabila. Våra resultat kan ge en bra grund för att välja lämpliga algoritmer för förstärkningsinlärningsproblem med oändliga handlingsrum. Det här kan byggas vidare på, vilket förenklar utvecklingen av förbättringar för forskare på de förstärkningsinlärningsalgoritmer som finns idag. Actor-critic deep learning machine learning reinforcement learning Q-learning. Aktör-kritiker djupinlärning förstärkningsinlärning maskininlärning Q- inlärning. Computer and Information Sciences Data- och informationsvetenskap
32	Route Planning of Transfer Buses Using Reinforcement Learning / Ruttplanering av Transferbussar med Förstärkningsinlärning Holst, Gustav January 2020 (has links) In route planning the goal is to obtain the best route between a set of locations, which becomes a very complex task as the number of locations increase. This study will consider the problem of transfer bus route planning and examines the feasibility of applying a reinforcement learning method in this specific real-world context. In recent research, reinforcement learning methods have emerged as a promising alternative to classical optimization algorithms when solving similar problems. This due to their positive properties in terms of scalability and generalization. However, the majority of said research has been performed on strictly theoretical problems, not using real-world data. This study implements an existing reinforcement learning model and adapts it to fit the realms of transfer bus route planning. The model is trained to generate optimized routes in terms of time and cost consumption. Then, routes generated by the trained model are evaluated by comparing them to corresponding manually planned routes. The reinforcement learning model produces routes that outperforms manually planned routes with regards to both examined metrics. However, due to delimitations and assumptions made during the implementation, the explicit differences in consumptions are considered promising but cannot be taken as definite results. The main finding is the overarching behavior of the model, implying a proof of concept; reinforcement learning models are usable tools in the context of real-world transfer bus route planning. / Inom ruttplanering är målet att erhålla den bästa färdvägen mellan en uppsättning platser, vilket blir en mycket komplicerad uppgift i takt med att antalet platser ökar. Denna studie kommer att behandla problemet gällande ruttplanering av transferbussar och undersöker genomförbarheten av att tillämpa en förstärkningsinlärningsmetod på detta verkliga problem. I nutida forskning har förstärkningsinlärningsmetoder framträtt som ett lovande alternativ till klassiska optimeringsalgoritmer för lösandet av liknande problem. Detta på grund utav deras positiva egenskaper gällande skalbarhet och generalisering. Emellertid har majoriteten av den nämnda forskningen utförts på strikt teoretiska problem. Denna studie implementerar en befintlig förstärkningsinlärningsmodell och anpassar den till att passa problemet med ruttplanering av transferbussar. Modellen tränas för att generera optimerade rutter, gällande tids- och kostnadskonsumtion. Därefter utvärderas rutterna, som genererats av den tränade modellen, mot motsvarande manuellt planerade rutter. Förstärkningsinlärningsmodellen producerar rutter som överträffar de manuellt planerade rutterna med avseende på de båda undersökta mätvärdena. På grund av avgränsningar och antagandet som gjorts under implementeringen anses emellertid de explicita konsumtionsskillnaderna vara lovande men kan inte ses som definitiva resultat. Huvudfyndet är modellens övergripande beteende, vilket antyder en konceptvalidering; förstärkningsinlärningsmodeller är användbara som verktyg i sammanhanget gällande verklig ruttplanering av transferbussar. Route Planning Reinforcement Learning Neural Networks Transfer Buses Combinatorial Optimization Ruttplanering Förstärkningsinlärning Neurala Nätverk Transferbussar Kombinatorisk Optimering Other Computer and Information Science Annan data- och informationsvetenskap
33	Safe Reinforcement Learning for Human-Robot Collaboration : Shielding of a Robotic Local Planner in an Autonomous Warehouse Scenario / Säker förstärkningsinlärning för samarbete mellan människa och robot : Skydd av en lokal robotplanerare i ett autonomt lagerscenario Vordemann, Lukas January 2022 (has links) Reinforcement Learning (RL) is popular to solve complex tasks in robotics, but using it in scenarios where humans collaborate closely with robots can lead to hazardous situations. In an autonomous warehouse, mobile robotic units share the workspace with human workers which can lead to collisions, because the positions of humans or non-static obstacles are not known by the robot. Such a scenario requires the robot to use some form of visual input from a lidar sensor or RGB camera, to learn how to adjusts its velocity commands to keep a safe distance and reduced speed when approaching obstacles. This is essential to train an RL-based robotic controller to be safe, however, it does not address the issue to make training itself safer, which in foresight is crucial to enable real-world training. This thesis proposes an agent setup with modified reward structure to train a local planner for a Turtlebot robot with lidar sensor that satisfies safety while maximizing the RL reward. Additionally, it presents a shielding approach that can intervene on a complex controller, by using a safe, sub-optimal backup policy in case the agent enters unsafe states. Two agents, an unshielded agent and one with shielding, are trained with this method in a simulated autonomous warehouse to investigate the effects of shielding during training. For evaluation we compare four conditions: Both agents are deployed once with activated shield and once without it. Those four conditions are analysed in regards to safety and efficiency. Finally, a comparison to the performance of the baseline Trajectory Planner is conducted. The results show that shielding during training facilitates task completion and reduces collisions by 25% compared to the unshielded agent. On the other hand, unshielded training yields better safety results during deployment. Generally, an active shield during deployment contributes to efficiency of the agent, independent of the training setup. The system design is integrated into the Robot Operating System (ROS) where its modular design makes the method compatible with different (RL) algorithms and deployable in OpenAI gym environments. / Reinforcement learning (RL) är en vanlig metod för att lösa komplexa uppgifter inom robotik. Användningen av den i scenarier där människor arbetar nära robotar kan dock leda till farliga situationer. I ett autonomt lager delar mobila robotenheter arbetsområdet med mänskliga arbetare, vilket kan leda till kollisioner eftersom roboten inte känner till människornas positioner eller icke-statiska hinder. I ett sådant scenario måste roboten använda någon form av visuell information från en lidarsensor eller RGB-kamera för att lära sig hur den ska anpassa sina hastighetsinstruktioner för att hålla ett säkert avstånd och minskad hastighet när den närmar sig hinder. Detta är viktigt för att träna RL-baserad robotstyrning så att den blir säker. Det löser dock inte problemet med att göra själva utbildningen säkrare, vilket är avgörande för att möjliggöra utbildning i den verkliga världen. I det här examensarbeten presenteras en agentuppsättning med en modifierad belöningsstruktur för att träna en lokal planerare för en Turtlebot robot med en lidarsensor. Detta ger säkerhet samtidigt som belöningen maximeras. Dessutom presenteras en skyddsmekanism som kan ingripa i det komplexa styrsystemet och byta till ett säkert, suboptimalt reservstyrprogram om agenten hamnar i osäkra tillstånd. Två agenter tränas med denna metod i ett simulerat autonomt lager, en agent utan och en med sköld, för att undersöka effekterna av sköldning under träningen. Fyra konfigurationer jämförs för utvärdering: Båda ämnena används en gång med skölden aktiverad och en gång utan. Dessa fyra konfigurationer analyseras med avseende på säkerhet och effektivitet. Slutligen görs en jämförelse med Trajectory Planner som utgångspunkt. Resultaten visar att skydd under träningen gör det lättare att slutföra uppgiften snabbare och minskar antalet kollisioner med 25% jämfört med en agent utan skydd. Å andra sidan leder träning utan avskärmning till bättre säkerhetsmätningar under arbetet. Generellt sett bidrar en aktiv sköld under installationen till agentens effektivitet, oavsett hur utbildningen är upplagd. Systemet är integrerat i Robot Operating System (ROS). Dess modulära utformning möjliggör kompatibilitet med olika RL-algoritmer, liksom användning av metoden i OpenAI gymmiljöer. Human-Robot Collaboration Safe Reinforcement Learning Shielding Risk Management Autonomous Warehouse Människa-Robot Samarbete Säker Förstärkningsinlärning Avskärmning Riskhantering Autonomt Lager Computer Sciences Datavetenskap (datalogi)
34	Benchmarking Deep Reinforcement Learning on Continuous Control Tasks : AComparison of Neural Network Architectures and Environment Designs / Prestandajämförelse av djup förstärkningsinlärning för kontinuerliga system : En jämförelse av neurala nätverksarkitekturer och miljödesigner Sahlin, Daniel January 2022 (has links) Deep Reinforcement Learning (RL) has received much attention in recent years. This thesis investigates how reward functions, environment termination conditions, Neural Network (NN) architectures, and the type of the deep RL algorithm aect the performance for continuous control tasks. To this end, the Furuta pendulum swing-up task is adopted as the primary benchmark, since it oers low input- and state-dimensionality without being trivial. Focusing on model-free algorithms, the results indicate that DDPG, an actorcritic algorithm, performs significantly better than other algorithms. They also suggest that larger NN architectures may benefit performance in some instances. Comparing reward functions, Potential Based Reward Shaping (PBRS) applied to a sparse reward signal shows promising results compared to a reward function of previous work, and combining PBRS with large negative rewards for terminations due to unwanted behavior seems to improve performance for some algorithms. However, although designs such as PBRS can improve performance they are shown to not be necessary to achieve adequate performance, and the same applies to environment terminations upon unwanted behavior. Attempting to apply a DDPG agent trained in a simulator to a physical Furuta pendulum results in performance that closely resembles what is observed in the simulator for certain training seeds. The results and test suite of this thesis are available on GitHub and should hopefully help inspire future research in environment design and NN architectures for deep RL. Specifically, future work may investigate whether extensive parametertuning alters the results. / Djup förstärkningsinlärning har fått mycket uppmärksamhet de senaste åren. Detta arbete undersöker hur belöningsfunktioner, miljöers termineringsvillkor, neurala nätverksarkitekturer, och typen av djup förstärkningsinlärningsalgoritm påverkar prestandan för kontroll av kontinuerliga system. För att uppnå detta används uppsvängning av Furuta-pendeln som primärt referensproblem, ty det har få indata- och tillståndsdimensioner utan att vara trivialt. Fokus riktas mot modellfria algoritmer, där resultaten indikerar att DDPG, en aktörkritisk algoritm, presterar signifikant bättre än andra algoritmer. Resultaten indikerar också att större nätverksarkitekturer kan ge bättre prestanda i vissa fall. Vid jämförelse av belöningsfunktioner visar potentialbaseradbelöningsutformning (PBRS) applicerat på en gles belöningsfunktion lovande resultat jämfört med en belöningsfunktion från tidigare forskning, och kombinationen av PBRS med stora negativa belöningar för termineringar på grund av oönskat beteende verkar förbättra prestandan för vissa algoritmer. Dock, även om designer så som PBRS kan förbättra prestandan påvisas det att de inte är nödvändiga för att uppnå adekvat prestanda, och detsamma gäller miljötermineringar vid oönskat beteende. Försöket med applicering av en DDPG-agent tränad i en simulator på en fysisk Furuta-pendel resulterar i prestanda som nära efterliknar vad som uppnås i simulatorn för särskilda träningsfrön. Resultaten och testsviten för detta projekt finns tillgängliga på GitHub och kommer förhoppningsvis inspirera framtida forskning inom miljödesign och neurala nätverksarkitekturer för djup förstärkningsinlärning. Specifikt så kan framtida arbeten utreda huruvida utförlig parameterjustering påverkar resultaten. Deep learning Reinforcement learning Reward functions Neural networks Furuta pendulum Djupinlärning Förstärkningsinlärning Belöningsfunktioner Neurala nätverk Furuta-pendel Computer Sciences Datavetenskap (datalogi)
35	Comparison of autonomous waypoint navigation methods for an indoor blimp robot / Jämförelse av autonoma färdpunktnavigationsmetoder för en inomhus-blimp Prusakiewicz, Lukas, Tönnes, Simon January 2020 (has links) The Unmanned Aerial Vehicle (UAV) has over the last years become an increasingly prevalent technology in several sectors of modern society. Many UAVs are today used in a wide series of applications, from disaster relief to surveillance. A recent initiative by the Swedish Sea Rescue Society (SSRS) aims to implement UAVs in their emergency response. By quickly deploying drones to an area of interest, an assessment can be made, prior to personnel getting there, thus saving time and increasing the likelihood of a successful rescue operation. An aircraft like this, that will travel great distances, have to rely on a navigation system that does not require an operator to continuously see the vehicle. To travel to its goal, or search an area, the operator should be able to define a travel route that the UAV follows, by feeding it a series of waypoints. As an initial step towards that kind of system, this thesis has developed and tested the concept of waypoint navigation on a small and slow airship/blimp, in a simulated indoor environment. Mainly, two commonly used navigation algorithms were tested and compared. One is inspired by a sub-category of machine learning: reinforcement learning (RL), and the other one is based on the rapidly exploring random tree (RRT) algorithm. Four experiments were conducted to compare the two methods in terms of travel distance, average speed, energy efficiency, as well as robustness towards changes in the waypoint configurations. Results show that when the blimp was controlled by the best performing RL-based version, it generally travelled a more optimal (distance-wise) path than the RRT-based method. It also, in most cases, proved to be more robust against changes in the test tracks, and performed more consistently over different waypoint configurations. However, the RRT approach usually resulted in a higher average speed and energy efficiency. Also, the RL algorithm had some trouble navigating tracks where a physical obstacle was present. To sum up, the choice of algorithm depends on which parameters are prioritized by the blimp operator for a certain track. If a high velocity and energy efficiency is desirable, the RRT-based method is recommended. However, if it is important that the blimp travels as short a distance as possible between waypoints, and a higher degree of consistency in its performance is wanted, then the RL-method should be used. Moving forward from this report, toward the future implementation of both methods in rescue operations, it would be reasonable to analyze their performance under more realistic conditions. This can be done using a real indoor airship. Looking at how hardware that do not exceed the payload of the blimp can execute both methods and how the blimp will determine its position and orientation is recommended. It would also be interesting to see how different reward function affect the performance of the blimp. / Den obemannade luftfarkosten (UAV) har under de senaste åren blivit en teknik vars användning blivit allt vanligare i flera sektorer av det moderna samhället. Olika sorters UAV robotar associeras idag med en omfattande serie användningsområden, från katastrofhjälp till övervakning. Ett nyligen påbörjat initiativ från svenska sjöräddningssällskapet (SSRS) syftar till att implementera drönare i deras utryckningar. Genom att snabbt sända drönare till platsen i fråga, kan en bedömning göras innan personal kommer dit, vilket sparar tid och ökar sannolikheten för en framgångsrik räddningsaktion. En farkost som denna, som kommer att resa långa sträckor, måste förlita sig på ett navigationssystem som inte kräver att en operatör kontinuerligt ser farkosten. För att resa till sitt mål, eller söka av ett område, bör operatören kunna definiera en resväg som drönaren följer genom att ge den en serie vägpunkter. Som ett inledande steg mot den typen av system har denna uppsats utvecklat och testat begreppet vägpunktsnavigering på ett litet och långsamt luftskepp/blimp, i en simulerad inomhusmiljö. Huvudsakligen testades och jämfördes två vanligt förekommande navigationsalgoritmer. En inspirerad av en underkategori till maskininlärning: förstärkningsinlärning (RL), och den andra baserad på rapidly exploring random tree (RRT) algoritmen. Fyra experiment utfördes för jämföra båda metoderna med avseende på färdsträcka, medelhastighet, energieffektivitet samt robusthet gentemot ändringar i färdpunktskonfigurationerna. Resultaten visar att när blimpen kontrollerades av den bästa RL-baserade versionen åkte den generellt en mer avståndsmässigt optimal väg än när den RRT-baserade metoden användes. I de flesta fallen visade sig även RL-metoden vara mer robust mot förändringar i testbanorna, och presterade mer konsekvent över olika vägpunktskonfigurationer. RRT-metoden resulterade dock vanligtvis i en högre medelhastighet och energieffektivitet. RL-algoritmen hade också problem med att navigera banor där den behövde ta sig runt ett hinder. Sammanfattningsvis beror valet av algoritm på vilka parametrar som prioriteras av blimpoperatören för en viss bana. Om en hög hastighet och energieffektivitet är önskvärd rekommenderas den RRT-baserade metoden. Men om det är viktigt att blimpen reser så kort avstånd som möjligt mellan färdpunkterna, och har en jämnare prestanda, bör RL-metoden användas. För att ta nästa steg, mot en framtida implementering av båda metoder i räddningsoperationer, vore det rimligt att analysera deras prestanda under mer realistiska förhållanden. Detta skulle kunna göras inomhus med ett riktigt luftskepp. Författarna rekommenderar att undersöka om hårdvara som inte överstiger blimpens maxlast kan utföra båda metodernas beräkningar och hur blimpen bestämmer sin position och orientering. Det skulle också vara intressant att se hur olika belöningsfunktioner påverkar blimpens prestanda. UAV indoor airship blimp path planning reinforcement learning RRT autonomous navigation UAV inomhus luftskepp blimp path planning förstärkningsinlärning RRT autonom navigering Mechanical Engineering Maskinteknik
36	Deep Q-Learning for Lane Localization : Exploring Reinforcement Learning for Accurate Lane Detection / Djupinlärning med Q-lärande för fillokalisation : Utforskning av förstärkningsinlärning för noggrann filavkänning Ganesan, Aishwarya January 2024 (has links) In autonomous driving, achieving fast and reliable lane detection is essential. This project explores a two-step lane detection and localization approach, diverging from relying solely on end-to-end deep learning methods, which often struggle with curved or occluded lanes. Specifically, we investigate the feasibility of training a deep reinforcement learning-based agent to adjust the detected lane, manipulating either the lane points or the parameters of a Bézier curve. However, the study found that reinforcement learning-based localization, particularly on datasets like TuSimple, did not perform as well as anticipated, despite efforts to enhance performance using various metrics. Introducing curves to expand the localizer's scope did not surpass the point-based approach, indicating the need for further refinement for Deep Q-learning localization to be feasible. Although optimization techniques like Double Deep Q-Network showed improvements, the study did not support the hypothesis that curves with Deep Q-learning offer superior performance, highlighting the necessity for additional research into alternative methods to achieve more accurate lane detection and localization in autonomous driving systems using reinforcement learning. / I autonom körning är att uppnå snabb och pålitlig filavkänning av avgörande betydelse. Detta projekt utforskar ett tvåstegs tillvägagångssätt för filavkänning och lokalisation som skiljer sig från att enbart förlita sig på end-to-end djupinlärningsmetoder, vilka ofta har svårt med krökta eller ockluderade filer. Mer specifikt undersöker vi genomförbarheten att träna en djupinlärningsbaserad förstärkningsinlärningsagent för att justera den upptäckta filen genom att manipulera antingen filpunkterna eller parametrarna för en Bézier-kurva. Studien fann dock att lokalisation baserad på förstärkningsinlärning, särskilt på dataset som TuSimple, inte presterade så bra som förväntat, trots ansträngningar att förbättra prestanda med olika metriker. Att introducera kurvor för att utvidga lokaliserarens omfattning överträffade inte det punktbaserade tillvägagångssättet, vilket tyder på behovet av ytterligare förfining för att göra Deep Q-learning lokalisation praktiskt genomförbart. Även om optimeringstekniker som Double Deep Q-Network visade förbättringar, stödde studien inte hypotesen att kurvor med Deep Q-learning erbjuder överlägsen prestanda, vilket understryker nödvändigheten av ytterligare forskning om alternativa metoder för att uppnå mer exakt filavkänning och lokalisation i autonom körningssystem med hjälp av förstärkningsinlärning. Lane detection Deep Q-learning Lane Localization Reinforcement Learning Filavkänning Djupinlärning med Q-lärande Fillokalisation Förstärkningsinlärning Computer Sciences Datavetenskap (datalogi) Computer Engineering Datorteknik
37	Reinforcement Learning for Market Making / Förstärkningsinlärningsbaserad likviditetsgarantering Carlsson, Simon, Regnell, August January 2022 (has links) Market making – the process of simultaneously and continuously providing buy and sell prices in a financial asset – is rather complicated to optimize. Applying reinforcement learning (RL) to infer optimal market making strategies is a relatively uncharted and novel research area. Most published articles in the field are notably opaque concerning most aspects, including precise methods, parameters, and results. This thesis attempts to explore and shed some light on the techniques, problem formulations, algorithms, and hyperparameters used to construct RL-derived strategies for market making. First, a simple probabilistic model of a limit order book is used to compare analytical and RL-derived strategies. Second, a market making agent is trained on a more complex Markov chain model of a limit order book using tabular Q-learning and deep reinforcement learning with double deep Q-learning. Results and strategies are analyzed, compared, and discussed. Finally, we propose some exciting extensions and directions for future work in this research field. / Likviditetsgarantering (eng. ”market making”) – processen att simultant och kontinuerligt kvotera köp- och säljpriser i en finansiell tillgång – är förhållandevis komplicerat att optimera. Att använda förstärkningsinlärning (eng. ”reinforcement learning”) för att härleda optimala strategier för likviditetsgarantering är ett relativt outrett och nytt forskningsområde. De flesta publicerade artiklarna inom området är anmärkningsvärt återhållsamma gällande detaljer om de tekniker, problemformuleringar, algoritmer och hyperparametrar som används för att framställa förstärkningsinlärningsbaserade strategier. I detta examensarbete så gör vi ett försök på att utforska och bringa klarhet över dessa punkter. Först används en rudimentär probabilistisk modell av en limitorderbok som underlag för att jämföra analytiska och förstärkningsinlärda strategier. Därefter brukas en mer sofistikerad Markovkedjemodell av en limitorderbok för att jämföra tabulära och djupa inlärningsmetoder. Till sist presenteras även spännande utökningar och direktiv för framtida arbeten inom området. Reinforcement learning Market making Deep reinforcement learning Limit order book Algorithmic trading High-frequency trading Machine learning Artificial intelligence Q-learning DDQN Förstärkningsinlärning Market making Djup förstärkningsinlärning Limitorderbok Algoritmisk handel Högfrekvenshandel Maskininlärning Artificiell intelligens Q-learning DDQN Other Mathematics Annan matematik
38	S-MARL: An Algorithm for Single-To-Multi-Agent Reinforcement Learning : Case Study: Formula 1 Race Strategies Davide, Marinaro January 2023 (has links) A Multi-Agent System is a group of autonomous, intelligent, interacting agents sharing an environment that they observe through sensors, and upon which they act with actuators. The behaviors of these agents can be either defined upfront by programmers or learned by trial-and-error resorting to Reinforcement Learning. In this last context, the approaches proposed by literature can be categorized either as Single-Agent or Multi-Agent. The former approaches experience more stable training at the cost of defining upfront the policies of all the agents that are not learning, with the risk of limiting the performances of the learned policy. The latter approaches do not have such a limitation but experience higher training instability. Therefore, we propose a new approach based on the transition from Single-Agent to Multi-Agent Reinforcement Learning that exploits the benefits of both approaches: higher stability at the beginning of the training to learn the environment’s dynamics, and unconstrained agents in the latest phases. To conduct this study, we chose Formula 1 as the Multi-Agent System, a complex environment with more than two interacting agents. In doing so, we designed a realistic racing simulation environment, framed as a Markov Decision Process, able to reproduce the core dynamics of races. After that, we trained three agents based on Semi-Gradient Q-Learning with different frameworks: pure Single-Agent, pure Multi-Agent, and Single-to-Multi-Agent. The results established that, given the same initial conditions and training episodes, our approach outperforms both the Single-Agent and Multi-Agent frameworks, obtaining higher scores in the proposed benchmarks. / Ett system med flera agenter är en grupp autonoma, intelligenta, interagerande agenter som delar en miljö som de observerar med hjälp av sensorer och som de agerar på med hjälp av agenter. Beteendena hos dessa agenter kan antingen definieras i förväg av programmerare eller läras in genom försök och misstag med hjälp av förstärkningsinlärning. I det sistnämnda sammanhanget kan de metoder som föreslagits i litteraturen kategoriseras som antingen en eller flera agenter. De förstnämnda tillvägagångssätten ger en stabilare utbildning till priset av att man i förväg måste definiera politiken för alla de agenter som inte lär sig, vilket innebär en risk för att den inlärda politikens prestanda begränsas. De senare metoderna har inte en sådan begränsning men upplever en högre instabilitet i utbildningen. Därför föreslår vi en ny metod som bygger på övergången från förstärkningsinlärning med en agent till förstärkningsinlärning med flera agenter och som utnyttjar fördelarna med båda metoderna: högre stabilitet i början av utbildningen för att lära sig miljöns dynamik och agenter utan begränsningar i de senaste faserna. För att genomföra den här studien valde vi Formel 1 som ett system med flera agenter, en komplex miljö med mer än två interagerande agenter. Vi utformade därför en realistisk simulering av tävlingar som är utformad som en Markov-beslutsprocess och som kan återge den centrala dynamiken i tävlingar. Därefter tränade vi tre agenter baserat på Semi-Gradient Q-Learning med olika ramar: ren Single-Agent, ren Multi-Agent och Single-to-Multi-Agent. Resultaten visade att vår metod, med samma startvillkor och träningsepisoder, överträffar både Single-Agent- och Multi-Agent-ramarna och får högre poäng i de föreslagna riktmärkena. Reinforcement Learning Single-to-Multi-Agent Learning Stability Exploration-Exploitation trade-off Race Strategy Optimization Förstärkningsinlärning Från en till flera agenter Stabilitet vid inlärning Utforskning-exploatering Optimering av tävlingsstrategier Computer and Information Sciences Data- och informationsvetenskap
39	Future-proofing Video Game Agents with Reinforced Learning and Unity ML-Agents / Framtidssäkring av datorspelsagenter med förstärkningsinlärning och Unity ML-Agents Andersson, Pontus January 2021 (has links) In later years, a number of simulation platforms has utilized video games as training grounds for designing and experimenting with different Machine Learning algorithms. One issue for many is that video games usually do not provide any source code. The Unity ML-Agents toolkit provides both example environments and state-of-the-art Machine Learning algorithms in an attempt solve this. This has sparked curiosity in a local game company which wished to investigate the incorporation of machine-learned agents into their game using the toolkit. As such, the goal was to produce high performing, integrable agents capable of completing locomotive tasks. A pilot study was conducted which contributed with insight in training functionality and aspect which were important to producing a robust behavior model. With the use of Proximal Policy Optimization and different training configurations several neural network models were produced and evaluated on existing and new data. Several of the produced models displayed promising results but did not achieve the defined success rate of 80%. With some additional testing it is believed that the desired result could be reached. Alternatively, different aspect of the toolkit like Soft Actor Critic and Curriculum Learning could be investigated. / På senare tid har ett handfull simulationsplattformar använt datorspel som en träningsmiljö för att designa och experimentera med olika maskininlärningsalgoritmer. Ett problem för många är att dessa spel vanligtvis inte tillhandahåller någon källkod. Unity ML-Agents toolkit ämnar lösa behovet genom att erbjuda befintliga träningsmiljöer tillsammans med de senaste maskininlärningsalgoritmerna. Detta har väckt intresset hos ett lokalt spelföretag som vill undersöka möjligheten att integrera maskininlärda agenter i ett av deras spel. Som följd formulerades målet att skapa högpresterande och integrerbara agenter kapabla att utföra lokomotoriska uppgifter. En förstudie genomfördes och tillhandagav nyttig information om träningsfunktionalitet och kringliggande aspekter om att producera robusta beteendemodeller. Med hjälp av proximal policyoptimering och olika träningskonfigurationer skapades modeller av neurala nätverk som utvärderades på befintlig respektive ny data. Flertalet modeller visade lovande resultat men ingendera nådde det specificerade prestandamålet på 80%. Tron är att med ytterligare tester hade ett önskat resultat kunnat bli nått. Fortsättningsvis är det även möjligt att undersöka andra lärotekniker inkluderade i ML-Agent verktyget. Reinforced Learning Machine Learning Unity ML-Agents Computer Agents Agents Behavior Learning Environment Machine Learning Toolkit RL ML AI Artificial Intelligence Algorithm förstärkningsinlärning maskininlärning Unity ML-Agents datoragenter agent beteende inlärningsmiljö ai artificiell intelligens algoritm Computer Sciences Datavetenskap (datalogi)
40	Safe Reinforcement Learning for Social Human-Robot Interaction : Shielding for Appropriate Backchanneling Behavior / Säker förstärkningsinlärning för social människa-robotinteraktion : Avskärmning för lämplig uppbackningsbeteende Akif, Mohamed January 2023 (has links) Achieving appropriate and natural backchanneling behavior in social robots remains a challenge in Human-Robot Interaction (HRI). This thesis addresses this issue by utilizing methods from Safe Reinforcement Learning in particular shielding to improve social robot backchanneling behavior. The aim of the study is to develop and implement a safety shield that guarantees appropriate backchanneling. In order to achieve that, a Recurrent Neural Network (RNN) is trained on a human-human conversational dataset. Two agents are built; one uses a random algorithm to backchannel and another uses shields on top of its algorithm. The two agents are tested using a recorded human audio, and later evaluated in a between-subject user study with 41 participants. The results did not show any statistical significance between the two conditions, for the chosen significance level of α < 0.05. However, we observe that the agent with shield had a better listening behavior, more appropriate backchanneling behavior and missed less backchanneling opportunities than the agent without shields. This could indicate that shields have a positive impact on the robot’s behavior. We discuss potential explanations for why we did not obtain statistical significance and shed light on the potential for further exploration. / Att uppnå lämpligt och naturligt upbbackningsbeteende i sociala robotar är fortfarande en utmaning i Människa-Robot Interaktion (MRI). Den här avhandlingen tar upp detta problem genom att använda metoder från säker förstärkningsinlärning i synnerhet avskärmning för att förbättra sociala robotars upbbackningsbeteende. Syftet med studien är att utveckla och implementera en säkerhetsavskärmning som garanterar lämplig upbbackning. För att uppnå det, tränas ett återkommande neuralt nätverk på en människa-människa konversationsdatamängd. Två agenter byggs; en använder en slumpmässig algoritm för att upbbacka och en annan använder avskärmninng ovanpå sin algoritm. De två agenterna testas med hjälp av ett inspelat mänskligt ljud och utvärderas senare i en användarstudie med 41 deltagare. Resultaten visade inte någon statistisk signifikans mellan de två skicken, för den valda signifikansnivån < 0, 05. Vi observerar dock att agenten med avskärmning hade ett bättre lyssningsbeteende, mer lämplig upbbackningsbeteende och missade mindre upbbacknings-möjligheter än agenten utan avskärmning. Detta kan indikera att avskärmning har en positiv inverkan på robotarnas beteende. Vi diskuterar potentiella förklaringar till varför vi inte fick statistisk signifikans och belyser potentialen för ytterligare utforskning. Human-Robot Interaction Backchanneling Social Robots Safe Reinforcement Learning Shielding Recurrent Neural Network Gated Recurrent Unit Människa-Robot Interaktion Uppbackning Sociala Robotar Säker Förstärkningsinlärning Avskärmning Återkommande Neurala Nätverk Gated Återkommande Enhet Computer and Information Sciences Data- och informationsvetenskap

Search results