• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 50
  • Tagged with
  • 50
  • 50
  • 49
  • 40
  • 34
  • 30
  • 26
  • 26
  • 17
  • 12
  • 12
  • 11
  • 11
  • 10
  • 9
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
21

Link Adaptation in 5G Networks : Reinforcement Learning Framework based Approach / Länkanpassning i 5G-nätverk : Förstärkning Lärande rambaserat tillvägagångssätt

Satya Sri Ganesh Seeram, Siva January 2022 (has links)
Link Adaptation is a core feature introduced in gNodeB (gNB) for Adaptive Modulation and Coding (AMC) scheme in new generation cellular networks. The main purpose of this is to correct the estimated Signal-to-Interference-plus-Noise ratio (SINR) at gNB and select the appropriate Modulation and Coding Scheme (MCS) so the User Equipment (UE) can decode the data successfully. Link adaptation is necessary for mobile communications because of the diverse wireless conditions of the channel due to mobility of users, interference, fading and shadowing effects, the estimated SINR will always be different from the actual value. The traditional link adaptation schemes like Outer Loop Link Adaptation (OLLA) improve the channel estimation by correcting the estimated SINR with some correction factor dependent on the Block Error Rate (BLER) target. But this scheme has a low convergence i.e., it takes several Transmission Time Intervals (TTIs) to adjust to the channel variations. Reinforcement Learning (RL) based framework is proposed to deal with this problem. Deep Deterministic Policy Gradient (DDPG) algorithm is selected as an agent and trained with several states of the channel variations to adapt to the changes. The trained model seems to show an increase in throughput for cell edge users of about 6-18% when compared to other baseline models. The mid-cell user throughput is increased up to 1-3%. This RL model trained is constrained with average BLER minimization and throughput maximization which makes the model perform well in different radio conditions. / Länkanpassning är en kärnfunktion som introduceras i gNB för adaptiv modulering och kodningsschema (AMC) i den nya generationens cellulära nätverk. Den huvudsakliga syftet med detta är att korrigera det uppskattade signal-till-störning-plus-bruset ratio (SINR) vid gNodeB (gNB) och välj lämplig Modulation och Coding Scheme (MCS) så att användarutrustningen (UE) kan avkoda data framgångsrikt. Länkanpassning är nödvändig för mobil kommunikation eftersom av de olika trådlösa förhållandena för kanalen på grund av användarnas mobilitet, störnings-, bleknings- och skuggeffekter, kommer den uppskattade SINR alltid skiljer sig från det faktiska värdet. De traditionella länkanpassningssystemen som Outer Loop Link Adaptation (OLLA) förbättra kanaluppskattningen med korrigera det uppskattade SINR med någon korrigeringsfaktor beroende på Mål för Block Error Rate (BLER). Men detta system har en låg konvergens det är det krävs flera TTI för att anpassa sig till kanalvariationerna. Förstärkning Ett lärande (RL)-baserat ramverk föreslås för att hantera detta problem. Djup Deterministic Policy Gradient (DDPG) algoritm väljs som en agent och tränas med flera tillstånd av kanalvariationerna för att anpassa sig till förändringarna. Den tränade modellen verkar visa en ökning i genomströmning för cellkantanvändare på cirka 6-18% jämfört med andra basmodeller. Mittcellsanvändaren genomströmningen ökas upp till 1-3%. Denna RL-modell utbildad är begränsad med genomsnittlig BLER-minimering och genomströmningsmaximering vilket gör modell fungerar bra i olika radioförhållanden.
22

Offline Reinforcement Learning for Optimization of Therapy Towards a Clinical Endpoint / Offline förstärkningsinlärning för optimering av terapi mot ett kliniskt slutmål

Jenner, Simon January 2022 (has links)
The improvement of data acquisition and computer heavy methods in recentyears has paved the way for completely digital healthcare solutions. Digitaltherapeutics (DTx) are such solutions and are often provided as mobileapplications that must undergo clinical trials. A common method for suchapplications is to utilize cognitive behavioral-therapy (CBT), in order toprovide their patients with tools for self-improvement. The Swedish-basedcompany Alex Therapeutics is such a provider. They develop state-of-theartapplications that utilize CBT to help patients. Among their applications,they have one that aims to help users quit smoking. From this app, they havecollected user data with the goal of continuously improving their servicesthrough machine learning (ML). In their current application, they utilizemultiple ML methods to personalize the care, but have opened up possibilitiesfor the usage of reinforcement learning (RL). Often the wanted behavior isknown, such as to quitting smoking, but the optimal path, within the app, forhow to reach such a goal is not. By formalizing the problem as a Markovdecision process, where the transition probabilities have to be inferred fromuser data, such an optimal policy can be found. Standard methods of RL arereliant on direct access of an environment for sampling of data, whereas theuser data sampled from the application are to be treated as such. This thesisthus explores the possibilities of using RL on a static dataset in order to inferan optimal policy. A double deep Q-network (DDQN) was chosen as the reinforcement learningagent. The agent was trained on two different datasets and showed goodconvergence for both, using a custom metric for the task. Using SHAPvaluesthe strategy of the agent is visualized and discussed, together with themethodological challenges. Lastly, future work for the proposed methods arediscussed. / Förbättringar av datainsamling och datortunga metoder har på senare år banatväg för helt digitala vårdlösningar. Digitala terapier (DTx) är sådana lösningaroch tillhandahålls ofta som mobila applikationer. Till skillnad från andrahälsoappar måste DTx-applikationer genomgå klinisk prövning. En vanligmetod för sådana applikationer är att använda kognitiv beteendeterapi (KBT)för att ge patienter verktyg för självförbättring. Det svenskbaserade företagetAlex Therapeutics är en sådan leverantör. De utvecklar moderna applikationersom använder KBT för att hjälpa patienter. Bland deras appar har de förrökavvänjning. Från denna har de samlat in användardata med målet attkontinuerligt förbättra tjänsten via maskininlärning (ML). I sina nuvarandetillämpning använder de flera ML metoder för att personifiera vården, menhar öppnat möjligheter för användningen av Reinforcement learning (RL)(förstärkningsinlärning). Ofta är det önskade beteendet känt, t.ex att slutaröka, men den optimala vägen, inom appen, för hur man når ett sådant mål ärinte känt. Genom att formalisera problemet som en Markovsk beslutsprocess(Markov decision process), där övergångssannolikheterna måste härledas frånanvändardata, kan en sådan optimal väg hittas. Standardmetoder för RLär beroende av direktåtkomst till en miljö för att samla data. Dock skulleanvändardatan som samlats in från appen kunna behandlas på samma sätt.Detta examensarbete undersöker möjligheten att använda RL på statisk dataför att dra slutsatser om en optimal policy. Ett double deep Q-network (DDQN) (dubbelt djupt Q-nätverk) valdes somagent. Agenten tränades på 2 olika datasets och visar bra konvergens förbåda, med hjälp av ett anpassat mått för evaluering. SHAP-värden beräknadesför att visualisera agentens strategi. Detta diskuteas tillsammans med demetodologiska utmaningarna. Till sist behandlas framtida arbete för de föreslagnametoderna.
23

Optimal Gait Control of Soft Quadruped Robot by Model-based Reinforcement Learning / Optimal gångkontroll av mjuk fyrhjulig robot genom modellbaserad förstärkningsinlärning

Xuezhi, Niu January 2023 (has links)
Quadruped robots offer distinct advantages in navigating challenging terrains due to their flexible and shock-absorbing characteristics. This flexibility allows them to adapt to uneven surfaces, enhancing their maneuverability. In contrast, rigid robots excel in tasks that require speed and precision but are limited in their ability to navigate complex terrains due to their restricted motion range. Another category of robots, known as soft robots, has gained attention for their unique attributes. Soft robots are characterized by their lightweight and cost-effective design, making them appealing for various applications. Recent advancements have made significant strides in practical control strategies for soft quadruped robots, particularly in diverse and unpredictable environments. An emerging approach in enhancing the autonomy of robots is through reinforcement learning. While this approach shows promise in enabling robots to learn and adapt to their surroundings, it necessitates rigorous training and must exhibit robustness in real-world scenarios. Moreover, a significant hurdle lies in bridging the gap between simulations and reality, as models trained in idealized virtual environments often struggle to perform as expected when deployed in the physical world. This thesis aims to address these challenges by optimizing the control of soft quadruped robots using a model-based reinforcement learning approach. The primary goal is to refine the gait control of these robots, taking into account the complexities encountered in real-world environments. The report covers the implementation of model-based reinforcement learning, including simulation setup, reward design, and policy refinement. Results show improved training efficiency and autonomous behavior, confirming the method’s effectiveness in enhancing soft quadruped robot capabilities.It is important to note that this report provides a concise summary of the thesis results due to the word limit imposed by the Department of Machine Design. For a comprehensive understanding of the research and its implications, the complete version is attached separately here. / Fyrbenta robotar är tack vare deras flexibla och stötdämpande egenskaper är väl lämpade att navigera utmanande terräng. Deras struktur möjliggör anpassning till ojämnheter i underlaget och bidrar till att öka deras rörelseförmåga. I kontrast utmärker sig stela robotar som det bästa valet för uppgifter som kräver snabbhet och precision, men deras förmåga att navigera komplex terräng är begränsad av deras rörelseomfång. En annan typ av robot, så kallade mjuka robotar, har nyligen uppmärksammats för sina unika egenskaper. Dessa robotar kännetecknas av en kostnadseffektiv lättviktsdesign, vilket gör dem attraktiva för många olika användningsområden. Nyligen har betydelsefulla framsteg gjorts inom kontroll av mjuka fyrbenta robotar, framför allt vad gäller kontroll i varierade miljöer. En av de huvudsakliga utmaningarna för att öka robotars autonomi är förstärkningsinlärning. Även om denna teknik är lovande för att ge robotar förmågan att lära sig och anpassa sig efter sin omgivning, kräver den omfattande träning samt måste uppvisa robusthet i verkliga scenarion. Ett större hinder är dessutom klyftan mellan simulation och verklighet, då modeller som tränats i ideella simuleringar ofta presterar sämre än väntat i den fysiska världen. Detta examensarbete behandlar dessa utmaningar genom att implementera en modellbaserad förstärkningsinlärningsmetod för kontroll av fyrbenta robotar, med det primära målet att förfina gångkontrollen för dessa robotar med hänsyn till de komplexa beteenden som uppstår i verkliga miljöer. Denna rapport behandlar implementeringen av modellbaserad förstärkningsin lärning samt simulering, belöningsdesign och policyförfining. Resultat visar på en förbättrad inlärningsförmåga och bättre autonomt beteende, vilket gör metoden lämplig för att förbättra prestandan av mjuka fyrbenta robotar. Var god att notera att denna rapport endast ger en nedkortad sammanfattning av forskningen och dess resultat på grund av krav från institutionen för maskinkonstruktion. En fullständig version innehållande mer detaljer kring studien och dess konsekvenser bifogas här.
24

Tackling Non-Stationarity in Reinforcement Learning via Latent Representation : An application to Intraday Foreign Exchange Trading / Att hantera icke-stationaritet i förstärkningsinlärning genom latent representation : En tillämpning på intradagshandel med valuta på Forex-marknaden

Mundo, Adriano January 2023 (has links)
Reinforcement Learning has applications in various domains, but the typical assumption is of a stationary process. Hence, when this hypothesis does not hold, performance may be sub-optimal. Tackling non-stationarity is not a trivial task because it requires adaptation to changing environments and predictability in various conditions, as dynamics and rewards might change over time. Meta Reinforcement Learning has been used to handle the non-stationary evolution of the environment while knowing the potential source of noise in the system. However, our research presents a novel method to manage such complexity by learning a suitable latent representation that captures relevant patterns for decision-making, improving the policy optimization procedure. We present a two-step framework that combines the unsupervised training of Deep Variational Auto-encoders to extract latent variables and a state-of-the-art model-free and off-policy Batch Reinforcement Learning algorithm called Fitted Q-Iteration, without relying on any assumptions about the environment dynamics. This framework is named Latent-Variable Fitted Q-Iteration (LV-FQI). Furthermore, to validate the generalization and robustness capabilities for exploiting the structure of the temporal sequence of time-series data and extracting near-optimal policies, we evaluated the performance with empirical experiments on synthetic data generated from classical financial models. We also tested it on Foreign Exchange trading scenarios with various degrees of non-stationarity and low signal-to-noise ratios. The results showed performance improvements compared to existing algorithms, indicating great promise for addressing the long-standing challenges of Continual Reinforcement Learning. / Reinforcement Learning har tillämpningar inom olika områden, men den typiska antagningen är att det rör sig om en stationär process. När detta antagande inte stämmer kan prestationen bli suboptimal. Att hantera icke-stationaritet är ingen enkel uppgift eftersom det kräver anpassning till föränderliga miljöer och förutsägbarhet under olika förhållanden, då dynamiken och belöningarna kan förändras över tiden. Meta Reinforcement Learning har använts för att hantera den icke-stationära utvecklingen av miljön genom att känna till potentiella källor till brus i systemet. Vår forskning presenterar emellertid en ny metod för att hantera en sådan komplexitet genom att lära en lämplig latent representation som fångar relevanta mönster för beslutsfattande och förbättrar optimeringsprocessen för policyn. Vi presenterar en tvåstegsramverk som kombinerar osuperviserad träning av Deep Variational Auto-encoders för att extrahera latenta variabler och en state-of-the-art model-free och off-policy Batch Reinforcement Learning-algoritm, Fitted Q-Iteration, utan att förlita sig på några antaganden om miljöns dynamik. Detta ramverk kallas Latent-Variable Fitted Q-Iteration (LV-FQI). För att validera generaliserings- och robusthetsförmågan att utnyttja strukturen hos den tidsmässiga sekvensen av tidsseriedata och extrahera nära-optimala policys utvärderade vi prestandan med empiriska experiment på syntetiska data genererade från klassiska finansiella modeller. Vi testade också det på handelsscenario för Foreign Exchange med olika grader av icke-stationaritet och låg signal-till-brus-förhållande. Resultaten visade prestandaförbättringar jämfört med befintliga algoritmer och indikerar stor potential för att tackla de långvariga utmaningarna inom kontinuerlig Reinforcement Learning.
25

Modelling Financial Markets via Multi-Agent Reinforcement Learning : How nothing interesting happened when I made AI trade with AI / Modellering av finansmarknader med hjälp av Multi-Agent Förstärkningsinlärning : Hur inget intressant hände när jag fick AI att handla med AI

Bocheński, Mikołaj January 2022 (has links)
The numerous previous attempts to simulate financial markets tended to be based on strong assumptions about markets or their participants. This thesis describes a more general kind of model - one in which deep reinforcement learning is used to train agents to make a profit while trading with each other on a virtual exchange. Such a model carries less inductive bias than most others - in theory, a neural network is capable of learning arbitrary decision rules. The model itself led to very simple results, but the conclusions from its construction will hopefully be of guidance to anyone implementing such a model in the future. / De många tidigare försöken att simulera finansmarknader har ofta byggt på starka antaganden om marknaderna eller deras deltagare. I den här avhandlingen beskrivs en mer allmän typ av modell - en modell där djup förstärkningsinlärning används för att träna agenter att göra vinst när de handlar med varandra på en virtuell börs. En sådan modell har mindre induktiva fördomar än de flesta andra - i teorin kan ett neuralt nätverk lära sig godtyckliga beslutsregler. Själva modellen ledde till mycket enkla resultat, men slutsatserna från dess konstruktion kommer förhoppningsvis att vara vägledande för alla som tillämpar en sådan modell i framtiden.
26

AI for an Imperfect-Information Wargame with Self-Play Reinforcement Learning / AI med självspelande förstärkningsinlärning för ett krigsspel med imperfekt information

Ryblad, Filip January 2021 (has links)
The task of training AIs for imperfect-information games has long been difficult. However, recently the algorithm ReBeL, a general framework for self-play reinforcement learning, has been shown to excel at heads-up no-limit Texas hold 'em, among other imperfect-information games. In this report the ability to adapt ReBeL to a downscaled version of the strategy wargame \say{Game of the Generals} is explored. It is shown that an implementation of ReBeL that uses no domain-specific knowledge is able to beat all benchmark bots, which indicates that ReBeL can be a useful framework when training AIs for imperfect-information wargames. / Det har länge varit en utmaning att träna AI:n för spel med imperfekt information. Nyligen har dock algoritmen ReBeL, ett generellt ramverk för självspelande förstärkningsinlärning, visat lovande prestanda i heads-up no-limit Texas hold 'em och andra spel med imperfekt information. I denna rapport undersöks ReBeLs förmåga att anpassas till en nedskalad version av spelet \say{Game of the Generals}, vilket är ett strategiskt krigsspel. Det visas att en implementation av ReBeL som inte använder någon domänspecifik kunskap klarar av att besegra alla bottar som användes vid jämförelse, vilket indikerar att ReBeL kan vara ett användbart ramverk för att träna AI:n för krigsspel med imperfekt information.
27

Smart Tracking for Edge-assisted Object Detection : Deep Reinforcement Learning for Multi-objective Optimization of Tracking-based Detection Process / Smart Spårning för Edge-assisterad Objektdetektering : Djup Förstärkningsinlärning för Flermålsoptimering av Spårningsbaserad Detekteringsprocess

Zhou, Shihang January 2023 (has links)
Detecting generic objects is one important sensing task for applications that need to understand the environment, for example eXtended Reality (XR), drone navigation etc. However, Object Detection algorithms are particularly computationally heavy for real-time video analysis on resource-constrained mobile devices. Thus Object Tracking, which is a much lighter process, is introduced under the Tracking-By-Detection (TBD) paradigm to alleviate the computational overhead. Still, it is common that the configurations of the TBD remain unchanged, which would result in unnecessary computation and/or performance loss in many cases.\\ This Master's Thesis presents a novel approach for multi-objective optimization of the TBD process on precision and latency, with the platform being power-constrained devices. We propose a Deep Reinforcement Learning based scheduling architecture that selects appropriate TBD actions in video sequences to achieve the desired goals. Specifically, we develop a simulation environment providing Markovian state information as input for the scheduler neural network, justified options of TBD actions, and a scalarized reward function to combine the multiple objectives. Our results demonstrate that the trained policies can learn to utilize content information from the current and previous frames, thus optimally controlling the TBD process at each frame. The proposed approach outperforms the baselines that have fixed TBD configurations and recent research works, achieving the precision close to pure detection while keeping the latency much lower. Both tuneable configurations show positive and synergistic contribution to the optimization objectives. We also show that our policies are generalizable, with inference and action time of the scheduler having minimal latency overhead. This makes our scheduling design highly practical in real XR or similar applications on power-constrained devices. / Att upptäcka generiska objekt är en viktig uppgift inom avkänning för tillämpningar som behöver förstå omgivningen, såsom eXtended Reality (XR) och navigering med drönare, bland annat. Algoritmer för objektdetektering är dock särskilt beräkningstunga när det gäller videoanalyser i realtid på resursbegränsade mobila enheter. Objektspårning, å andra sidan, är en lättare process som vanligtvis implementeras under Tracking-By-Detection (TBD)-paradigmet för att minska beräkningskostnaden. Det är dock vanligt att TBD-konfigurationerna förblir oförändrade, vilket leder till onödig beräkning och/eller prestandaförlust i många fall.\\ I detta examensarbete presenteras en ny metod för multiobjektiv optimering av TBD-processen med avseende på precision och latens på plattformar med begränsad prestanda. Vi föreslår en djup förstärkningsinlärningsbaserad schemaläggningsarkitektur som väljer lämpliga TBD-åtgärder för videosekvenser för att uppnå de önskade målen. Vi utvecklar specifikt en simulering som tillhandahåller Markovian state-information som indata för schemaläggaren, samt neurala nätverk, motiverade alternativ för TBD-åtgärder och en skalariserad belöningsfunktion för att kombinera de olika målen. Våra resultat visar att de tränade strategierna kan lära sig att använda innehållsinformation från aktuella och tidigare ramar för att optimalt styra TBD-processen för varje bild. Det föreslagna tillvägagångssättet är bättre än både de grundläggande metoderna med en fast TBD-konfiguration och nyare forskningsarbeten. Det uppnår en precision som ligger nära den rena detektionen samtidigt som latensen hålls mycket låg. Båda justerbara konfigurationerna bidrar positivt och synergistiskt till optimeringsmålen. Vi visar också att våra strategier är generaliserbara genom att dela upp träning och testning med en 50 %-ig uppdelning, vilket resulterar i minimal inferenslatens och schemaläggarens handlingslatens. Detta gör vår schemaläggningsdesign mycket praktisk i verkliga XR- eller liknande tillämpningar på enheter med begränsad strömförsörjning.
28

Improving Behavior Trees that Use Reinforcement Learning with Control Barrier Functions : Modular, Learned, and Converging Control through Constraining a Learning Agent to Uphold Previously Achieved Sub Goals / Förbättra beteendeträd som använder förstärkningsinlärning med kontrollbarriärfunktioner : modulär, inlärd och konvergerande kontroll genom att tvinga en lärande agent att upprätthålla tidigare uppnådda delmål

Wagner, Jannik January 2023 (has links)
This thesis investigates combining learning action nodes in behavior trees with control barrier functions based on the extended active constraint conditions of the nodes and whether the approach improves the performance, in terms of training time and policy quality, compared to a purely learning-based approach. Behavior trees combine several behaviors, called action nodes, into one behavior by switching between them based on the current state. Those behaviors can be hand-coded or learned in so-called learning action nodes. In these nodes, the behavior is a reinforcement learning agent. Behavior trees can be constructed in a process called backward chaining. In order to ensure the success of a backward-chained behavior tree, each action node must uphold previously achieved subgoals. So-called extended active constraint conditions formalize this notion as conditions that must stay true for the action node to continue execution. In order to incentivize upholding extended active constraint conditions in learning action nodes, a negative reward can be given to the agent upon violating extended active constraint conditions. However, this approach does not guarantee not violating the extended active constraint conditions since it is purely learning-based. Control barrier functions can be used to restrict the actions available to an agent so that it stays within a safe subset of the state space. By defining the safe subset of the state space as the set in which the extended active constraint conditions are satisfied, control barrier functions can be employed to, ideally, guarantee that the extended active constraint conditions will not be violated. The results show that significantly less training is needed to get comparable, or slightly better, results, when compared to not using control barrier functions. Furthermore, extended active constraint conditions are considerably less frequently violated and the overall performance is slightly improved. / Denna avhandling undersöker kombinationen av inlärningsregulatornoder i beteendeträd med styrbarriärfunktioner baserade på utökade aktiva begränsningsvillkor för noderna, samt om detta tillvägagångssätt förbättrar prestandan avseende tränings- och policynkvalitet, jämfört med ett rent inlärningsbaserat tillvägagångssätt. Beteendeträd kombinerar flera regulatorer, kallade regulatornoder, till en enda regulator genom att växla mellan dem baserat på det aktuella tillståndet. Dessa regulatorer kan vara handkodade eller inlärda i så kallade inlärningsnoder. I dessa noder är regulatorn en förstärkningsinlärningsagent. Beteendeträd kan konstrueras genom en process som kallas bakåtkoppling. För att säkerställa framgången för ett bakåtkopplat beteendeträd måste varje regulatornod upprätthålla tidigare uppnådda delmål. Utökade aktiva begränsningsvillkor formaliserar denna uppfattning som villkor som inte får överträdas för att regulatornoden ska fortsätta exekvera. För att uppmuntra till att upprätthålla utökade aktiva begränsningsvillkor i inlärningsnoder kan en negativ belöning ges till agenten vid överträdelse av utökade aktiva begränsningsvillkor. Denna metod garanterar dock inte att utökade aktiva begränsningsvillkor inte kommer att överträdas, eftersom den är helt inlärningsbaserad. Kontrollbarriärfunktioner kan användas för att begränsa de åtgärder som är tillgängliga för en agent så att den förblir inom en säker delmängd av tillståndsrymden. Genom att definiera den säkra delmängden av tillståndsrymden som den uppsättning där de utökade aktiva begränsningsvillkoren uppfylls kan kontrollbarriärfunktioner användas för att, i bästa fall, garantera att de utökade aktiva begränsningsvillkoren inte kommer att överträdas. Resultaten visar att det krävs betydligt mindre träning för att få jämförbara, eller något bättre, resultat jämfört med att inte använda kontrollbarriärfunktioner. Dessutom överträds utökade aktiva begränsningsvillkor betydligt mer sällan och den övergripande prestandan är något förbättrad. I would like to thank Katrina Liang and Petter Ögren for translating the to Swedish. / Diese Arbeit untersucht die Kombination von Lernaktionsknoten in Verhaltensbäumen mit Kontrollbarrierefunktionen, die auf den erweiterten aktiven Einschränkungsbedingungen und Vorbedingungen der Knoten basieren, und ob dieser Ansatz die Leistung hinsichtlich Trainingszeit und Qualität der erlernten Strategie im Vergleich zu einem rein lernbasierten Ansatz verbessert. Verhaltensbäume kombinieren mehrere Regler, die als Aktionsknoten bezeichnet werden, zu einem zusammengesetzten Regler, indem sie abhängig vom aktuellem Zustand zwischen ihnen wechseln. Diese Regler können entweder manuell programmiert oder in sogenannten lernenden Aktionsknoten erlernt werden. In diesen Knoten ist der Regler ein Reinforcement Learning Agent. Verhaltensbäume können in einem Prozess namens Rückwärtsverkettung erstellt werden. Um den Erfolg eines rückwärtsverketteten Verhaltensbaums sicherzustellen, muss jeder Aktionsknoten zuvor erreichte Teilerfolge aufrechterhalten. Sogenannte erweiterte aktive Einschränkungsbedingungen formalisieren diesen Gedanken als Bedingungen, die nicht verletzt werden dürfen, damit der Aktionsknoten die Ausführung fortsetzen kann. Um einen Anreiz für die Aufrechterhaltung erweiterter aktiver Einschränkungsbedingungen in Lernaktionsknoten zu schaffen, kann dem Agenten bei Verstoß gegen erweiterte aktive Einschränkungsbedingungen eine negative Belohnung gewährt werden. Diese Herangehensweise garantiert jedoch nicht die Einhaltung der erweiterten aktiven Einschränkungsbedingungen, da sie rein lernbasiert ist. Kontrollbarrierefunktionen können verwendet werden, um die verfügbaren Aktionen eines Agenten zu beschränken, damit dieser in einer sicheren Teilmenge des Zustandsraums bleibt. Indem die sichere Teilmenge des Zustandsraums als die Menge definiert wird, in der die erweiterten aktiven Einschränkungsbedingungen erfüllt sind, können Kontrollbarrierefunktionen idealerweise verwendet werden, um sicherzustellen, dass die erweiterten aktiven Einschränkungsbedingungen nicht verletzt werden. Die Ergebnisse zeigen, dass im Vergleich zur Nichtverwendung von Kontrollbarrierefunktionen deutlich weniger Training erforderlich ist, um vergleichbare oder etwas bessere Ergebnisse zu erzielen. Darüber hinaus werden erweiterte aktive Einschränkungsbedingungen deutlich seltener verletzt und die Gesamtleistung wird leicht verbessert.
29

SELECTION OF FEATURES FOR ML BASED COMMANDING OF AUTONOMOUS VEHICLES

Sridhar, Sabarish January 2020 (has links)
Traffic coordination is an essential challenge in vehicle automation. The challenge is not only about maximizing the revenue/productivity of a fleet of vehicles, but also about avoiding non feasible states such as collisions and low energy levels, which could make the fleet inoperable. The challenge is hard due to the complex nature of the real time traffic and the large state space involved. Reinforcement learning and simulation-based search techniques have been successful in handling complex problem with large state spaces [1] and can be used as potential candidates for traffic coordination. In this degree project, a variant of these techniques known as Dyna-2 [2] is investigated for traffic coordination. A long term memory of past experiences is approximated by a neural network and is used to guide a Temporal Difference (TD) search. Various features are proposed, evaluated and finally a feature representation is chosen to build the neural network model. The Dyna-2 Traffic Coordinator (TC) is investigated for its ability to provide supervision for handling vehicle bunching and charging. Two variants of traffic coordinators, one based on simple rules and another based on TD search are the existing baselines for the performance evaluation. The results indicate that by incorporating learning via a long-term memory, the Dyna-2 TC is robust to vehicle bunching and ensures a good balance in charge levels over time. The performance of the Dyna-2 TC depends on the choice of features used to build the function approximator, a bad feature choice does not provide good generalization and hence results in bad performance. On the other hand, the previous approaches based on rule-based planning and TD search made poor decisions resulting in collisions and low energy states. The search based approach is comparatively better than the rule-based approach, however it is not able to find an optimal solution due to the depth limitations. With the guidance from a long term memory, the search was able to generate a higher return and ensure a good balance in charge levels. / Trafikkoordinering är en grundläggande utmaning för att autonomisera fordon. Utmaningen ligger inte bara i att maximera inkomsten/produktiviteten hos en fordonsflotta utan även i att undvika olämpliga tillstånd, så som krockar och brist på energi vilka skulle kunna göra flottan obrukbar. Utmaningen är svår på grund av den komplexa naturen hos trafik i realtid och det stora tillståndsrummet som innefattas. Förstärkningsinlärning och simulationsbaserade söktekniker har varit framgångsrika metoder för att hantera komplexa problem med stora tillståndsrum [1] och kan ses som en potentiell kandidat för trafikkoordinering. Detta examensarbete undersöker en variant av dessa tekniker, känd som Dyna-2 [2], applicerat på trafikkoordinering. Ett långsiktigt minne av tidigare erfarenheter approximeras med ett neuron nät och används för att vägleda en Temporal Difference (TD) sökning. Olika attribut föreslås, utvärderas och sätts sedan samman till en representation att bygga nätverket kring. Dyna-2 Trafikkoordinator (TC) undersöks för dess färdighet att ge beslutsstöd för hantering av grupperade fordon och laddning. Två varianter av trafikkoordinerare, en baserad på enkla regler och en baserad på TD-sökningen, används som grund för utvärderingen av prestanda. Resultaten indikerar att genom inkludering av inlärning via ett långsiktigt minne så är Dyna-2 TC en robust metod för att hantera grupperade fordon och ger en god balans av laddningsnivå över tid. Prestandan hos Dyna-2 TC beror på valet av de attribut som används för att bygga approximeringsfunktionen, sämre val av attribut generaliserar inte bra vilket då resulterar i dålig prestanda. Å andra sidan, de tidigare tillvägagånssätten baserade på planering genom regler och TD-sökning tog dåliga beslut vilket resulterade i kollisioner och tillstånd med låga laddningsnivåer. Jämfört med att basera på regler så är den sökbaserade metoden bättre, den lyckades dock inte hitta en optimal lösning på grund av begränsningar hos sökdjupet. Med vägvisning från ett långsiktigt minne så sökningen kunde sökningen generera högre avkastning och säkerställa en god balans hos laddningsnivåerna.
30

A scalable species-based genetic algorithm for reinforcement learning / En skalbar artbaserad genetisk algoritm för förstärkningsinlärning

Seth, Anirudh January 2021 (has links)
Existing methods in Reinforcement Learning (RL) that rely on gradient estimates suffer from the slow rate of convergence, poor sample efficiency, and computationally expensive training, especially when dealing with complex real-world problems with a sizable dimensionality of the state and action space. In this work, we attempt to leverage the benefits of evolutionary computation as a competitive, scalable, and gradient-free alternative to training deep neural networks for RL-specific problems. In this context, we present a novel distributed algorithm based on an efficient model encoding that allows the intuitive application of genetic operators. Our results demonstrate improved exploration and considerable reduction of trainable parameters while maintaining comparable performance with algorithms like Deep Q-Network (DQN), Asynchronous Advantage Actor Critic (A3C), and Evolution Strategy (ES) when evaluated on Atari 2600 games. A scalability assessment of the algorithm revealed a significant parallel speedup and over 10,000 fold improvement in memory requirement. Sample efficiency improved in some experiments, but not significantly. Finally, the algorithm was applied on a Remote Electrical Tilt (RET) optimization task, the improvements in Key Performance Indicators (KPIs) show that the algorithm is also effective in other domains. / gradientskattningar är begränsade av långsam konvergenshastighet, låg samplingeffektivitet och beräkningsmässigt dyra träningsprocedurer. Detta är särskilt fallet när dessa hanterar komplexa och verkliga problem med högdimensionella tillstånds- och handlingsrum. I detta arbete försöker vi utnyttja fördelarna med evolutionär beräkning som ett konkurrenskraftigt, skalbart och gradientfritt alternativ till att träna djupa neurala nätverk för RL-specifika problem. I detta sammanhang presenterar vi en ny distribuerad algoritm baserad på en effektiv modellkodning som möjliggör intuitiv tillämpning av genetiska operatorer. Våra resultat visar ett förbättrat utforskande och en avsevärd minskning av träningsbara.

Page generated in 0.1531 seconds