• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 49
  • Tagged with
  • 49
  • 49
  • 48
  • 39
  • 33
  • 30
  • 26
  • 26
  • 16
  • 12
  • 11
  • 10
  • 10
  • 10
  • 9
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
41

Access Point Selection and Clustering Methods with Minimal Switching for Green Cell-Free Massive MIMO Networks

He, Qinglong January 2022 (has links)
As a novel beyond fifth-generation (5G) concept, cell-free massive MIMO (multiple-input multiple-output) recently has become a promising physical-layer technology where an enormous number of distributed access points (APs), coordinated by a central processing unit (CPU), cooperate to coherently serve a large number of user equipments (UEs) in the same time/frequency resource. However, denser AP deployment in cell-free networks as well as an exponentially growing number of mobile UEs lead to higher power consumption. What is more, similar to conventional cellular networks, cell-free massive MIMO networks are dimensioned to provide the required quality of service (QoS) to the UEs under heavy traffic load conditions, and thus they might be underutilized during low traffic load periods, leading to inefficient use of both spectral and energy resources. Aiming at the implementation of energy-efficient cell-free networks, several approaches have been proposed in the literature, which consider different AP switch ON/OFF (ASO) strategies for power minimization. Different from prior works, this thesis focuses on additional factors other than ASO that have an adverse effect not only on total power consumption but also on implementation complexity and operation cost. For instance, too frequent ON/OFF switching in an AP can lead to tapering off the potential power saving of ASO by incurring extra power consumption due to excessive switching. Indeed, frequent switching of APs might also result in thermal fatigue and serious lifetime degeneration. Moreover, time variations in the AP-UE association in favor of energy saving in a dynamic network bring additional signaling and implementation complexity. Thus, in the first part of the thesis, we propose a multi-objective optimization problem that aims to minimize the total power consumption together with AP switching and AP-UE association variations in comparison to the state of the network in the previous state. The proposed problem is cast in mixed integer quadratic programming form and solved optimally. Our simulation results show that by limiting AP switching (node switching) and AP-UE association reformation switching (link switching), the total power consumption from APs only slightly increases but the number of average switching drops significantly regardless of node switching or link switching. It achieves a good balance on the trade-off between radio power consumption and the side effects excessive switching will bring. In the second part of the thesis, we consider a larger cell-free massive MIMO network by dividing the total area into disjoint network-centric clusters, where the APs in each cluster are connected to a separate CPU. In each cluster, cell-free joint transmission is locally implemented to achieve a scalable network implementation. Motivated by the outcomes of the first part, we reshape our dynamic network simulator to keep the active APs for a given spatial traffic pattern the same as long as the mean arrival rates of the UEs are constant. Moreover, the initially formed AP-UE association for a particular UE is not allowed to change. In that way, we make the number of node and link switching zero throughout the considered time interval. For this dynamic network, we propose a deep reinforcement learning (DRL) framework that learns the policy of maximizing long-term energy efficiency (EE) for a given spatially-varying traffic density. The active AP density of each network-centric cluster and the boundaries of the clusters are learned by the trained agent to maximize the EE. The DRL algorithm is shown to learn a non-trivial joint cluster geometry and AP density with at least 7% improvement in terms of EE compared to the heuristically-developed benchmarks. / Som ett nytt koncept bortom den femte generationen (5G) har cellfri massiv MIMO (multiple input multiple output) nyligen blivit en lovande teknik för det fysiska lagret där ett enormt antal distribuerade åtkomstpunkter (AP), som samordnas av en central processorenhet (CPU), samarbetar för att på ett sammanhängande sätt betjäna ett stort antal användarutrustningar (UE) i samma tids- och frekvensresurs. En tätare utplacering av AP:er i cellfria nät samt ett exponentiellt växande antal mobila användare leder dock till högre energiförbrukning. Dessutom är cellfria massiva MIMO-nät, i likhet med konventionella cellulära nät, dimensionerade för att ge den erforderliga tjänstekvaliteten (QoS) till enheterna under förhållanden med hög trafikbelastning, och därför kan de vara underutnyttjade under perioder med låg trafikbelastning, vilket leder till ineffektiv användning av både spektral- och energiresurser. För att genomföra energieffektiva cellfria nät har flera metoder föreslagits i litteraturen, där olika ASO-strategier (AP switch ON/OFF) beaktas för att minimera energiförbrukningen. Till skillnad från tidigare arbeten fokuserar den här avhandlingen på andra faktorer än ASO som har en negativ effekt inte bara på den totala energiförbrukningen utan också på komplexiteten i genomförandet och driftskostnaden. Till exempel kan alltför frekventa ON/OFF-omkopplingar i en AP leda till att ASO:s potentiella energibesparingar avtar genom extra energiförbrukning på grund av överdriven omkoppling. Frekventa omkopplingar av AP:er kan också leda till termisk trötthet och allvarlig försämring av livslängden. Dessutom medför tidsvariationer i AP-UE-associationen till förmån för energibesparingar i ett dynamiskt nät ytterligare signalering och komplexitet i genomförandet. I den första delen av avhandlingen föreslår vi därför ett optimeringsproblem med flera mål som syftar till att minimera den totala energiförbrukningen tillsammans med växling av AP och variationer i AP-UE-associationen i jämförelse med nätets tillstånd i det föregående läget. Det föreslagna problemet är en blandad helhetsmässig kvadratisk programmering och löses optimalt. Våra simuleringsresultat visar att genom att begränsa växling av AP (node switching) och växling av AP-UE-association (link switching) ökar den totala energiförbrukningen från AP:erna endast något, men antalet genomsnittliga växlingar ökar, oavsett om det rör sig om node switching eller link switching. Det ger en bra balans mellan radiokraftförbrukning och de bieffekter som överdriven växling medför. I den andra delen av avhandlingen tar vi hänsyn till ett större cellfritt massivt MIMO-nätverk genom att dela upp det totala området i disjunkta nätverkscentrerade kluster, där AP:erna i varje kluster är anslutna till en separat CPU. I varje kluster genomförs cellfri gemensam överföring lokalt för att uppnå en skalbar nätverksimplementering. Motiverat av resultaten i den första delen omformar vi vår dynamiska nätverkssimulator så att de aktiva AP:erna för ett givet rumsligt trafikmönster är desamma så länge som den genomsnittliga ankomsthastigheten för de enskilda enheterna är konstant. Dessutom tillåts inte den ursprungligen bildade AP-UE-associationen för en viss användare att förändras. På så sätt gör vi antalet nod- och länkbyten till noll under hela det aktuella tidsintervallet. För detta dynamiska nätverk föreslår vi ett ramverk för djup förstärkningsinlärning (DRL) som lär sig en strategi för att maximera energieffektiviteten på lång sikt för en given rumsligt varierande trafiktäthet. Den aktiva AP-tätheten i varje nätverkscentrerat kluster och klustrens gränser lärs av den utbildade agenten för att maximera EE. Det visas att DRL-algoritmen lär sig en icke-trivial gemensam klustergeometri och AP-täthet med minst 7% förbättring av EE jämfört med de heuristiskt utvecklade riktmärkena.
42

Real-time adaptation of robotic knees using reinforcement control

Daníel Sigurðarson, Leifur January 2023 (has links)
Microprocessor-controlled knees (MPK’s) allow amputees to walk with increasing ease and safety as technology progresses. As an amputee is fitted with a new MPK, the knee’s internal parameters are tuned to the user’s preferred settings in a controlled environment. These parameters determine various gait control settings, such as flexion target angle or swing extension resistance. Though these parameters may work well during the initial fitting, the MPK experiences various internal & external environmental changes throughout its life-cycle, such as product wear, changes in the amputee’s muscle strength, temperature changes, etc. This work investigates the feasibility of using a reinforcement learning (RL) control to adapt the MPK’s swing resistance to consistently induce the amputee’s preferred swing performance in realtime. Three gait features were identified as swing performance indicators for the RL algorithm. Results show that the RL control is able to learn and improve its tuning performance in terms of Mean Absolute Error over two 40-45 minute training sessions with a human-in-the-loop. Additionally, results show promise in using transfer learning to reduce strenuous RL training times. / Mikroprocessorkontrollerade knän (MPK) gör att amputerade kan utföra fysiska aktiviteter med ökad lätthet och säkerhet allt eftersom tekniken fortskrider. När en ny MPK monteras på en amputerad person, anpassas knäts interna parametrar till användarens i ett kontrollerad miljö. Dessa parametrar styr olika gångkontrollinställningar, såsom flexionsmålvinkel eller svängförlängningsmotstånd. Även om parametrarna kan fungera bra under den initiala anpassningen, upplever den MPK olika interna och yttre miljöförändringar under sin hela livscykel, till exempel produktslitage, förändringar i den amputerades muskelstyrka, temperaturförändringar, etc. Detta arbete undersöker möjligheten av, med hjälp av en förstärkningsinlärningskontroll (RL), att anpassa MPK svängmotstånd för att konsekvent inducera den amputerades föredragna svängprestanda i realtid. Tre gångegenskaper identifierades som svingprestandaindikatorer för RL-algoritmen. Resultaten visar att RL-kontrollen kan lära sig och förbättra sin inställningsprestanda i termer av Mean Absolute Error under två 40-45 minuters träningspass med en människa-i-loopen. Dessutom är resultaten lovande när det gäller att använda överföringsinlärning för att minska ansträngande RL-träningstider.
43

Data Harvesting and Path Planning in UAV-aided Internet-of-Things Wireless Networks with Reinforcement Learning : KTH Thesis Report / Datainsamling och vägplanering i UAV-stödda Internet-of-Things trådlösa nätverk med förstärkningsinlärning : KTH Examensrapport

Zhang, Yuming January 2023 (has links)
In recent years, Unmanned aerial vehicles (UAVs) have developed rapidly due to advances in aerospace technology, and wireless communication systems. As a result of their versatility, cost-effectiveness, and flexibility of deployment, UAVs have been developed to accomplish a variety of large and complex tasks without terrain restrictions, such as battlefield operations, search and rescue under disaster conditions, monitoring, etc. Data collection and offloading missions in The internet of thingss (IoTs) networks can be accomplished with the use of UAVs as network edge nodes. The fundamental challenge in such scenarios is to develop a UAV movement policy that enhances the quality of mission completion and avoids collisions. Real-time learning based on neural networks has been proven to be an effective method for solving decision-making problems in a dynamic, unknown environment. In this thesis, we assume a real-life scenario in which a UAV collects data from Ground base stations (GBSs) without knowing the information of the environment. A UAV is responsible for the MOO including collecting data, avoiding obstacles, path planning, and conserving energy. Two Deep reinforcement learnings (DRLs) approaches were implemented in this thesis and compared. / Under de senaste åren har UAV utvecklats snabbt på grund av framsteg inom flygteknik och trådlösa kommunikationssystem. Som ett resultat av deras mångsidighet, kostnadseffektivitet och flexibilitet i utbyggnaden har UAV:er utvecklats för att utföra en mängd stora och komplexa uppgifter utan terrängrestriktioner, såsom slagfältsoperationer, sök och räddning under katastrofförhållanden, övervakning, etc. Data insamlings- och avlastningsuppdrag i IoT-nätverk kan utföras med användning av UAV:er som nätverkskantnoder. Den grundläggande utmaningen i sådana scenarier är att utveckla en UAV-rörelsepolicy som förbättrar kvaliteten på uppdragets slutförande och undviker kollisioner. Realtidsinlärning baserad på neurala nätverk har visat sig vara en effektiv metod för att lösa beslutsfattande problem i en dynamisk, okänd miljö. I den här avhandlingen utgår vi från ett verkligt scenario där en UAV samlar in data från GBS utan att känna till informationen om miljön. En UAV är ansvarig för MOO inklusive insamling av data, undvikande av hinder, vägplanering och energibesparing. Två DRL-metoder implementerades i denna avhandling och jämfördes.
44

Bayesian Off-policy Sim-to-Real Transfer for Antenna Tilt Optimization

Larsson Forsberg, Albin January 2021 (has links)
Choosing the correct angle of electrical tilt in a radio base station is essential when optimizing for coverage and capacity. A reinforcement learning agent can be trained to make this choice. If the training of the agent in the real world is restricted or even impossible, alternative methods can be used. Training in simulation combined with an approximation of the real world is one option that comes with a set of challenges associated with the reality gap. In this thesis, a method based on Bayesian optimization is implemented to tune the environment in which domain randomization is performed to improve the quality of the simulation training. The results show that using Bayesian optimization to find a good subset of parameters works even when access to the real world is constrained. Two off- policy estimators based on inverse propensity scoring and direct method evaluation in combination with an offline dataset of previously collected cell traces were tested. The method manages to find an isolated subspace of the whole domain that optimizes the randomization while still giving good performance in the target domain. / Rätt val av elektrisk antennvinkel för en radiobasstation är avgörande när täckning och kapacitetsoptimering (eng. coverage and capacity optimization) görs för en förstärkningsinlärningsagent. Om träning av agenten i verkligheten är besvärlig eller till och med omöjlig att genomföra kan olika alternativa metoder användas. Simuleringsträning kombinerad med en skattningsmodell av verkligheten är ett alternativ som har olika utmaningar kopplade till klyftan mellan simulering och verkligheten (eng. reality gap). I denna avhandling implementeras en lösning baserad på Bayesiansk Optimering med syftet att anpassa miljön som domänrandomisering sker i för att förbättra kvaliteten på simuleringsträningen. Resultatet visar att Bayesiansk Optimering kan användas för att hitta ett urval av fungerande parametrar även när tillgången till den faktiska verkligheten är begränsad. Två skattningsmodeller baserade på invers propensitetsviktning och direktmetodutvärdering i kombination med ett tidigare insamlat dataset av nätverksdata testades. Den tillämpade metoden lyckas hitta ett isolerat delrum av parameterrymden som optimerar randomiseringen samtidigt som prestationen i verkligheten hålls på en god nivå.
45

Robust Booster Landing Guidance/Control / Robust Booster Landnings Ledning/Styrning

Çelik, Ugurcan January 2020 (has links)
The space industry and the technological developments regarding space exploration hasn’t been this popular since the first moon landing. The privatization of space exploration and the vertical landing rockets made rocket science mainstream again. While being able to reuse rockets is efficient both in terms of profitability and popularity, these developments are still in their early stages. Vertical landing has challenges that, if neglected, can cause disastrous consequences. The existing studies on the matter usually don’t account for aerodynamics forces and corresponding controls, which results in higher fuel consumption thus lessening the economical benefits of vertical landing. Similar problems have been tackled in studies not regarding booster landings but regarding planetary landings. And while multiple solutions have been proposed for these problems regarding planetary landings, the fact that the reinforcement learning concepts work well and provide robustness made them a valid candidate for applying to booster landings. In this study, we focus on developing a vertical booster descent guidance and control law that’s robust by applying reinforcement learning concept. Since reinforcement learning method that is chosen requires solving Optimal Control Problems (OCP), we also designed and developed an OCP solver software. The robustness of resulting hybrid guidance and control policy will be examined against various different uncertainties including but not limited to wind, delay and aerodynamic uncertainty. / Rymdindustrin och den tekniska utvecklingen av rymdutforskningen har inte varit så populär sedan den första månlandningen. Privatiseringen av utforskningen av rymden och de vertikala landningsraketerna medförde att raketvetenskapen återkom som en viktig huvudfråga igen. Även om det är effektivt att återanvända raketer i form av lönsamhet och popularitet, är denna utveckling fortfarande i sina tidiga stadier. Vertikal landning har utmaningar som, om de försummas, kan orsaka katastrofala konsekvenser. De befintliga studierna i frågan redovisar vanligtvis inte aerodynamikkrafter och motsvarande regulatorer, vilket resulterar i högre bränsleförbrukning som minskar de ekonomiska fördelarna med vertikal landning. Liknande problem har hanterats i studier som inte avsåg boosterlandningar utan om planetariska landningar. Även om flera lösningar har föreslagits för dessa problem beträffande planetariska landningar, det faktum att förstärkningsinlärningskonceptet fungerar bra och ger robusthet gjorde dem till en giltig kandidat för att ansöka om boosterlandningar. I den här studien fokuserar vi på att utveckla en lagstiftning för styrning av vertikala booster-nedstigningar som är robust genom att tillämpa koncepten inom förstärkningsinlärning. Ef- tersom förstärkt inlärningsmetod som väljs kräver lösning av optimala kontrollproblem (OCP), designade och utvecklade vi också en OCP-lösningsmjukvara. Robustheten för resulterande hybridstyrning och kontrollpolicy kommer att undersökas mot olika osäkerheter inklusive, men inte begränsat till vind, fördröjning och aerodynamisk osäkerhet.
46

Hierarchical Control of Simulated Aircraft / Hierarkisk kontroll av simulerade flygplan

Mannberg, Noah January 2023 (has links)
This thesis investigates the effectiveness of employing pretraining and a discrete "control signal" bottleneck layer in a neural network trained in aircraft navigation through deep reinforcement learning. The study defines two distinct tasks to assess the efficacy of this approach. The first task is utilized for pretraining specific parts of the network, while the second task evaluates the potential benefits of this technique. The experimental findings indicate that the network successfully learned three main macro actions during pretraining. flying straight ahead, turning left, and turning right, and achieved high rewards on the task. However, utilizing the pretrained network on the transfer task yielded poor performance, possibly due to the limited effective action space or deficiencies in the training process. The study discusses several potential solutions, such as incorporating multiple pretraining tasks and alterations of the training process as avenues for future research. Overall, this study highlights the challanges and opportunities associated with combining pretraining with a discrete bottleneck layer in the context of simulated aircraft navigation using reinforcement learning. / Denna studie undersöker effektiviteten av att använda förträning och en diskret "styrsignal" som fungerar som flaskhals i ett neuralt nätverk tränat i flygnavigering med hjälp av djup förstärkande inlärning. Studien definierar två olika uppgifter för att bedöma effektiviteten hos denna metod. Den första uppgiften används för att förträna specifika delar at nätverket, medan den andra uppgiften utvärderar de potentiella fördelarna med denna teknik. De experimentella resultaten indikerar att nätverket framgångsrikt lärde sig tre huvudsakliga makrohandlingar under förträningen: att flyga rakt fram, att svänga vänster och att svänga höger, och uppnådde höga belöningar för uppgiften. Men att använda det förtränade nätverket för den uppföljande uppgiften gav dålig prestation, möjligen på grund av det begränsade effektiva handlingsutrymmet eller begränsningar i träningsprocessen. Studien diskuterar flera potentiella lösningar, såsom att inkorporera flera förträningsuppgifter och ändringar i träningsprocessen, som möjliga framtida forskningsvägar. Sammantaget belyser denna studie de utmaningar och möjligheter som är förknippade med att kombinera förträning med ett diskret flaskhalslager inom kontexten av simulerad flygnavigering och förstärkningsinlärning.
47

Joint Trajectory and Handover Management for UAVs Co-existing with Terrestrial Users : Deep Reinforcement Learning Based Approaches / Gemensam bana och överlämnandehantering för UAV som samexisterar med markbundna användare : Deep Reinforcement Learning-baserade tillvägagångssätt

Deng, Yuhang January 2024 (has links)
Integrating unmanned aerial vehicles (UAVs) as aerial user equipments (UEs) into cellular networks is now considered as a promising solution to provide extensive wireless connectivity for supporting UAV-centric commercial or civilian applications. However, the co-existence of UAVs with conventional terrestrial UEs is one of the primary challenges for this solution. Flying at higher altitudes with maneuverability advantage, UAVs are able to establish line-of-sight (LoS) connectivity with more base stations (BSs) than terrestrial UEs. Although LoS connectivity reduces the communication delay of UAVs, they also simultaneously increase the interference that UAVs cause to terrestrial UEs. In scenarios involving multiple UAVs, LoS connectivity can even lead to interference issues among themselves. In addition, LoS connectivity leads to extensive overlapping coverage areas of multiple BSs for UAVs, forcing them to perform frequent handovers during the flight if the received signal strength (RSS)-based handover policy is employed. The trajectories and BS associations of UAVs, along with their radio resource allocation are essential design parameters aimed at enabling their seamless integration into cellular networks, with a particular focus on managing interference levels they generate and reducing the redundant handovers they performe. Hence, this thesis designs two joint trajectory and handover management approaches for single-UAV and multi-UAVs scenarios, respectively, aiming to minimize the weighted sum of three key performance indicators (KPIs): transmission delay, up-link interference, and handover numbers. The approaches are based on deep reinforcement learning (DRL) frameworks with dueling double deep Q-network (D3QN) and Q-learning with a MIXer network (QMIX) algorithms being selected as the training agents, respectively. The choice of these DRL algorithms is motivated by their capability in designing sequential decision-making policies consisting of trajectory design and handover management. Results show that the proposed approaches effectively address the aforementioned challenges while ensuring the low transmission delay of cellular-connected UAVs. These results are in contrast to the performance of benchmark scheme, which directs UAVs to follow the shortest path and perform handovers based on RSS. Specifically, when considering the single-UAV scenario, the D3QN-based approach reduces the up-link interference by 18% and the handover numbers by 90% with a 59% increase in transmission delay as compared to the benchmark. The equivalent delay increase is 15 microseconds, which is considered negligible. For the multi-UAVs scenario, the QMIX-based approach jointly optimizes three performance metrics as compared to the benchmark scheme, resulting in a 70% decrease in interference, a 91% decrease in handover numbers, and a 47% reduction in transmission delay. It is noteworthy that an increase of UAVs operating within the same network leads to performance degradation due to UAVs competing for communication resources and mutual interference. When transitioning from the single-UAV scenario to the multi-UAVs scenario, the performance of the benchmark scheme experiences a significant decline, with an increase of 199% in interference, 89% in handover numbers, and 652% in transmission delay. In contrast, the proposed QMIX algorithm effectively coordinates multiple UAVs, mitigating performance degradation and achieving performance similar to the D3QN algorithm applying in the single-UAV scenario: an interference increase of 9%, a handover numbers increase of 9% and a delay increase of 152%. The delay increase is attributed to the reduced communication resources available to each individual UAVs, given the constant communication resources of the network. / Att integrera obemannade flygfordon (UAV) som flyganvändarutrustning (UE) i cellulära nätverk anses nu vara en lovande lösning för att tillhandahålla omfattande trådlös anslutning för att stödja UAV-centrerade kommersiella eller civila tillämpningar. Men samexistensen av UAV med konventionella markbundna UE är en av de främsta utmaningarna för denna lösning. Flygande på högre höjder med manövrerbarhetsfördelar kan UAV:er etablera siktlinje (LoS)-anslutning med fler basstationer (BS) än markbundna UE. Även om LoS-anslutning minskar kommunikationsfördröjningen för UAV:er, ökar de samtidigt störningen som UAV:er orsakar för markbundna UE. I scenarier som involverar flera UAV:er kan LoS-anslutning till och med leda till störningsproblem sinsemellan. Dessutom leder LoS-anslutning till omfattande överlappande täckningsområden för flera BS:er för UAV, vilket tvingar dem att utföra frekventa överlämningar under flygningen om den mottagna signalstyrkan (RSS)-baserad överlämningspolicy används. UAV:s banor och BS-associationer, tillsammans med deras radioresursallokering, är väsentliga designparametrar som syftar till att möjliggöra deras sömlösa integrering i cellulära nätverk, med särskilt fokus på att hantera störningsnivåer de genererar och minska de redundanta handovers de utför. Därför designar denna avhandling två gemensamma bana och handover-hanteringsmetoder för en-UAV-respektive multi-UAV-scenarier, som syftar till att minimera den viktade summan av tre nyckelprestandaindikatorer (KPI:er): överföringsfördröjning, upplänksinterferens och överlämningsnummer . Tillvägagångssätten är baserade på ramverk för djup förstärkning inlärning (DRL) med duellerande dubbla djupa Q-nätverk (D3QN) och Q-lärande med ett MIXer-nätverk (QMIX) algoritmer som väljs som träningsagenter. Valet av dessa DRL-algoritmer motiveras av deras förmåga att utforma sekventiella beslutsfattande policyer som består av banadesign och handover-hantering. Resultaten visar att de föreslagna tillvägagångssätten effektivt tar itu med ovannämnda utmaningar samtidigt som de säkerställer den låga överföringsfördröjningen för mobilanslutna UAV:er. Dessa resultat står i kontrast till prestanda för benchmark-schemat, som styr UAV:er att följa den kortaste vägen och utföra överlämningar baserat på RSS. Närmare bestämt, när man överväger singel-UAV-scenariot, minskar det D3QN tillvägagångssättet upplänksinterferensen med 18% och överlämningssiffrorna med 90% med en 59% ökning av överföringsfördröjningen jämfört med riktmärket. Den ekvivalenta fördröjningsökningen är 15 mikrosekunder, vilket anses vara försumbart. För scenariot med flera UAV:er optimerar det QMIX-baserade tillvägagångssättet tillsammans tre prestandamått jämfört med benchmark-schemat, vilket resulterar i en 70% minskning av störningar, en 91% minskning av överlämningssiffror och en 47% minskning av överföringsfördröjningen. Det är anmärkningsvärt att en ökning av UAV:er som arbetar inom samma nätverk leder till prestandaförsämring på grund av UAV:er som konkurrerar om kommunikationsresurser och ömsesidig störning. Vid övergången från scenariot med en UAV till scenariot med flera UAV, upplever prestanda för benchmark-schemat en betydande nedgång, med en ökning på 199% av störningar, 89% i överlämnandetal och 652% i överföringsfördröjning. Däremot koordinerar den föreslagna QMIX-algoritmen effektivt flera UAV, vilket minskar prestandaförsämring och uppnår prestanda liknande D3QN-algoritmen som tillämpas i single-UAV-scenariot: en störningsökning på 9%, en ökning av antalet överlämningar med 9% och en fördröjningsökning på 152%. Ökningen av fördröjningen tillskrivs de minskade kommunikationsresurserna tillgängliga för varje enskild UAV, givet nätverkets konstanta kommunikationsresurser.
48

Investigating Multi-Objective Reinforcement Learning for Combinatorial Optimization and Scheduling Problems : Feature Identification for multi-objective Reinforcement Learning models / Undersökning av förstärkningsinlärning av flera mål för kombinatorisk optimering och schemaläggningsproblem : Funktionsidentifiering för förstärkningsinlärning av flera mål för kombinatorisk optimering och schemaläggningsproblem

Fridsén Skogsberg, Rikard January 2022 (has links)
Reinforcement Learning (RL) has in recent years become a core method for sequential decision making in complex dynamical systems, being of great interest to support improvements in scheduling problems. This could prove important to areas in the newer generation of cellular networks. One such area is the base stations scheduler which allocates radio resources to users. This is posed as large-scale optmization problem which needs to be solved in millisecond intervals, while at the same time accounting for multiple, sometimes conflicting, objectives like latency or Quality of Service requirements. In this thesis, multi-objective RL (MORL) solutions are proposed and evaluated in order to identify desired features for novel applications to the scheduling problem. The posed solution classes were tested in common MORL benchmark environments such as Deep Sea Treasure for efficient and informative evaluation of features. It was ultimately tested in environments to solve combinatorial optmization and scheduling problems. The results indicate that outer-loop multi-policy solutions are able to produce models that comply with desired features for scheduling. A multi-policy multi-objective deep Q-network was implemented and showed it can produce an adaptive-at-run-time discrete model, based on an outer-loop approach that calls a single-policy algorithm. The presented approach does not increase in complexity when adding objectives but generally requires larger sampling quantities for convergence. Differing scalarization techniques of the reward was tested, indicating effect on variance that could effect performance in certain environment characteristics. / Försärkningsinlärning som en gångbar metod för sekventiellt beslutsfattande i komplexa dynamiska system har ökat under de senaste åren tack vare förbättrade hårdvaru möjligheter. Intressenter av denna teknik finns bland annat inom telekom-indistrin vars aktörer har som mål att uteveckla nya generationens mobilnätverk. En av de grundläggande funktionerna i en basstation är scheduleraren vars uppgift är att allokera radio resurser till användare i nätverket. Detta ställs med fördel upp som ett optimeringsproblem som nödvändiggör att problemet måste lösas på millisekund nivå samtidigt som den kan ta flera typer av mål i beaktning, såsom QoS krav och latens. I detta examensarbete så presenteras och utvärderas förstärningsinlärnings algoritmer för flera mål inom flera lösningsklasser i syfte att identifiera önskvärda funktioner för nya tillämpningar inom radio resurs schemaläggning. De presenterade lösningsklasserna av algoritmer testades i vanligt förekommande riktmärkesmiljöer för denna typ av teknik såsom Deep Sea Treasure för att på effektivt sätt utvärdera de kvalitéer och funktioner varje algoritm har. Slutligen testades lösningen i miljöer inom kombinatorisk optimering och schemaläggning. Resultaten indikerar att fler-policy lösningar har kapaciteten att producera modeller som ligger inom de krav problemet kräver. Fler-policy modeller baserade på djupa Q-närverk av flera mål kunde framställa adaptiva, diskreta realtidsmodeller. Denna lösning ökar inte komplexiteten när fler mål läggs till men har generellt behov av större mängder samplade preferenser för att konvergera. Olika skaläriseringstekniker av belöningen testades och indikerade att dessa påverkade variansen, vilket i vissa typer av miljö konfigurationer påverkade resultaten.
49

Explainable Reinforcement Learning for Gameplay

Costa Sánchez, Àlex January 2022 (has links)
State-of-the-art Machine Learning (ML) algorithms show impressive results for a myriad of applications. However, they operate as a sort of a black box: the decisions taken are not human-understandable. There is a need for transparency and interpretability of ML predictions to be wider accepted in society, especially in specific fields such as medicine or finance. Most of the efforts so far have focused on explaining supervised learning. This project aims to use some of these successful explainability algorithms and apply them to Reinforcement Learning (RL). To do so, we explain the actions of a RL agent playing Atari’s Breakout game, using two different explainability algorithms: Shapley Additive Explanations (SHAP) and Local Interpretable Model-agnostic Explanations (LIME). We successfully implement both algorithms, which yield credible and insightful explanations of the mechanics of the agent. However, we think the final presentation of the results is sub-optimal for the final user, as it is not intuitive at first sight. / De senaste algoritmerna för maskininlärning (ML) visar imponerande resultat för en mängd olika tillämpningar. De fungerar dock som ett slags ”svart låda”: de beslut som fattas är inte begripliga för människor. Det finns ett behov av öppenhet och tolkningsbarhet för ML-prognoser för att de ska bli mer accepterade i samhället, särskilt inom specifika områden som medicin och ekonomi. De flesta insatser hittills har fokuserat på att förklara övervakad inlärning. Syftet med detta projekt är att använda några av dessa framgångsrika algoritmer för att förklara och tillämpa dem på förstärkning lärande (Reinforcement Learning, RL). För att göra detta förklarar vi handlingarna hos en RL-agent som spelar Ataris Breakout-spel med hjälp av två olika förklaringsalgoritmer: Shapley Additive Explanations (SHAP) och Local Interpretable Model-agnostic Explanations (LIME). Vi genomför framgångsrikt båda algoritmerna, som ger trovärdiga och insiktsfulla förklaringar av agentens mekanik. Vi anser dock att den slutliga presentationen av resultaten inte är optimal för slutanvändaren, eftersom den inte är intuitiv vid första anblicken. / Els algoritmes d’aprenentatge automàtic (Machine Learning, ML) d’última generació mostren resultats impressionants per a moltes aplicacions. Tot i això, funcionen com una mena de caixa negra: les decisions preses no són comprensibles per a l’ésser humà. Per tal que les prediccion preses mitjançant ML siguin més acceptades a la societat, especialment en camps específics com la medicina o les finances, cal transparència i interpretabilitat. La majoria dels esforços que s’han fet fins ara s’han centrat a explicar l’aprenentatge supervisat (supervised learning). Aquest projecte pretén utilitzar alguns d’aquests existosos algoritmes d’explicabilitat i aplicar-los a l’aprenentatge per reforç (Reinforcement Learning, RL). Per fer-ho, expliquem les accions d’un agent de RL que juga al joc Breakout d’Atari utilitzant dos algoritmes diferents: explicacions additives de Shapley (SHAP) i explicacions model-agnòstiques localment interpretables (LIME). Hem implementat amb èxit tots dos algoritmes, que produeixen explicacions creïbles i interessants de la mecànica de l’agent. Tanmateix, creiem que la presentació final dels resultats no és òptima per a l’usuari final, ja que no és intuïtiva a primera vista.

Page generated in 0.086 seconds