Global ETD Search

Return to search

Joint Trajectory and Handover Management for UAVs Co-existing with Terrestrial Users : Deep Reinforcement Learning Based Approaches / Gemensam bana och överlämnandehantering för UAV som samexisterar med markbundna användare : Deep Reinforcement Learning-baserade tillvägagångssätt

Integrating unmanned aerial vehicles (UAVs) as aerial user equipments (UEs) into cellular networks is now considered as a promising solution to provide extensive wireless connectivity for supporting UAV-centric commercial or civilian applications. However, the co-existence of UAVs with conventional terrestrial UEs is one of the primary challenges for this solution. Flying at higher altitudes with maneuverability advantage, UAVs are able to establish line-of-sight (LoS) connectivity with more base stations (BSs) than terrestrial UEs. Although LoS connectivity reduces the communication delay of UAVs, they also simultaneously increase the interference that UAVs cause to terrestrial UEs. In scenarios involving multiple UAVs, LoS connectivity can even lead to interference issues among themselves. In addition, LoS connectivity leads to extensive overlapping coverage areas of multiple BSs for UAVs, forcing them to perform frequent handovers during the flight if the received signal strength (RSS)-based handover policy is employed. The trajectories and BS associations of UAVs, along with their radio resource allocation are essential design parameters aimed at enabling their seamless integration into cellular networks, with a particular focus on managing interference levels they generate and reducing the redundant handovers they performe. Hence, this thesis designs two joint trajectory and handover management approaches for single-UAV and multi-UAVs scenarios, respectively, aiming to minimize the weighted sum of three key performance indicators (KPIs): transmission delay, up-link interference, and handover numbers. The approaches are based on deep reinforcement learning (DRL) frameworks with dueling double deep Q-network (D3QN) and Q-learning with a MIXer network (QMIX) algorithms being selected as the training agents, respectively. The choice of these DRL algorithms is motivated by their capability in designing sequential decision-making policies consisting of trajectory design and handover management. Results show that the proposed approaches effectively address the aforementioned challenges while ensuring the low transmission delay of cellular-connected UAVs. These results are in contrast to the performance of benchmark scheme, which directs UAVs to follow the shortest path and perform handovers based on RSS. Specifically, when considering the single-UAV scenario, the D3QN-based approach reduces the up-link interference by 18% and the handover numbers by 90% with a 59% increase in transmission delay as compared to the benchmark. The equivalent delay increase is 15 microseconds, which is considered negligible. For the multi-UAVs scenario, the QMIX-based approach jointly optimizes three performance metrics as compared to the benchmark scheme, resulting in a 70% decrease in interference, a 91% decrease in handover numbers, and a 47% reduction in transmission delay. It is noteworthy that an increase of UAVs operating within the same network leads to performance degradation due to UAVs competing for communication resources and mutual interference. When transitioning from the single-UAV scenario to the multi-UAVs scenario, the performance of the benchmark scheme experiences a significant decline, with an increase of 199% in interference, 89% in handover numbers, and 652% in transmission delay. In contrast, the proposed QMIX algorithm effectively coordinates multiple UAVs, mitigating performance degradation and achieving performance similar to the D3QN algorithm applying in the single-UAV scenario: an interference increase of 9%, a handover numbers increase of 9% and a delay increase of 152%. The delay increase is attributed to the reduced communication resources available to each individual UAVs, given the constant communication resources of the network. / Att integrera obemannade flygfordon (UAV) som flyganvändarutrustning (UE) i cellulära nätverk anses nu vara en lovande lösning för att tillhandahålla omfattande trådlös anslutning för att stödja UAV-centrerade kommersiella eller civila tillämpningar. Men samexistensen av UAV med konventionella markbundna UE är en av de främsta utmaningarna för denna lösning. Flygande på högre höjder med manövrerbarhetsfördelar kan UAV:er etablera siktlinje (LoS)-anslutning med fler basstationer (BS) än markbundna UE. Även om LoS-anslutning minskar kommunikationsfördröjningen för UAV:er, ökar de samtidigt störningen som UAV:er orsakar för markbundna UE. I scenarier som involverar flera UAV:er kan LoS-anslutning till och med leda till störningsproblem sinsemellan. Dessutom leder LoS-anslutning till omfattande överlappande täckningsområden för flera BS:er för UAV, vilket tvingar dem att utföra frekventa överlämningar under flygningen om den mottagna signalstyrkan (RSS)-baserad överlämningspolicy används. UAV:s banor och BS-associationer, tillsammans med deras radioresursallokering, är väsentliga designparametrar som syftar till att möjliggöra deras sömlösa integrering i cellulära nätverk, med särskilt fokus på att hantera störningsnivåer de genererar och minska de redundanta handovers de utför. Därför designar denna avhandling två gemensamma bana och handover-hanteringsmetoder för en-UAV-respektive multi-UAV-scenarier, som syftar till att minimera den viktade summan av tre nyckelprestandaindikatorer (KPI:er): överföringsfördröjning, upplänksinterferens och överlämningsnummer . Tillvägagångssätten är baserade på ramverk för djup förstärkning inlärning (DRL) med duellerande dubbla djupa Q-nätverk (D3QN) och Q-lärande med ett MIXer-nätverk (QMIX) algoritmer som väljs som träningsagenter. Valet av dessa DRL-algoritmer motiveras av deras förmåga att utforma sekventiella beslutsfattande policyer som består av banadesign och handover-hantering. Resultaten visar att de föreslagna tillvägagångssätten effektivt tar itu med ovannämnda utmaningar samtidigt som de säkerställer den låga överföringsfördröjningen för mobilanslutna UAV:er. Dessa resultat står i kontrast till prestanda för benchmark-schemat, som styr UAV:er att följa den kortaste vägen och utföra överlämningar baserat på RSS. Närmare bestämt, när man överväger singel-UAV-scenariot, minskar det D3QN tillvägagångssättet upplänksinterferensen med 18% och överlämningssiffrorna med 90% med en 59% ökning av överföringsfördröjningen jämfört med riktmärket. Den ekvivalenta fördröjningsökningen är 15 mikrosekunder, vilket anses vara försumbart. För scenariot med flera UAV:er optimerar det QMIX-baserade tillvägagångssättet tillsammans tre prestandamått jämfört med benchmark-schemat, vilket resulterar i en 70% minskning av störningar, en 91% minskning av överlämningssiffror och en 47% minskning av överföringsfördröjningen. Det är anmärkningsvärt att en ökning av UAV:er som arbetar inom samma nätverk leder till prestandaförsämring på grund av UAV:er som konkurrerar om kommunikationsresurser och ömsesidig störning. Vid övergången från scenariot med en UAV till scenariot med flera UAV, upplever prestanda för benchmark-schemat en betydande nedgång, med en ökning på 199% av störningar, 89% i överlämnandetal och 652% i överföringsfördröjning. Däremot koordinerar den föreslagna QMIX-algoritmen effektivt flera UAV, vilket minskar prestandaförsämring och uppnår prestanda liknande D3QN-algoritmen som tillämpas i single-UAV-scenariot: en störningsökning på 9%, en ökning av antalet överlämningar med 9% och en fördröjningsökning på 152%. Ökningen av fördröjningen tillskrivs de minskade kommunikationsresurserna tillgängliga för varje enskild UAV, givet nätverkets konstanta kommunikationsresurser.

http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-345635

Cellular-connected UAVs

Trajectory design

Handover management

Reinforcement learning

Multi-agent learning

Multi-objectiveoptimization

Cellulärt anslutna UAV:er

Flygbanedesign

Handöverhantering

Förstärkningsinlärning

Inlärning med flera agenter

Multiobjektiv optimering

Computer and Information Sciences

Data- och informationsvetenskap

Identifer	oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-345635
Date	January 2024
Creators	Deng, Yuhang
Publisher	KTH, Skolan för elektroteknik och datavetenskap (EECS), Stockholm : KTH Royal Institute of Technology
Source Sets	DiVA Archive at Upsalla University
Language	English
Detected Language	Swedish
Type	Student thesis, info:eu-repo/semantics/bachelorThesis, text
Format	application/pdf
Rights	info:eu-repo/semantics/openAccess
Relation	TRITA-EECS-EX ; 2024:36

Page generated in 0.0034 seconds

Joint Trajectory and Handover Management for UAVs Co-existing with Terrestrial Users : Deep Reinforcement Learning Based Approaches / Gemensam bana och överlämnandehantering för UAV som samexisterar med markbundna användare : Deep Reinforcement Learning-baserade tillvägagångssätt

Description

Links & Downloads

Tags

Additional Fields