Compared with the terrestrial network (TN), which can only support limited covered areas, satellite communication (SC) can provide global coverage and high survivability in case of an emergency like an earthquake. Especially low-earth orbit (LEO) satellites, as a promising technology, which is integral to achieving the goal of global seamless coverage and reliable communication, catering to 6G’s communication requirements. Nevertheless, the swift movement of the LEO satellites poses a challenge: frequent handovers are inevitable, compromising the quality of service (QoS) of users and leading to discontinuous connectivity. Moreover, considering LEO satellite connectivity for different flying vehicles (FVs) when coexisting with ground terminals, an efficient satellite handover decision control and mobility management strategy is required to reduce the number of handovers and allocate resources that align with different user requirements. With the development of machine learning (ML) methods, which can greatly enhance system performance and automation, reinforcement learning (RL), as a sub-field in ML has been employed to optimize decision control. Due to the challenges of dimensionality explosion and the propensity for traditional Q-learning algorithms to get trapped in local minima, deep learning has been introduced with RL. In this thesis, the high-dimensionality user-satellite network is constructed including the LEO constellation from the ephemeris data, different types of flying vehicles such as aircraft and drones, and ground terminals. Two mathematical optimization models named the traditional low handover model and network utility model when considering the full criteria including the remaining visible time, downlink (DL) carrier-to-interference-plus-noise ratio (CINR) and the available idle channels are formulated. In this way, a novel satellite handover strategy based on Multi-Agent Reinforcement Learning (MARL) and game theory named Nash-SAC has been proposed to solve these problems. From the simulation results, compared with different benchmarks such as the traditional Q-learning algorithm, Maximum available channel (MAC)-based strategy, and Maximum instantaneous signal strength (MIS)-based strategy, Nash-SAC can effectively reduce the number of satellite handovers by over 16% close to the lower limit, and the blocking rate by over 18%. Moreover, Nash-SAC can greatly improve the network utility of the whole system by up to 48% and cater to different users’ requirements, providing reliable and robust connectivity for both FVs and ground terminals. / Jämfört med det markbundna nätet (TN), som endast kan stödja begränsade täckta områden, kan satellitkommunikation (SC) ge global täckning och hög överlevnad vid en nödsituation som en jordbävning. Speciellt lågjordiga satelliter (LEO), som en lovande teknik, som är integrerad för att uppnå målet om global sömlös täckning och tillförlitlig kommunikation, tillgodose 6G:s kommunikationskrav. Icke desto mindre utgör LEO-satelliternas snabba förflyttning en utmaning: täta överlämningar är oundvikliga, vilket äventyrar användarnas tjänstekvalitet och leder till kontinuerlig uppkoppling. Med tanke på LEO:s satellitanslutning för olika flygande fordon när de samexisterar med markterminaler krävs dessutom en effektiv strategi för kontroll av satellitöverlämning och mobilitetshantering för att minska antalet överlämningar och fördela resurser som överensstämmer med olika användarkrav. Med utvecklingen av maskininlärningsmetoder (ML), som avsevärt kan förbättra systemprestanda och automation, har förstärkningsinlärning (RL), som ett delområde i ML använts för att optimera beslutskontrollen. På grund av utmaningarna med dimensionsexplosion och benägenheten för traditionella Q-inlärningsalgoritmer att fastna i lokala minimi har djupinlärning introducerats med RL. I denna avhandling konstrueras det högdimensionella användarsatellitnätet inklusive LEO-konstellationen från ephemerisdata, olika typer av flygande fordon såsom flygplan och drönare samt markterminaler. Två matematiska optimeringsmodeller kallas den traditionella lågöverlämningsmodellen och nätverksbruksmodellen när man beaktar de fullständiga kriterierna inklusive återstående synliga tiden, nedlänk (DL) carrier-to-interferens-plus-noise ratio (CINR) och tillgängliga inaktiva kanaler formuleras. På detta sätt har en ny satellitöverlämningsstrategi baserad på Multi-Agent Reinforcement Learning (MARL) och spelteori vid namn Nash-SAC föreslagits för att lösa dessa problem. Från simuleringsresultaten, jämfört med olika riktmärken såsom den traditionella Q-learning algoritmen, Maximal available channel (MAC)-baserad strategi och Maximal instantaneous signalstyrka (MIS)-baserad strategi, kan Nash-SAC effektivt minska antalet satellitöverlämningar med över 16% nära den nedre gränsen och blockeringshastigheten med över 18%. Dessutom kan Nash-SAC avsevärt förbättra nätverksnyttan i hela systemet med upp till 48% och tillgodose olika användares krav, vilket ger tillförlitlig och robust anslutning för både flygande fordon och markterminaler.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-338106 |
Date | January 2023 |
Creators | Chen, Jinxuan |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2023:710 |
Page generated in 0.0027 seconds