• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 8
  • Tagged with
  • 8
  • 8
  • 8
  • 8
  • 8
  • 7
  • 6
  • 6
  • 6
  • 5
  • 5
  • 4
  • 4
  • 3
  • 3
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Safe Reinforcement Learning for Remote Electrical Tilt Optimization / Optimering av Fjärrlutning med Säker Förstärkningsinlärning

Iakovidis, Grigorios January 2021 (has links)
The adjustment of the vertical tilt angle of Base Station (BS) antennas, also known as Remote Electrical Tilt (RET) optimization, is a simple and efficient method of optimizing modern telecommunications networks. Reinforcement Learning (RL) is a machine learning framework that can solve complex problems like RET optimization due to its capability to learn from experience and adapt to dynamic environments. However, conventional RL methods involve trial-and-error processes which can result in short periods of poor network performance which is unacceptable to mobile network operators. This unreliability has prevented RL solutions from being deployed in real-world mobile networks. In this thesis, we formulate the RET optimization problem as a Safe Reinforcement Learning (SRL) problem and attempt to train an RL policy that can offer performance improvement guarantees with respect to an existing baseline policy. We utilize a recent SRL method called Safe Policy Improvement through Baseline Bootstrapping (SPIBB) to improve over a baseline by training an RL agent on a offline dataset of environment interactions gathered by the baseline. We evaluate our solution using a simulated environment and show that it is effective at improving a tilt update policy in a safe manner, thus providing a more reliable RL solution to the RET optimization problem and potentially enabling future real-world deployment. / Justeringen av den vertikala lutningsvinkeln hos basstationens antenner, även kallad Remote Electrical Tilt (RET) optimering, är en enkel och effektiv metod för att optimera moderna telenät. Förstärkningsinlärning är en maskininlärningsram som kan lösa komplexa problem som RET-optimering tack vare dess förmåga att lära sig av erfarenhet och anpassa sig till dynamiska miljöer. Konventionella förstärkningsinlärning metoder innebär emellertid försök och felprocesser som kan leda till korta perioder av dålig nätverksprestanda, vilket är oacceptabelt förmobilnätoperatörerna. Denna otillförlitlighet har hindrat förstärkningsinlärning lösningar från att användas i verkliga mobila nätverk. I denna hypotes formulerar vi problemet med RET-optimering som ett problem med Säker Förstärkningsinlärning(SF) och försöker utbilda en förstärkningsinlärning policy som kan erbjuda garantier för förbättrad prestanda i förhållande till en befintlig grundläggandepolicy. Vi använder en nyligen genomförd SF-metod som kallas Safe PolicyImprovement by Baseline Bootstrapping (SPIBB) för att förbättra en baslinje genom att utbilda en förstärkningsinlärning agent på en offlinedatabaserad datamängdmed miljöinteraktioner som samlats in vid baslinjen. Vi utvärderar vår lösning med hjälp av en simulerad miljö och visar att den är effektiv när det gäller att förbättra politiken för tippuppdatering på ett säkert sätt, vilket ger en mer tillförlitligförstärkningsinlärning lösning på problemet med RET-optimering och eventuellt möjliggör framtida realglobal driftsättning.
2

Agent Contribution in Multi-Agent Reinforcement Learning : A Case Study in Remote Electrical Tilt

Emanuelsson, William January 2024 (has links)
As multi-agent reinforcement learning (MARL) continues to evolve and find applications in complex real-world systems, the imperative for explainability in these systems becomes increasingly critical. Central to enhancing this explainability is tackling the credit assignment problem, a key challenge in MARL that involves quantifying the individual contributions of agents toward a common goal. In addressing this challenge, this thesis introduces and explores the application of Local and Global Shapley Values (LSV and GSV) within MARL contexts. These novel adaptations of the traditional Shapley value from cooperative game theory are investigated particularly in the context of optimizing remote electrical tilt in telecommunications antennas. Using both predator-prey and remote electrical tilt environments, the study delves into local and global explanations, examining how the Shapley value can illuminate changes in agent contributions over time and across different states, as well as aggregate these insights over multiple episodes. The research findings demonstrate that the use of Shapley values enhances the understanding of individual agent behaviors, offers insights into policy suboptimalities and environmental nuances, and aids in identifying agent redundancies—a feature with potential applications in energy savings in real-world systems. Altogether, this thesis highlights the considerable potential of employing the Shapley value as a tool in explainable MARL. / I takt med utvecklingen och tillämpningen av multi-agent förstärkningsinlärning (MARL) i komplexa verkliga system, blir behovet av förklarbarhet i dessa system allt mer väsentligt. För att förbättra denna förklarbarhet är det viktigt att lösa problemet med belöningstilldelning, en nyckelutmaning i MARL som innefattar att kvantifiera de enskilda bidragen från agenter mot ett gemensamt mål. I denna uppsats introduceras och utforskas tillämpningen av lokala och globala Shapley-värden (LSV och GSV) inom MARL-sammanhang. Dessa nya anpassningar av det traditionella Shapley-värdet från samarbetsbaserad spelteori undersöks särskilt i sammanhanget av att optimera fjärrstyrda elektriska lutningar i telekommunikationsantenner. Genom att använda både rovdjur-byte och fjärrstyrda elektriska lutningsmiljöer fördjupar studien sig i lokala och globala förklaringar, och undersöker hur Shapley-värdet kan belysa förändringar i agenters bidrag över tid och över olika tillstånd, samt sammanfatta dessa insikter över flera episoder. Resultaten visar att användningen av Shapley-värden förbättrar förståelsen för individuella agentbeteenden, erbjuder insikter i policybrister och miljönyanser, och hjälper till att identifiera agentredundanser – en egenskap med potentiella tillämpningar för energibesparingar i verkliga system. Sammanfattningsvis belyser denna uppsats den betydande potentialen av att använda Shapley-värdet som ett verktyg i förklaringsbar MARL.
3

Offline Reinforcement Learning for Remote Electrical Tilt Optimization : An application of Conservative Q-Learning / Offline förstärkningsinlärning för fjärran antennlutningsoptimering : En tillämpning av konservativ Q-inlärning

Kastengren, Marcus January 2021 (has links)
In telecom networks adjusting the tilt of antennas in an optimal manner, the so called remote electrical tilt (RET) optimization, is a method to ensure quality of service (QoS) for network users. Tilt adjustments made during operations in real-world networks are usually executed through a suboptimal policy, and a significant amount of data is collected during the execution of such policy. The policy collecting the data is known as the behavior policy and can be used to learn improved tilt update policies in an offline manner. In this thesis the RET optimization problem is formulated in a offline Reinforcement Learning (RL) setting, where the objective is to learn an optimal policy from batches of data collected by the logging policy. Offline RL is a challenging problem where traditional RL algorithms can fail to learn policies that will perform well when evaluated online.In this thesis Conservative Q-learning (CQL) is applied to tackle the challenges of offline RL, with the purpose of learning improved policies for tilt adjustment from data in a simulated environment. Experiments are made with different types of function approximators to model the Q-function. Specifically, an Artificial Neural Network (ANN) and a linear model are employed in the experiments. With linear function approximation, two novel algorithms which combine the properties of CQL and the classic Least Squares Policy Iteration (LSPI) algorithm are proposed. They are also used for learning RET adjustment policies. In online evaluation in the simulator one of the proposed algorithms with simple linear function approximation achieves similar results to CQL with the more complex artificial neural network function approximator. These versions of CQL outperform both the behavior policy and the naive Deep Q-Networks (DQN) method. / I telekomnätverk är justering av lutningen av antenner, kallat Remote Electrical Tilt (RET) optimering en metod för att säkerställa servicekvalitet för användare av nätverket. Justeringar under drift är gjorda med ickeoptimala riktlinjer men gjort på ett säkert sätt och data samlas in under driften. Denna datan kan potentiellt användas för att skaffa fram bättre riktlinjer för att justera antennlutningen.Antennlutningsproblemet kan formuleras som ett offline-förstärkandeinlärningsproblem, där målet är att ta fram optimala riktlinjer från ett dataset. Offline-förstärkningsinlärning är ett utmanande problem där naiva implementationer av traditionella förstärkningsinlärnings-algoritmer kan fallera.I denna masteruppsats används metoden konservativ Q-inlärning (CQL) för att tackla utmaningarna hos offline-förstärkningsinlärning och för att hitta förbättrade riktlinjer för antennlutningsjusteringar i en simulerad miljö. Problem-uppställningens egenskaper gör att Q-inlärningsmetoder som CQL behöver funktions-approximatorer för modellera Q-funktionen. I denna masteruppsats görs experiment med både expressiva artificiella neurala nätverk och linjära kombinationer av simpla basfunktioner som funktions-approximatorer.I fallet med linjära funktions-approximatorer så föreslås två nya algoritmer som kombinerar egenskaperna hos CQL med den klassiska förstäkningsinlärningsalgoritmen minsta-kvadrat policyiteration (LSPI) som sedan också används för att skapa riktlinjer för antennlutningsjustering.Resultaten visar att CQL med artificiella neurala nätverk och en av dom föreslagna algoritmerna kan lära sig riktlinjer med bättre resultat en både riktlinjerna som samlade in träningsdatan och den klassiska metoden djupt Q-nätverk applicerad offline.
4

Bridging Sim-to-Real Gap in Offline Reinforcement Learning for Antenna Tilt Control in Cellular Networks / Överbrygga Sim-to-Real Gap i inlärning av offlineförstärkning för antennlutningskontroll i mobilnät

Gulati, Mayank January 2021 (has links)
Antenna tilt is the angle subtended by the radiation beam and horizontal plane. This angle plays a vital role in determining the coverage and the interference of the network with neighbouring cells and adjacent base stations. Traditional methods for network optimization rely on rule-based heuristics to do decision making for antenna tilt optimization to achieve desired network characteristics. However, these methods are quite brittle and are incapable of capturing the dynamics of communication traffic. Recent advancements in reinforcement learning have made it a viable solution to overcome this problem but even this learning approach is either limited to its simulation environment or is limited to off-policy offline learning. So far, there has not been any effort to overcome the previously mentioned limitations, so as to make it applicable in the real world. This work proposes a method that consists of transferring reinforcement learning policies from a simulated environment to a real environment i.e. sim-to-real transfer through the use of offline learning. The approach makes use of a simulated environment and a fixed dataset to compensate for the underlined limitations. The proposed sim-to-real transfer technique utilizes a hybrid policy model, which is composed of a portion trained in simulation and a portion trained on the offline real-world data from the cellular networks. This enables to merge samples from the real-world data to the simulated environment consequently modifying the standard reinforcement learning training procedures through knowledge sharing between the two environment’s representations. On the one hand, simulation enables to achieve better generalization performance with respect to conventional offline learning as it complements offline learning with learning through unseen simulated trajectories. On the other hand, the offline learning procedure enables to close the sim-to-real gap by exposing the agent to real-world data samples. Consequently, this transfer learning regime enable us to establish optimal antenna tilt control which in turn results in improved coverage and reduced interference with neighbouring cells in the cellular network. / Antennlutning är den vinkel som dämpas av strålningsstrålen och det horisontella planet. Denna vinkel spelar en viktig roll för att bestämma täckningen och störningen av nätverket med angränsande celler och intilliggande basstationer. Traditionella metoder för nätverksoptimering förlitar sig på regelbaserad heuristik för att göra beslutsfattande för antennlutningsoptimering för att uppnå önskade nätverksegenskaper. Dessa metoder är dock ganska styva och är oförmögna att fånga dynamiken i kommunikationstrafiken. De senaste framstegen inom förstärkningsinlärning har gjort det till en lönsam lösning att lösa detta problem, men även denna inlärningsmetod är antingen begränsad till dess simuleringsmiljö eller är begränsad till off-policy offline inlärning. Hittills har inga ansträngningar gjorts för att övervinna de tidigare nämnda begränsningarna för att göra det tillämpligt i den verkliga världen. Detta arbete föreslår en metod som består i att överföra förstärkningsinlärningspolicyer från en simulerad miljö till en verklig miljö, dvs. sim-till-verklig överföring genom användning av offline-lärande. Metoden använder en simulerad miljö och en fast dataset för att kompensera för de understrukna begränsningarna. Den föreslagna sim-till-verkliga överföringstekniken använder en hybridpolicymodell, som består av en del utbildad i simulering och en del utbildad på offline-verkliga data från mobilnätverk. Detta gör det möjligt att slå samman prover från verklig data till den simulerade miljön och därmed modifiera standardutbildningsförfarandena för förstärkning genom kunskapsdelning mellan de två miljöernas representationer. Å ena sidan möjliggör simulering att uppnå bättre generaliseringsprestanda med avseende på konventionellt offlineinlärning eftersom det kompletterar offlineinlärning med inlärning genom osynliga simulerade banor. Å andra sidan möjliggör offline-inlärningsförfarandet att stänga sim-till-real-klyftan genom att exponera agenten för verkliga dataprov. Följaktligen möjliggör detta överföringsinlärningsregime att upprätta optimal antennlutningskontroll som i sin tur resulterar i förbättrad täckning och minskad störning med angränsande celler i mobilnätet.
5

Explainable Reinforcement Learning for Remote Electrical Tilt Optimization

Mirzaian, Artin January 2022 (has links)
Controlling antennas’ vertical tilt through Remote Electrical Tilt (RET) is an effective method to optimize network performance. Reinforcement Learning (RL) algorithms such as Deep Reinforcement Learning (DRL) have been shown to be successful for RET optimization. One issue with DRL is that DRL models have a black box nature where it is difficult to ’explain’ the decisions made in a human-understandable way. Explanations of a model’s decisions are beneficial for a user not only to understand but also to intervene and modify the RL model. In this work, a state-ofthe-art Explainable Reinforcement Learning (XRL) method is evaluated on the RET optimization problem. More specifically, the chosen XRL method is the Embedded Self-Prediction (ESP) model proposed by Lin, Lam, and Fern [16] which can generate contrastive explanations in terms of why an action is preferred over the other. The ESP model was evaluated on two different RET optimization scenarios. The first scenario is formulated as a single agent RL problem in a ’simple’ environment whereas the second scenario is formulated as a multi agent RL problem with a more complex environment. In both scenarios, the results show little to no difference in performance compared to a baseline Deep Q-Network (DQN) algorithm. Finally, the explanations of the model were validated by comparing them to action outcomes. The conclusions of this work is that the ESP model offers explanations of its behaviour with no performance decrease compared to a baseline DQN and the generated explanations offer value in debugging and understanding the given problem. / Att styra antenners vertikala lutning genom RET är en effektiv metod för att optimera nätverksprestanda. RL-algoritmer som DRL har visat sig vara framgångsrika för REToptimering. Ett problem med DRL är att DRL-modeller är som en svart låda där det är svårt att ’förklara’ de beslut som fattas på ett sätt som är begripligt för människor. Förklaringar av en modells beslut är fördelaktiga för en användare inte bara för att förstå utan också för att ingripa och modifiera RL-modellen. I detta arbete utvärderas en toppmodern XRL-metod på RET-optimeringsproblemet. Mer specifikt är den valda XRL-metoden ESP-modellen som föreslagits av Lin, Lam och Fern [16] som kan generera kontrastiva förklaringar i termer av varför en handling föredras framför den andra. ESP-modellen utvärderades på två olika RET-optimeringsscenarier. Det första scenariot är formulerat som ett problem med en enstaka agent i en ’enkel’ miljö medan det andra scenariot är formulerat som ett problem med flera agenter i en mer komplex miljö. I båda scenarierna visar resultaten liten eller ingen skillnad i prestanda jämfört med en DQN-algoritm. Slutligen validerades modellens förklaringar genom att jämföra dem med handlingsresultat. Slutsatserna av detta arbete är att ESPmodellen erbjuder förklaringar av dess beteende utan prestandaminskning jämfört med en DQN och de genererade förklaringarna ger värde för att felsöka och förstå det givna problemet.
6

Model-based Residual Policy Learning for Sample Efficient Mobile Network Optimization / Modell-baserad residual-policyinlärning för dataeffektiv optimering av mobila nätverk

Eriksson Möllerstedt, Viktor January 2022 (has links)
Reinforcement learning is a powerful tool which enables an agent to learn how to control complex systems. However, during the early phases of training, the performance is often poor. Increasing sample efficiency means that fewer interactions with the environment are necessary before achieving good performance, minimizing risk and cost in real world deployment or saving simulation time. We present a novel reinforcement learning method, which we call Model-based Residual Policy Learning, that learns a residual to an existing expert policy using a model-based approach for maximum sample efficiency. We compared its sample efficiency to several methods, including a state-of-the-art model-free method. The comparisons were done on two tasks: coverage and capacity optimization via antenna tilt control for telecommunication networks, as well as a common robotics benchmark task. Performance was measured as the mean episodic reward collected during training. In the coverage and capacity optimization task, the reward signal was a sum of the log reference signal received power, throughput, and signal to interference plus noise ratio averaged across users in the cells. Our method was more sample efficient than the baselines across the board. The sample efficiency was especially good for the coverage and capacity optimization task. We also found that using an expert policy helped to maintain a good initial performance. In the ablation studies of the two components of our method, the complete method achieved the highest sample efficiency in the majority of the experiments. / Förstärkande inlärning är ett kraftfullt verktyg för att lära en agent att kontrollera komplexa system. Dock så är prestandan oftast dålig i början av träningen. Med att öka dataeffektiviteten menar vi att färre interaktioner med omgivningen är nödvändiga innan en bra prestanda uppnås, vilket minimerar risk och kostnad vid användning i verkligheten, eller minskar simuleringstiden. Vi presenterar en ny metod för förstärkande inlärning vilken vi kallar Modell-baserad residual-policyinlärning, som tränar en korrektionsterm till en expert-policy med hjälp av ett modell-baserat tillvägagångssätt för maximal dataeffektivitet. Vi jämförde dess dataeffektivitet med ett flertal metoder, bland annat en av de främsta modell-fria metoderna. Jämförelsen gjordes på två problem; optimering av täckning och kapacitet för telekommunikationsnätverk via styrning av antennernas nedåtlutning, samt ett vanligt förekommande testproblem inom robotik. Prestandan mättes med den genomsnittliga belöningen per episod insamlad av agenten under träningsprocessen. I täckning och kapacitet optimeringsproblemet så definierade vi belöningssignalen som summan av medelvärdet av logaritmen av den mottagna referenssignalens styrka (RSRP), dataöverföringshastigheten (throughput) och kvoten mellan signal och interferens plus brus (SINR) över antalet användare i cellerna. Vår metod var mer dataeffektiv än de som vi jämförde med i samtliga experiment. Dataeffektiviteten var särskilt hög för optimering av täckning och kapacitet. Vi fann även att användningen av en expert-policy hjälpte till att bibehålla en bra tidig prestanda. En ablationsstudie av vår metods två komponenter visade att den fullständiga metoden hade bäst dataeffektivitet i majoriteten av experimenten.
7

Bayesian Off-policy Sim-to-Real Transfer for Antenna Tilt Optimization

Larsson Forsberg, Albin January 2021 (has links)
Choosing the correct angle of electrical tilt in a radio base station is essential when optimizing for coverage and capacity. A reinforcement learning agent can be trained to make this choice. If the training of the agent in the real world is restricted or even impossible, alternative methods can be used. Training in simulation combined with an approximation of the real world is one option that comes with a set of challenges associated with the reality gap. In this thesis, a method based on Bayesian optimization is implemented to tune the environment in which domain randomization is performed to improve the quality of the simulation training. The results show that using Bayesian optimization to find a good subset of parameters works even when access to the real world is constrained. Two off- policy estimators based on inverse propensity scoring and direct method evaluation in combination with an offline dataset of previously collected cell traces were tested. The method manages to find an isolated subspace of the whole domain that optimizes the randomization while still giving good performance in the target domain. / Rätt val av elektrisk antennvinkel för en radiobasstation är avgörande när täckning och kapacitetsoptimering (eng. coverage and capacity optimization) görs för en förstärkningsinlärningsagent. Om träning av agenten i verkligheten är besvärlig eller till och med omöjlig att genomföra kan olika alternativa metoder användas. Simuleringsträning kombinerad med en skattningsmodell av verkligheten är ett alternativ som har olika utmaningar kopplade till klyftan mellan simulering och verkligheten (eng. reality gap). I denna avhandling implementeras en lösning baserad på Bayesiansk Optimering med syftet att anpassa miljön som domänrandomisering sker i för att förbättra kvaliteten på simuleringsträningen. Resultatet visar att Bayesiansk Optimering kan användas för att hitta ett urval av fungerande parametrar även när tillgången till den faktiska verkligheten är begränsad. Två skattningsmodeller baserade på invers propensitetsviktning och direktmetodutvärdering i kombination med ett tidigare insamlat dataset av nätverksdata testades. Den tillämpade metoden lyckas hitta ett isolerat delrum av parameterrymden som optimerar randomiseringen samtidigt som prestationen i verkligheten hålls på en god nivå.
8

Belief-aided Robust Control for Remote Electrical Tilt Optimization

Jönsson, Jack January 2021 (has links)
Remote Electrical Tilt (RET) is a method for configuring antenna downtilt in base stations to optimize mobile network performance. Reinforcement Learning (RL) is an approach to automating the process by letting an agent learn an optimal control strategy and adapt to the dynamic environment. Applying RL in real world comes with challenges, for the RET problem there are performance requirements and partial observability of the system through exogenous factors inducing noise in observations. This thesis proposes a solution method through modeling the problem by a Partially Observable Markov Decision Process (POMDP). The set of hidden states are modeled as a high- level representation of situations requiring one of the possible actions uptilt, downtilt, no change. From this model, a Bayesian Neural Network (BNN) is trained to predict an observation model, relating observed Key Performance Indicators (KPIs) to the hidden states. The observation model is used for estimating belief state probabilities of each hidden state, from which decision of control action is made through a restrictive threshold policy. Experiments comparing the method to a baseline Deep Q- network (DQN) agent shows the method able to reach the same average performance increase as the baseline while outperforming the baseline in two metrics important for robust and safe control behaviour, the worst- case minimum reward increase and the average reward increase per number of tilt actions. / Fjärrstyrning av Elektrisk Lutning (FEL) är en metod för att reglera lutningen av antenner i basstationer för att optimera presentandan i ett mobilnätverk. Förstärkande Inlärning (FI) används som metod för att automatisera processen genom att låta en agent lära sig en optimal strategi för reglering och anpassa sig till den dynamiska miljön. Att tillämpa FI i ett verkligt scenario innebär utmaningar, för FEL specifikt finns det krav på en viss nivå av prestanda samt endast en delvis observerbarhet av systemet på grund av externa faktorer som orsakar brus i observationerna. I detta arbete föreslås en metod för att hantera detta genom att modellera problemet som en Delvis Observerbar Markovprocess (DOM). De dolda tillstånden modelleras för att representera situationer där var och en av de möjliga aktionerna behövs, det vill säga att luta antennen upp, ner eller inte ändra på lutningen. Utifrån denna modellering så tränas ett Bayesiskt Neuralt Nätverk (BNN) för att estimera en observationsmodel som kopplar observerade nyckeltal till de dolda tillstånden. Denna observationsmodel används för att estimera sannolikheten att vardera dolt tillstånd är det rätta. Utifrån dessa sannolikheter så görs valet av aktion genom ett tröskelvärde på sannolikheterna. Genom experiment som jämför metoden med en standardimplementering av en agent baserad på ett Djupt Qnätverk (DQN) visas att metoden har samma prestation när det kommer till en medelnivå på prestandaökning i nätverket. Metoden överträffar dock standardmetoden i två andra mätvärden som är viktiga ur aspekten säker och robust reglering, minimumvärdet på prestandaökningen samt medelökningen av prestandan per antal up- och nerlutningar som används.

Page generated in 0.0768 seconds