• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 7
  • Tagged with
  • 7
  • 7
  • 6
  • 6
  • 5
  • 5
  • 5
  • 5
  • 4
  • 4
  • 4
  • 4
  • 3
  • 3
  • 2
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Solar Photovoltaic Tilt Angle Optimization in the United States

Alhamer, Essa Ebrahim January 2021 (has links)
No description available.
2

Safe Reinforcement Learning for Remote Electrical Tilt Optimization / Optimering av Fjärrlutning med Säker Förstärkningsinlärning

Iakovidis, Grigorios January 2021 (has links)
The adjustment of the vertical tilt angle of Base Station (BS) antennas, also known as Remote Electrical Tilt (RET) optimization, is a simple and efficient method of optimizing modern telecommunications networks. Reinforcement Learning (RL) is a machine learning framework that can solve complex problems like RET optimization due to its capability to learn from experience and adapt to dynamic environments. However, conventional RL methods involve trial-and-error processes which can result in short periods of poor network performance which is unacceptable to mobile network operators. This unreliability has prevented RL solutions from being deployed in real-world mobile networks. In this thesis, we formulate the RET optimization problem as a Safe Reinforcement Learning (SRL) problem and attempt to train an RL policy that can offer performance improvement guarantees with respect to an existing baseline policy. We utilize a recent SRL method called Safe Policy Improvement through Baseline Bootstrapping (SPIBB) to improve over a baseline by training an RL agent on a offline dataset of environment interactions gathered by the baseline. We evaluate our solution using a simulated environment and show that it is effective at improving a tilt update policy in a safe manner, thus providing a more reliable RL solution to the RET optimization problem and potentially enabling future real-world deployment. / Justeringen av den vertikala lutningsvinkeln hos basstationens antenner, även kallad Remote Electrical Tilt (RET) optimering, är en enkel och effektiv metod för att optimera moderna telenät. Förstärkningsinlärning är en maskininlärningsram som kan lösa komplexa problem som RET-optimering tack vare dess förmåga att lära sig av erfarenhet och anpassa sig till dynamiska miljöer. Konventionella förstärkningsinlärning metoder innebär emellertid försök och felprocesser som kan leda till korta perioder av dålig nätverksprestanda, vilket är oacceptabelt förmobilnätoperatörerna. Denna otillförlitlighet har hindrat förstärkningsinlärning lösningar från att användas i verkliga mobila nätverk. I denna hypotes formulerar vi problemet med RET-optimering som ett problem med Säker Förstärkningsinlärning(SF) och försöker utbilda en förstärkningsinlärning policy som kan erbjuda garantier för förbättrad prestanda i förhållande till en befintlig grundläggandepolicy. Vi använder en nyligen genomförd SF-metod som kallas Safe PolicyImprovement by Baseline Bootstrapping (SPIBB) för att förbättra en baslinje genom att utbilda en förstärkningsinlärning agent på en offlinedatabaserad datamängdmed miljöinteraktioner som samlats in vid baslinjen. Vi utvärderar vår lösning med hjälp av en simulerad miljö och visar att den är effektiv när det gäller att förbättra politiken för tippuppdatering på ett säkert sätt, vilket ger en mer tillförlitligförstärkningsinlärning lösning på problemet med RET-optimering och eventuellt möjliggör framtida realglobal driftsättning.
3

Agent Contribution in Multi-Agent Reinforcement Learning : A Case Study in Remote Electrical Tilt

Emanuelsson, William January 2024 (has links)
As multi-agent reinforcement learning (MARL) continues to evolve and find applications in complex real-world systems, the imperative for explainability in these systems becomes increasingly critical. Central to enhancing this explainability is tackling the credit assignment problem, a key challenge in MARL that involves quantifying the individual contributions of agents toward a common goal. In addressing this challenge, this thesis introduces and explores the application of Local and Global Shapley Values (LSV and GSV) within MARL contexts. These novel adaptations of the traditional Shapley value from cooperative game theory are investigated particularly in the context of optimizing remote electrical tilt in telecommunications antennas. Using both predator-prey and remote electrical tilt environments, the study delves into local and global explanations, examining how the Shapley value can illuminate changes in agent contributions over time and across different states, as well as aggregate these insights over multiple episodes. The research findings demonstrate that the use of Shapley values enhances the understanding of individual agent behaviors, offers insights into policy suboptimalities and environmental nuances, and aids in identifying agent redundancies—a feature with potential applications in energy savings in real-world systems. Altogether, this thesis highlights the considerable potential of employing the Shapley value as a tool in explainable MARL. / I takt med utvecklingen och tillämpningen av multi-agent förstärkningsinlärning (MARL) i komplexa verkliga system, blir behovet av förklarbarhet i dessa system allt mer väsentligt. För att förbättra denna förklarbarhet är det viktigt att lösa problemet med belöningstilldelning, en nyckelutmaning i MARL som innefattar att kvantifiera de enskilda bidragen från agenter mot ett gemensamt mål. I denna uppsats introduceras och utforskas tillämpningen av lokala och globala Shapley-värden (LSV och GSV) inom MARL-sammanhang. Dessa nya anpassningar av det traditionella Shapley-värdet från samarbetsbaserad spelteori undersöks särskilt i sammanhanget av att optimera fjärrstyrda elektriska lutningar i telekommunikationsantenner. Genom att använda både rovdjur-byte och fjärrstyrda elektriska lutningsmiljöer fördjupar studien sig i lokala och globala förklaringar, och undersöker hur Shapley-värdet kan belysa förändringar i agenters bidrag över tid och över olika tillstånd, samt sammanfatta dessa insikter över flera episoder. Resultaten visar att användningen av Shapley-värden förbättrar förståelsen för individuella agentbeteenden, erbjuder insikter i policybrister och miljönyanser, och hjälper till att identifiera agentredundanser – en egenskap med potentiella tillämpningar för energibesparingar i verkliga system. Sammanfattningsvis belyser denna uppsats den betydande potentialen av att använda Shapley-värdet som ett verktyg i förklaringsbar MARL.
4

A Graph Attention plus Reinforcement Learning Method for Antenna Tilt Optimization

Ma, Tengfei January 2021 (has links)
Remote Electrical Tilt optimization is an effective method to obtain the optimal Key Performance Indicators (KPIs) by remotely controlling the base station antenna’s vertical tilt. To improve the KPIs aims to improve antennas’ cooperation effect since KPIs measure the quality of cooperation between the antenna to be optimized and its neighbor antennas. Reinforcement Learning (RL) is an appropriate method to learn an antenna tilt control policy since the agent in RL can generate the optimal epsilon greedy tilt optimization policy by observing the environment and learning from the state- action pairs. However, existing models only produced tilt modification strategies by interpreting the to- be- optimized antenna’s features, which cannot fully characterize the mobile cellular network formed by the to- be- optimized antenna and its neighbors. Therefore, incorporating the features of the neighboring antennas into the model is an important measure to improve the optimization strategy. This work will introduce the Graph Attention Network to model the neighborhood antenna’s impact on the antenna to be optimized through the attention mechanism. Furthermore, it will generate a low- dimensional embedding vector with more expressive power to represent the to- be- optimized antenna’s state in the RL framework through dealing with graph- structural data. This new model, namely Graph Attention Q- Network (GAQ), is a model based on DQN and aims to acquire a higher performance than the Deep Q- Network (DQN) model, which is the baseline, evaluated by the same metric — KPI Improvement. Since GAQ has a richer perception of the environment than the vanilla DQN model, it thereby outperforms the DQN model, obtaining fourteen percent performance improvement compared to the baseline. Besides, GAQ also performs 14 per cent better than DQN in terms of convergence efficiency. / Optimering av fjärrlutning är en effektiv metod för att nå optimala nyckeltal genom fjärrstyrning av den vertikala lutningen av en antenn i en basstation. Att förbättra nyckeltalen innebär att förbättra sammarbetseffekten mellan antenner eftersom nyckeltalen är mått på kvalitén av sammarbetet mellan den antenn som optimeras och dess angränsande antenner. Förstärkande Inlärning (FI) är en lämplig metod för att lära sig en optimal strategi för reglering av antennlutningen eftersom agenten inom FI kan generera den optimala epsilongiriga optimeringsstrategin genom att observera miljön och lära sig från par av tillstånd och aktioner. Nuvarande modeller genererar dock endast lutningsstrategier genom att tolka egenskaperna hos den antenn som ska optimeras, vilket inte är tillräckligt för att karatärisera mobilnätverket bestående av antennen som ska optimeras samt dess angränsande antenner. Därav är inkluderingen av de angränsande antennernas egenskaper i modellen viktig för att förbättra optimeringsstrategin. Detta arbete introducerar Graf- Uppmärksammat Nätverk för att modellera de angränsande antennernas påverkan på den antenn som ska optimeras genom uppmärksamhetsmekanismen. Metoden genererar en lågdimensionell vektor med större förmåga att representera den optimerade antennens tillstånd i FI modellen genom att hantera data i struktur av en graf. Den nya modellen, Graf- Uppmärksammat Q- Nätverk (GUQ), är en modell baserad på DQN med mål att nå bättre prestanda än en standard DQN- modell, utvärderat efter samma mätvärde –– förbättring av nyckeltalen. Eftersom GUQ har en större upfattning av miljön så överträffar metoden DQN- modellen genom en fjorton procent bättre prestandaökning. Dessutom, så överträffar GUQ även DQN i form av snabbare konvergens.
5

Offline Reinforcement Learning for Remote Electrical Tilt Optimization : An application of Conservative Q-Learning / Offline förstärkningsinlärning för fjärran antennlutningsoptimering : En tillämpning av konservativ Q-inlärning

Kastengren, Marcus January 2021 (has links)
In telecom networks adjusting the tilt of antennas in an optimal manner, the so called remote electrical tilt (RET) optimization, is a method to ensure quality of service (QoS) for network users. Tilt adjustments made during operations in real-world networks are usually executed through a suboptimal policy, and a significant amount of data is collected during the execution of such policy. The policy collecting the data is known as the behavior policy and can be used to learn improved tilt update policies in an offline manner. In this thesis the RET optimization problem is formulated in a offline Reinforcement Learning (RL) setting, where the objective is to learn an optimal policy from batches of data collected by the logging policy. Offline RL is a challenging problem where traditional RL algorithms can fail to learn policies that will perform well when evaluated online.In this thesis Conservative Q-learning (CQL) is applied to tackle the challenges of offline RL, with the purpose of learning improved policies for tilt adjustment from data in a simulated environment. Experiments are made with different types of function approximators to model the Q-function. Specifically, an Artificial Neural Network (ANN) and a linear model are employed in the experiments. With linear function approximation, two novel algorithms which combine the properties of CQL and the classic Least Squares Policy Iteration (LSPI) algorithm are proposed. They are also used for learning RET adjustment policies. In online evaluation in the simulator one of the proposed algorithms with simple linear function approximation achieves similar results to CQL with the more complex artificial neural network function approximator. These versions of CQL outperform both the behavior policy and the naive Deep Q-Networks (DQN) method. / I telekomnätverk är justering av lutningen av antenner, kallat Remote Electrical Tilt (RET) optimering en metod för att säkerställa servicekvalitet för användare av nätverket. Justeringar under drift är gjorda med ickeoptimala riktlinjer men gjort på ett säkert sätt och data samlas in under driften. Denna datan kan potentiellt användas för att skaffa fram bättre riktlinjer för att justera antennlutningen.Antennlutningsproblemet kan formuleras som ett offline-förstärkandeinlärningsproblem, där målet är att ta fram optimala riktlinjer från ett dataset. Offline-förstärkningsinlärning är ett utmanande problem där naiva implementationer av traditionella förstärkningsinlärnings-algoritmer kan fallera.I denna masteruppsats används metoden konservativ Q-inlärning (CQL) för att tackla utmaningarna hos offline-förstärkningsinlärning och för att hitta förbättrade riktlinjer för antennlutningsjusteringar i en simulerad miljö. Problem-uppställningens egenskaper gör att Q-inlärningsmetoder som CQL behöver funktions-approximatorer för modellera Q-funktionen. I denna masteruppsats görs experiment med både expressiva artificiella neurala nätverk och linjära kombinationer av simpla basfunktioner som funktions-approximatorer.I fallet med linjära funktions-approximatorer så föreslås två nya algoritmer som kombinerar egenskaperna hos CQL med den klassiska förstäkningsinlärningsalgoritmen minsta-kvadrat policyiteration (LSPI) som sedan också används för att skapa riktlinjer för antennlutningsjustering.Resultaten visar att CQL med artificiella neurala nätverk och en av dom föreslagna algoritmerna kan lära sig riktlinjer med bättre resultat en både riktlinjerna som samlade in träningsdatan och den klassiska metoden djupt Q-nätverk applicerad offline.
6

Bridging Sim-to-Real Gap in Offline Reinforcement Learning for Antenna Tilt Control in Cellular Networks / Överbrygga Sim-to-Real Gap i inlärning av offlineförstärkning för antennlutningskontroll i mobilnät

Gulati, Mayank January 2021 (has links)
Antenna tilt is the angle subtended by the radiation beam and horizontal plane. This angle plays a vital role in determining the coverage and the interference of the network with neighbouring cells and adjacent base stations. Traditional methods for network optimization rely on rule-based heuristics to do decision making for antenna tilt optimization to achieve desired network characteristics. However, these methods are quite brittle and are incapable of capturing the dynamics of communication traffic. Recent advancements in reinforcement learning have made it a viable solution to overcome this problem but even this learning approach is either limited to its simulation environment or is limited to off-policy offline learning. So far, there has not been any effort to overcome the previously mentioned limitations, so as to make it applicable in the real world. This work proposes a method that consists of transferring reinforcement learning policies from a simulated environment to a real environment i.e. sim-to-real transfer through the use of offline learning. The approach makes use of a simulated environment and a fixed dataset to compensate for the underlined limitations. The proposed sim-to-real transfer technique utilizes a hybrid policy model, which is composed of a portion trained in simulation and a portion trained on the offline real-world data from the cellular networks. This enables to merge samples from the real-world data to the simulated environment consequently modifying the standard reinforcement learning training procedures through knowledge sharing between the two environment’s representations. On the one hand, simulation enables to achieve better generalization performance with respect to conventional offline learning as it complements offline learning with learning through unseen simulated trajectories. On the other hand, the offline learning procedure enables to close the sim-to-real gap by exposing the agent to real-world data samples. Consequently, this transfer learning regime enable us to establish optimal antenna tilt control which in turn results in improved coverage and reduced interference with neighbouring cells in the cellular network. / Antennlutning är den vinkel som dämpas av strålningsstrålen och det horisontella planet. Denna vinkel spelar en viktig roll för att bestämma täckningen och störningen av nätverket med angränsande celler och intilliggande basstationer. Traditionella metoder för nätverksoptimering förlitar sig på regelbaserad heuristik för att göra beslutsfattande för antennlutningsoptimering för att uppnå önskade nätverksegenskaper. Dessa metoder är dock ganska styva och är oförmögna att fånga dynamiken i kommunikationstrafiken. De senaste framstegen inom förstärkningsinlärning har gjort det till en lönsam lösning att lösa detta problem, men även denna inlärningsmetod är antingen begränsad till dess simuleringsmiljö eller är begränsad till off-policy offline inlärning. Hittills har inga ansträngningar gjorts för att övervinna de tidigare nämnda begränsningarna för att göra det tillämpligt i den verkliga världen. Detta arbete föreslår en metod som består i att överföra förstärkningsinlärningspolicyer från en simulerad miljö till en verklig miljö, dvs. sim-till-verklig överföring genom användning av offline-lärande. Metoden använder en simulerad miljö och en fast dataset för att kompensera för de understrukna begränsningarna. Den föreslagna sim-till-verkliga överföringstekniken använder en hybridpolicymodell, som består av en del utbildad i simulering och en del utbildad på offline-verkliga data från mobilnätverk. Detta gör det möjligt att slå samman prover från verklig data till den simulerade miljön och därmed modifiera standardutbildningsförfarandena för förstärkning genom kunskapsdelning mellan de två miljöernas representationer. Å ena sidan möjliggör simulering att uppnå bättre generaliseringsprestanda med avseende på konventionellt offlineinlärning eftersom det kompletterar offlineinlärning med inlärning genom osynliga simulerade banor. Å andra sidan möjliggör offline-inlärningsförfarandet att stänga sim-till-real-klyftan genom att exponera agenten för verkliga dataprov. Följaktligen möjliggör detta överföringsinlärningsregime att upprätta optimal antennlutningskontroll som i sin tur resulterar i förbättrad täckning och minskad störning med angränsande celler i mobilnätet.
7

Explainable Reinforcement Learning for Remote Electrical Tilt Optimization

Mirzaian, Artin January 2022 (has links)
Controlling antennas’ vertical tilt through Remote Electrical Tilt (RET) is an effective method to optimize network performance. Reinforcement Learning (RL) algorithms such as Deep Reinforcement Learning (DRL) have been shown to be successful for RET optimization. One issue with DRL is that DRL models have a black box nature where it is difficult to ’explain’ the decisions made in a human-understandable way. Explanations of a model’s decisions are beneficial for a user not only to understand but also to intervene and modify the RL model. In this work, a state-ofthe-art Explainable Reinforcement Learning (XRL) method is evaluated on the RET optimization problem. More specifically, the chosen XRL method is the Embedded Self-Prediction (ESP) model proposed by Lin, Lam, and Fern [16] which can generate contrastive explanations in terms of why an action is preferred over the other. The ESP model was evaluated on two different RET optimization scenarios. The first scenario is formulated as a single agent RL problem in a ’simple’ environment whereas the second scenario is formulated as a multi agent RL problem with a more complex environment. In both scenarios, the results show little to no difference in performance compared to a baseline Deep Q-Network (DQN) algorithm. Finally, the explanations of the model were validated by comparing them to action outcomes. The conclusions of this work is that the ESP model offers explanations of its behaviour with no performance decrease compared to a baseline DQN and the generated explanations offer value in debugging and understanding the given problem. / Att styra antenners vertikala lutning genom RET är en effektiv metod för att optimera nätverksprestanda. RL-algoritmer som DRL har visat sig vara framgångsrika för REToptimering. Ett problem med DRL är att DRL-modeller är som en svart låda där det är svårt att ’förklara’ de beslut som fattas på ett sätt som är begripligt för människor. Förklaringar av en modells beslut är fördelaktiga för en användare inte bara för att förstå utan också för att ingripa och modifiera RL-modellen. I detta arbete utvärderas en toppmodern XRL-metod på RET-optimeringsproblemet. Mer specifikt är den valda XRL-metoden ESP-modellen som föreslagits av Lin, Lam och Fern [16] som kan generera kontrastiva förklaringar i termer av varför en handling föredras framför den andra. ESP-modellen utvärderades på två olika RET-optimeringsscenarier. Det första scenariot är formulerat som ett problem med en enstaka agent i en ’enkel’ miljö medan det andra scenariot är formulerat som ett problem med flera agenter i en mer komplex miljö. I båda scenarierna visar resultaten liten eller ingen skillnad i prestanda jämfört med en DQN-algoritm. Slutligen validerades modellens förklaringar genom att jämföra dem med handlingsresultat. Slutsatserna av detta arbete är att ESPmodellen erbjuder förklaringar av dess beteende utan prestandaminskning jämfört med en DQN och de genererade förklaringarna ger värde för att felsöka och förstå det givna problemet.

Page generated in 0.1301 seconds