Return to search

Learning to Learn : Generalizing Reinforcement Learning Policies for Intent-Based Service Management using Meta-Learning

Managing a system of network services is a complex and large-scale task that often lacks a trivial optimal solution. Deep Reinforcement Learning (RL) has shown great potential in being able to solve these tasks in static settings. However, in practice, the RL agents struggle to generalize their control policies enough to work in more dynamic real-world environments. To achieve a generality between environments, multiple contributions are made by this thesis. Low-level metrics are collected from each node in the system to help explain changes in the end-to-end delay of the system. To achieve generality in its control policy, more ways to observe and understand the dynamic environment and how it changes are provided to the RL agent by introducing the end-to-end delay of each service in the system to its observation space. Another approach to achieving more generality in RL policies is Model-Agnostic Meta-Learning (MAML), a type of Meta-Learning approach where instead of learning to solve a specific task, the model learns to learn how to quickly solve a new task based on prior knowledge. Results show that low-level metrics yield a much greater generality when helping to explain the delay of a system. Applying MAML to the problem is beneficial in adding generality to a learned RL policy and making the adaptation to a new task faster. If the RL agent can observe the changes to the underlying dynamics of the environment between tasks by itself, the policy can achieve this generality by itself without the need for a more complex method. However, if acquiring or observing the necessary data is too expensive or complex, switching to a Meta-Learning approach might be beneficial to increase generality. / Hanteringen av ett system med nätverksstjänster är ett komplext och stor skaligt problem där den optimal lösning inte är trivial. Djup förstärkningsinlärning har visat stor potential i att kunna lösa dessa problem i statiska miljöer. Dock är det svårt att generalisera lösningarna tillräckligt för att fungera i mer komplicerade och realistiska dynamiska miljöer. För att uppnå mer generella lösningar mellan miljöer presenterar denna masteruppsats flera möjliga lösningar. Lågnivåmetrik samlas in från varje nod i systemet för att hjälpa förklara skillnader i den totala responstiden för varje tjänst i systemet. För att generalisera förstärkningsinlärningsmodellen kan den förses med fler sätt att observera miljön, och därmed lära sig förstå hur den dynamiska miljön förändras. En annan metod för att uppnå mer generalitet inom förstärkningsinlärning är Model-Agnostic Meta-Learning (MAML), en typ av Meta-Learning där istället för att lära sig att lösa en specifik uppgift, modellen lär sig att lära sig att snabbt lösa en ny uppgift baserat på sin tidigare kunskap. Resultaten visar att lågnivåmetriken leder till en mycket högre generalitet i att hjälpa till att förklara responstiden av ett system. Att applicera MAML till problemet hjälper att bidra med generalitet till en förstärkningsinlärningsmodell och gör anpassningen till en ny uppgift snabbare. Om modellen själv kan observera ändringarna i underliggande dynamiken bakom miljön mellan uppgifter kan den uppnå mer generalitet utan ett behov av en mer komplex metod som MAML. Däremot, om det är svårt eller dyrt att få tag på eller observera den nödvändiga datan, kan ett byte till en Meta-Learning baserad metod vara mer fördelaktig för att öka generaliteten.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:uu-532658
Date January 2024
CreatorsDamberg, Simon
PublisherUppsala universitet, Datorteknik
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationUPTEC IT, 1401-5749 ; 24031

Page generated in 0.0029 seconds