Return to search

Insights into Model-Agnostic Meta-Learning on Reinforcement Learning Tasks

Meta-learning has been gaining traction in the Deep Learning field as an approach to build models that are able to efficiently adapt to new tasks after deployment. Contrary to conventional Machine Learning approaches, which are trained on a specific task (e.g image classification on a set of labels), meta-learning methods are meta-trained across multiple tasks (e.g image classification across multiple sets of labels). Their end objective is to learn how to solve unseen tasks with just a few samples. One of the most renowned methods of the field is Model-Agnostic Meta-Learning (MAML). The objective of this thesis is to supplement the latest relevant research with novel observations regarding the capabilities, limitations and network dynamics of MAML. For this end, experiments were performed on the meta-reinforcement learning benchmark Meta-World. Additionally, a comparison with a recent variation of MAML, called Almost No Inner Loop (ANIL) was conducted, providing insights on the changes of the network’s representation during adaptation (meta-testing). The results of this study indicate that MAML is able to outperform the baselines on the challenging Meta-World benchmark but shows little signs actual ”rapid learning” during meta-testing thus supporting the hypothesis that it reuses features learnt during meta-training. / Meta-Learning har fått dragkraft inom Deep Learning fältet som ett tillvägagångssätt för att bygga modeller som effektivt kan anpassa sig till nya uppgifter efter distribution. I motsats till konventionella maskininlärnings metoder som är tränade för en specifik uppgift (t.ex. bild klassificering på en uppsättning klasser), så metatränas meta-learning metoder över flera uppgifter (t.ex. bild klassificering över flera uppsättningar av klasser). Deras slutmål är att lära sig att lösa osedda uppgifter med bara några få prover. En av de mest kända metoderna inom området är Model-Agnostic Meta-Learning (MAML). Syftet med denna avhandling är att komplettera den senaste relevanta forskningen med nya observationer avseende MAML: s kapacitet, begränsningar och nätverksdynamik. För detta ändamål utfördes experiment på metaförstärkningslärande riktmärke Meta-World. Dessutom gjordes en jämförelse med en ny variant av MAML, kallad Almost No Inner Loop (ANIL), som gav insikter om förändringarna i nätverkets representation under anpassning (metatestning). Resultaten av denna studie indikerar att MAML kan överträffa baslinjerna för det utmanande Meta-Worldriktmärket men visar små tecken på faktisk ”snabb inlärning” under metatestning, vilket stödjer hypotesen att den återanvänder funktioner som den lärt sig under metaträning.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-290903
Date January 2021
CreatorsSaitas-Zarkias, Konstantinos
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2021:15

Page generated in 0.002 seconds