As telecommunication continues developing, the demand for mass production of well calibrated Base Transceiver Stations (BTS) components increases. Cavity Filters are an essential piece of every BTS; however, manufacturing tolerances often lead to detuned filters which require costly post-production fine tuning. Model Free Reinforcement Learning has been proposed to automate this process; however agents are not sample efficient. This is especially problematic, as agent training with newer, more precise environment simulators is time demanding. This work aims to leverage Model Based Reinforcement Learning to improve sample efficiency, while maintaining the same degree of accuracy. To this end, we evaluate and improve upon the performance of three state-of-the-art methods, present in the literature. The proposed modifications on these methods can serve as a template for their application on other, high dimensional non image data problems. In particular, the proposed modification on the Dreamer is modular, improves training stability and greatly decreases sample complexity. More specifically, sample complexity was reduced by a factor of 4 for the 6p2z filter and by a factor of 10 for 8p4z. Furthermore, hyperparameter sensitivity analysis is provided to add extra insight behind each approach. Overall, results facilitate further research in this field. The reduced sample complexity opens the possibility of training on more accurate simulators of more complicated filters, which would previously be intractable due to the high amount of samples required. / Moderna mobilnät är uppbyggda av massproducerade basstationer (Base Tranciever Stations), som var och en innehåller ett antal kavitetsfilter. Dessa filter är mycket känsliga, vilket gör att de efter produktion behöver finjusteras manuellt för att fungera som avsett. För att automatisera denna process har man tidigare använt Model Free Reinforcement Learning (MFRL). Denna teknik kräver dock mycket beräkningar, vilket är problematiskt, eftersom man skulle vilja genomföra träningen med mer komplexa simuleringsmodeller, vilket inte går i dagsläget. I detta arbete skall vi undersöka möjligheten att använda Model Based Reinforcement Learning (MBRL) för att lösa samma problem med färre beräkningssteg. Vi utvärderar, och anpassar, därför tre befintliga MBRL-algoritmer till problemet. Dessa anpassningar kan även överföras till andra problem. Den anpassning som görs på Dreamer-algoritmen är modulär, förbättrar stabiliteten i träningen, och minskar antalet beräkningar som behövs. I detalj så minskade antalet beräkningar med en faktor 4 för ett så-kallat 6p2z-filter och en faktor 10 för ett 8p4z-filter. En känslighetsanalys vad gäller hyperparametrar har också gjorts för varje metod. Rapportens resultat kan användas i vidare forskning på så sätt att det minskade antalet beräkningar gör att man kan använda mer realistiska modeller, av mer komplicerade filter, på ett sätt som tidigare inte var möjligt.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-304021 |
Date | January 2021 |
Creators | Nimara, Doumitrou Daniil |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2021:593 |
Page generated in 0.0048 seconds