Optimal control for multicopters is difficult in part due to the low processing power available, and the instability inherent to multicopters. Deep imitation learning is a method for approximating an expert control policy with a neural network, and has the potential of improving control for multicopters. We investigate the performance and reliability of deep imitation learning with trajectory optimization as the expert policy by first defining a dynamics model for multicopters and applying a trajectory optimization algorithm to it. Our investigation shows that network architecture plays an important role in the characteristics of both the learning process and the resulting control policy, and that in particular trajectory optimization can be leveraged to improve convergence times for imitation learning. Finally, we identify some limitations and future areas of study and development for the technology. / Optimal kontroll för multikoptrar är ett svårt problem delvis på grund av den vanligtvis låga processorkraft som styrdatorn har, samt att multikoptrar är synnerligen instabila system. Djup imitationsinlärning är en metod där en beräkningstung expert approximeras med ett neuralt nätverk, och gör det därigenom möjligt att köra dessa tunga experter som realtidskontroll för multikoptrar. I detta arbete undersöks prestandan och pålitligheten hos djup imitationsinlärning med banoptimering som expert genom att först definiera en dynamisk modell för multikoptrar, sedan applicera en välkänd banoptimeringsmetod på denna modell, och till sist approximera denna expert med imitationsinlärning. Vår undersökning visar att nätverksarkitekturen spelar en avgörande roll för karakteristiken hos både inlärningsprocessens konvergenstid, såväl som den resulterande kontrollpolicyn, och att särskilt banoptimering kan nyttjas för att förbättra konvergenstiden hos imitationsinlärningen. Till sist påpekar vi några begränsningar hos metoden och identifierar särskilt intressanta områden för framtida studier.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-233326 |
Date | January 2018 |
Creators | Ericson, Ludvig |
Publisher | KTH, Robotik, perception och lärande, RPL |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2018:504 |
Page generated in 0.0144 seconds