Return to search

SELECTION OF FEATURES FOR ML BASED COMMANDING OF AUTONOMOUS VEHICLES

Traffic coordination is an essential challenge in vehicle automation. The challenge is not only about maximizing the revenue/productivity of a fleet of vehicles, but also about avoiding non feasible states such as collisions and low energy levels, which could make the fleet inoperable. The challenge is hard due to the complex nature of the real time traffic and the large state space involved. Reinforcement learning and simulation-based search techniques have been successful in handling complex problem with large state spaces [1] and can be used as potential candidates for traffic coordination. In this degree project, a variant of these techniques known as Dyna-2 [2] is investigated for traffic coordination. A long term memory of past experiences is approximated by a neural network and is used to guide a Temporal Difference (TD) search. Various features are proposed, evaluated and finally a feature representation is chosen to build the neural network model. The Dyna-2 Traffic Coordinator (TC) is investigated for its ability to provide supervision for handling vehicle bunching and charging. Two variants of traffic coordinators, one based on simple rules and another based on TD search are the existing baselines for the performance evaluation. The results indicate that by incorporating learning via a long-term memory, the Dyna-2 TC is robust to vehicle bunching and ensures a good balance in charge levels over time. The performance of the Dyna-2 TC depends on the choice of features used to build the function approximator, a bad feature choice does not provide good generalization and hence results in bad performance. On the other hand, the previous approaches based on rule-based planning and TD search made poor decisions resulting in collisions and low energy states. The search based approach is comparatively better than the rule-based approach, however it is not able to find an optimal solution due to the depth limitations. With the guidance from a long term memory, the search was able to generate a higher return and ensure a good balance in charge levels. / Trafikkoordinering är en grundläggande utmaning för att autonomisera fordon. Utmaningen ligger inte bara i att maximera inkomsten/produktiviteten hos en fordonsflotta utan även i att undvika olämpliga tillstånd, så som krockar och brist på energi vilka skulle kunna göra flottan obrukbar. Utmaningen är svår på grund av den komplexa naturen hos trafik i realtid och det stora tillståndsrummet som innefattas. Förstärkningsinlärning och simulationsbaserade söktekniker har varit framgångsrika metoder för att hantera komplexa problem med stora tillståndsrum [1] och kan ses som en potentiell kandidat för trafikkoordinering. Detta examensarbete undersöker en variant av dessa tekniker, känd som Dyna-2 [2], applicerat på trafikkoordinering. Ett långsiktigt minne av tidigare erfarenheter approximeras med ett neuron nät och används för att vägleda en Temporal Difference (TD) sökning. Olika attribut föreslås, utvärderas och sätts sedan samman till en representation att bygga nätverket kring. Dyna-2 Trafikkoordinator (TC) undersöks för dess färdighet att ge beslutsstöd för hantering av grupperade fordon och laddning. Två varianter av trafikkoordinerare, en baserad på enkla regler och en baserad på TD-sökningen, används som grund för utvärderingen av prestanda. Resultaten indikerar att genom inkludering av inlärning via ett långsiktigt minne så är Dyna-2 TC en robust metod för att hantera grupperade fordon och ger en god balans av laddningsnivå över tid. Prestandan hos Dyna-2 TC beror på valet av de attribut som används för att bygga approximeringsfunktionen, sämre val av attribut generaliserar inte bra vilket då resulterar i dålig prestanda. Å andra sidan, de tidigare tillvägagånssätten baserade på planering genom regler och TD-sökning tog dåliga beslut vilket resulterade i kollisioner och tillstånd med låga laddningsnivåer. Jämfört med att basera på regler så är den sökbaserade metoden bättre, den lyckades dock inte hitta en optimal lösning på grund av begränsningar hos sökdjupet. Med vägvisning från ett långsiktigt minne så sökningen kunde sökningen generera högre avkastning och säkerställa en god balans hos laddningsnivåerna.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-287450
Date January 2020
CreatorsSridhar, Sabarish
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2020:803

Page generated in 0.0026 seconds