Accumulating evidence suggests that dopaminergic neurons show significant task-related diversity. Curiously, dopamine concentration and dopamine axon activity show spatio-temporal wave patterns in the dorsal striatum. What could be the function of this wave-like dynamics of dopamine in the striatum, particularly in Reinforcement Learning? This work introduces a novel Reinforcement Learning algorithm that exploits the wave-like dynamics of dopamine to increase speed, reliability and flexibility in decision-making. An agent can form a cognitive map by exploring the environment and obtaining the information about the expectation of time spent in each future state given a departing state (i.e. the Successor Representation). This map captures the temporal connections of the visited states and outlines several possible state transition trajectories leading to the reward. Using the cognitive map, following a single reward delivery, the reward prediction errors can be computed for each state. In the cognitive map, states leading to the reward possess a high positive error, while temporally distant states retain smaller errors. Thus, the dynamics of errors exhibit a wave front travelling in the cognitive map. Under the assumption of the neurons representing adjacent states in the cognitive map are also spatial neighbors, it automatically follows that the reward prediction error carrying signal will also show wave-like dynamics in space. By exploiting the dopamine waves, the proposed Reinforcement Learning approach outperforms three classical Reinforcement Learning algorithms: basic SARSA, the Successor Representation and SARSA with eligibility traces. Consequently, the algorithm suggests conditions under which wave-like dynamics of dopamine release in the striatum can have direct functional implications for learning. / En ökande mängd bevis pekar på att dopaminerga nervceller uppvisar en betydande uppgiftsrelaterad diversitet. Märkligt nog uppvisar såväl dopaminkoncentrationen som aktiviteten i dopaminerga axon i dorsala striatum en vågliknande dynamik. Vilken funktion kan dopaminets vågliknande dynamik tänkas fylla i striatum, särskillt vid förstärkningsinlärning? I detta arbete introduceras en ny förstärkningsinlärningsalgoritm som utnyttjar dopaminets vågliknande dynamik för att öka snabbheten, tillförlitligheten och flexbiliteten vid beslutsfattande. En agent kan skapa en kognitiv karta genom att utforska en miljö och tillgodogöra sig information om den förväntade tiden som kommer tillbringas i varje framtida tillstånd givet ett starttillstånd (en så kallad successionsrepresentation). Denna karta fångar upp de tidsmässiga förbindelserna mellan besökta tillstånd och ger en skiss för flera möjliga serier av tillståndsövergångar som leder till belöning. Genom att använda denna kognitiva karta efter en enskild belöning kan belöningsförutsägningsfel beräknas för varje tillstånd. I den kognitiva kartan har tillstånd som leder till belöning ett stort positivt fel, medan tidsmässigt avlägsna tillstånd har mindre fel. Detta ger upphov till att dynamiken för felen uppvisar en vågfront in den kognitiva kartan. Under antagandet att nervceller som representerar närliggande tillstånd i den kognitiva kartan också är fysiska grannar, följer det automatiskt att signalen för belöningsförutsägningsfel också uppvisar en våglikannde dynamik i rummet. Genom att utnyttja dopaminvågor överträffar den föreslagna förstärkningsinlärningsalgoritmen tre klassiska förstärkningsinlärningsalgoritmer: vanlig SARSA, successionsrepresentation, och SARSA med kvalificeringsspår. Algoritmen förslår därför betingelser under vilka en vågliknande dynamik av dopaminfrisättning i striatum kan ha direkta funktionella implikationer för inlärning.
Identifer | oai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-304305 |
Date | January 2021 |
Creators | Gömöri, Gergö |
Publisher | KTH, Skolan för elektroteknik och datavetenskap (EECS) |
Source Sets | DiVA Archive at Upsalla University |
Language | English |
Detected Language | Swedish |
Type | Student thesis, info:eu-repo/semantics/bachelorThesis, text |
Format | application/pdf |
Rights | info:eu-repo/semantics/openAccess |
Relation | TRITA-EECS-EX ; 2021:609 |
Page generated in 0.0027 seconds