Return to search

Tackling Non-Stationarity in Reinforcement Learning via Latent Representation : An application to Intraday Foreign Exchange Trading / Att hantera icke-stationaritet i förstärkningsinlärning genom latent representation : En tillämpning på intradagshandel med valuta på Forex-marknaden

Reinforcement Learning has applications in various domains, but the typical assumption is of a stationary process. Hence, when this hypothesis does not hold, performance may be sub-optimal. Tackling non-stationarity is not a trivial task because it requires adaptation to changing environments and predictability in various conditions, as dynamics and rewards might change over time. Meta Reinforcement Learning has been used to handle the non-stationary evolution of the environment while knowing the potential source of noise in the system. However, our research presents a novel method to manage such complexity by learning a suitable latent representation that captures relevant patterns for decision-making, improving the policy optimization procedure. We present a two-step framework that combines the unsupervised training of Deep Variational Auto-encoders to extract latent variables and a state-of-the-art model-free and off-policy Batch Reinforcement Learning algorithm called Fitted Q-Iteration, without relying on any assumptions about the environment dynamics. This framework is named Latent-Variable Fitted Q-Iteration (LV-FQI). Furthermore, to validate the generalization and robustness capabilities for exploiting the structure of the temporal sequence of time-series data and extracting near-optimal policies, we evaluated the performance with empirical experiments on synthetic data generated from classical financial models. We also tested it on Foreign Exchange trading scenarios with various degrees of non-stationarity and low signal-to-noise ratios. The results showed performance improvements compared to existing algorithms, indicating great promise for addressing the long-standing challenges of Continual Reinforcement Learning. / Reinforcement Learning har tillämpningar inom olika områden, men den typiska antagningen är att det rör sig om en stationär process. När detta antagande inte stämmer kan prestationen bli suboptimal. Att hantera icke-stationaritet är ingen enkel uppgift eftersom det kräver anpassning till föränderliga miljöer och förutsägbarhet under olika förhållanden, då dynamiken och belöningarna kan förändras över tiden. Meta Reinforcement Learning har använts för att hantera den icke-stationära utvecklingen av miljön genom att känna till potentiella källor till brus i systemet. Vår forskning presenterar emellertid en ny metod för att hantera en sådan komplexitet genom att lära en lämplig latent representation som fångar relevanta mönster för beslutsfattande och förbättrar optimeringsprocessen för policyn. Vi presenterar en tvåstegsramverk som kombinerar osuperviserad träning av Deep Variational Auto-encoders för att extrahera latenta variabler och en state-of-the-art model-free och off-policy Batch Reinforcement Learning-algoritm, Fitted Q-Iteration, utan att förlita sig på några antaganden om miljöns dynamik. Detta ramverk kallas Latent-Variable Fitted Q-Iteration (LV-FQI). För att validera generaliserings- och robusthetsförmågan att utnyttja strukturen hos den tidsmässiga sekvensen av tidsseriedata och extrahera nära-optimala policys utvärderade vi prestandan med empiriska experiment på syntetiska data genererade från klassiska finansiella modeller. Vi testade också det på handelsscenario för Foreign Exchange med olika grader av icke-stationaritet och låg signal-till-brus-förhållande. Resultaten visade prestandaförbättringar jämfört med befintliga algoritmer och indikerar stor potential för att tackla de långvariga utmaningarna inom kontinuerlig Reinforcement Learning.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-337681
Date January 2023
CreatorsMundo, Adriano
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2023:678

Page generated in 0.0018 seconds