Return to search

Managing Climate Overshoot Risk with Reinforcement Learning : Carbon Dioxide Removal, Tipping Points and Risk-constrained RL / Hantering av risk vid överskjutning av klimatmål med förstärkande inlärning : Koldioxidinfångning, tröskelpunkter och riskbegränsad förstärkande inlärning

In order to study how to reach different climate targets, scientists and policymakers rely on results from computer models known as Integrated Assessment Models (IAMs). These models are used to quantitatively study different ways of achieving warming targets such as the Paris goal of limiting warming to 1.5-2.0 °C, deriving climate mitigation pathways that are optimal in some sense. However, when applied to the Paris goal many IAMs derive pathways that overshoot the temperature target: global temperature temporarily exceeds the warming target for a period of time, before decreasing and stabilizing at the target. Although little is known with certainty about the impacts of overshooting, recent studies indicate that there may be major risks entailed. This thesis explores two different ways of including overshoot risk in a simple IAM by introducing stochastic elements to it. Then, algorithms from Reinforcement Learning (RL) are applied to the model in order to find pathways that take overshoot risk into consideration. In one experiment we apply standard risk-neutral RL to the DICE model extended with a probabilistic damage function and carbon dioxide removal technologies. In the other experiment, the model is further augmented with a probabilistic tipping element model. Using risk-constrained RL we then train an algorithm to optimally control this model, whilst controlling the conditional-value-at-risk of triggering tipping elements below a user-specified threshold. Although some instability and convergence issues are present during training, in both experiments the agents are able to achieve policies that outperform a simple baseline. Furthermore, the risk-constrained agent is also able to (approximately) control the tipping risk metric below a desired threshold in the second experiment. The final policies are analysed for domain insights, indicating that carbon removal via temporal carbon storage solutions could be a sizeable contributor to negative emissions on a time-horizon relevant for overshooting. In the end, recommended next steps for future work are discussed. / För att studera hur globala klimatmål kan nås använder forskare och beslutsfattare resultat från integrerade bedömningsmodeller (IAM:er). Dessa modeller används för att kvantitativt förstå olika vägar till temperaturmål, så som Parisavtalets mål om att begränsa den globala uppvärmningen till 1.5-2.0 °C. Resultaten från dessa modeller är så kallade ”mitigation pathways” som är optimala utifrån något uppsatt kriterium. När sådana modellkörningar görs med Parismålet erhålls dock ofta optimala pathways som överskjuter temperaturmålet tillfälligt: den globala temperaturen överstiger målet i en period innan den sjunker och till slut stabiliseras vid det satta målet. Kunskapen om vilken påverkan en överskjutning har är idag begränsad, men flertalet nyligen gjorda studier indikerar att stora risker potentiellt kan medföras. I denna uppsats utforskas två olika sätt att inkludera överskjutningsrisk i en enkel IAM genom användandet av stokastiska element. Därefter används Förstärkande Inlärning på modellen för att erhålla modellösningar som tar hänsyn till överkjutningsrisk. I ett av experimenten utökas IAM:en med en stokastisk skadefunktion och tekniker för koldioxidinfångning varpå vanlig Förstärkande Inlärning appliceras. I det andra experimentet utökas modellen ytterligare med en stokastisk modell för tröskelpunkter. Med hjälp av risk-begränsad Förstärkande Inlärning tränas därefter en modell för att optimalt kontrollera denna IAM samtidigt som risken att utlösa tröskelpunkter kontrolleras till en nivå satt av användaren. Även om en viss grad av instabilitet och problem med konvergens observeras under inlärningsprocessen så lyckas agenterna i båda experimenten hitta beslutsregler som överträffar en enkel baslinje. Vidare lyckas beslutsregeln som erhålls i det andra experimentet, med den risk-begränsade inlärningen, approximativt kontrollera risken att utlösa tröskelpunkter till det specificerade värdet. Efter träning analyseras de bästa beslutsreglerna i syfte att finna domänmässiga insikter, varav en av dessa insikter är att temporära kollager kan ge betydande bidrag för koldioxidinfångning i en tidshorisont relevant vid överskjutning. Slutligen diskuteras möjliga nästa steg för framtida arbeten inom området.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-345640
Date January 2024
CreatorsKerakos, Emil
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS), Stockholm : KTH Royal Institute of Technology
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2024:39

Page generated in 0.0031 seconds