1 |
Singular Mean-Field Control and Games and Control Randomisation with Applications to Reinforcement LearningDenkert, Robert 28 January 2025 (has links)
Diese Dissertation behandelt zwei Hauptthemen: Mean-Field-Kontrollprobleme (MFC)/-Spiele (MFG) mit mehrdimensionalen singulären Kontrollen sowie den Kontrollrandomisierungsansatz und dessen Anwendungen im Reinforcement Learning. Das erste Kapitel führt MFC-Probleme mit singulären Kontrollen ein, bei denen die Kosten von Zustand, Kontrolle und deren gemeinsamer Verteilung abhängen. Mittels Two-Layer-Parametrisierungen stellen wir die Zielfunktion über stetige Funktionen von Parametrisierung dar, leiten ein dynamisches Programmierungsprinzip (DPP) her und charakterisieren die Wertfunktion als minimale Supersolution einer quasi-variationellen Ungleichung im Wasserstein-Raum. Im zweiten Kapitel betrachten wir MFGs, bei denen Einfluss und Kosten der singulären Kontrolle vom Zustand und der Kontrolle abhängen. Wir führen MFGs von Parametrisierungen ein und zeigen, dass die Zielfunktion auf der Menge der Parametrisierungen stetig ist. Wir beweisen die Existenz von Nash-Gleichgewichten sowohl im MFG der Parametrisierungen als auch im MFG mit singulären Kontrollen. Das dritte Kapitel behandelt MFC-Probleme mit gemeinsamem Rauschen mittels des Kontrollrandomisierungsansatzes, bei dem wir den Kontrollprozess durch einen Poisson-Punktprozess ersetzen und stattdessen dessen Intensität kontrollieren. Nach Reformulierung zulässiger Kontrollen als L0-wertige Prozesse, nur angepasst an das gemeinsame Rauschen, konstruieren wir ein äquivalentes randomisiertes Kontrollproblem und stellen die Wertfunktion mittels einer Rückwärts-Stochastischen-Differentialgleichung (BSDE) dar und leiten ein DPP her. Das vierte Kapitel entwickelt ein Policy-Gradient-Framework für Continuous-Time Reinforcement Learning, basierend auf dem Zusammenhang zwischen stochastischen Kontrollproblemen und randomisierten Problemen. Wir leiten eine Policy-Gradient-Darstellung mit Intensität-Policies her und entwickeln Actor-Critic-Algorithmen, veranschaulicht anhand von Optimal-Switching-Problemen im Energiesektor. / This thesis explores two main areas: mean-field control (MFC)/games (MFG) with multi-dimensional singular controls and the control randomisation approach together with its applications to reinforcement learning. The first chapter introduces MFC problems with singular controls and costs depending on the state, control, and their joint law. Using novel two-layer parametrisations, we rewrite rewards in terms of continuous functions of parametrisation of the control process, derive a dynamic programming principle (DPP) and characterise the value function as the minimal supersolution to a quasi-variational inequality in the Wasserstein space. The second chapter extends this framework to MFGs where both the impact and costs of singular controls depend on the state and control. We introduce a novel class of MFGs with a broader set of admissible controls, called MFGs of parametrisations, prove that the reward functional is continuous on the set of parametrisations and establish the existence of Nash equilibria in both the MFG of parametrisations and the underlying MFG with singular controls. The third chapter addresses MFC problems with common noise using the control randomisation technique, replacing the control process with a Poisson point process, controlling its intensity instead. By reformulating admissible controls as L0-valued processes adapted only to the common noise, we construct an equivalent randomised control problem and represent the value function via a backward stochastic differential equation (BSDE) with constrained jumps and derive a randomised DPP. The fourth chapter develops a policy gradient framework for continuous-time reinforcement learning based on the connection between stochastic control and randomised problems. We derive a new policy gradient representation featuring parametrised intensity policies and develop tailored actor-critic algorithms, demonstrated via numerical case studies of optimal switching problems in the energy sector.
|
Page generated in 0.0189 seconds