On présente dans le Chapitre I le problème d'online linear optimization, et on étudie les stratégies de descente miroir. Le Chapitre II se concentre sur le cas où le joueur dispose d'un ensemble fini d'actions. Le Chapitre III établit que les stratégies FTPL appartiennent à la famille de descente miroir. On construit au Chapitre IV des stratégies de descente miroir pour l'approchabilité de Blackwell. Celles-ci sont ensuite appliquées à construction de stratégies optimales pour le problème online combinatorial optimization et la minimisation du regret interne/swap. Le Chapitre V porte sur la minimisation du regret avec l'hypothèse supplémentaire que les vecteurs de paiement possèdent au plus $s$ composantes non-nulles. On met en évidence une différence fondamentale entre les gains et les pertes en établissant des bornes optimales sur le regret d'ordre différents dans chacun de ces deux cas. Le Chapitre VI porte sur l'approchabilité de Blackwell avec observations partielles. On établit que les vitesses de convergence optimales sont $O(T^{-1/2})$ pour des signaux dont les lois ne dépendent pas de l'action du joueur, et $O(T^{-1/3})$ dans le cas général. Le Chapitre VII définit les stratégies de descente miroir en temps continu. On établit pour ces derniers une propriété de non-regret. On effectue ensuite une comparaison entre le temps continu et le temps discret. Enfin, le Chapitre VIII établit une borne universelle sur les variations des fonctions convexes bornées. On obtient en corollaire que toute fonction convexe bornée est lipschitzienne par rapport à la métrique de Hilbert. / In Chapter I, we present the online linear optimization problem and study Mirror Descent strategies. Chapter II focuses on the case where the Decision Maker has a finite set of actions. We establish in Chapter III that FTPL strategies belong to the Mirror Descent family. In Chapter IV, we construct Mirror Descent strategies for Blackwell's approachability. They are then applied to the construction of optimal strategies for online combinatorial optimization and internal/swap regret minimization. Chapter V studies the regret minimization problem with the additional assumption that the payoff vectors have at most $s$ nonzero components. We show that gains and losses are fundamentally different by deriving optimal regret bounds of different orders for those two cases. Chapter VI studies Blackwell's approachability with partial monitoring. We establish that optimal convergence rates are $O(T^{-1/2})$ in the case of outcome-dependent signals, and $O(T^{-1/3})$ in the general case. Chapter VII defines Mirror Descent strategies in continuous-time for which we establish a no-regret property. A comparison between discrete and continuous-time is then conducted. Chapter VIII establish a universal bound on the variations of bounded convex functions. As a byproduct, we obtain that every bounded convex function is Lipschitz continuous with respect to the Hilbert metric.
Identifer | oai:union.ndltd.org:theses.fr/2016PA066276 |
Date | 18 October 2016 |
Creators | Kwon, Joon |
Contributors | Paris 6, Laraki, Rida, Sorin, Sylvain |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | English |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text |
Page generated in 0.0015 seconds