• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 2
  • Tagged with
  • 2
  • 2
  • 2
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Stratégies de descente miroir pour la minimisation du regret et l'approchabilité / Mirror descent strategies for regret minimization and approachability

Kwon, Joon 18 October 2016 (has links)
On présente dans le Chapitre I le problème d'online linear optimization, et on étudie les stratégies de descente miroir. Le Chapitre II se concentre sur le cas où le joueur dispose d'un ensemble fini d'actions. Le Chapitre III établit que les stratégies FTPL appartiennent à la famille de descente miroir. On construit au Chapitre IV des stratégies de descente miroir pour l'approchabilité de Blackwell. Celles-ci sont ensuite appliquées à construction de stratégies optimales pour le problème online combinatorial optimization et la minimisation du regret interne/swap. Le Chapitre V porte sur la minimisation du regret avec l'hypothèse supplémentaire que les vecteurs de paiement possèdent au plus $s$ composantes non-nulles. On met en évidence une différence fondamentale entre les gains et les pertes en établissant des bornes optimales sur le regret d'ordre différents dans chacun de ces deux cas. Le Chapitre VI porte sur l'approchabilité de Blackwell avec observations partielles. On établit que les vitesses de convergence optimales sont $O(T^{-1/2})$ pour des signaux dont les lois ne dépendent pas de l'action du joueur, et $O(T^{-1/3})$ dans le cas général. Le Chapitre VII définit les stratégies de descente miroir en temps continu. On établit pour ces derniers une propriété de non-regret. On effectue ensuite une comparaison entre le temps continu et le temps discret. Enfin, le Chapitre VIII établit une borne universelle sur les variations des fonctions convexes bornées. On obtient en corollaire que toute fonction convexe bornée est lipschitzienne par rapport à la métrique de Hilbert. / In Chapter I, we present the online linear optimization problem and study Mirror Descent strategies. Chapter II focuses on the case where the Decision Maker has a finite set of actions. We establish in Chapter III that FTPL strategies belong to the Mirror Descent family. In Chapter IV, we construct Mirror Descent strategies for Blackwell's approachability. They are then applied to the construction of optimal strategies for online combinatorial optimization and internal/swap regret minimization. Chapter V studies the regret minimization problem with the additional assumption that the payoff vectors have at most $s$ nonzero components. We show that gains and losses are fundamentally different by deriving optimal regret bounds of different orders for those two cases. Chapter VI studies Blackwell's approachability with partial monitoring. We establish that optimal convergence rates are $O(T^{-1/2})$ in the case of outcome-dependent signals, and $O(T^{-1/3})$ in the general case. Chapter VII defines Mirror Descent strategies in continuous-time for which we establish a no-regret property. A comparison between discrete and continuous-time is then conducted. Chapter VIII establish a universal bound on the variations of bounded convex functions. As a byproduct, we obtain that every bounded convex function is Lipschitz continuous with respect to the Hilbert metric.
2

Apprentissage dans les jeux à champ moyen / Learning in Mean Field Games

Hadikhanloo, Saeed 29 January 2018 (has links)
Les jeux à champ moyen (MFG) sont une classe de jeux différentiels dans lequel chaque agent est infinitésimal et interagit avec une énorme population d'agents. Dans cette thèse, nous soulevons la question de la formation effective de l'équilibre MFG. En effet, le jeu étant très complexe, il est irréaliste de supposer que les agents peuvent réellement calculer la configuration d'équilibre. Cela semble indiquer que si la configuration d'équilibre se présente, c'est parce que les agents ont appris à jouer au jeu. Donc, la question principale est de trouver des procédures d'apprentissage dans les jeux à champ moyen et d'analyser leurs convergences vers un équilibre. Nous nous sommes inspirés par des schémas d'apprentissage dans les jeux statiques et avons essayé de les appliquer à notre modèle dynamique de MFG. Nous nous concentrons particulièrement sur les applications de fictitious play et online mirror descent sur différents types de jeux de champs moyens : Potentiel, Monotone ou Discret. / Mean Field Games (MFG) are a class of differential games in which each agent is infinitesimal and interacts with a huge population of other agents. In this thesis, we raise the question of the actual formation of the MFG equilibrium. Indeed, the game being quite involved, it is unrealistic to assume that the agents can compute the equilibrium configuration. This seems to indicate that, if the equilibrium configuration arises, it is because the agents have learned how to play the game. Hence the main question is to find learning procedures in mean field games and investigating if they converge to an equilibrium. We have inspired from the learning schemes in static games and tried to apply them to our dynamical model of MFG. We especially focus on fictitious play and online mirror descent applications on different types of mean field games; those are either Potential, Monotone or Discrete.

Page generated in 0.5348 seconds