• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 1
  • 1
  • Tagged with
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Approchabilité, Calibration et Regret dans les Jeux à Observations Partielles

Perchet, Vianney 25 June 2010 (has links) (PDF)
Cette thèse s'intéresse aux jeux statistiques avec observations partielles. Ces jeux ne sont pas la formalisation d'une intéraction stratégique entre deux joueurs parfaitement rationnels, mais entre un joueur et la nature (ou l'environnement). On donne ce nom au second joueur car aucune hypothèse n'est faite sur ses paiements, ses objectifs ou sa rationalité. Les observations du joueur sont dites complètes s'il observe les choix de la nature, i.e. si il apprend a posteriori soit quelle est, à chaque étape, l'action choisie par cette dernière soit au moins son propre paiement. On s'intéressera au cadre où cette hypothèse est aaiblie et où l'on suppose que le joueur n'a que des observations partielles : il ne reçoit à chaque étape qu'un signal aléatoire dont la loi dépend de l'action de la nature. L'objectif principal de cette thèse est de généraliser des notions largement utilis ées dans les jeux avec observations complètes au cadre des jeux avec observations partielles. Nous allons en eet, dans un premier temps, construire des stratégies qui n'ont pas de regret interne et dans un deuxième temps nous allons caractériser les ensembles approchables.
2

Stratégies de descente miroir pour la minimisation du regret et l'approchabilité / Mirror descent strategies for regret minimization and approachability

Kwon, Joon 18 October 2016 (has links)
On présente dans le Chapitre I le problème d'online linear optimization, et on étudie les stratégies de descente miroir. Le Chapitre II se concentre sur le cas où le joueur dispose d'un ensemble fini d'actions. Le Chapitre III établit que les stratégies FTPL appartiennent à la famille de descente miroir. On construit au Chapitre IV des stratégies de descente miroir pour l'approchabilité de Blackwell. Celles-ci sont ensuite appliquées à construction de stratégies optimales pour le problème online combinatorial optimization et la minimisation du regret interne/swap. Le Chapitre V porte sur la minimisation du regret avec l'hypothèse supplémentaire que les vecteurs de paiement possèdent au plus $s$ composantes non-nulles. On met en évidence une différence fondamentale entre les gains et les pertes en établissant des bornes optimales sur le regret d'ordre différents dans chacun de ces deux cas. Le Chapitre VI porte sur l'approchabilité de Blackwell avec observations partielles. On établit que les vitesses de convergence optimales sont $O(T^{-1/2})$ pour des signaux dont les lois ne dépendent pas de l'action du joueur, et $O(T^{-1/3})$ dans le cas général. Le Chapitre VII définit les stratégies de descente miroir en temps continu. On établit pour ces derniers une propriété de non-regret. On effectue ensuite une comparaison entre le temps continu et le temps discret. Enfin, le Chapitre VIII établit une borne universelle sur les variations des fonctions convexes bornées. On obtient en corollaire que toute fonction convexe bornée est lipschitzienne par rapport à la métrique de Hilbert. / In Chapter I, we present the online linear optimization problem and study Mirror Descent strategies. Chapter II focuses on the case where the Decision Maker has a finite set of actions. We establish in Chapter III that FTPL strategies belong to the Mirror Descent family. In Chapter IV, we construct Mirror Descent strategies for Blackwell's approachability. They are then applied to the construction of optimal strategies for online combinatorial optimization and internal/swap regret minimization. Chapter V studies the regret minimization problem with the additional assumption that the payoff vectors have at most $s$ nonzero components. We show that gains and losses are fundamentally different by deriving optimal regret bounds of different orders for those two cases. Chapter VI studies Blackwell's approachability with partial monitoring. We establish that optimal convergence rates are $O(T^{-1/2})$ in the case of outcome-dependent signals, and $O(T^{-1/3})$ in the general case. Chapter VII defines Mirror Descent strategies in continuous-time for which we establish a no-regret property. A comparison between discrete and continuous-time is then conducted. Chapter VIII establish a universal bound on the variations of bounded convex functions. As a byproduct, we obtain that every bounded convex function is Lipschitz continuous with respect to the Hilbert metric.

Page generated in 0.1499 seconds