• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 12
  • 7
  • Tagged with
  • 17
  • 17
  • 9
  • 8
  • 6
  • 5
  • 4
  • 4
  • 4
  • 4
  • 4
  • 3
  • 3
  • 3
  • 3
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Sur les jeux dynamiques : jeux stochastiques, recherche-dissimulation et transmission d'information / On Dynamic Games : Stochastic Games, Search Games and Information Provision

Garrec, Tristan 11 July 2019 (has links)
Dans cette thèse, nous étudions divers modèles de jeux dynamiques. Ceux-ci modélisent des processus de décisions prises par des agents rationnels en interactions stratégiques et dont la situation évolue au cours du temps. Le premier chapitre est consacré aux jeux stochastiques. Dans ces derniers, le jeu courant dépend d’un état de la nature, qui évolue d’une étape à la suivante de manière aléatoire en fonction de l’état courant ainsi que des actions des joueurs, qui observent ces éléments. On étudie des propriétés de communication entre les états, lorsque l’espace d’états est sous la forme d’un produit X ×Y, et que les joueurs contrôlent la dynamique sur leur composante de l’espace d’états. On montre l’existence de stratégies optimales dans tout jeu répété un nombre suffisant d’étapes, c’est-à-dire l’existence de la valeur uniforme, sous hypothèse de communication forte d’un côté. On montre en revanche la non converge de la valeur du jeu escompté, qui implique la non existence de la valeur asymptotique, sous hypothèse de communication faible des deux côtés. Les deux chapitres suivants sont consacrés à des modèles de jeux de recherche-dissimulation. Un chercheur et un dissimulateur agissent sur un espace de recherche. L’objectif du chercheur est typiquement de retrouver le dissimulateur le plus rapidement possible, ou alors de maximiser la probabilité de le trouver en un temps imparti. L’enjeu est alors de calculer la valeur et les stratégies optimales des joueurs en fonction de la géométrie de l’espace de recherche. Dans un jeu de patrouille, un attaquant choisit un temps et un lieu à attaquer, tandis qu’un patrouilleur marche continûment. Lorsque l’attaque survient, le patrouilleur a un certain délai pour repérer l’attaquant. Dans un jeu de recherche-dissimulation stochastique, les joueurs se trouvent sur un graphe. La nouveauté du modèle est qu’en raison de divers évènements, à chaque étape, certaines arêtes peuvent ne pas être disponibles, de sorte que le graphe évolue de façon aléatoire dans le temps. Enfin, le dernier chapitre est consacré à un modèle de jeux répétés à information incomplète dit de contrôle dynamique de l’information. Un conseiller a une connaissance privée de l’état de la nature, qui évolue aléatoirement avec le temps. Chaque jour le conseiller choisit la quantité d’information qu’il dévoile à un investisseur au travers de messages. À son tour, l’investisseur choisit d’investir ou non afin de maximiser son paiement quotidien espéré. En cas d’investissement, le conseiller reçoit une commission fixe de la part de l’investisseur. Son objectif est alors de maximiser la fréquence escomptée de jours où a lieu l’investissement. On s’intéresse à une stratégie de dévoilement d’information particulière du conseiller dite stratégie gloutonne. C’est une stratégie stationnaire ayant la propriété de minimiser la quantité d’information dévoilée sous contrainte de maximiser le paiement courant du conseiller. / In this thesis, we study various models of dynamic games. These model decision-making processes taken by rational agents in strategic interactions and whose situation changes over time. The first chapter is devoted to stochastic games. In these, the current game depends on a state of nature, which evolves randomly from one stage to the next depending on the current state as well as the actions of the players, who observe these elements. We study communication properties between states, when the state space is in the form of a product X × Y, and players control the dynamics on their components of the state space. The existence of optimal strategies in any long enough repeated game, i.e., the existence of the uniform value, is proved under the assumption of strong communication on one side. We prove the non-convergence of the value of the discounted game, which implies the non-existence of the asymptotic value, under the assumption of weak communication on both sides. The next two chapters are devoted to models of search games. A searcher and a hider act on a search space. The searcher’s objective is typically to find the hider as quickly as possible, or to maximize the probability of finding him in a given time. The challenge is then to calculate the value and optimal strategies of the players according to the geometry of the search space. In a patrolling game, an attacker chooses a time and place to attack, while a patroller walks continuously. When the attack occurs, the patroller has a fixed amount of time to locate the attacker. In a stochastic search game, players act on a graph. The novelty of the model is that due to various events, at each stage, some edges may not be available, so the graph evolves randomly over time. Finally, the last chapter is devoted to a model of repeated games with incomplete information called dynamic control of information. An advisor has a private knowledge of the state of nature, which changes randomly over time. Every day, the advisor chooses the amount of information he discloses to an investor through messages. In turn, the investor chooses whether or not to invest in order to maximize her daily expected payoff. In the event of an investment, the advisor receives a fixed commission from the investor. His objective is then to maximize the discounted frequency of days on which investment takes place. We are interested in a specific information disclosure strategy of the advisor called the greedy strategy. It is a stationary strategy with the property of minimizing the amount of information disclosed under the constraint of maximizing the advisor’s current payoff.
2

Sur le rôle de l’être humain dans le dialogue humain/machine / On the role of the human being in human/machine dialogue

Barlier, Merwan 14 December 2018 (has links)
Cette thèse s'inscrit dans le cadre de l'apprentissage par renforcement pour les systèmes de dialogue. Ce document propose différentes manières de considérer l'être humain, interlocuteur du système de dialogue. Après un aperçu des limites du cadre agent/environnement traditionnel, nous proposons de modéliser dans un premier temps le dialogue comme un jeu stochastique. Dans ce cadre, l'être humain n'est plus vu comme une distribution de probabilité stationnaire mais comme un agent cherchant à optimiser ses préférences. Nous montrons que ce cadre permet une prise en compte de phénomènes de co-adaptation intrinsèques au dialogue humain/machine et nous montrons que ce cadre étend le champ d'application des systèmes de dialogue, par exemple aux dialogues de négociations. Dans un second temps, nous présentons une méthode permettant à l'être humain d'accélérer et de sécuriser la phase d'apprentissage de son système de dialogue par le biais de conseils encodés sous la forme d'une fonction de récompense. Nous montrons que cette prise en compte de conseils permet de significativement améliorer les performances d'un agent apprenant par renforcement. Finalement, une troisième situation est considérée. Ici, un système écoute une conversation entre humains et agit de manière à influer sur le cours de la conversation. Une fonction de récompense originale permettant de maximiser le résultat de la conversation tout en minimisant l'intrusivité du système est proposé. Nous montrons que notre approche permet de significativement améliorer les conversations. Pour implémenter cette approche, un modèle de la conversation est requis. C'est pourquoi nous proposons dans une quatrième contribution d'apprendre ce modèle à partir d'un algorithme d'apprentissage d'automates à multiplicité. / The context of this thesis takes place in Reinforcement Learning for Spoken Dialogue Systems. This document proposes several ways to consider the role of the human interlocutor. After an overview of the limits of the traditional Agent/Environment framework, we first suggest to model human/machine dialogue as a Stochastic Game. Within this framework, the human being is seen as a rational agent, acting in order to optimize his preferences. We show that this framework allows to take into consideration co-adaptation phenomena and extend the applications of human/machine dialogue, e.g. negociation dialogues. In a second time, we address the issue of allowing the incorporation of human expertise in order to speed-up the learning phase of a reinforcement learning based spoken dialogue system. We provide an algorithm that takes advantage of those human advice and shows a great improvement over the performance of traditional reinforcement learning algorithms. Finally, we consider a third situation in which a system listens to a conversation between two human beings and talk when it estimates that its intervention could help to maximize the preferences of its user. We introduce a original reward function balancing the outcome of the conversation with the intrusiveness of the system. Our results obtained by simulation suggest that such an approach is suitable for computer-aided human-human dialogue. However, in order to implement this method, a model of the human/human conversation is required. We propose in a final contribution to learn this model with an algorithm based on multiplicity automata.
3

Le problème de la valeur dans les jeux stochastiques

Oualhadj, Youssouf 11 December 2012 (has links) (PDF)
La théorie des jeux est un outils standard quand il s'agit de l'étude des systèmes réactifs. Ceci est une conséquence de la variété des modèles de jeux tant au niveau de l'interaction des joueurs qu'au niveau de l'information que chaque joueur possède. Dans cette thèse, on étudie le problème de la valeur pour des jeux où les joueurs possèdent une information parfaite, information partiel et aucune information. Dans le cas où les joueurs possèdent une information parfaite sur l'état du jeu, on étudie le problème de la valeur pour des jeux dont les objectifs sont des combinaisons booléennes d'objectifs qualitatifs et quantitatifs. Pour les jeux stochastiques à un joueur, on montre que les valeurs sont calculables en temps polynomiale et on montre que les stratégies optimales peuvent être implementées avec une mémoire finie. On montre aussi que notre construction pour la conjonction de parité et de la moyenne positive peut être étendue au cadre des jeux stochastiques à deux joueurs. Dans le cas où les joueurs ont une information partielle, on étudie le problème de la valeur pour la condition d'accessibilité. On montre que le calcul de l'ensemble des états à valeur 1 est un problème indécidable, on introduit une sous classe pour laquelle ce problème est décidable. Le problème de la valeur 1 pour cette sous classe est PSPACE-complet dans le cas de joueur aveugle et dans EXPTIME dans le cas de joueur avec observations partielles.
4

Le problème de la valeur dans les jeux stochastiques

Oualhadj, Youssouf 11 December 2012 (has links)
La théorie des jeux est un outils standard quand il s'agit de l'étude des systèmes réactifs. Ceci est une conséquence de la variété des modèle de jeux tant au niveau de l'interaction des joueurs qu'au niveau de l'information que chaque joueur possède.Dans cette thèse, on étudie le problème de la valeur pour des jeux où les joueurs possèdent une information parfaite, information partiel et aucune information. Dans le cas où les joueurs possèdent une information parfaite sur l'état du jeu,on étudie le problème de la valeur pour des jeux dont les objectifs sont des combinaisons booléennes d'objectifs qualitatifs et quantitatifs.Pour les jeux stochastiques à un joueur, on montre que les valeurs sont calculables en temps polynomiale et on montre que les stratégies optimalespeuvent être implementées avec une mémoire finie.On montre aussi que notre construction pour la conjonction de parité et de la moyenne positivepeut être étendue au cadre des jeux stochastiques à deux joueurs. Dans le cas où les joueurs ont une information partielle,on étudie le problème de la valeur pour la condition d'accessibilité.On montre que le calcul de l'ensemble des états à valeur 1 est un problème indécidable,on introduit une sous classe pour laquelle ce problème est décidable.Le problème de la valeur 1 pour cette sous classe est PSPACE-complet dansle cas de joueur aveugle et dans EXPTIME dans le cas de joueur avec observations partielles. / Game theory proved to be very useful in the fieldof verification of open reactive systems. This is due to the widevariety of games' model that differ in the way players interactand the amount of information players have.In this thesis, we study the value problem forgames where players have full knowledge on their current configurationof the game, partial knowledge, and no knowledge.\\In the case where players have perfect information,we study the value problem for objectives that consist in combinationof qualitative and quantitative conditions.In the case of one player stochastic games, we show thatthe values are computable in polynomial time and show thatthe optimal strategies exist and can be implemented with finite memory.We also showed that our construction for parity and positive-average Markov decisionprocesses extends to the case of two-player stochastic games.\\In the case where the players have partial information,we study the value problem for reachability objectives.We show that computing the set of states with value 1 is an undecidableproblem and introduce a decidable subclass for the value 1 problem.This sub class is PSPACE-complete in the case of blind controllersand EXPTIME is the setting of games with partial observations.
5

Les mécanismes d'incitation à la coopération dans les réseaux tolérants aux délais / Incentive Mechanisms For Cooperation In Delay Tolerant Networks

Nguyen, Thi Thu Hang 04 December 2018 (has links)
Les réseaux tolérants aux retards (DTN) ont été conçus pour fournir un moyen de communication durable entre terminaux mobiles dans les régions dépourvues d’infrastructure cellulaire. Dans de tels réseaux, l’ensemble des voisins de chaque nœud change au fil du temps en raison de la mobilité des nœuds, ce qui entraîne une connectivité intermittente et des routes instables dans le réseau. Nous analysons la performance d’un système d’incitation pour les DTN à deux sauts dans lequel une source en arriéré offre une récompense fixe aux relais pour délivrer un message. Un seul message à la fois est proposé par la source. Pour un message donné, seul le premier relais à le délivrer reçoit la récompense correspondant à ce message, induisant ainsi une compétition entre les relais. Les relais cherchent à maximiser la récompense attendue pour chaque message alors que l’objectif de la source est de satisfaire une contrainte donnée sur la probabilité de livraison du message. Nous considérons deux réglages différents : l’un dans lequel la source indique aux relais pendant combien de temps un message est en circulation, et l’autre dans lequel la source ne donne pas cette information. Dans le premier paramètre, nous montrons que la politique optimale d’un relais est de type seuil : il accepte un message jusqu’à un premier seuil et le conserve jusqu’à ce qu’il atteigne la destination ou le deuxième seuil. Les formules de calcul des seuils ainsi que de la probabilité de livraison des messages sont dérivées pour une source d’arriérés. Nous étudions ensuite la performance asymptotique de ce réglage dans la limite moyenne du champ. Lorsque le deuxième seuil est infini, nous donnons l’ODE du champ moyen et montrons que tous les messages ont la même probabilité de réussite. Lorsque le deuxième seuil est fini, nous ne donnons qu’une approximation ODE car dans ce cas, la dynamique n’est pas markovienne. Pour le second réglage, nous supposons que la source propose chaque message pour une période de temps fixe et qu’un relais décide d’accepter un message selon une politique randomisée lors d’une rencontre avec la source. S’il accepte le message, un relais le garde jusqu’à ce qu’il atteigne la destina- tion. Nous établissons dans quelle condition la probabilité d’acceptation des relais est strictement positive et montrons que, dans cette condition, il existe un équilibre de Nash symétrique unique, dans lequel aucun relais n’a quelque chose à gagner en changeant unilatéralement sa probabilité d’acceptation. Des expressions explicites pour la probabilité de livraison du message et le temps moyen de livraison d’un message à l’équilibre symétrique de Nash sont dérivées, ainsi qu’une expression de la valeur asymptotique de la livraison du message. Enfin, nous présentons de nombreux résultats de simulations pour com- parer les performances de la stratégie de type seuil et de la stratégie ran- domisée, afin de déterminer dans quelle condition il est rentable pour la source de donner l’information sur l’âge d’un message aux relais. / Delay-Tolerant Networks (DTNs) were designed to provide a sustainable means of communication between mobile terminals in regions without cellular infrastructure. In such networks, the set of neighbors of every node changes over time due to the mobility of nodes, resulting in intermittent connectivity and unstable routes in the network. We analyze the performance of an incentive scheme for two-hop DTNs in which a backlogged source pro- poses a fixed reward to the relays to deliver a message. Only one message at a time is proposed by the source. For a given message, only the first relay to deliver it gets the reward corresponding to this message thereby inducing a competition between the relays. The relays seek to maximize the expected reward for each message whereas the objective of the source is to satisfy a given constraint on the probability of message delivery. We consider two different settings: one in which the source tells the relays for how long a message is in circulation, and one in which the source does not give this information. In the first setting, we show that the optimal policy of a relay is of thresh- old type: it accepts a message until a first threshold and then keeps the message until it either meets the destination or reaches the second threshold. Formulas for computing the thresholds as well as probability of message delivery are derived for a backlogged source. We then investigate the asymptotic performance of this setting in the mean field limit. When the second thresh- old in infinite, we give the mean-field ODE and show that all the messages have the same probability of successful delivery. When the second threshold is finite we only give an ODE approximation since in this case the dynamics are not Markovian. For the second setting, we assume that the source proposes each message for a fixed period of time and that a relay decides to accept a message accord- ing to a randomized policy upon encounter with the source. If it accepts the message, a relay keeps it until it reaches the destination. We establish under which condition the acceptance probability of the relays is strictly positive and show that, under this condition, there exists a unique symmetric Nash equilibrium, in which no relay has anything to gain by unilaterally changing its acceptance probability. Explicit expressions for the probability of message delivery and the mean time to deliver a message at the symmetric Nash equilibrium are derived, as well as an expression of the asymptotic value of message delivery. Finally, we present numerous simulations results to compare performances of the threshold-type strategy and the randomized strategy, in order to determine under which condition it is profitable for the source to give the information on the age of a message to the relays
6

Some links between discrete and continuous aspects in dynamic games / Quelques liens entre aspects discrets et continus dans jeux dynamiques

Maldonado Lopez, Juan Pablo 04 November 2014 (has links)
Cette thèse étudie les liens entre a) les jeux en temps discret et continu, et b) les jeux à très grand nombre de joueurs identiques et les jeux avec un continuum de joueurs. Une motivation pour ces sujets ainsi que les contributions principales de cette thèse sont présentées dans le Chapitre 1. Le reste de la thèse est organisé en trois parties. La Partie I étudie les jeux différentiels à somme nulle et à deux joueurs. Nous décrivons dans le Chapitre 3 trois approches qui ont été proposées dans la littérature pour établir l’existence de la valeur dans les jeux différentiels à deux joueurs et à somme nulle, en soulignant les liens qui existent entre elles. Nous fournissons dans le Chapitre 4 une démonstration de l’existence de la valeur à l’aide d’une description explicite des stratégies ε optimales. Le Chapitre 5 établit l’équivalence entre les solutions de minimax et les solutions de viscosité pour les équations de Hamilton-Jacobi-Isaacs. La Partie II porte sur les jeux à champ moyen en temps discret. L’espace d’action est supposé compact dans le Chapitre 6, et fini dans le Chapitre 7. Dans les deux cas, nous obtenons l’existence d’un ε- équilibre de Nash pour un jeu stochastique avec un nombre fini de joueurs identiques, où le terme d’approximation tend vers zéro lorsque le nombre de joueurs augmente. Nous obtenons dans le Chapitre 7 des bornes d’erreur explicites, ainsi que l’existence d’un ε-équilibre de Nash pour un jeu stochastique à durée d’étape évanescente et à un nombre fini de joueurs identiques. Dans ce cas, le terme d’approximation est fonction à la fois du nombre de joueurs et de la durée d’étape. Enfin, la Partie III porte sur les jeux stochastiques à durée d’étape évanescente, qui sont décrits dans le Chapitre 8. Il s’agit de jeux où un paramètre évolue selon une chaîne de Markov en temps continu, tandis que les joueurs choisissent leurs actions à des dates discrètes. La dynamique en temps continu dépend des actions des joueurs. Nous considérons trois évaluations différentes pour le paiement et deux structures d’information : dans un cas, les joueurs observent les actions passées et le paramètre, et dans l’autre, seules les actions passées sont observées. / In this thesis we describe some links between a) discrete and continuous time games and b) games with finitely many players and games with a continuum of players. A motivation to the subject and the main contributions are outlined in Chapter 2. The rest of the thesis is organized in three parts: Part I is devoted to differential games, describing the different approaches for establishing the existence of the value of two player, zero sum differential games in Chapter 3 and pointing out connections between them. In Chapter 4 we provide a proof of the existence of the value using an explicit description of ε-optimal strategies and a proof of the equivalence of minimax solutions and viscosity solutions for Hamilton-Jacobi-Isaacs equations in Chapter 5. Part II concerns discrete time mean field games. We study two models with different assumptions, in particular, in Chapter 6 we consider a compact action space while in Chapter 7 the action space is finite. In both cases we derive the existence of an ε-Nash equilibrium for a stochastic game with finitely many identical players, where the approximation error vanishes as the number of players increases. We obtain explicit error bounds in Chapter 7 where we also obtain the existence of an ε-Nash equilibrium for a stochastic game with short stage duration and finitely many identical players, with the approximation error depending both on the number of players and the duration of the stage. Part III is concerned with two player, zero sum stochastic games with short stage duration, described in Chapter 8. These are games where a parameter evolves following a continuous time Markov chain, while the players choose their actions at the nodes of a given partition of the positive real axis. The continuous time dynamics of the parameter depends on the actions of the players. We consider three different evaluations for the payoff and two different information structures: when players observe the past actions and the parameter and when players observe past actions but not the parameter.
7

Planification multi-agents dans un cadre markovien : les jeux stochastiques à somme générale

Hamila, Mohammed Amine 03 April 2012 (has links)
Planifier les actions d’un agent dans un environnement dynamique et incertain, a été largement étudié et le cadre des processus décisionnels de Markov offre les outils permettant de modéliser et de résoudre de tels problèmes. Le domaine de la théorie des jeux, a permis l’étude des interactions stratégiques entre plusieurs agents pour un jeu donné. Le cadre des jeux stochastiques, est considéré comme une généralisation du domaine des processus décisionnels de Markov et du champ de la théorie des jeux et permet de modéliser des systèmes ayant plusieurs agents et plusieurs états. Cependant, planifier dans unsystème multi-agents est considéré comme difficile, car la politique d’actions de l’agent dépend non seulement de ses choix mais aussi des politiques des autres agents. Le travail que nous présentons dans cette thèse porte sur la prise de décision distribuée dans les systèmes multi-agents. Les travaux existants dans le domaine, permettent la résolution théorique des jeux stochastiques mais imposent de fortes restrictions et font abstraction de certains problèmes cruciaux du modèle. Nous proposons un algorithme de planification décentralisée pour le modèle des jeux stochastiques, d’une part basé sur l’algorithme Value-Iteration et d’autre part basé sur la notion d’équilibre issue de la résolution des jeux matriciels. Afin d’améliorer le processus de résolution et de traiter des problèmes de taille importante, nous recherchons à faciliter la prise de décision et à limiter les possibilités d’actions à chaque étape d’interaction. L’algorithme que nous avonsproposé, a été validé sur un exemple d’interaction incluant plusieurs agents et différentes expérimentations ont été menées afin d’évaluer la qualité de la solution obtenue. / Planning agent’s actions in a dynamic and uncertain environment has been extensively studied. The framework of Markov decision process provides tools to model and solve such problems. The field of game theory has allowed the study of strategic interactions between multiple agents for a given game. The framework of stochastic games is considered as a generalization of the fields of Markov decision process and game theory. It allows to model systems with multiple agents and multiple states. However, planning in a multi-agent system is considered difficult : agent’s decisions depend not only on its actions but also on actions of the other agents. The work presented in this thesis focuses on decision making in distributed multi-agent systems. Existing works in this field allow the theoretical resolution of stochastic games but place severe restrictions and ignore some crucial problems of the model. We propose a decentralized planning algorithm for the model of stochastic games. Our proposal is based on the Value-Iteration algorithm and on the concept of Nash equilibrium. To improve the resolution process and to deal with large problems, we sought to ease decision making and limit the set of joint actions at each stage. The proposed algorithm was validated on a coordination problem including several agents and various experiments were conducted to assess the quality of the resulting solution.
8

Population games with networking applications

Tembine, Hamidou 18 September 2009 (has links) (PDF)
Ce manuscrit présente les fondements dynamiques des jeux de population avec un nombre variable de joueurs ainsi que leurs concepts de solutions et de stabilités. Nous introduisons d'abord les dynamiques de jeux avec retard et étudions leurs stabilités. Nous les appliquons aux réseaux filaires et aux réseaux sans fils. Ensuite nous nous intéressons aux aspects de mobilité et aux distributions spatiales des joueurs sur le réseau. Cela nous conduit à une nouvelle classe de dynamique de jeux à stratégies vectorielles avec des contraintes de migrations, appelée dynamique de jeux d'évolution avec migration. Nous dérivons de telles dynamiques pour les réseaux hybrides et appliquons aux problèmes de contrôle de puissance dans les réseaux hétérogènes, choix entre plusieurs technologies et migration entre plusieurs classes d'utilisateurs. Ensuite nous nous focalisons aux jeux stochastiques de population avec plusieurs classes de joueurs dans lesquels chaque joueur possède son propre état et fait face un vecteur qui évolue dans le temps. Des applications à la gestion d'énergie dans les réseaux sont présentées. Finalement, nous étudions une classe de jeux à champ moyen. Lorsque la taille de la population devient très grande, les asymptotiques du système conduisent à des dynamiques appelées dynamiques de jeux à champ moyen. Cette classe de dynamiques contient les dynamiques standard basées sur des révisions de stratégies. Nous utilisons ce modèle pour analyser les problèmes accès aléatoires à des ressources dans un environnement où les utilisateurs et les ressources sont spatialement distribuées. Nous établissons un lien entre les jeux à champ moyen et les jeux différentiels de population dans lesquels chaque joueur a son état individuel et optimise son paiement à long terme pendant son temps de séjour dans le système sous contraintes que le profil de population évolue selon une dynamique de jeux à champ moyen
9

Planification multi-agents dans un cadre markovien : les jeux stochastiques à somme générale

Hamila, Mohamed amine 03 April 2012 (has links) (PDF)
Planifier les actions d'un agent dans un environnement dynamique et incertain, a été largement étudié et le cadre des processus décisionnels de Markov offre les outils permettant de modéliser et de résoudre de tels problèmes. Le domaine de la théorie des jeux, a permis l'étude des interactions stratégiques entre plusieurs agents pour un jeu donné. Le cadre des jeux stochastiques, est considéré comme une généralisation du domaine des processus décisionnels de Markov et du champ de la théorie des jeux et permet de modéliser des systèmes ayant plusieurs agents et plusieurs états. Cependant, planifier dans unsystème multi-agents est considéré comme difficile, car la politique d'actions de l'agent dépend non seulement de ses choix mais aussi des politiques des autres agents. Le travail que nous présentons dans cette thèse porte sur la prise de décision distribuée dans les systèmes multi-agents. Les travaux existants dans le domaine, permettent la résolution théorique des jeux stochastiques mais imposent de fortes restrictions et font abstraction de certains problèmes cruciaux du modèle. Nous proposons un algorithme de planification décentralisée pour le modèle des jeux stochastiques, d'une part basé sur l'algorithme Value-Iteration et d'autre part basé sur la notion d'équilibre issue de la résolution des jeux matriciels. Afin d'améliorer le processus de résolution et de traiter des problèmes de taille importante, nous recherchons à faciliter la prise de décision et à limiter les possibilités d'actions à chaque étape d'interaction. L'algorithme que nous avonsproposé, a été validé sur un exemple d'interaction incluant plusieurs agents et différentes expérimentations ont été menées afin d'évaluer la qualité de la solution obtenue.
10

Contributions à l'étude des propriétés asymptotiques en contrôle optimal et en jeux répétés / Contributions to the analysis of asymptotic properties in optimal control and repeated games

Li, Xiaoxi 22 September 2015 (has links)
Cette thèse étudie des propriétés limites de problèmes de contrôle optimal (un joueur, en temps continu) et de jeux répétés à somme nulle (à deux joueurs, en temps discret) avec horizon tendant vers l'infini. Plus précisément, nous étudions la convergence de la fonction valeur lorsque la durée du problème de contrôle ou la répétition du jeu tend vers l'infini (analyse asymptotique), et l'existence de stratégies robustes, i.e. des stratégies ԑ-optimales pour guarantir la valeur limite dans tous les problèmes de contrôle de durée suffisamment longue ou dans tous les jeux répétés de répétition suffisamment large (analyse uniforme). La partie sur le contrôle optimal est composée de trois chapitres. Le chapitre 2 est un article de présentation de la littérature récente sur les propriétés à long terme dans divers modèles d'optimisation dynamique. Dans les deux chapitres suivants, nous nous concentrons sur les problèmes de contrôle optimal où le coȗt de la trajectoire est évalué par une mesure de probabilité générale sur R_+, au lieu de la moyenne de T-horizon (moyenne de Cesàro) ou de la λ-escompté (moyenne d'Abel). Dans le chapitre 3, nous introduisons une condition de régularité asymptotique pour une suite de mesures de probabilité sur R_+ induisant un horizon tendant vers l'infini (en particulier, T tendant vers l'infini ou λ tendant vers zéro). Nous montrons que pour toute suite d'évaluations satisfaisant cette condition, la suite associée des valeurs du problème de contrôle converge uniformément si et seulement si cette suite est totalement bornée pour la norme uniforme. On en déduit que pour des problèmes de contrôle définis sur un domaine invariant compact et vérifiant une certaine condition de non-expansivité, la fonction valeur définie par une mesure de probabilité générale converge quand l'évaluation devient suffisamment régulière. En outre, nous prouvons dans le chapitre 4 que sous les mȇmes conditions de compacité et de non-expansivité, il existe des contrôles ԑ-optimaux pour tous les problèmes où le coȗt de la trajectoire est évalués par une mesure de probailité suffisamment régulières. La partie sur les jeux répétés se compose de deux chapitres. Le chapitre 5 est consacré à l'étude d'une sous-classe de jeux absorbants à information incomplète d'un côté. Le modèle que nous considérons est une généralisation du Big match à information incomplète d'un côté introduit par Sorin (1984). Nous démontrons l'existence de la valeur limite, du Maxmin, du Minmax, et l'égalité du Maxmin et de la valeur limite. Dans le chapitre 6, nous établissons plusieurs résultats concernant des jeux récursifs. Nous considérons d'abord les jeux récursifs avec un espace dénombrable d'états et prouvons que si la famille des fonctions valeur des jeux à n étapes est totalement bornée pour la norme uniforme, alors la valeur uniforme existe. En particulier, la convergence uniforme des valeurs des jeux à n étapes implique la convergence uniforme des valeurs des jeux escomptés. à l'aide d'un résultat dans Rosenberg et Vieille (2000), on en déduit un théorème taubérien uniforme pour les jeux récursifs. Deuxièmement, nous appliquons le résultat d'existence de la valeur uniforme à une classe des modèles général de jeux répétés et nous prouvons que la valeur limite et le Maxmin existent et sont égaux. Ces jeux répétés sont des jeux récursifs avec signaux où le joueur 1 peut toujours déduire le signal du joueur 2 de son propre signal. / This dissertation studies limit properties in optimal control problems (one-player, in continuous time) and in zero-sum repeated games (two-player, in discrete time) with large horizons. More precisely, we investigate the convergence of the value function when the duration of the control problem or the repetition of the game tends to infinity (the asymptotic analysis), and the existence of robust strategies, i.e. ԑ-optimal strategies to guarantee the limit value in all control problems with sufficiently long durations or in all repeated games with sufficiently large repetitions (the uniform analysis). The part on optimal control is composed of three chapters. Chapter 2 is a survey article on recent literature of long-term properties in various models of dynamic optimization. In the following two chapters, we focus on optimal control problems where the running cost is evaluated by a general probability measure, instead of the usual T-horizon average (Cesàro mean) or the λ-discount (Abel mean). In Chapter 3, we introduce an asymptotic regularity condition for a sequence of probability measures on positive real numbers which induces a horizon tending to infinity (in particular T tending to infinity or λ tending to zero) for the control problem. We prove that for any sequence of evaluations satisfying this condition, the associated sequence of value function of the control problem converges uniformly if and only if this sequence is totally bounded for the uniform norm. We deduce that for control problems defined on a compact invariant domain and satisfying some non expansive condition, the value function defined by a general probability measure converges as the evaluation becomes sufficiently regular. Further, we prove in Chapter 4 that under the same compact and non expansive conditions, there exist ԑ-optimal controls for all problems where the running cost is evaluated by a sufficiently regular probability measure. The part on repeated games consists of two chapters. Chapter 5 is devoted to the study of a subclass of absorbing games with one-sided incomplete information. The model we consider is a generalization of Big match with one-sided incomplete information introduced by Sorin (1984). We prove the existence of the limit value, Maxmin, Minmax, and that Maxmin is equal to the limit value. In Chapter 6, we establish several results for recursive games. We first consider recursive games with a countable state space and prove that if the family of n-stage value functions is totally bounded for the uniform norm, then the uniform value exists. In particular, the uniform convergence of n-stage values implies the uniform convergence of λ-discounted values. Combined with a result in Rosenberg and Vieille (2000), we deduce a uniform Tauberian theorem for recursive games. Second, we use the existence result of uniform value to a class of the generalized models of repeated games and prove that both the limit value and Maxmin exist and are equal. This class of repeated games are recursive games with signals where player 1 can always deduce the signal of player 2 from his own along the play.

Page generated in 0.4507 seconds