Global ETD Search

1	Markovian sequential decision-making in non-stationary environments : application to argumentative debates / Décision séquentielle markovienne en environnements non-stationnaires : application aux débats d'argumentation Hadoux, Emmanuel 26 November 2015 (has links) Les problèmes de décision séquentielle dans l’incertain requièrent qu’un agent prenne des décisions, les unes après les autres, en fonction de l’état de l’environnement dans lequel il se trouve. Dans la plupart des travaux, l’environnement dans lequel évolue l’agent est supposé stationnaire, c’est-à-dire qu’il n’évolue pas avec le temps. Toute- fois, l’hypothèse de stationnarité peut ne pas être vérifiée quand, par exemple, des évènements exogènes au problème interviennent. Dans cette thèse, nous nous intéressons à la prise de décision séquentielle dans des environnements non-stationnaires. Nous proposons un nouveau modèle appelé HS3MDP permettant de représenter les problèmes non-stationnaires dont les dynamiques évoluent parmi un ensemble fini de contextes. Afin de résoudre efficacement ces problèmes, nous adaptons l’algorithme POMCP aux HS3MDP. Dans le but d’apprendre les dynamiques des problèmes de cette classe, nous présentons RLCD avec SCD, une méthode utilisable sans connaître à priori le nombre de contextes. Nous explorons ensuite le domaine de l’argumentation où peu de travaux se sont intéressés à la décision séquentielle. Nous étudions deux types de problèmes : les débats stochastiques (APS ) et les problèmes de médiation face à des agents non-stationnaires (DMP). Nous présentons dans ce travail un modèle formalisant les APS et permettant de les transformer en MOMDP afin d’optimiser la séquence d’arguments d’un des agents du débat. Nous étendons cette modélisation aux DMP afin de permettre à un médiateur de répartir stratégiquement la parole dans un débat. / In sequential decision-making problems under uncertainty, an agent makes decisions, one after another, considering the current state of the environment where she evolves. In most work, the environment the agent evolves in is assumed to be stationary, i.e., its dynamics do not change over time. However, the stationarity hypothesis can be invalid if, for instance, exogenous events can occur. In this document, we are interested in sequential decision-making in non-stationary environments. We propose a new model named HS3MDP, allowing us to represent non-stationary problems whose dynamics evolve among a finite set of contexts. In order to efficiently solve those problems, we adapt the POMCP algorithm to HS3MDPs. We also present RLCD with SCD, a new method to learn the dynamics of the environments, without knowing a priori the number of contexts. We then explore the field of argumentation problems, where few works consider sequential decision-making. We address two types of problems: stochastic debates (APS ) and mediation problems with non-stationary agents (DMP). In this work, we present a model formalizing APS and allowing us to transform them into an MOMDP in order to optimize the sequence of arguments of one agent in the debate. We then extend this model to DMPs to allow a mediator to strategically organize speak-turns in a debate. Intelligence artificielle Décisions séquentielles Modèles markoviens Planification Argumentation Environnements non-Stationnaires Artificial intelligence 004
2	Multi-objective sequential decision making / La prise de décisions séquentielles multi-objectif Wang, Weijia 11 July 2014 (has links) La présente thèse porte sur l'étude de prise de décisions séquentielles multi-Objectif (MOSDM). La motivation de ce travail est double. D'un côté, la prise de décision, par exemple, dans les domaines de robotique et de planification, concerne l'optimisation séquentielle. De l'autre côté, nombreuses applications dans le monde réel sont plus naturellement formulés en termes d'optimisation multi-Objectif (MOO). La méthode proposée dans la thèse adapte le cadre bien connue de recherche Monte-Carlo arborescente (MCTS) à l'optimisation multi-Objectif, dans lequel multiple séquences de décision optimales sont développées dans un seul arbre de recherche. Le principal défi est de proposer une nouvelle récompense, capable de guider l'exploration de l'arbre bien que le problème de MOO n'applique pas un ordre total entre les solutions. La contribution principale de cette thèse est de proposer et d'étudier expérimentalement ces deux récompenses : l'indicateur de hypervolume et la récompense de dominance Pareto, qui sont inspirées de la littérature de MOO et basés sur une archive de solutions antérieures (archives Pareto). L'étude montre la complémentarité de ces deux récompenses. L'indicateur de hypervolume souffre de sa complexité algorithmique. Cependant, cet indicateur fournit des informations à grains fins de la qualité des solutions à l'égard de l'archive actuelle. Bien au contraire, la complexité de la récompense de dominance Pareto est linéaire, mais cette récompense fournit des informations de plus en plus rare au long de la recherche. Les preuves de principe de l'approche sont donnés sur les problèmes articiaux et les défis internationaux, et confirment la valeur de l'approche. En particulier, MOMCTS est capable de découvrir les politiques se trouvant dans les régions non-Convexes du front Pareto, qui contraste avec l'état de l'art: les algorithmes d'apprentissage par renforcement multi-Objectif existants sont basés sur scalarization linéaire et donc ne sont pas capables de explorer ces régions non-Convexes. Enfin, MOMCTS a fait honorablement la concurrence avec l'état de l'art sur la compétition internationale de MOPTSP 2013. / This thesis is concerned with multi-Objective sequential decision making (MOSDM). The motivation is twofold. On the one hand, many decision problems in the domains of e.g., robotics, scheduling or games, involve the optimization of sequences of decisions. On the other hand, many real-World applications are most naturally formulated in terms of multi-Objective optimization (MOO). The proposed approach extends the well-Known Monte-Carlo tree search (MCTS) framework to the MOO setting, with the goal of discovering several optimal sequences of decisions through growing a single search tree. The main challenge is to propose a new reward, able to guide the exploration of the tree although the MOO setting does not enforce a total order among solutions. The main contribution of the thesis is to propose and experimentally study two such rewards, inspired from the MOO literature and assessing a solution with respect to the archive of previous solutions (Pareto archive): the hypervolume indicator and the Pareto dominance reward. The study shows the complementarity of these two criteria. The hypervolume indicator suffers from its known computational complexity; however the proposed extension thereof provides fine-Grained information about the quality of solutions with respect to the current archive. Quite the contrary, the Pareto-Dominance reward is linear but it provides increasingly rare information. Proofs of principle of the approach are given on artificial problems and challenges, and confirm the merits of the approach. In particular, MOMCTS is able to discover policies lying in non-Convex regions of the Pareto front, contrasting with the state of the art: existing Multi-Objective Reinforcement Learning algorithms are based on linear scalarization and thus fail to sample such non-Convex regions. Finally MOMCTS honorably competes with the state of the art on the 2013 MOPTSP competition. Apprentissage par renforcement Recherche arborescente Monte-Carlo Optimisation multi-objectif Prise de décisions séquentielles Reinforcement learning Monte-Carlo tree search Multi-objective optimization Sequential decision making
3	Autour de la décision qualitative en théorie des possibilités / On the qualitative decision in a possibility theory framework Sid-Amar, Ismahane 20 September 2015 (has links) Dans de nombreuses applications réelles, nous sommes souvent confrontés à des problèmes de décision: de choisir des actions et de renoncer à d'autres. Les problèmes de décision deviennent complexes lorsque les connaissances disponibles sont entachées d'incertitude ou lorsque le choix établi présente un risque.L'un des principaux domaines de l'Intelligence Artificielle (IA) consiste à représenter les connaissances, à les modéliser et à raisonner sur celles-ci. Dans cette thèse, nous sommes intéressés à une discipline inhérente à l'IA portant sur les problèmes de décision. La théorie de la décision possibiliste qualitative a élaboré plusieurs critères, selon le comportement de l'agent, permettant de l'aider à faire le bon choix tout en maximisant l'un de ces critères. Dans ce contexte, la théorie des possibilités offre d'une part un cadre simple et naturel pour représenter l'incertitude et d'autre part, elle permet d'exprimer les connaissances d'une manière compacte à base de modèles logiques ou de modèles graphiques. Nous proposons dans cette thèse d'étudier la représentation et la résolution des problèmes de la décision qualitative en utilisant la théorie des possibilités. Des contreparties possibilistes des approches standards ont été proposées et chaque approche a pour objectif d'améliorer le temps de calcul des décisions optimales et d'apporter plus d'expressivité à la forme de représentation du problème. Dans le cadre logique, nous avons proposé une nouvelle méthode, pour résoudre un problème de la décision qualitative modélisé par des bases logiques possibilistes, basée sur la fusion syntaxique possibiliste. Par la suite, dans le cadre graphique, nous avons proposé un nouveau modèle graphique, basé sur les réseaux possibilistes, permettant la représentation des problèmes de décision sous incertitude. En effet, lorsque les connaissances et les préférences de l'agent sont exprimées de façon qualitative, nous avons proposé de les représenter par deux réseaux possibilistes qualitatifs distincts. Nous avons développé un algorithme pour le calcul des décisions optimales optimistes qui utilise la fusion de deux réseaux possibilistes. Nous avons montré aussi comment une approche basée sur les diagrammes d'influence peut être codée d'une manière équivalente dans notre nouveau modèle. Nous avons en particulier proposé un algorithme polynomial qui permet de décomposer le diagramme d'influence en deux réseaux possibilistes. Dans la dernière partie de la thèse, nous avons défini le concept de la négation d'un réseau possibiliste qui pourra servir au calcul des décisions optimales pessimistes. / In many applications, we are often in presence of decision making problems where the choice of appropriate actions need to be done. When the choice is clear and the risks are null, the decision becomes easy to select right actions. Decisions are more complex when available knowledge is flawed by uncertainty or when the established choice presents a risk. One of the main areas of Artificial Intelligence (AI) is to model, represent and reason about knowledge. In this thesis, we are interested in an inherent discipline in AI which concerns decision making problems.The qualitative possibility decision theory has developed several criteria, depending on the agent behavior, for helping him to make the right choice while maximizing one of these criteria. In this context, possibility theory provides a simple and natural way to encode uncertainty. It allows to express knowledge in a compact way using logical and graphical models. We propose in this thesis to study the representation and resolution of possibilistic qualitative decision problems. Possibilistic counterparts of standard approaches have been proposed and each approach aims to improve the computational complexity of computing optimal decisions and to provide more expressiveness to the representation model of the problem. In the logical framework, we proposed a new method for solving a qualitative decision problem, encoded by possibilistic bases, based on syntactic representations of data fusion problems. Subsequently, in a graphical framework, we proposed a new graphical model for decision making under uncertainty based on qualitatif possibilistic networks. Indeed, when agent's knowledge and preferences are expressed in a qualitative way, we suggest to encode them by two distinct qualitative possibilistic networks. We developed an efficient algorithm for computing optimistic optimal decisions based on syntactic counterparts of the possibilistic networks fusion. We also showed how an influence diagram can be equivalently represented in our new model. In particular, we proposed a polynomial algorithm for equivalently decomposing a given possibilistic influence diagram into two qualitatif possibilistic networks. In the last part of the thesis, we defined the concept of negated possibilistic network that can be used for computing optimal pessimistic decisions. Théorie de la décision Théorie des possibilités Logique possibiliste Réseaux possibilistes Arbres de jonctions Diagrammes d'influence Décisions séquentielles Decision theory Possibilisty theory Possibilistic logic Possibilistic networks Junction trees Influence diagrams Sequential decisions 006.3

1

Page generated in 0.1132 seconds