Si les travaux menés dans le domaine des sciences de la décision ont permis de résoudre des problèmes variés, la capacité pour un agent à être autonome dans le choix de ses objectifs reste un problème difficile à traiter. Cette capacité est pourtant indispensable à l'autonomie dans son environnement pour un agent. Cette thèse a pour objectif de permettre à un robot de planifier ses actions pour de multiples objectifs contradictoires, dans un environement probabiliste et avec des ressources. La première contribution de ce travail est la proposition d'un nouveau modèle pour les objectifs, la motivation, constitué à partir d'un automate. Celui-ci décrit l'évolution de chaque objectif à l'aide d'états et de transitions correspondant à la réalisation de tâches, et définit les gains de récompenses. La deuxième contribution concerne une méthode de planification utilisant les motivations. Cette méthode est hiérarchique, proposant de résoudre la réalisation des tâches déterminantes pour les motivations dans un premier temps. En exploitant le contexte spécifique de chaque tâche, nous pouvons calculer rapidement leur politique et calculer leur modèle d'exécution, que nous appelons macro-action. Nous utilisons ensuite ces macro-actions dans un processus de planification local de haut-niveau, permettant de retourner un plan conditionnel des macro-actions à exécuter, que nous appelons agenda des macro-actions. Pour résoudre un problème dans sa longueur, nous proposons d'incluer ce système de planification dans une architecture délibérative qui permettra de contrôler l'exécution des agenda et d'en produire de nouveaux. / If the litterature of decision-making has addressed a variety of problems, the ability to make an agent autonomous in the choice of its goals remains a difficult issue to address. This capacity is nevertheless essential for an agent in order to be automous in its environment. This thesis aims at allowing a robot to plan its own actions for multiple concurrent objectives, in a probabilistic environment and with resources. The first contribution of this work is the proposal of a new model for the objectives, the motivations, constituted from an automaton. Motivations describe the evolution of each objective using states and transitions corresponding to the realisation of tasks, and define the reward gains. The second contribution concerns a planning method that makes use the motivations. This method is hierarchical and proposes at first to solve the realisation of the tasks that are relevant for the motivations. By exploiting the specific context of each task, we can quickly compute their policy and calculate their execution model, which we call macro-action. We then use these macro-actions in a high-level local planning process, allowing us to return a conditional plan of the macro-actions to be executed, which we call macro-actions agenda. To solve a problem over time, we propose to include this planning system in a deliberative architecture that will control the execution of the agenda and produce new ones.
Identifer | oai:union.ndltd.org:theses.fr/2017PA066412 |
Date | 13 July 2017 |
Creators | Gottstein, Raphaël |
Contributors | Paris 6, Chatila, Raja |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | French |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text |
Page generated in 0.0061 seconds