Global ETD Search

1	Contributions à l'apprentissage par renforcement inverse / Contributions to inverse reinforcement learning Klein, Édouard 21 November 2013 (has links) Cette thèse, intitulée "Contributions à l'apprentissage par renforcement inverse", fournit trois contributions majeures au domaine. La première est une méthode d'estimation de l'attribut moyen, une quantité exploitée par la grande majorité des approches constituant l'état de l'art. Elle a permis d'étendre ces approches au cadre batch et off-policy. La seconde contribution majeure est un algorithme d'apprentissage par renforcement inverse, structured classification for inverse reinforcement learning (SCIRL), qui relâche une contrainte standard du domaine, la résolution répétée d'un processus décisionnel de Markov en introduisant la structure temporelle (par le biais de l'attribut moyen) de ce processus dans un algorithme de classification structurée. Les garanties théoriques qui lui sont attachées et ses bonnes performances en pratique ont permis sa présentation dans une conférence internationale prestigieuse : NIPS. Enfin, la troisième contribution est constituée par la méthode cascaded supervised learning for inverse reinforcement learning (CSI) consistant à apprendre le comportement de l'expert par une méthode supervisée puis à introduire la structure temporelle du MDP par une régression mettant en jeu la fonction de score du classifieur utilisé. Cette méthode offre des garanties théoriques de même nature que celle de SCIRL tout en présentant l'avantage d'utiliser des composants standards pour la classification et la régression, ce qui simplifie la mise en oeuvre. Ce travail sera présenté dans une autre conférence internationale prestigieuse : ECML / This thesis, "Contributions à l'apprentissage par renforcement inverse", brings three major contributions to the community. The first one is a method for estimating the feature expectation, a quantity involved in most of state-of-the-art approaches which were thus extended to a batch off-policy setting. The second major contribution is an Inverse Reinforcement Learning algorithm, structured classification for inverse reinforcement learning (SCIRL), which relaxes a standard constraint in the field, the repeated solving of a Markov Decision Process, by introducing the temporal structure (using the feature expectation) of this process into a structured margin classification algorithm. The afferent theoritical guarantee and the good empirical performance it exhibited allowed it to be presentend in a good international conference: NIPS. Finally, the third contribution is cascaded supervised learning for inverse reinforcement learning (CSI) a method consisting in learning the expert's behavior via a supervised learning approach, and then introducing the temporal structure of the MDP via a regression involving the score function of the classifier. This method presents the same type of theoretical guarantee as SCIRL, but uses standard components for classification and regression, which makes its use simpler. This work will be presented in another good international conference: ECML Apprentissage par renforcement inverse Processus de Markov Algorithme de classification structurée Régression 003.7
2	Revisiting user simulation in dialogue systems : do we still need them ? : will imitation play the role of simulation ? / Revisiter la simulation d'utilisateurs dans les systèmes de dialogue parlé : est-elle encore nécessaire ? : est-ce que l'imitation peut jouer le rôle de la simulation ? Chandramohan, Senthilkumar 25 September 2012 (has links) Les récents progrès dans le domaine du traitement du langage ont apporté un intérêt significatif à la mise en oeuvre de systèmes de dialogue parlé. Ces derniers sont des interfaces utilisant le langage naturel comme medium d'interaction entre le système et l'utilisateur. Le module de gestion de dialogue choisit le moment auquel l'information qu'il choisit doit être échangée avec l'utilisateur. Ces dernières années, l'optimisation de dialogue parlé en utilisant l'apprentissage par renforcement est devenue la référence. Cependant, une grande partie des algorithmes utilisés nécessite une importante quantité de données pour être efficace. Pour gérer ce problème, des simulations d'utilisateurs ont été introduites. Cependant, ces modèles introduisent des erreurs. Par un choix judicieux d'algorithmes, la quantité de données d'entraînement peut être réduite et ainsi la modélisation de l'utilisateur évitée. Ces travaux concernent une partie des contributions présentées. L'autre partie des travaux consiste à proposer une modélisation à partir de données réelles des utilisateurs au moyen de l'apprentissage par renforcement inverse / Recent advancements in the area of spoken language processing and the wide acceptance of portable devices, have attracted signicant interest in spoken dialogue systems.These conversational systems are man-machine interfaces which use natural language (speech) as the medium of interaction.In order to conduct dialogues, computers must have the ability to decide when and what information has to be exchanged with the users. The dialogue management module is responsible to make these decisions so that the intended task (such as ticket booking or appointment scheduling) can be achieved.Thus learning a good strategy for dialogue management is a critical task.In recent years reinforcement learning-based dialogue management optimization has evolved to be the state-of-the-art. A majority of the algorithms used for this purpose needs vast amounts of training data.However, data generation in the dialogue domain is an expensive and time consuming process. In order to cope with this and also to evaluatethe learnt dialogue strategies, user modelling in dialogue systems was introduced. These models simulate real users in order to generate synthetic data.Being computational models, they introduce some degree of modelling errors. In spite of this, system designers are forced to employ user models due to the data requirement of conventional reinforcement learning algorithms can learn optimal dialogue strategies from limited amount of training data when compared to the conventional algorithms. As a consequence of this, user models are no longer required for the purpose of optimization, yet they continue to provide a fast and easy means for quantifying the quality of dialogue strategies. Since existing methods for user modelling are relatively less realistic compared to real user behaviors, the focus is shifted towards user modelling by means of inverse reinforcement learning. Using experimental results, the proposed method's ability to learn a computational models with real user like qualities is showcased as part of this work. Simulation d'utilisateurs Systèmes de dialogue parlé Apprentissage par renforcement Apprentissage par renforcement inverse Gestion de dialogue User simulation Spoken dialogue systems Reinforcement learning Inverse reinforcement learning Dialogue management
3	Learning Robot Interactive Behaviors in Presence of Humans and Groups of Humans / Apprentissage de comportements interactifs pour un robot en présence de groupes d'humains Islas Ramírez, Omar Adair 28 November 2016 (has links) Au fil des dernières années les robots ont fait partie de notre quotidien. Même si nous ne les voyons pas, nous dépendons d'eux pour construire nos ordinateurs, téléphones mobiles, voitures, etcetera. Les robots sont utilisés aussi pour l'organisation des produits dans les usines. Un autre domaine de croissance est la robotique sociale. Nous pouvons voir des études tel que des robots d'aide aux enfants autistes. Il y a aussi des robots qui sont utilisés pour accueillir des personnes dans des hôtels ou dans centres commerciaux pour interagir avec les gens. Ainsi, le robot doit comprendre le comportement des personnes. Et, pour les robots mobiles, il faut savoir comment naviguer dans l'environnement humain. En ce qui concerne les environnements humains, ce travail explore la navigation acceptable socialement des robots en direction de personnes. Pour donner un exemple, quand un robot s'approche d'une personne, il ne doit pas traiter la personne comme un obstacle. Car si cette dernière est traitée comme un obstacle, le robot s'approcherait d'elle sans prendre en compte son espace personnel, ce qui la gênerait. Une personne est une entité qui doit être pris en compte sur la base des normes sociales que nous (en tant que personnes) utilisons tous les jours. Dans cette thèse, nous explorons comment un robot s'approche d'une personne. Celle-ci peut-être gênée si quelque chose ou quelqu'un envahit son espace personnel. La personne se sentira aussi menacée si elle est approchée par derrière. Ces normes sociales doivent être respectées par le robot. C'est pour cela que nous modélisons le comportement du robot à travers des algorithmes d'apprentissage. Nous faisons approcher (manuellement) un robot d'un personne plusieurs fois et le robot apprend à reproduire ce comportement. Un autre travail de cette thèse est la compréhension d'un groupe de personnes. Nous, en tant que humains, avons la capacité de le faire intuitivement. Toutefois, un robot nécessite impérativement un modèle mathématique. Enfin, nous abordons le sujet d'un robot qui s'approche d'un groupe de personnes. Nous utilisons des démonstrations pour faire apprendre le robot. Nous évaluons le bon déroulement du comportement du robot comme par exemple, en observant combien de fois le robot envahit l'espace personnel des personnes pendant la navigation. / In the past years, robots have been a part of our every day lives. Even when we do not see them, we depend on them to build our computers, mobile phones, cars and more. They are also been used for organizing stocks in warehouses. And, with the growth of autonomous cars, we see them driving autonomously on highways and cities. Another area of growth is social robotics. We can see a lot of studies such as robots helping children with autism. Other robots are being used to receive people in hotels or to interact with people in shopping centers. In the latter examples, robots need to understand people behavior. In addition, in the case of mobile robots, they need to know how to navigate in human environments. In the context of human environments, this thesis explores socially acceptable navigation of robots towards people. To give an example, when a robot approaches one person, the robot shall by no means treat people as an obstacle because the robot get really close to the human and interfere with her personal space. The human is an entity that needs to be considered based on social norms that we (humans) use on a daily basis. In a first time, we explore how a robot can approach one person. A person is an entity that can be bothered if someone or something approaches invading her personal space. The person also will feel distressed when she is approached from behind. These social norms have to be respected by the robot. For this reason, we decided to model the behavior of the robot through learning algorithms. We manually approach a robot to a person several times and the robot learns how to reproduce this behavior. In a second time, we present how a robot can understand what is a group of people. We, humans, have the ability to do this intuitively. However, for a robot, a mathematical model is essential. Lastly, we address how a robot can approach a group of people. We use exemplary demonstrations to teach this behavior to the robot. We evaluate then the robot's movements by for example, observing if the robot invades people's personal space during the trajectory. Robotique Apprentissage par Renforcement Navigation des Robots Modelisation des groupes de personnes Apprentissage par Renforcement Inverse Human aware robotics Modeling groups of humans Robotics 629.89
4	On inverse reinforcement learning and dynamic discrete choice for predicting path choices Kristensen, Drew 11 1900 (has links) La modélisation du choix d'itinéraire est un sujet de recherche bien étudié avec des implications, par exemple, pour la planification urbaine et l'analyse des flux d'équilibre du trafic. En raison de l'ampleur des effets que ces problèmes peuvent avoir sur les communautés, il n'est pas surprenant que plusieurs domaines de recherche aient tenté de résoudre le même problème. Les défis viennent cependant de la taille des réseaux eux-mêmes, car les grandes villes peuvent avoir des dizaines de milliers de segments de routes reliés par des dizaines de milliers d'intersections. Ainsi, les approches discutées dans cette thèse se concentreront sur la comparaison des performances entre des modèles de deux domaines différents, l'économétrie et l'apprentissage par renforcement inverse (IRL). Tout d'abord, nous fournissons des informations sur le sujet pour que des chercheurs d'un domaine puissent se familiariser avec l'autre domaine. Dans un deuxième temps, nous décrivons les algorithmes utilisés avec une notation commune, ce qui facilite la compréhension entre les domaines. Enfin, nous comparons les performances des modèles sur des ensembles de données du monde réel, à savoir un ensemble de données couvrant des choix d’itinéraire de cyclistes collectés dans un réseau avec 42 000 liens. Nous rapportons nos résultats pour les deux modèles de l'économétrie que nous discutons, mais nous n'avons pas pu générer les mêmes résultats pour les deux modèles IRL. Cela était principalement dû aux instabilités numériques que nous avons rencontrées avec le code que nous avions modifié pour fonctionner avec nos données. Nous proposons une discussion de ces difficultés parallèlement à la communication de nos résultats. / Route choice modeling is a well-studied topic of research with implications, for example, for city planning and traffic equilibrium flow analysis. Due to the scale of effects these problems can have on communities, it is no surprise that diverse fields have attempted solutions to the same problem. The challenges, however, come with the size of networks themselves, as large cities may have tens of thousands of road segments connected by tens of thousands of intersections. Thus, the approaches discussed in this thesis will be focusing on the performance comparison between models from two different fields, econometrics and inverse reinforcement learning (IRL). First, we provide background on the topic to introduce researchers from one field to become acquainted with the other. Secondly, we describe the algorithms used with a common notation to facilitate this building of understanding between the fields. Lastly, we aim to compare the performance of the models on real-world datasets, namely covering bike route choices collected in a network of 42,000 links. We report our results for the two models from econometrics that we discuss, but were unable to generate the same results for the two IRL models. This was primarily due to numerical instabilities we encountered with the code we had modified to work with our data. We provide a discussion of these difficulties alongside the reporting of our results. Route Choice Modeling Modélisation de choix d'itinéraire Traffic Flow Prediction Prévision des flux de trafic Dynamic Discrete Choice Models Modèles de choix discret dynamique Inverse Reinforcement Learning Apprentissage par renforcement inverse
5	Emergence de concepts multimodaux : de la perception de mouvements primitifs à l'ancrage de mots acoustiques / The Emergence of Multimodal Concepts : From Perceptual Motion Primitives to Grounded Acoustic Words Mangin, Olivier 19 March 2014 (has links) Cette thèse considère l'apprentissage de motifs récurrents dans la perception multimodale. Elle s'attache à développer des modèles robotiques de ces facultés telles qu'observées chez l'enfant, et elle s'inscrit en cela dans le domaine de la robotique développementale.Elle s'articule plus précisément autour de deux thèmes principaux qui sont d'une part la capacité d'enfants ou de robots à imiter et à comprendre le comportement d'humains, et d'autre part l'acquisition du langage. A leur intersection, nous examinons la question de la découverte par un agent en développement d'un répertoire de motifs primitifs dans son flux perceptuel. Nous spécifions ce problème et établissons son lien avec ceux de l'indétermination de la traduction décrit par Quine et de la séparation aveugle de source tels qu'étudiés en acoustique.Nous en étudions successivement quatre sous-problèmes et formulons une définition expérimentale de chacun. Des modèles d'agents résolvant ces problèmes sont également décrits et testés. Ils s'appuient particulièrement sur des techniques dites de sacs de mots, de factorisation de matrices et d'apprentissage par renforcement inverse. Nous approfondissons séparément les trois problèmes de l'apprentissage de sons élémentaires tels les phonèmes ou les mots, de mouvements basiques de danse et d'objectifs primaires composant des tâches motrices complexes. Pour finir nous étudions le problème de l'apprentissage d'éléments primitifs multimodaux, ce qui revient à résoudre simultanément plusieurs des problèmes précédents. Nous expliquons notamment en quoi cela fournit un modèle de l'ancrage de mots acoustiques / This thesis focuses on learning recurring patterns in multimodal perception. For that purpose it develops cognitive systems that model the mechanisms providing such capabilities to infants; a methodology that fits into thefield of developmental robotics.More precisely, this thesis revolves around two main topics that are, on the one hand the ability of infants or robots to imitate and understand human behaviors, and on the other the acquisition of language. At the crossing of these topics, we study the question of the how a developmental cognitive agent can discover a dictionary of primitive patterns from its multimodal perceptual flow. We specify this problem and formulate its links with Quine's indetermination of translation and blind source separation, as studied in acoustics.We sequentially study four sub-problems and provide an experimental formulation of each of them. We then describe and test computational models of agents solving these problems. They are particularly based on bag-of-words techniques, matrix factorization algorithms, and inverse reinforcement learning approaches. We first go in depth into the three separate problems of learning primitive sounds, such as phonemes or words, learning primitive dance motions, and learning primitive objective that compose complex tasks. Finally we study the problem of learning multimodal primitive patterns, which corresponds to solve simultaneously several of the aforementioned problems. We also details how the last problems models acoustic words grounding. Apprentissage multimodal Acquisition du langage Ancrage de symboles Apprentissage de concepts Compréhension de comportement humains Décomposition du mouvement Primitive motrice Décomposition de taches Factorisation de matrice positive Multimodal learning Language acquisition Symbol grounding Concept learning Human behavior understanding Motion decomposition Motion primitive Task decomposition Nonnegative matrix factorization Factorial inverse reinforcement learning Developmental robotics
6	Émergence de concepts multimodaux : de la perception de mouvements primitifs à l'ancrage de mots acoustiques Mangin, Olivier 19 March 2014 (has links) (PDF) Cette thèse considère l'apprentissage de motifs récurrents dans la perception multimodale. Elle s'attache à développer des modèles robotiques de ces facultés telles qu'observées chez l'enfant, et elle s'inscrit en cela dans le domaine de la robotique développementale. Elle s'articule plus précisément autour de deux thèmes principaux qui sont d'une part la capacité d'enfants ou de robots à imiter et à comprendre le comportement d'humains, et d'autre part l'acquisition du langage. À leur intersection, nous examinons la question de la découverte par un agent en développement d'un répertoire de motifs primitifs dans son flux perceptuel. Nous spécifions ce problème et établissons son lien avec ceux de l'indétermination de la traduction décrit par Quine et de la séparation aveugle de source tels qu'étudiés en acoustique. Nous en étudions successivement quatre sous-problèmes et formulons une définition expérimentale de chacun. Des modèles d'agents résolvant ces problèmes sont également décrits et testés. Ils s'appuient particulièrement sur des techniques dites de sacs de mots, de factorisation de matrices et d'apprentissage par renforcement inverse. Nous approfondissons séparément les trois problèmes de l'apprentissage de sons élémentaires tels les phonèmes ou les mots, de mouvements basiques de danse et d'objectifs primaires composant des tâches motrices complexes. Pour finir nous étudions le problème de l'apprentissage d'éléments primitifs multimodaux, ce qui revient à résoudre simultanément plusieurs des problèmes précédents. Nous expliquons notamment en quoi cela fournit un modèle de l'ancrage de mots acoustiques. [INFO:INFO_RB] Computer Science/Robotics [INFO:INFO_RB] Informatique/Robotique apprentissage multimodal acquisition du langage ancrage de symboles apprentissage de concepts compréhension de comportement humains décomposition du mouvement primitive motrice décomposition de taches factorisation de matrice positive

1

Page generated in 0.1572 seconds