Spelling suggestions: "subject:"apprentissage para enforcement"" "subject:"dapprentissage para enforcement""
71 |
Learning sensori-motor mappings using little knowledge : application to manipulation robotics / Apprentissage de couplages sensori-moteur en utilisant très peu d'informations : application à la robotique de manipulationDe La Bourdonnaye, François 18 December 2018 (has links)
La thèse consiste en l'apprentissage d'une tâche complexe de robotique de manipulation en utilisant très peu d'aprioris. Plus précisément, la tâche apprise consiste à atteindre un objet avec un robot série. L'objectif est de réaliser cet apprentissage sans paramètres de calibrage des caméras, modèles géométriques directs, descripteurs faits à la main ou des démonstrations d'expert. L'apprentissage par renforcement profond est une classe d'algorithmes particulièrement intéressante dans cette optique. En effet, l'apprentissage par renforcement permet d’apprendre une compétence sensori-motrice en se passant de modèles dynamiques. Par ailleurs, l'apprentissage profond permet de se passer de descripteurs faits à la main pour la représentation d'état. Cependant, spécifier les objectifs sans supervision humaine est un défi important. Certaines solutions consistent à utiliser des signaux de récompense informatifs ou des démonstrations d'experts pour guider le robot vers les solutions. D'autres consistent à décomposer l'apprentissage. Par exemple, l'apprentissage "petit à petit" ou "du simple au compliqué" peut être utilisé. Cependant, cette stratégie nécessite la connaissance de l'objectif en termes d'état. Une autre solution est de décomposer une tâche complexe en plusieurs tâches plus simples. Néanmoins, cela n'implique pas l'absence de supervision pour les sous tâches mentionnées. D'autres approches utilisant plusieurs robots en parallèle peuvent également être utilisés mais nécessite du matériel coûteux. Pour notre approche, nous nous inspirons du comportement des êtres humains. Ces derniers généralement regardent l'objet avant de le manipuler. Ainsi, nous décomposons la tâche d'atteinte en 3 sous tâches. La première tâche consiste à apprendre à fixer un objet avec un système de deux caméras pour le localiser dans l'espace. Cette tâche est apprise avec de l'apprentissage par renforcement profond et un signal de récompense faiblement supervisé. Pour la tâche suivante, deux compétences sont apprises en parallèle : la fixation d'effecteur et une fonction de coordination main-oeil. Comme la précédente tâche, un algorithme d'apprentissage par renforcement profond est utilisé avec un signal de récompense faiblement supervisé. Le but de cette tâche est d'être capable de localiser l'effecteur du robot à partir des coordonnées articulaires. La dernière tâche utilise les compétences apprises lors des deux précédentes étapes pour apprendre au robot à atteindre un objet. Cet apprentissage utilise les mêmes aprioris que pour les tâches précédentes. En plus de la tâche d'atteinte, un predicteur d'atteignabilité d'objet est appris. La principale contribution de ces travaux est l'apprentissage d'une tâche de robotique complexe en n'utilisant que très peu de supervision. / The thesis is focused on learning a complex manipulation robotics task using little knowledge. More precisely, the concerned task consists in reaching an object with a serial arm and the objective is to learn it without camera calibration parameters, forward kinematics, handcrafted features, or expert demonstrations. Deep reinforcement learning algorithms suit well to this objective. Indeed, reinforcement learning allows to learn sensori-motor mappings while dispensing with dynamics. Besides, deep learning allows to dispense with handcrafted features for the state spacerepresentation. However, it is difficult to specify the objectives of the learned task without requiring human supervision. Some solutions imply expert demonstrations or shaping rewards to guiderobots towards its objective. The latter is generally computed using forward kinematics and handcrafted visual modules. Another class of solutions consists in decomposing the complex task. Learning from easy missions can be used, but this requires the knowledge of a goal state. Decomposing the whole complex into simpler sub tasks can also be utilized (hierarchical learning) but does notnecessarily imply a lack of human supervision. Alternate approaches which use several agents in parallel to increase the probability of success can be used but are costly. In our approach,we decompose the whole reaching task into three simpler sub tasks while taking inspiration from the human behavior. Indeed, humans first look at an object before reaching it. The first learned task is an object fixation task which is aimed at localizing the object in the 3D space. This is learned using deep reinforcement learning and a weakly supervised reward function. The second task consists in learning jointly end-effector binocular fixations and a hand-eye coordination function. This is also learned using a similar set-up and is aimed at localizing the end-effector in the 3D space. The third task uses the two prior learned skills to learn to reach an object and uses the same requirements as the two prior tasks: it hardly requires supervision. In addition, without using additional priors, an object reachability predictor is learned in parallel. The main contribution of this thesis is the learning of a complex robotic task with weak supervision.
|
72 |
Apprentissage par renforcement pour la généralisation des approches automatiques dans la conception des systèmes de dialogue oral / Statistical methods for a oral human-machine dialog systemPinault, Florian 24 November 2011 (has links)
Les systèmes de dialogue homme machine actuellement utilisés dans l’industrie sont fortement limités par une forme de communication très rigide imposant à l’utilisateur de suivre la logique du concepteur du système. Cette limitation est en partie due à leur représentation de l’état de dialogue sous la forme de formulaires préétablis.Pour répondre à cette difficulté, nous proposons d’utiliser une représentation sémantique à structure plus riche et flexible visant à permettre à l’utilisateur de formuler librement sa demande.Une deuxième difficulté qui handicape grandement les systèmes de dialogue est le fort taux d’erreur du système de reconnaissance vocale. Afin de traiter ces erreurs de manière quantitative, la volonté de réaliser une planification de stratégie de dialogue en milieu incertain a conduit à utiliser des méthodes d’apprentissage par renforcement telles que les processus de décision de Markov partiellement observables (POMDP). Mais un inconvénient du paradigme POMDP est sa trop grande complexité algorithmique. Certaines propositions récentes permettent de réduire la complexité du modèle. Mais elles utilisent une représentation en formulaire et ne peuvent être appliqués directement à la représentation sémantique riche que nous proposons d’utiliser.Afin d’appliquer le modèle POMDP dans un système dont le modèle sémantique est complexe, nous proposons une nouvelle façon de contrôler sa complexité en introduisant un nouveau paradigme : le POMDP résumé à double suivi de la croyance. Dans notre proposition, le POMDP maitre, complexe, est transformé en un POMDP résumé, plus simple. Un premier suivi de croyance (belief update) est réalisé dans l’espace maitre (en intégrant des observations probabilistes sous forme de listes nbest). Et un second suivi de croyance est réalisé dans l’espace résumé, les stratégies obtenues sont ainsi optimisées sur un véritable POMDP.Nous proposons deux méthodes pour définir la projection du POMDP maitre en un POMDP résumé : par des règles manuelles et par regroupement automatique par k plus proches voisins. Pour cette dernière, nous proposons d’utiliser la distance d’édition entre graphes, que nous généralisons pour obtenir une distance entre listes nbest.En outre, le couplage entre un système résumé, reposant sur un modèle statistique par POMDP, et un système expert, reposant sur des règles ad hoc, fournit un meilleur contrôle sur la stratégie finale. Ce manque de contrôle est en effet une des faiblesses empêchant l’adoption des POMDP pour le dialogue dans l’industrie.Dans le domaine du renseignement d’informations touristiques et de la réservation de chambres d’hôtel, les résultats sur des dialogues simulés montrent l’efficacité de l’approche par renforcement associée à un système de règles pour s’adapter à un environnement bruité. Les tests réels sur des utilisateurs humains montrent qu’un système optimisé par renforcement obtient cependant de meilleures performances sur le critère pour lequel il a été optimisé. / Dialog managers (DM) in spoken dialogue systems make decisions in highly uncertain conditions, due to errors from the speech recognition and spoken language understanding (SLU) modules. In this work a framework to interface efficient probabilistic modeling for both the SLU and the DM modules is described and investigated. Thorough representation of the user semantics is inferred by the SLU in the form of a graph of frames and, complemented with some contextual information, is mapped to a summary space in which a stochastic POMDP dialogue manager can perform planning of actions taking into account the uncertainty on the current dialogue state. Tractability is ensured by the use of an intermediate summary space. Also to reduce the development cost of SDS an approach based on clustering is proposed to automatically derive the master-summary mapping function. A implementation is presented in the Media corpus domain (touristic information and hotel booking) and tested with a simulated user.
|
73 |
Deep active localizationGottipati, Vijaya Sai Krishna 08 1900 (has links)
No description available.
|
74 |
No Press DiplomacyPaquette, Philip 08 1900 (has links)
No description available.
|
75 |
Sélection d'un modèle d'apprentissage pour rendre compte de la spéculation dans un paradigme de prospection monétaire. / Selecting a Learning-Model to Account for Search-Theoretical Monetary SpeculationLefebvre, Germain 22 March 2018 (has links)
Cette thèse de doctorat propose une analyse empirique des microfondations des phénomènes monétaires macroéconomiques, et plus particulièrement des processus d'apprentissage et capacités cognitives requis pour qu'un équilibre émerge dans une économie expérimentale implémentantun modèle de prospection monétaire. Dans ce but, nous avons "opérationalisé" le modèle original de Kiyotaki et Wright et modélisé le comportement de sujets humains à l'aide de différents algorithmes d'apprentissage par renforcement. Nous montrons que les données comportementales sont mieux expliquées par les modèles d'apprentissage par renforcement que par les prédictions des équilibres théoriques, et que la spéculation monétaire semble s'appuyer sur la considération de coûts d'opportunité. Nos résultats constituent une nouvelle étape dans la compréhension des processus d'apprentissage à l'oeuvre dans la prise de décision multiple en économie et des microfondations cognitives de l'utilisation macroéconomique de la monnaie. Parallèlement, cette thèse de doctorat comprend une analyse plus précise de l'une des composantes fondamentales de l'apprentissage par renforcement à savoir, le processus de mise à jour des valeurs. A travers deux études, nous montrons graduellement que ce processus est biaisé en faveur des informations confirmatoires. En effet, nous avons trouvé que des sujets réalisant diverses tâches d'apprentissage probabiliste prenaient en compte préférentiellement les informations qui confirmaient leur pensée initiale. Ces résultats permettent une meilleure compréhension des biais d'optimisme et de confirmation au niveau neuro-computationnel. / This dissertation proposes to analyze empirically the microfoundations of the macroeconomic use of money, more particularly the human learning processes and cognitive abilities requiredfor a monetary equilibrium to emerge in an experimental economy implementing a search theoretical paradigm of money emergence. To achieve this, we operationalized the original Kiyotaki and Wright search model and fitted real subjects' behaviors with different reinforcement learning algorithms. We show that reinforcement learning better explains behavioral datain comparison to theoretical equilibria predictions, and highlight the importance of opportunity costs to implement a speculative use of money. Our results constitute a new step towards the understanding of learning processes at work in multi-step economic decision making and ofthe cognitive microfoundations of the macro-economic use of money. In parallel, this dissertation also compounds in-depth analyses of one of the core components of reinforcement learning,namely the update process. In two studies, we gradually show that the latter is biased positively towards confirmatory information. Indeed, we found that subjects performing different probability learning tasks preferentially took into account information that confirme dtheir initial thoughts in contrast to information that contradicted them. These results constitute a step towards the understanding of the genesis of optimism and confirmation biases at the neurocomputational level.
|
76 |
Approche à base d'agents pour l'ingénierie et le contrôle de micro-réseaux / Agent based approach for engineering and control of microgridsBasso, Gillian 09 December 2013 (has links)
La gestion d’énergie est un sujet de plus en plus important dans notre société. Nous faisons actuellement face à un nombre croissant de problèmes tels que l’épuisement des réserves pétrolières, le réchauffement climatique ou encore la diminution de la qualité de l’énergie (principalement due aux coupures pendant les pics de consommation). Les smartgrids sont une des solutions à ces problèmes. En ajoutant une communication bidirectionnelle et de nouvelles capacités en matière de technologies de l’information et de la communication, il est possible de créer un système autonome de gestion intelligente de l’énergie.Les travaux décrits dans ce mémoire s'intéressent particulièrement à la gestion des microgrids à l'aide de systèmes multi-agents (SMA). Les microgrids sont des réseaux de faibles puissances, composés de petits producteurs d’énergie décentralisés (éventuellement renouvelables) et de consommateurs. Ces réseaux peuvent être reliés (ou non) au réseau global ce qui ajoute à leur complexité. De par leurs complexités et leurs répartitions géographiques, les smartgrids, comme les microgrids, ne peuvent pas être gérés facilement par des systèmes centralisés. Les intelligences artificielles distribuées et plus particulièrement les SMA apparaissent comme un moyen cohérent de résoudre les problèmes liés aux smartgrids.Dans un premier temps, nous avons défini une approche mettant en oeuvre des boucles de rétroaction. Une boucle de rétroaction apparaît dans les systèmes complexes qui peuvent être définis avec plusieurs niveaux d'abstraction. Deux niveaux sont ainsi en interaction. Le niveau micro regroupe un ensemble d'agents ayant des comportements qui, une fois combinés, influeront sur l'état du système. Le niveau macro traite ces influences pour définir un nouvel état du système qui influera sur le comportement des agents du niveau micro. Cette boucle de rétroaction permet de séparer les comportements sur plusieurs niveaux.Cette approche est utilisée pour définir un problème de gestion offre-demande dans un microgrid. Ce problème permet de prendre en compte un ensemble d'objectifs qui sont actuellement traités de manière indépendante. Enfin, une application utilisant un SMA a été développée. Cette approche peut s'intégrer dans ce problème. Elle a pour but d'assurer la stabilité du réseau à tout instant grâce au contrôle de systèmes de stockage.Dans un second temps, un simulateur de réseau électrique permettant le contrôle dynamique des périphériques a été développé. Ce simulateur repose sur trois grands principes. Le premier est une modélisation à base d’agents du simulateur lui-même, pour représenter la complexité des réseaux électriques. Le second principe repose sur l’utilisation du paradigme holonique afin de prendre en compte les multiples niveaux inhérents aux réseaux électriques. Enfin, le troisième principe est inspiré du modelé influence/réaction et propose une technique qui permet de gérer les actions simultanées, éventuellement conflictuelles, au sein des SMA. / Energy management is, nowadays, a subject of uttermost importance. Indeed, we are facing growing concerns such as petroleum reserve depletion, earth global warming or power quality (e.g. avoiding blackouts during peak times). Smart grids is an attempt to solve such problems, by adding to power grids bidirectional communications and ICT capabilities in order to provide an intelligent autonomic management for the grid.This thesis focuses on the management of microgrids thanks to multiagent systems (MAS). Microgrids are low-power networks, composed of small and decentralized energy producers (possibly renewable) and consumers. These networks can be connected to the main grid or islanded, this make them more complex. Due to their complexity and their geographical distribution, smart grids and microgrids can not be easily managed by a centralized system. Distributed artificial intelligences especially MAS appear to be a solution to resolve problems related to smart grids.Firstly we defined an approach implementing feedback loops. These feedback loops exist in complex systems which can be defined with several abstraction levels. Two levels are interacting. The micro-level contains a set of agents owning behaviours that can be combined. The result of the combination imapct the state of the system. The macro-level processes these influences to define a new state of the system which will imapct the agents behaviours at the micro-level.This feedback loop separates behaviours on several levels.This approach is used to defined a demand and supply matching problem in microgrid. This problem afford to manage a set of goals which currently are independently processed. Finally, an application is developed using MAS that ensures grid stability thanks to storage systems. This application was thought to be integrated to the approach detailed above.Secondly, a grid simulator id developed. This simulator allows dynamic control of devices. It is based on three main principles.• An agent-based model of the simulator to represent the complexity of electrical networks. • The use of the holonic paradigm to take into account the multiple levels inherent to power grids. • The use of the influence/reaction model and offers a technology that can manage simultaneous actions, possibly conflicting, in MAS.
|
77 |
Synthèse d'agents adaptatifs et coopératifs par apprentissage par renforcement.<br />Application à la commande d'un système distribué de micromanipulation.Matignon, Laëtitia 04 December 2008 (has links) (PDF)
De nombreuses applications peuvent être formulées en termes de systèmes distribués que ce soit une nécessité face à une distribution physique des entités (réseaux, robotique mobile) ou un moyen adopté face à la complexité d'appréhender un problème de manière globale. A travers l'utilisation conjointe de méthodes dites d'apprentissage par renforcement et des systèmes multi-agents, des agents autonomes coopératifs peuvent apprendre à résoudre de manière décentralisée des problèmes complexes en s'adaptant à ceux-ci afin de réaliser un objectif commun. Les méthodes d'apprentissage par renforcement ne nécessitent aucune connaissance a priori sur la dynamique du système, celui-ci pouvant être stochastique et non-linéaire. Cependant, afin d'améliorer la vitesse d'apprentissage, des méthodes d'injection de connaissances pour les problèmes de plus court chemin stochastique sont étudiées et une fonction d'influence générique est proposée. Nous nous intéressons ensuite au cas d'agents indépendants situés dans des jeux de Markov d'équipe. Dans ce cadre, les agents apprenant par renforcement doivent surmonter plusieurs enjeux tels que la coordination ou l'impact de l'exploration. L'étude de ces enjeux permet tout d'abord de synthétiser les caractéristiques des méthodes décentralisées d'apprentissage par renforcement existantes. Ensuite, au vu des difficultés rencontrées par ces approches, deux algorithmes sont proposés. Le premier est le Q-learning hystérétique qui repose sur des agents "à tendance optimiste réglable ". Le second est le Swing between Optimistic or Neutral (SOoN) qui permet à des agents indépendants de s'adapter automatiquement à la stochasticité de l'environnement. Les expérimentations sur divers jeux de Markov d'équipe montrent notamment que le SOoN surmonte les principaux facteurs de non-coordination et est robuste face à l'exploration des autres agents. Une extension de ces travaux à la commande décentralisée d'un système distribué de micromanipulation (smart surface) dans un cas partiellement observable est enfin exposée.
|
78 |
Proposition d'une architecture logique d'un système de pilotage hétérarchique évolutif par apprentissageSalah, Bousbia 12 December 2006 (has links) (PDF)
La complexité et la variabilité du contexte actuel des Systèmes de Production de Biens et de Services (SPBS) imposent une vision dynamique des performances (techniques, économiques,...) de ces systèmes, c'est-à-dire des performances continuellement améliorées. Ce besoin d'une vision dynamique des performances des SPBS est de plus en plus ressenti et exprimé par les acteurs de différents domaines de SPBS, s'inscrit dans le contexte plus global d'agilité et implique surtout de mettre en oeuvre des systèmes de pilotage adaptés.<br />D'une part, dans un contexte fortement concurrentiel, l'agilité devient une caractéristique clef de la prospérité d'un SPBS et symbolise l'actuel objet de compétition entre les SPBS. D'autre part, la mise en place d'un système de pilotage représente un moyen adéquat pour garantir l'agilité d'un SPBS. En effet, la fonction pilotage consiste à décider dynamiquement des commandes pertinentes à donner à un système soumis à des perturbations pour atteindre un objectif donné décrit en termes de maîtrise de performances. La notion de maîtrise intègre non seulement celle de maintien d'un niveau de performance donné, mais également celle de progrès (évolution vers un niveau de performance souhaité ou amélioration continue). C'est sur cet objectif d'amélioration continue des performances des SPBS que nous nous focalisons dans cette thèse.<br />Cependant, les systèmes de pilotage actuels ne répondent pas efficacement à cette évolution permanente du contexte des SPBS et par conséquent l'objectif d'amélioration continue des performances reste difficilement atteignable. Plus précisément, les systèmes de pilotage sont généralement conçus pour répondre à un besoin spécifique et ce manque de généricité réduit fortement les propriétés d'agilité d'un SPBS. Nos travaux de recherche s'inscrivent dans un cadre qui porte sur le développement d'un système de pilotage pour l'amélioration continue des performances des SPBS. En ce sens, grâce aux Technologies de l'Information et de la Communication (TIC), l'accès aux informations est de plus en plus simple et efficace. Cet accès offre l'opportunité de concevoir des systèmes de pilotage hétérarchiques qui favorisent la décentralisation des capacités décisionnelles.<br />L'objectif de ce mémoire est de proposer une caractérisation du paradigme d'agilité des systèmes de production de biens et de services, un cadre de modélisation générique des systèmes de production de biens et de services et un système de pilotage hétérarchique évolutif par apprentissage pour l'amélioration continue des performances des SPBS.
|
79 |
Synthèse de comportements par apprentissages par renforcement parallèles : application à la commande d'un micromanipulateur planLaurent, Guillaume 18 December 2002 (has links) (PDF)
En microrobotique, la commande des systèmes est délicate car les phénomènes physiques liés à l'échelle microscopique sont complexes. Les méthodes dites d'apprentissage par renforcement constituent une approche intéressante car elles permettent d'établir une stratégie de commande sans connaissance \emph(a priori) sur le système. Au vu des grandes dimensions des espaces d'états des systèmes étudiés, nous avons développé une approche parallèle qui s'inspire à la fois des architectures comportementales et de l'apprentissage par renforcement. Cette architecture, basée sur la parallélisation de l'algorithme du Q-Learning, permet de réduire la complexité du système et d'accélérer l'apprentissage. Sur une application simple de labyrinthe, les résultats obtenus sont bons mais le temps d'apprentissage est trop long pour envisager la commande d'un système réel. Le Q-Learning a alors été remplacé par l'algorithme du Dyna-Q que nous avons adapté à la commande de systèmes non déterministes en ajoutant un historique des dernières transitions. Cette architecture, baptisée Dyna-Q parallèle, permet non seulement d'améliorer la vitesse de convergence, mais aussi de trouver de meilleures stratégies de contrôle. Les expérimentations sur le système de manipulation montrent que l'apprentissage est alors possible en temps réel et sans utiliser de simulation. La fonction de coordination des comportements est efficace si les obstacles sont relativement éloignés les uns des autres. Si ce n'est pas le cas, cette fonction peut créer des maxima locaux qui entraînent temporairement le système dans un cycle. Nous avons donc élaboré une autre fonction de coordination qui synthétise un modèle plus global du système à partir du modèle de transition construit par le Dyna-Q. Cette nouvelle fonction de coordination permet de sortir très efficacement des maxima locaux à condition que la fonction de mise en correspondance utilisée par l'architecture soit robuste.
|
80 |
Apprentissage par renforcement de modeles de contexte pour l'informatique ambianteZaidenberg, Sofia 16 October 2009 (has links) (PDF)
Cette thèse étudie l'acquisition automatique par apprentissage d'un modèle de contexte pour un utilisateur dans un environnement ubiquitaire. Dans un tel environnement, les dispositifs peuvent communiquer et coopérer afin de former un espace informatique cohérent. Certains appareils ont des capacités de perception, utilisées par l'environnement pour détecter la situation - le contexte - de l'utilisateur. D'autres appareils sont capables d'exécuter des actions. La problématique que nous nous sommes posée est de déterminer les associations optimales pour un utilisateur donné entre les situations et les actions. L'apprentissage apparaît comme une bonne approche car il permet de personnaliser l'environnement sans spécification explicite de la part de l'usager. Un apprentissage à vie permet, par ailleurs, de toujours s'adapter aux modifications du monde et des préférences utilisateur. L'apprentissage par renforcement est un paradigme d'apprentissage qui peut être une solution à notre problème, à condition de l'adapter aux contraintes liées à notre cadre d'application.
|
Page generated in 0.127 seconds