Global ETD Search

161	Deep active localization Gottipati, Vijaya Sai Krishna 08 1900 (has links) No description available. Localization Deep Learning Reinforcement Learning Active Localization Robotics Localisation Apprentissage profond Apprentissage par renforcement Localisation active Robotique
162	No Press Diplomacy Paquette, Philip 08 1900 (has links) No description available. Diplomacy négociation jeu apprentissage supervisé apprentissage par renforcement apprentissage profond negotiation game supervised learning reinforcement learning deep learning
163	Sélection d'un modèle d'apprentissage pour rendre compte de la spéculation dans un paradigme de prospection monétaire. / Selecting a Learning-Model to Account for Search-Theoretical Monetary Speculation Lefebvre, Germain 22 March 2018 (has links) Cette thèse de doctorat propose une analyse empirique des microfondations des phénomènes monétaires macroéconomiques, et plus particulièrement des processus d'apprentissage et capacités cognitives requis pour qu'un équilibre émerge dans une économie expérimentale implémentantun modèle de prospection monétaire. Dans ce but, nous avons "opérationalisé" le modèle original de Kiyotaki et Wright et modélisé le comportement de sujets humains à l'aide de différents algorithmes d'apprentissage par renforcement. Nous montrons que les données comportementales sont mieux expliquées par les modèles d'apprentissage par renforcement que par les prédictions des équilibres théoriques, et que la spéculation monétaire semble s'appuyer sur la considération de coûts d'opportunité. Nos résultats constituent une nouvelle étape dans la compréhension des processus d'apprentissage à l'oeuvre dans la prise de décision multiple en économie et des microfondations cognitives de l'utilisation macroéconomique de la monnaie. Parallèlement, cette thèse de doctorat comprend une analyse plus précise de l'une des composantes fondamentales de l'apprentissage par renforcement à savoir, le processus de mise à jour des valeurs. A travers deux études, nous montrons graduellement que ce processus est biaisé en faveur des informations confirmatoires. En effet, nous avons trouvé que des sujets réalisant diverses tâches d'apprentissage probabiliste prenaient en compte préférentiellement les informations qui confirmaient leur pensée initiale. Ces résultats permettent une meilleure compréhension des biais d'optimisme et de confirmation au niveau neuro-computationnel. / This dissertation proposes to analyze empirically the microfoundations of the macroeconomic use of money, more particularly the human learning processes and cognitive abilities requiredfor a monetary equilibrium to emerge in an experimental economy implementing a search theoretical paradigm of money emergence. To achieve this, we operationalized the original Kiyotaki and Wright search model and fitted real subjects' behaviors with different reinforcement learning algorithms. We show that reinforcement learning better explains behavioral datain comparison to theoretical equilibria predictions, and highlight the importance of opportunity costs to implement a speculative use of money. Our results constitute a new step towards the understanding of learning processes at work in multi-step economic decision making and ofthe cognitive microfoundations of the macro-economic use of money. In parallel, this dissertation also compounds in-depth analyses of one of the core components of reinforcement learning,namely the update process. In two studies, we gradually show that the latter is biased positively towards confirmatory information. Indeed, we found that subjects performing different probability learning tasks preferentially took into account information that confirme dtheir initial thoughts in contrast to information that contradicted them. These results constitute a step towards the understanding of the genesis of optimism and confirmation biases at the neurocomputational level. Microfondations de la macroéconomie Prospection monétaire Comportements spéculatifs Monnaie Apprentissage par renforcement Circuit de la récompense Macroeconomics' microfoundations Search-theoretical approach Speculative behaviors Money Reinforcement learning Reward system
164	Approche à base d'agents pour l'ingénierie et le contrôle de micro-réseaux / Agent based approach for engineering and control of microgrids Basso, Gillian 09 December 2013 (has links) La gestion d’énergie est un sujet de plus en plus important dans notre société. Nous faisons actuellement face à un nombre croissant de problèmes tels que l’épuisement des réserves pétrolières, le réchauffement climatique ou encore la diminution de la qualité de l’énergie (principalement due aux coupures pendant les pics de consommation). Les smartgrids sont une des solutions à ces problèmes. En ajoutant une communication bidirectionnelle et de nouvelles capacités en matière de technologies de l’information et de la communication, il est possible de créer un système autonome de gestion intelligente de l’énergie.Les travaux décrits dans ce mémoire s'intéressent particulièrement à la gestion des microgrids à l'aide de systèmes multi-agents (SMA). Les microgrids sont des réseaux de faibles puissances, composés de petits producteurs d’énergie décentralisés (éventuellement renouvelables) et de consommateurs. Ces réseaux peuvent être reliés (ou non) au réseau global ce qui ajoute à leur complexité. De par leurs complexités et leurs répartitions géographiques, les smartgrids, comme les microgrids, ne peuvent pas être gérés facilement par des systèmes centralisés. Les intelligences artificielles distribuées et plus particulièrement les SMA apparaissent comme un moyen cohérent de résoudre les problèmes liés aux smartgrids.Dans un premier temps, nous avons défini une approche mettant en oeuvre des boucles de rétroaction. Une boucle de rétroaction apparaît dans les systèmes complexes qui peuvent être définis avec plusieurs niveaux d'abstraction. Deux niveaux sont ainsi en interaction. Le niveau micro regroupe un ensemble d'agents ayant des comportements qui, une fois combinés, influeront sur l'état du système. Le niveau macro traite ces influences pour définir un nouvel état du système qui influera sur le comportement des agents du niveau micro. Cette boucle de rétroaction permet de séparer les comportements sur plusieurs niveaux.Cette approche est utilisée pour définir un problème de gestion offre-demande dans un microgrid. Ce problème permet de prendre en compte un ensemble d'objectifs qui sont actuellement traités de manière indépendante. Enfin, une application utilisant un SMA a été développée. Cette approche peut s'intégrer dans ce problème. Elle a pour but d'assurer la stabilité du réseau à tout instant grâce au contrôle de systèmes de stockage.Dans un second temps, un simulateur de réseau électrique permettant le contrôle dynamique des périphériques a été développé. Ce simulateur repose sur trois grands principes. Le premier est une modélisation à base d’agents du simulateur lui-même, pour représenter la complexité des réseaux électriques. Le second principe repose sur l’utilisation du paradigme holonique afin de prendre en compte les multiples niveaux inhérents aux réseaux électriques. Enfin, le troisième principe est inspiré du modelé influence/réaction et propose une technique qui permet de gérer les actions simultanées, éventuellement conflictuelles, au sein des SMA. / Energy management is, nowadays, a subject of uttermost importance. Indeed, we are facing growing concerns such as petroleum reserve depletion, earth global warming or power quality (e.g. avoiding blackouts during peak times). Smart grids is an attempt to solve such problems, by adding to power grids bidirectional communications and ICT capabilities in order to provide an intelligent autonomic management for the grid.This thesis focuses on the management of microgrids thanks to multiagent systems (MAS). Microgrids are low-power networks, composed of small and decentralized energy producers (possibly renewable) and consumers. These networks can be connected to the main grid or islanded, this make them more complex. Due to their complexity and their geographical distribution, smart grids and microgrids can not be easily managed by a centralized system. Distributed artificial intelligences especially MAS appear to be a solution to resolve problems related to smart grids.Firstly we defined an approach implementing feedback loops. These feedback loops exist in complex systems which can be defined with several abstraction levels. Two levels are interacting. The micro-level contains a set of agents owning behaviours that can be combined. The result of the combination imapct the state of the system. The macro-level processes these influences to define a new state of the system which will imapct the agents behaviours at the micro-level.This feedback loop separates behaviours on several levels.This approach is used to defined a demand and supply matching problem in microgrid. This problem afford to manage a set of goals which currently are independently processed. Finally, an application is developed using MAS that ensures grid stability thanks to storage systems. This application was thought to be integrated to the approach detailed above.Secondly, a grid simulator id developed. This simulator allows dynamic control of devices. It is based on three main principles.• An agent-based model of the simulator to represent the complexity of electrical networks. • The use of the holonic paradigm to take into account the multiple levels inherent to power grids. • The use of the influence/reaction model and offers a technology that can manage simultaneous actions, possibly conflicting, in MAS. Smart grid Microgrid Système multi-agent Simulation , boucle de rétroaction Apprentissage par renforcement Smart grid Microgrid Multiagent system Simulation Feedback loop Reinforcement learning
165	Rôle et importance des processus de renforcement dans l'apprentissage du comportement de reproduction chez l'Homme. Wunsch, Serge 21 November 2007 (has links) (PDF) Quels sont les facteurs à l'origine des comportements humains ? Quels sont les processus neurobiologiques les plus primordiaux qui sous-tendent le développement et la dynamique de ces comportements ? Comment ces comportements émergent-ils de l'interaction entre les différents facteurs biologiques et environnementaux ? Afin de répondre à ces questions capitales, nous avons réalisé une synthèse transdisciplinaire (neurosciences, éthologie, ethnologie et psychologie) de la littérature actuelle relative au comportement de reproduction. Ce comportement a été choisi car il est le comportement fondamental, absolument nécessaire à la survie de l'espèce, et, de ce fait, vraisemblablement soumis à une intense pression des mécanismes de la sélection naturelle. Pour cette raison, l'étude de ce comportement devrait permettre de mettre en évidence les principaux moyens biologiques qui ont été sélectionnés par l'évolution pour réaliser et contrôler les différents comportements fondamentaux de l'être humain. À l'issue de l'analyse des données disponibles, il semblerait que les principaux facteurs biologiques innés (inhibition saisonnière par la mélatonine, hormones sexuelles, phéromones sexuelles, renforcements, lordose, érection, poussées pelviennes, réflexe éjaculatoire, libération de l'ovule lors du coït ), à l'origine du comportement de reproduction des mammifères inférieurs, aient été modifiés au cours de l'évolution. Les facteurs hormonaux et phéromonaux seraient devenus marginaux tandis que les processus de renforcement et les facteurs émotionnels et cognitifs seraient devenus prépondérants. Apparemment, ce sont toujours les mêmes facteurs qui seraient à l'origine de la reproduction chez tous les mammifères, mais, comme l'importance relative de ces facteurs change au cours de l'évolution, la dynamique comportementale serait différente. En conséquence, chez l'Homme, l'innéité du comportement de reproduction aurait été perdue, et ce serait les processus de renforcement, associés aux zones érogènes, qui seraient devenus les principaux facteurs à l'origine de l'apprentissage d'un comportement permettant la reproduction. Ces données nous ont amenés à formuler l'hypothèse que c'est principalement l'intense érogénéité de la zone génitale (pénis/clitoris, vagin) qui provoquerait la découverte puis la répétition de différentes séquences motrices de stimulation des organes génitaux, dont la séquence du coït vaginal. Pour des raisons éthiques, il n'a pas été effectué d'expérimentations neurobiologiques sur l'Homme. L'hypothèse a été testée au moyen d'un questionnaire, en utilisant la sensation consciente de plaisir érotique comme un indicateur de l'activité des processus de renforcement. Le questionnaire a été conçu de manière à pouvoir évaluer le rôle et l'importance du plaisir érotique – et donc indirectement des renforcements – dans l'apprentissage des activités de stimulation du corps et des zones érogènes, dont tout particulièrement l'activité du coït vaginal. L'enquête a été réalisée sur Internet au cours de l'année 2006 et 749 personnes ont complété le questionnaire. L'analyse des résultats indique, principalement, que : 1) le plaisir érotique procuré par la stimulation par un partenaire des organes génitaux serait le plaisir le plus intense que l'organisme humain peut ressentir ; 2) les principales activités sexuelles s'organisent autour des zones les plus érogènes du corps, ce qui suggère que le plaisir érotique (et donc indirectement les renforcements) serait à l'origine de l'activité sexuelle ; 3) le coït vaginal, pourtant essentiel à la reproduction de l'espèce, n'est qu'une activité préférée parmi d'autres ; 4) les facteurs qui motivent les personnes a réaliser des activités sexuelles avec des partenaires seraient pour les deux tiers le plaisir somatosensoriel procuré par les différentes formes de stimulation du corps (contact corporel, étreintes, chatouilles, caresses sensuelles, stimulations érotiques ), et pour un tiers des facteurs de type émotionnel (tendresse, complicité, curiosité ) ; et, 5) il n'existe quasiment pas de différences significatives entre les réponses des femmes et des hommes, ce qui suggère l'existence d'une organisation neurobiologique des réactions sexuelles indépendante du genre de l'organisme. En conclusion générale de l'analyse des résultats de l'enquête et de l'ensemble des données actuellement disponibles, il semblerait, dans l'espèce humaine, qu'il n'existerait plus de comportement de reproduction inné, mais, dû aux relations spécifiques et prépondérantes entre les processus de renforcement et les zones érogènes, il apparaîtrait un nouveau comportement dont le but est la stimulation du corps. Ce comportement, qui pourrait être qualifié d'érotique, induirait, indirectement, l'acquisition de la séquence cruciale du coït vaginal. Ainsi, la reproduction, pourtant fondamentale à la survie de l'espèce, ne serait paradoxalement chez l'Homme qu'une conséquence presque fortuite de la recherche des plaisirs physiques. La généralisation des résultats de cette étude à l'ensemble des comportements humains suggère qu'il n'existerait pas d' "instincts" ou de "programmations" innés des comportements, mais plutôt tout un ensemble de processus neurobiologiques, innés mais élémentaires, à l'origine uniquement de tendances globales et approximatives, qui, au cours du développement et de l'interaction avec l'environnement, permettraient l'apprentissage par essais et erreurs de comportements relativement adaptés et appropriés à la survie de l'individu et de l'espèce. Comportement de reproduction comportement sexuel comportement érotique renforcement récompense zones érogènes neurobiologie des comportements instinct inné / acquis sexualité plaisir Homme
166	Synthèse d'agents adaptatifs et coopératifs par apprentissage par renforcement.<br />Application à la commande d'un système distribué de micromanipulation. Matignon, Laëtitia 04 December 2008 (has links) (PDF) De nombreuses applications peuvent être formulées en termes de systèmes distribués que ce soit une nécessité face à une distribution physique des entités (réseaux, robotique mobile) ou un moyen adopté face à la complexité d'appréhender un problème de manière globale. A travers l'utilisation conjointe de méthodes dites d'apprentissage par renforcement et des systèmes multi-agents, des agents autonomes coopératifs peuvent apprendre à résoudre de manière décentralisée des problèmes complexes en s'adaptant à ceux-ci afin de réaliser un objectif commun. Les méthodes d'apprentissage par renforcement ne nécessitent aucune connaissance a priori sur la dynamique du système, celui-ci pouvant être stochastique et non-linéaire. Cependant, afin d'améliorer la vitesse d'apprentissage, des méthodes d'injection de connaissances pour les problèmes de plus court chemin stochastique sont étudiées et une fonction d'influence générique est proposée. Nous nous intéressons ensuite au cas d'agents indépendants situés dans des jeux de Markov d'équipe. Dans ce cadre, les agents apprenant par renforcement doivent surmonter plusieurs enjeux tels que la coordination ou l'impact de l'exploration. L'étude de ces enjeux permet tout d'abord de synthétiser les caractéristiques des méthodes décentralisées d'apprentissage par renforcement existantes. Ensuite, au vu des difficultés rencontrées par ces approches, deux algorithmes sont proposés. Le premier est le Q-learning hystérétique qui repose sur des agents "à tendance optimiste réglable ". Le second est le Swing between Optimistic or Neutral (SOoN) qui permet à des agents indépendants de s'adapter automatiquement à la stochasticité de l'environnement. Les expérimentations sur divers jeux de Markov d'équipe montrent notamment que le SOoN surmonte les principaux facteurs de non-coordination et est robuste face à l'exploration des autres agents. Une extension de ces travaux à la commande décentralisée d'un système distribué de micromanipulation (smart surface) dans un cas partiellement observable est enfin exposée. systèmes multiagents agents independants agents adaptatifs agents coopératifs jeux de Markov d'équipe apprentissage par renforcement commande décentralisée système distribué de micromanipulation smart surface
167	Proposition d'une architecture logique d'un système de pilotage hétérarchique évolutif par apprentissage Salah, Bousbia 12 December 2006 (has links) (PDF) La complexité et la variabilité du contexte actuel des Systèmes de Production de Biens et de Services (SPBS) imposent une vision dynamique des performances (techniques, économiques,...) de ces systèmes, c'est-à-dire des performances continuellement améliorées. Ce besoin d'une vision dynamique des performances des SPBS est de plus en plus ressenti et exprimé par les acteurs de différents domaines de SPBS, s'inscrit dans le contexte plus global d'agilité et implique surtout de mettre en oeuvre des systèmes de pilotage adaptés.<br />D'une part, dans un contexte fortement concurrentiel, l'agilité devient une caractéristique clef de la prospérité d'un SPBS et symbolise l'actuel objet de compétition entre les SPBS. D'autre part, la mise en place d'un système de pilotage représente un moyen adéquat pour garantir l'agilité d'un SPBS. En effet, la fonction pilotage consiste à décider dynamiquement des commandes pertinentes à donner à un système soumis à des perturbations pour atteindre un objectif donné décrit en termes de maîtrise de performances. La notion de maîtrise intègre non seulement celle de maintien d'un niveau de performance donné, mais également celle de progrès (évolution vers un niveau de performance souhaité ou amélioration continue). C'est sur cet objectif d'amélioration continue des performances des SPBS que nous nous focalisons dans cette thèse.<br />Cependant, les systèmes de pilotage actuels ne répondent pas efficacement à cette évolution permanente du contexte des SPBS et par conséquent l'objectif d'amélioration continue des performances reste difficilement atteignable. Plus précisément, les systèmes de pilotage sont généralement conçus pour répondre à un besoin spécifique et ce manque de généricité réduit fortement les propriétés d'agilité d'un SPBS. Nos travaux de recherche s'inscrivent dans un cadre qui porte sur le développement d'un système de pilotage pour l'amélioration continue des performances des SPBS. En ce sens, grâce aux Technologies de l'Information et de la Communication (TIC), l'accès aux informations est de plus en plus simple et efficace. Cet accès offre l'opportunité de concevoir des systèmes de pilotage hétérarchiques qui favorisent la décentralisation des capacités décisionnelles.<br />L'objectif de ce mémoire est de proposer une caractérisation du paradigme d'agilité des systèmes de production de biens et de services, un cadre de modélisation générique des systèmes de production de biens et de services et un système de pilotage hétérarchique évolutif par apprentissage pour l'amélioration continue des performances des SPBS. [SPI] Engineering Sciences agilité amélioration continue des performances pilotage hétérarchique stratégies autonomie mécanismes génétiques apprentissage par renforcement simulation
168	Structures et propriétés rhéologiques de réseaux transitoires chargés par des nanoparticules de silice Puech, Nicolas 25 November 2008 (has links) (PDF) Nous avons étudié les propriétés structurales et rhéologiques de gels viscoélastiques de réseaux transitoires connectés et chargés par des nanoparticules de silice. Trois matrices viscoélastiques ont été préparées : deux microémulsions connectées possédant des gouttelettes de taille différente (30 et 100 Å) et un gel aqueux de copolymère tribloc. Les deux techniques de caractérisation employées sont la rhéologie et la diffusion de neutrons aux petits angles, ce qui nous a permis de relier les propriétés rhéologiques à la structure de ces réseaux chargés. Le facteur de renforcement rhéologique de ces gels est supérieur aux prévisions de Smallwood et d'Einstein appliquées respectivement aux élastomères et aux solutions colloïdales diluées. D'autre part, l'investigation de la structure menée par diffusion de neutrons aux petits angles montre des particules de silice bien dispersées dans la matrice. Une couche de tensioactifs est absorbée sur la surface de la silice dans le cas des microémulsions. Ce mécanisme mène à une augmentation du nombre de liens actifs par unité de volume en présence de nanoparticules. Macroscopiquement, cette augmentation permet d'expliquer le décalage du seuil de percolation. réseaux transitoires copolymère téléchélique microémulsion micelles gels viscoélastiques diffusion de neutrons aux petits angles rhéologie renforcement mécanique
169	STRUCTURES DANS LES COLLOÏDES ET NANOCOMPOSITES DESTINES AU RENFORCEMENT : ETUDE PAR DIFFUSION DE NEUTRONS AUX PETITS ANGLES Oberdisse, Julian 13 June 2005 (has links) (PDF) Dans la première partie, nous présentons l'étude de la structure de nanocomposites nanosilice-latex et de colloïdes (micelles adsorbées, complexes de colloïdes), par diffusion de neutrons aux petits angles. Dans la deuxième partie, les propriétés mécaniques des nanocomposites sont discutées. Nous présentons également une simulation numérique d'un réseau de polymères très enchevetré. Dans le dernier chapitre, nous décrivant un prototype de spectromètre de diffusion de neutrons aux très petits angles, installé au Laboratoire Léon Brillouin. nanocomposites colloïdes polymère diffusion de neutrons aux petits angles agrégation renforcement propriétés mécaniques
170	Synthèse de comportements par apprentissages par renforcement parallèles : application à la commande d'un micromanipulateur plan Laurent, Guillaume 18 December 2002 (has links) (PDF) En microrobotique, la commande des systèmes est délicate car les phénomènes physiques liés à l'échelle microscopique sont complexes. Les méthodes dites d'apprentissage par renforcement constituent une approche intéressante car elles permettent d'établir une stratégie de commande sans connaissance \emph(a priori) sur le système. Au vu des grandes dimensions des espaces d'états des systèmes étudiés, nous avons développé une approche parallèle qui s'inspire à la fois des architectures comportementales et de l'apprentissage par renforcement. Cette architecture, basée sur la parallélisation de l'algorithme du Q-Learning, permet de réduire la complexité du système et d'accélérer l'apprentissage. Sur une application simple de labyrinthe, les résultats obtenus sont bons mais le temps d'apprentissage est trop long pour envisager la commande d'un système réel. Le Q-Learning a alors été remplacé par l'algorithme du Dyna-Q que nous avons adapté à la commande de systèmes non déterministes en ajoutant un historique des dernières transitions. Cette architecture, baptisée Dyna-Q parallèle, permet non seulement d'améliorer la vitesse de convergence, mais aussi de trouver de meilleures stratégies de contrôle. Les expérimentations sur le système de manipulation montrent que l'apprentissage est alors possible en temps réel et sans utiliser de simulation. La fonction de coordination des comportements est efficace si les obstacles sont relativement éloignés les uns des autres. Si ce n'est pas le cas, cette fonction peut créer des maxima locaux qui entraînent temporairement le système dans un cycle. Nous avons donc élaboré une autre fonction de coordination qui synthétise un modèle plus global du système à partir du modèle de transition construit par le Dyna-Q. Cette nouvelle fonction de coordination permet de sortir très efficacement des maxima locaux à condition que la fonction de mise en correspondance utilisée par l'architecture soit robuste. commande par apprentissage processus décisionnels de Markov programmation dynamique apprentissage par renforcement Q-Learning Dyna-Q architecture comportementale microrobotique micromanipulation

Search results