• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 86
  • 67
  • 4
  • Tagged with
  • 160
  • 160
  • 160
  • 103
  • 93
  • 62
  • 62
  • 48
  • 41
  • 39
  • 36
  • 33
  • 31
  • 30
  • 28
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
71

Apprentissage par renforcement pour la généralisation des approches automatiques dans la conception des systèmes de dialogue oral / Statistical methods for a oral human-machine dialog system

Pinault, Florian 24 November 2011 (has links)
Les systèmes de dialogue homme machine actuellement utilisés dans l’industrie sont fortement limités par une forme de communication très rigide imposant à l’utilisateur de suivre la logique du concepteur du système. Cette limitation est en partie due à leur représentation de l’état de dialogue sous la forme de formulaires préétablis.Pour répondre à cette difficulté, nous proposons d’utiliser une représentation sémantique à structure plus riche et flexible visant à permettre à l’utilisateur de formuler librement sa demande.Une deuxième difficulté qui handicape grandement les systèmes de dialogue est le fort taux d’erreur du système de reconnaissance vocale. Afin de traiter ces erreurs de manière quantitative, la volonté de réaliser une planification de stratégie de dialogue en milieu incertain a conduit à utiliser des méthodes d’apprentissage par renforcement telles que les processus de décision de Markov partiellement observables (POMDP). Mais un inconvénient du paradigme POMDP est sa trop grande complexité algorithmique. Certaines propositions récentes permettent de réduire la complexité du modèle. Mais elles utilisent une représentation en formulaire et ne peuvent être appliqués directement à la représentation sémantique riche que nous proposons d’utiliser.Afin d’appliquer le modèle POMDP dans un système dont le modèle sémantique est complexe, nous proposons une nouvelle façon de contrôler sa complexité en introduisant un nouveau paradigme : le POMDP résumé à double suivi de la croyance. Dans notre proposition, le POMDP maitre, complexe, est transformé en un POMDP résumé, plus simple. Un premier suivi de croyance (belief update) est réalisé dans l’espace maitre (en intégrant des observations probabilistes sous forme de listes nbest). Et un second suivi de croyance est réalisé dans l’espace résumé, les stratégies obtenues sont ainsi optimisées sur un véritable POMDP.Nous proposons deux méthodes pour définir la projection du POMDP maitre en un POMDP résumé : par des règles manuelles et par regroupement automatique par k plus proches voisins. Pour cette dernière, nous proposons d’utiliser la distance d’édition entre graphes, que nous généralisons pour obtenir une distance entre listes nbest.En outre, le couplage entre un système résumé, reposant sur un modèle statistique par POMDP, et un système expert, reposant sur des règles ad hoc, fournit un meilleur contrôle sur la stratégie finale. Ce manque de contrôle est en effet une des faiblesses empêchant l’adoption des POMDP pour le dialogue dans l’industrie.Dans le domaine du renseignement d’informations touristiques et de la réservation de chambres d’hôtel, les résultats sur des dialogues simulés montrent l’efficacité de l’approche par renforcement associée à un système de règles pour s’adapter à un environnement bruité. Les tests réels sur des utilisateurs humains montrent qu’un système optimisé par renforcement obtient cependant de meilleures performances sur le critère pour lequel il a été optimisé. / Dialog managers (DM) in spoken dialogue systems make decisions in highly uncertain conditions, due to errors from the speech recognition and spoken language understanding (SLU) modules. In this work a framework to interface efficient probabilistic modeling for both the SLU and the DM modules is described and investigated. Thorough representation of the user semantics is inferred by the SLU in the form of a graph of frames and, complemented with some contextual information, is mapped to a summary space in which a stochastic POMDP dialogue manager can perform planning of actions taking into account the uncertainty on the current dialogue state. Tractability is ensured by the use of an intermediate summary space. Also to reduce the development cost of SDS an approach based on clustering is proposed to automatically derive the master-summary mapping function. A implementation is presented in the Media corpus domain (touristic information and hotel booking) and tested with a simulated user.
72

Deep active localization

Gottipati, Vijaya Sai Krishna 08 1900 (has links)
No description available.
73

No Press Diplomacy

Paquette, Philip 08 1900 (has links)
No description available.
74

Sélection d'un modèle d'apprentissage pour rendre compte de la spéculation dans un paradigme de prospection monétaire. / Selecting a Learning-Model to Account for Search-Theoretical Monetary Speculation

Lefebvre, Germain 22 March 2018 (has links)
Cette thèse de doctorat propose une analyse empirique des microfondations des phénomènes monétaires macroéconomiques, et plus particulièrement des processus d'apprentissage et capacités cognitives requis pour qu'un équilibre émerge dans une économie expérimentale implémentantun modèle de prospection monétaire. Dans ce but, nous avons "opérationalisé" le modèle original de Kiyotaki et Wright et modélisé le comportement de sujets humains à l'aide de différents algorithmes d'apprentissage par renforcement. Nous montrons que les données comportementales sont mieux expliquées par les modèles d'apprentissage par renforcement que par les prédictions des équilibres théoriques, et que la spéculation monétaire semble s'appuyer sur la considération de coûts d'opportunité. Nos résultats constituent une nouvelle étape dans la compréhension des processus d'apprentissage à l'oeuvre dans la prise de décision multiple en économie et des microfondations cognitives de l'utilisation macroéconomique de la monnaie. Parallèlement, cette thèse de doctorat comprend une analyse plus précise de l'une des composantes fondamentales de l'apprentissage par renforcement à savoir, le processus de mise à jour des valeurs. A travers deux études, nous montrons graduellement que ce processus est biaisé en faveur des informations confirmatoires. En effet, nous avons trouvé que des sujets réalisant diverses tâches d'apprentissage probabiliste prenaient en compte préférentiellement les informations qui confirmaient leur pensée initiale. Ces résultats permettent une meilleure compréhension des biais d'optimisme et de confirmation au niveau neuro-computationnel. / This dissertation proposes to analyze empirically the microfoundations of the macroeconomic use of money, more particularly the human learning processes and cognitive abilities requiredfor a monetary equilibrium to emerge in an experimental economy implementing a search theoretical paradigm of money emergence. To achieve this, we operationalized the original Kiyotaki and Wright search model and fitted real subjects' behaviors with different reinforcement learning algorithms. We show that reinforcement learning better explains behavioral datain comparison to theoretical equilibria predictions, and highlight the importance of opportunity costs to implement a speculative use of money. Our results constitute a new step towards the understanding of learning processes at work in multi-step economic decision making and ofthe cognitive microfoundations of the macro-economic use of money. In parallel, this dissertation also compounds in-depth analyses of one of the core components of reinforcement learning,namely the update process. In two studies, we gradually show that the latter is biased positively towards confirmatory information. Indeed, we found that subjects performing different probability learning tasks preferentially took into account information that confirme dtheir initial thoughts in contrast to information that contradicted them. These results constitute a step towards the understanding of the genesis of optimism and confirmation biases at the neurocomputational level.
75

Approche à base d'agents pour l'ingénierie et le contrôle de micro-réseaux / Agent based approach for engineering and control of microgrids

Basso, Gillian 09 December 2013 (has links)
La gestion d’énergie est un sujet de plus en plus important dans notre société. Nous faisons actuellement face à un nombre croissant de problèmes tels que l’épuisement des réserves pétrolières, le réchauffement climatique ou encore la diminution de la qualité de l’énergie (principalement due aux coupures pendant les pics de consommation). Les smartgrids sont une des solutions à ces problèmes. En ajoutant une communication bidirectionnelle et de nouvelles capacités en matière de technologies de l’information et de la communication, il est possible de créer un système autonome de gestion intelligente de l’énergie.Les travaux décrits dans ce mémoire s'intéressent particulièrement à la gestion des microgrids à l'aide de systèmes multi-agents (SMA). Les microgrids sont des réseaux de faibles puissances, composés de petits producteurs d’énergie décentralisés (éventuellement renouvelables) et de consommateurs. Ces réseaux peuvent être reliés (ou non) au réseau global ce qui ajoute à leur complexité. De par leurs complexités et leurs répartitions géographiques, les smartgrids, comme les microgrids, ne peuvent pas être gérés facilement par des systèmes centralisés. Les intelligences artificielles distribuées et plus particulièrement les SMA apparaissent comme un moyen cohérent de résoudre les problèmes liés aux smartgrids.Dans un premier temps, nous avons défini une approche mettant en oeuvre des boucles de rétroaction. Une boucle de rétroaction apparaît dans les systèmes complexes qui peuvent être définis avec plusieurs niveaux d'abstraction. Deux niveaux sont ainsi en interaction. Le niveau micro regroupe un ensemble d'agents ayant des comportements qui, une fois combinés, influeront sur l'état du système. Le niveau macro traite ces influences pour définir un nouvel état du système qui influera sur le comportement des agents du niveau micro. Cette boucle de rétroaction permet de séparer les comportements sur plusieurs niveaux.Cette approche est utilisée pour définir un problème de gestion offre-demande dans un microgrid. Ce problème permet de prendre en compte un ensemble d'objectifs qui sont actuellement traités de manière indépendante. Enfin, une application utilisant un SMA a été développée. Cette approche peut s'intégrer dans ce problème. Elle a pour but d'assurer la stabilité du réseau à tout instant grâce au contrôle de systèmes de stockage.Dans un second temps, un simulateur de réseau électrique permettant le contrôle dynamique des périphériques a été développé. Ce simulateur repose sur trois grands principes. Le premier est une modélisation à base d’agents du simulateur lui-même, pour représenter la complexité des réseaux électriques. Le second principe repose sur l’utilisation du paradigme holonique afin de prendre en compte les multiples niveaux inhérents aux réseaux électriques. Enfin, le troisième principe est inspiré du modelé influence/réaction et propose une technique qui permet de gérer les actions simultanées, éventuellement conflictuelles, au sein des SMA. / Energy management is, nowadays, a subject of uttermost importance. Indeed, we are facing growing concerns such as petroleum reserve depletion, earth global warming or power quality (e.g. avoiding blackouts during peak times). Smart grids is an attempt to solve such problems, by adding to power grids bidirectional communications and ICT capabilities in order to provide an intelligent autonomic management for the grid.This thesis focuses on the management of microgrids thanks to multiagent systems (MAS). Microgrids are low-power networks, composed of small and decentralized energy producers (possibly renewable) and consumers. These networks can be connected to the main grid or islanded, this make them more complex. Due to their complexity and their geographical distribution, smart grids and microgrids can not be easily managed by a centralized system. Distributed artificial intelligences especially MAS appear to be a solution to resolve problems related to smart grids.Firstly we defined an approach implementing feedback loops. These feedback loops exist in complex systems which can be defined with several abstraction levels. Two levels are interacting. The micro-level contains a set of agents owning behaviours that can be combined. The result of the combination imapct the state of the system. The macro-level processes these influences to define a new state of the system which will imapct the agents behaviours at the micro-level.This feedback loop separates behaviours on several levels.This approach is used to defined a demand and supply matching problem in microgrid. This problem afford to manage a set of goals which currently are independently processed. Finally, an application is developed using MAS that ensures grid stability thanks to storage systems. This application was thought to be integrated to the approach detailed above.Secondly, a grid simulator id developed. This simulator allows dynamic control of devices. It is based on three main principles.• An agent-based model of the simulator to represent the complexity of electrical networks. • The use of the holonic paradigm to take into account the multiple levels inherent to power grids. • The use of the influence/reaction model and offers a technology that can manage simultaneous actions, possibly conflicting, in MAS.
76

Synthèse d'agents adaptatifs et coopératifs par apprentissage par renforcement.<br />Application à la commande d'un système distribué de micromanipulation.

Matignon, Laëtitia 04 December 2008 (has links) (PDF)
De nombreuses applications peuvent être formulées en termes de systèmes distribués que ce soit une nécessité face à une distribution physique des entités (réseaux, robotique mobile) ou un moyen adopté face à la complexité d'appréhender un problème de manière globale. A travers l'utilisation conjointe de méthodes dites d'apprentissage par renforcement et des systèmes multi-agents, des agents autonomes coopératifs peuvent apprendre à résoudre de manière décentralisée des problèmes complexes en s'adaptant à ceux-ci afin de réaliser un objectif commun. Les méthodes d'apprentissage par renforcement ne nécessitent aucune connaissance a priori sur la dynamique du système, celui-ci pouvant être stochastique et non-linéaire. Cependant, afin d'améliorer la vitesse d'apprentissage, des méthodes d'injection de connaissances pour les problèmes de plus court chemin stochastique sont étudiées et une fonction d'influence générique est proposée. Nous nous intéressons ensuite au cas d'agents indépendants situés dans des jeux de Markov d'équipe. Dans ce cadre, les agents apprenant par renforcement doivent surmonter plusieurs enjeux tels que la coordination ou l'impact de l'exploration. L'étude de ces enjeux permet tout d'abord de synthétiser les caractéristiques des méthodes décentralisées d'apprentissage par renforcement existantes. Ensuite, au vu des difficultés rencontrées par ces approches, deux algorithmes sont proposés. Le premier est le Q-learning hystérétique qui repose sur des agents "à tendance optimiste réglable ". Le second est le Swing between Optimistic or Neutral (SOoN) qui permet à des agents indépendants de s'adapter automatiquement à la stochasticité de l'environnement. Les expérimentations sur divers jeux de Markov d'équipe montrent notamment que le SOoN surmonte les principaux facteurs de non-coordination et est robuste face à l'exploration des autres agents. Une extension de ces travaux à la commande décentralisée d'un système distribué de micromanipulation (smart surface) dans un cas partiellement observable est enfin exposée.
77

Proposition d'une architecture logique d'un système de pilotage hétérarchique évolutif par apprentissage

Salah, Bousbia 12 December 2006 (has links) (PDF)
La complexité et la variabilité du contexte actuel des Systèmes de Production de Biens et de Services (SPBS) imposent une vision dynamique des performances (techniques, économiques,...) de ces systèmes, c'est-à-dire des performances continuellement améliorées. Ce besoin d'une vision dynamique des performances des SPBS est de plus en plus ressenti et exprimé par les acteurs de différents domaines de SPBS, s'inscrit dans le contexte plus global d'agilité et implique surtout de mettre en oeuvre des systèmes de pilotage adaptés.<br />D'une part, dans un contexte fortement concurrentiel, l'agilité devient une caractéristique clef de la prospérité d'un SPBS et symbolise l'actuel objet de compétition entre les SPBS. D'autre part, la mise en place d'un système de pilotage représente un moyen adéquat pour garantir l'agilité d'un SPBS. En effet, la fonction pilotage consiste à décider dynamiquement des commandes pertinentes à donner à un système soumis à des perturbations pour atteindre un objectif donné décrit en termes de maîtrise de performances. La notion de maîtrise intègre non seulement celle de maintien d'un niveau de performance donné, mais également celle de progrès (évolution vers un niveau de performance souhaité ou amélioration continue). C'est sur cet objectif d'amélioration continue des performances des SPBS que nous nous focalisons dans cette thèse.<br />Cependant, les systèmes de pilotage actuels ne répondent pas efficacement à cette évolution permanente du contexte des SPBS et par conséquent l'objectif d'amélioration continue des performances reste difficilement atteignable. Plus précisément, les systèmes de pilotage sont généralement conçus pour répondre à un besoin spécifique et ce manque de généricité réduit fortement les propriétés d'agilité d'un SPBS. Nos travaux de recherche s'inscrivent dans un cadre qui porte sur le développement d'un système de pilotage pour l'amélioration continue des performances des SPBS. En ce sens, grâce aux Technologies de l'Information et de la Communication (TIC), l'accès aux informations est de plus en plus simple et efficace. Cet accès offre l'opportunité de concevoir des systèmes de pilotage hétérarchiques qui favorisent la décentralisation des capacités décisionnelles.<br />L'objectif de ce mémoire est de proposer une caractérisation du paradigme d'agilité des systèmes de production de biens et de services, un cadre de modélisation générique des systèmes de production de biens et de services et un système de pilotage hétérarchique évolutif par apprentissage pour l'amélioration continue des performances des SPBS.
78

Synthèse de comportements par apprentissages par renforcement parallèles : application à la commande d'un micromanipulateur plan

Laurent, Guillaume 18 December 2002 (has links) (PDF)
En microrobotique, la commande des systèmes est délicate car les phénomènes physiques liés à l'échelle microscopique sont complexes. Les méthodes dites d'apprentissage par renforcement constituent une approche intéressante car elles permettent d'établir une stratégie de commande sans connaissance \emph(a priori) sur le système. Au vu des grandes dimensions des espaces d'états des systèmes étudiés, nous avons développé une approche parallèle qui s'inspire à la fois des architectures comportementales et de l'apprentissage par renforcement. Cette architecture, basée sur la parallélisation de l'algorithme du Q-Learning, permet de réduire la complexité du système et d'accélérer l'apprentissage. Sur une application simple de labyrinthe, les résultats obtenus sont bons mais le temps d'apprentissage est trop long pour envisager la commande d'un système réel. Le Q-Learning a alors été remplacé par l'algorithme du Dyna-Q que nous avons adapté à la commande de systèmes non déterministes en ajoutant un historique des dernières transitions. Cette architecture, baptisée Dyna-Q parallèle, permet non seulement d'améliorer la vitesse de convergence, mais aussi de trouver de meilleures stratégies de contrôle. Les expérimentations sur le système de manipulation montrent que l'apprentissage est alors possible en temps réel et sans utiliser de simulation. La fonction de coordination des comportements est efficace si les obstacles sont relativement éloignés les uns des autres. Si ce n'est pas le cas, cette fonction peut créer des maxima locaux qui entraînent temporairement le système dans un cycle. Nous avons donc élaboré une autre fonction de coordination qui synthétise un modèle plus global du système à partir du modèle de transition construit par le Dyna-Q. Cette nouvelle fonction de coordination permet de sortir très efficacement des maxima locaux à condition que la fonction de mise en correspondance utilisée par l'architecture soit robuste.
79

Apprentissage par renforcement de modeles de contexte pour l'informatique ambiante

Zaidenberg, Sofia 16 October 2009 (has links) (PDF)
Cette thèse étudie l'acquisition automatique par apprentissage d'un modèle de contexte pour un utilisateur dans un environnement ubiquitaire. Dans un tel environnement, les dispositifs peuvent communiquer et coopérer afin de former un espace informatique cohérent. Certains appareils ont des capacités de perception, utilisées par l'environnement pour détecter la situation - le contexte - de l'utilisateur. D'autres appareils sont capables d'exécuter des actions. La problématique que nous nous sommes posée est de déterminer les associations optimales pour un utilisateur donné entre les situations et les actions. L'apprentissage apparaît comme une bonne approche car il permet de personnaliser l'environnement sans spécification explicite de la part de l'usager. Un apprentissage à vie permet, par ailleurs, de toujours s'adapter aux modifications du monde et des préférences utilisateur. L'apprentissage par renforcement est un paradigme d'apprentissage qui peut être une solution à notre problème, à condition de l'adapter aux contraintes liées à notre cadre d'application.
80

Paramétrage Dynamique et Optimisation Automatique des Réseaux Mobiles 3G et 3G+

Nasri, Ridha 23 January 2009 (has links) (PDF)
La télécommunication radio mobile connait actuellement une évolution importante en termes de diversité de technologies et de services fournis à l'utilisateur final. Il apparait que cette diversité complexifie les réseaux cellulaires et les opérations d'optimisation manuelle du paramétrage deviennent de plus en plus compliquées et couteuses. Par conséquent, les couts d'exploitation du réseau augmentent corrélativement pour les operateurs. Il est donc essentiel de simplifier et d'automatiser ces taches, ce qui permettra de réduire les moyens consacrés à l'optimisation manuelle des réseaux. De plus, en optimisant ainsi de manière automatique les réseaux mobiles déployés, il sera possible de retarder les opérations de densification du réseau et l'acquisition de nouveaux sites. Le paramétrage automatique et optimal permettra donc aussi d'étaler voire même de réduire les investissements et les couts de maintenance du réseau. Cette thèse introduit de nouvelles méthodes de paramétrage automatique (auto-tuning) des algorithmes RRM (Radio Resource Management) dans les réseaux mobiles 3G et au delà du 3G. L'auto-tuning est un processus utilisant des outils de contrôle comme les contrôleurs de logique floue et d'apprentissage par renforcement. Il ajuste les paramètres des algorithmes RRM afin d'adapter le réseau aux fluctuations du trafic. Le fonctionnement de l'auto-tuning est basé sur une boucle de régulation optimale pilotée par un contrôleur qui est alimenté par les indicateurs de qualité du réseau. Afin de trouver le paramétrage optimal du réseau, le contrôleur maximise une fonction d'utilité, appelée aussi fonction de renforcement. Quatre cas d'études sont décrits dans cette thèse. Dans un premier temps, l'auto-tuning de l'algorithme d'allocation des ressources radio est présenté. Afin de privilégier les utilisateurs du service temps réel (voix), une bande de garde est réservée pour eux. Cependant dans le cas ou le trafic temps réel est faible, il est important d'exploiter cette ressource pour d'autres services. L'auto-tuning permet donc de faire un compromis optimal de la qualité perçue dans chaque service en adaptant les ressources réservées en fonction du trafic de chaque classe du service. Le second cas est l'optimisation automatique et dynamique des paramètres de l'algorithme du soft handover en UMTS. Pour l'auto-tuning du soft handover, un contrôleur est implémenté logiquement au niveau du RNC et règle automatiquement les seuils de handover en fonction de la charge radio de chaque cellule ainsi que de ses voisines. Cette approche permet d'équilibrer la charge radio entre les cellules et ainsi augmenter implicitement la capacité du réseau. Les simulations montrent que l'adaptation des seuils du soft handover en UMTS augmente la capacité de 30% par rapport au paramétrage fixe. L'approche de l'auto-tuning de la mobilité en UMTS est étendue pour les systèmes LTE (3GPP Long Term Evolution) mais dans ce cas l'auto-tuning est fondé sur une fonction d'auto-tuning préconstruite. L'adaptation des marges de handover en LTE permet de lisser les interférences intercellulaires et ainsi augmenter le débit perçu pour chaque utilisateur du réseau. Finalement, un algorithme de mobilité adaptative entre les deux technologies UMTS et WLAN est proposé. L'algorithme est orchestré par deux seuils, le premier est responsable du handover de l'UMTS vers le WLAN et l'autre du handover dans le sens inverse. L'adaptation de ces deux seuils permet une exploitation optimale et conjointe des ressources disponibles dans les deux technologies. Les résultats de simulation d'un réseau multi-systèmes exposent également un gain important en capacité.

Page generated in 0.5381 seconds