• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 94
  • 67
  • 4
  • Tagged with
  • 168
  • 168
  • 168
  • 111
  • 101
  • 69
  • 69
  • 56
  • 48
  • 43
  • 39
  • 34
  • 33
  • 31
  • 30
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

Apprentissage par simulation stochastique : étude de convergence et application à un modèle markovien de tarification en transport aérien

Levy, Kim January 2004 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
12

Gestion de l'incertitude pour l'optimisation de systèmes interactifs / Dealing with uncertainty to optimise interactive systems

Daubigney, Lucie 01 October 2013 (has links)
Le sujet des travaux concerne l'amélioration du comportement des machines dites \og intelligentes\fg, c'est-à-dire capables de s'adapter à leur environnement, même lorsque celui-ci évolue. Un des domaines concerné est celui des interactions homme-machine. La machine doit alors gérer différents types d'incertitude pour agir de façon appropriée. D'abord, elle doit pouvoir prendre en compte les variations de comportements entre les utilisateurs et le fait que le comportement peut varier d'une utilisation à l'autre en fonction de l'habitude à interagir avec le système. De plus, la machine doit s'adapter à l'utilisateur même si les moyens de communication entre lui et la machine sont bruités. L'objectif est alors de gérer ces incertitudes pour exhiber un comportement cohérent. Ce dernier se définit comme la suite de décisions successives que la machine doit effectuer afin de parvenir à l'objectif fixé. Une manière habituelle pour gérer les incertitudes passe par l'introduction de modèles : modèles de l'utilisateur, de la tâche, ou encore de la décision. Un inconvénient de cette méthode réside dans le fait qu'une connaissance experte liée au domaine concerné est nécessaire à la définition des modèles. Si l'introduction d'une méthode d'apprentissage automatique, l'apprentissage par renforcement a permis d'éviter une modélisation de la décision \textit{ad hoc} au problème concerné, des connaissances expertes restent toutefois nécessaires. La thèse défendue par ces travaux est que certaines contraintes liées à l'expertise humaine peuvent être relaxées tout en limitant la perte de généricité liée à l'introduction de modèles / The behaviour of machines is difficult to define, especially when machines have to adapt to a changing environment. For example, this is the case when human-machine interactions are concerned. Indeed, the machine has to deal with several sources of uncertainty to exhibit a consistent behaviour to the user. First, it has to deal with the different behaviours of the users and also with a change in the behaviour of a user when he gets used to the machine. Secondly, the communication between the user and the machine can be noisy, which makes the transfer of information more complicated. The objective is thus to deal with the different sources of uncertainty to show a consistent behaviour. Usually, dealing with uncertainties is performed by introducing models : models of the users, the task concerned or the decision. However, the accuracy of the solution depends on the accuracy of expert knowledge used to build the models. If machine learning, through reinforcement learning, has successfully avoided the use of model for the decision and removed \textit{ad hoc} knowledge about it, expert knowledge is still necessary. The thesis presented in this work is that some constraints related to human expertise can be slackened without a loss of generality related to the introduction of models
13

Contributions à l'apprentissage par renforcement inverse / Contributions to inverse reinforcement learning

Klein, Édouard 21 November 2013 (has links)
Cette thèse, intitulée "Contributions à l'apprentissage par renforcement inverse", fournit trois contributions majeures au domaine. La première est une méthode d'estimation de l'attribut moyen, une quantité exploitée par la grande majorité des approches constituant l'état de l'art. Elle a permis d'étendre ces approches au cadre batch et off-policy. La seconde contribution majeure est un algorithme d'apprentissage par renforcement inverse, structured classification for inverse reinforcement learning (SCIRL), qui relâche une contrainte standard du domaine, la résolution répétée d'un processus décisionnel de Markov en introduisant la structure temporelle (par le biais de l'attribut moyen) de ce processus dans un algorithme de classification structurée. Les garanties théoriques qui lui sont attachées et ses bonnes performances en pratique ont permis sa présentation dans une conférence internationale prestigieuse : NIPS. Enfin, la troisième contribution est constituée par la méthode cascaded supervised learning for inverse reinforcement learning (CSI) consistant à apprendre le comportement de l'expert par une méthode supervisée puis à introduire la structure temporelle du MDP par une régression mettant en jeu la fonction de score du classifieur utilisé. Cette méthode offre des garanties théoriques de même nature que celle de SCIRL tout en présentant l'avantage d'utiliser des composants standards pour la classification et la régression, ce qui simplifie la mise en oeuvre. Ce travail sera présenté dans une autre conférence internationale prestigieuse : ECML / This thesis, "Contributions à l'apprentissage par renforcement inverse", brings three major contributions to the community. The first one is a method for estimating the feature expectation, a quantity involved in most of state-of-the-art approaches which were thus extended to a batch off-policy setting. The second major contribution is an Inverse Reinforcement Learning algorithm, structured classification for inverse reinforcement learning (SCIRL), which relaxes a standard constraint in the field, the repeated solving of a Markov Decision Process, by introducing the temporal structure (using the feature expectation) of this process into a structured margin classification algorithm. The afferent theoritical guarantee and the good empirical performance it exhibited allowed it to be presentend in a good international conference: NIPS. Finally, the third contribution is cascaded supervised learning for inverse reinforcement learning (CSI) a method consisting in learning the expert's behavior via a supervised learning approach, and then introducing the temporal structure of the MDP via a regression involving the score function of the classifier. This method presents the same type of theoretical guarantee as SCIRL, but uses standard components for classification and regression, which makes its use simpler. This work will be presented in another good international conference: ECML
14

Modélisation computationnelle du rôle de la dopamine dans les boucles cortico-striatales dans l'apprentissage et la régulation de la sélection de l'action / Computational modeling of the role of dopamine in the cortico-striatal loops in learning and action selection's regulation

Bellot, Jean 07 July 2015 (has links)
Dans ce travail de thèse, nous avons modélisé le rôle de la dopamine dans l'apprentissage et dans les processus de sélection de l'action en lien avec les ganglions de la base. L'activité des neurones dopaminergiques présente de nombreuses similarités avec l'erreur de prédiction de la récompense utilisée par les algorithmes d'apprentissage par renforcement. Ainsi, ces neurones sont supposés guider le processus de sélection de l'action.Dans une première partie, nous avons analysé l'information encodée par les neurones dopaminergiques dans une tâche à choix multiples en la comparant à différentes informations utilisées par les modèles d'apprentissage par renforcement. Nos résultats suggèrent que l'information encodée par les neurones dopaminergiques enregistrer dans la tâche n'est que partiellement compatible avec une erreur de prédiction et semble en partie dissociée du comportement.Dans une deuxième partie, nous avons simulé l'effet de la dopamine sur un modèle des ganglions de la base prenant en compte des connections existant chez le primate, souvent négligées dans la littérature. La plupart des modèles actuels font en effet l'hypothèse d'une séparation stricte de deux chemins dans les ganglions de la base : le chemin direct lié à la récompense et le chemin indirect lié à la punition. Cependant des études anatomiques remettent en question cette dissociation, en particulier chez le primate. Nous proposons ainsi d'étudier comment différents niveaux de dopamine, dans le contexte de la maladie de Parkinson, affectent l'apprentissage et la sélection de l'action dans ce modèle / In this thesis work, we modelled the role of dopamine in learning and in the processes of action selection through its interaction with the basal ganglia. During the 90’s, the work of Schultz and colleagues has led to major progress in understanding the neural mechanisms underlying the influence of feedback on learning. The activity of dopaminergic neurons exhibited properties of the reward prediction error signal used in so-called Temporal Difference (TD) machine learning algorithms. Thus, DA has been thought to be the neural signal that help us to adapt our behavior. In the first part of my PhD, we analyze the information encoded by dopaminergic neurons recorded during a multi-choice task. In this purpose, we modeled the task and simulated different TD learning algorithms to quantitatively compare their ability to reproduce dopamine neurons activity. Our results show that the information carried out by dopamine neurons is only partly consistent with a reward prediction error and seems to be dissociated from behavioral adaptation.In the second part of my PhD, we study the effect of different levels of dopamine in a biologically plausible model of primates basal ganglia that considers existing connections often neglected in the literature. Indeed, most of current models of basal ganglia assume the existence of two segregated pathway: the direct pathway associated with reward and the indirect pathway associated with punishment. However, anatomical studies in primates revealed that these two pathways are not dissociated. We study the ability of such a model to reproduce beta oscillations observed in Parkinsonian and the differences in reward and punishment sensitivity, with high or low-level of dopamine.
15

Etude de l'émergence de facultés d'apprentissage fiables et prédictibles d'actions réflexes, à partir de modèles paramétriques soumis à des contraintes internes.

Davesne, Frédéric 19 April 2002 (has links) (PDF)
L'objectif à long terme de notre travail est la mise au points de techniques d'apprentissage fiables et prédictibles d'actions réflexes, dans le cadre de la robotique mobile. Ce document constitue un départ à ce projet.<br />Dans un premier temps, nous donnons des arguments défendant l'idée que les méthodes d'apprentissage classiques ne peuvent pas,<br />intrinsèquement, répondre à nos exigences de fiabilité et de prédictibilité. Nous pensons que la clé du problème se situe dans la manière dont la communication entre le système apprenant et son environnement est modélisée. Nous illustrons nos propos grâce à un exemple d'apprentissage par renforcement.<br /><br />Nous présentons une démarche formalisée dans laquelle la communication est une interaction, au sens physique du terme. Le système y est soumis à deux forces: la réaction du système est due à la fois à l'action de l'environnement et au maintient de contraintes internes. L'apprentissage devient<br />une propriété émergente d'une suite de réactions du système, dans des cas d'interactions favorables. L'ensemble des évolutions possibles du système est déduit par le calcul, en se basant uniquement (sans autre paramètre) sur la connaissance de l'interaction.<br /><br />Nous appliquons notre démarche à deux sous-systèmes interconnectés, dont l'objectif global est<br />l'apprentissage d'actions réflexes.<br /><br />Nous prouvons que le premier possède comme propriété émergente des facultés d'apprentissage par renforcement et d'apprentissage latent fiables et prédictibles.<br /><br />Le deuxième, qui est ébauché, transforme un signal en une information perceptive. Il fonctionne par sélection d'hypothèses d'évolution du signal au cours du temps à partir d'une mémoire. Des contraintes internes à la mémoire déterminent les ensembles valides d'informations perceptives.<br />Nous montrons, dans un cas simple, que ces contraintes mènent à un équivalent du théorème de Shannon sur l'échantillonnage.
16

Proposition d'un formalisme pour la construction automatique d'interactions dans les systèmes multi-agents réactifs

Thomas, Vincent 18 November 2005 (has links) (PDF)
Cette thèse traite de la conception de système multi-agents. Elle se focalise sur des approches formelles et s'est donné pour objectif à long terme de construire de manière automatique et décentralisée les comportements d'agents coopératifs devant résoudre collectivement un problème. Ce travail a cherché à proposer des méthodes pour construire les comportements d'agents sociaux, capables de prendre en compte à l'exécution la présence d'autres agents dans le système.<br /><br />Les formalismes existants comme les DEC-POMDPs parviennent à représenter des problèmes multi-agents mais ne représentent pas au niveau individuel la notion d'interaction fondamentale dans les systèmes collectifs. Ceci induit une complexité algorithmique importante dans les algorithmes de résolution. Afin de donner aux agents la possibilité d'appréhender la présence d'autres agents et de structurer de manière implicite les systèmes multi-agents, cette thèse propose un formalisme original, l'interac-DEC-POMDP inspiré des DEC-POMDPs et d'Hamelin, une simulation développée au cours de cette thèse et issue d'expériences conduites en éthologie. La spécificité de ce formalisme réside dans la capacité offerte aux agents d'interagir directement et localement entre eux. Cette possibilité permet des prises de décision à un niveau intermédiaire entre des décisions globales impliquant l'ensemble des agents et des décisions purement individuelles.<br /><br />Nous avons proposé en outre un algorithme décentralisé basé sur des techniques d'apprentissage par renforcement et une répartition heuristique des gains des agents au cours des interactions. Une démarche expérimentale nous a permis de valider sa capacité à produire pour des restriction du formalisme des comportements collectifs pertinents adaptatifs sans qu'aucun agent ne dispose d'une vue globale du système.
17

Sur les modèles flous adaptatifs dynamiques

CERRADA LOZADA, Mariela 12 November 2003 (has links) (PDF)
La contribution principale de ce travail de recherche est la proposition d'un modèle flou avec des fonctions d'appartenance dynamiques à paramètres ajustables en ligne, par un algorithme basé sur l'Apprentissage par Renforcement (AR). L'approche présentée prend en compte la dynamique des variables du système en introduisant, dans les fonctions d'appartenance d'un modèle flou, la valeur moyenne et la variance des variables d'entrée et de sortie du modèle au temps t. De cette manière, les ensembles flous se déplacent sur le domaine de discours des variables, en fonction des valeurs de la moyenne et de la variance échantillonnées ;ainsi, la possibilité d'obtenir des ensembles flous disjoints peut être minimisée. La propriété dynamique du modèle flou proposé est un atout pour résoudre les problèmes de commande de systèmes variant avec le temps, par exemple. Des exemples d'identification de fonctions non-linéaires, variant avec le temps, illustrent la capacité du modèle flou adaptatif dynamique pour l'identification des systèmes. Une application à la commande prédictive a été développée, en utilisant le modèle flou proposé comme modèle de prédiction et l'AR pour résoudre le problème d'optimisation de ce type de schéma de commande. Finalement, l'utilisation de l'information contenue dans les fonctions d'appartenance dynamiques du modèle flou à des niveaux supérieurs de supervision et diagnostic, a été aussi discutée comme perspective intéressante d'application de ce type de modèles.
18

Apprentissage par renforcement utilisant des réseaux de neurones, avec des applications au contrôle moteur

Coulom, Rémi 19 June 2002 (has links) (PDF)
Cette thèse est une étude de méthodes permettant d'estimer des fonctions valeur avec des réseaux de neurones feedforward dans l'apprentissage par renforcement. Elle traite plus particulièrement de problèmes en temps et en espace continus, tels que les tâches de contrôle moteur. Dans ce travail, l'algorithme TD(lambda) continu est perfectionné pour traiter des situations avec des états et des commandes discontinus, et l'algorithme vario-eta est proposé pour effectuer la descente de gradient de manière efficace. Les contributions essentielles de cette thèse sont des succès expérimentaux qui indiquent clairement le potentiel des réseaux de neurones feedforward pour estimer des fonctions valeur en dimension élevée. Les approximateurs de fonctions linéaires sont souvent préférés dans l'apprentissage par renforcement, mais l'estimation de fonctions valeur dans les travaux précédents se limite à des systèmes mécaniques avec très peu de degrés de liberté. La méthode présentée dans cette thèse a été appliquée avec succès sur une tâche originale d'apprentissage de la natation par un robot articulé simulé, avec 4 variables de commande et 12 variables d'état indépendantes, ce qui est sensiblement plus complexe que les problèmes qui ont été résolus avec des approximateurs de fonction linéaires.
19

Contribution d'un modèle computationnel de sélection de stratégies de navigation aux hypothèses relatives à l'apprentissage spatial

Dollé, Laurent 29 October 2010 (has links) (PDF)
De nombreuses expériences montrent la capacité des mammifères, particulièrement étudiée chez le rat, à pouvoir utiliser plusieurs types de navigation pour rejoindre un but. Ces stratégies seraient utilisées en fonction de la disponibilité de différents types d'amers présents dans l'environnement, situés à la proximité ou loin du but (resp. amers proximaux et distaux), ainsi que d'autres facteurs, comme la motivation, l'expérience ou le stress. Les études ont notamment porté ces dernières décennies sur les systèmes de mémoires engagés dans l'utilisation de ces stratégies, l'hypothèse dominante étant que des modules apprennent en parallèle des types distincts de stratégies, reposant ou non sur la construction d'une représentation interne de l'environnement. Les unes, reposant sur l'utilisation d'amers visibles, seraient apprises de manière relativement inflexible (apprentissage procédural) et impliqueraient notamment le striatum dorso-latéral. D'autres impliqueraient la formation hippocampique et reposeraient sur la construction préalable d'une "carte cognitive" de l'environnement (apprentissage déclaratif), en intégrant de manière redondante les amers disponibles. Cette carte, apprise indépendamment de la position du but, confèrerait une flexibilité importante à ce type de stratégies puisqu'elle aurait la capacité de repositionner rapidement le but, si celui-ci venait à être déplacé. L'hypothèse d'une telle représentation spatiale (théorie dite "cognitive") et de systèmes parallèles ayant des capacités différentes d'apprentissage est supportée par des comparaisons entre animaux intacts et animaux ayant des lésions des structures nerveuses concernées, de même que des expériences impliquant des manipulations de l'environnement (e.g., déplacement d'amers). Cette hypothèse est toutefois remise en question par la nature de l'apprentissage impliqué : la construction d'une représentation spatiale et son utilisation est contraire à nombre d'observations tendant à montrer que le comportement spatial est avant tout dirigé par une compétition entre les amers disponibles, résultant du même apprentissage procédural que celui mis en oeuvre dans un conditionnement opérant (théorie dite "associative"). Des expériences démontrent en effet que certains amers peuvent être occultés ou bloqués par d'autres selon qu'ils sont appris parallèlement ou séquentiellement, et remettent ainsi en question la possibilité d'intégrer ces amers de manière redondante. Selon les tenants de cette théorie, la navigation serait donc avant tout apprise et gérée de manière unitaire, empêchant ainsi l'émergence de plusieurs stratégies apprises en parallèle. Nous adoptons ici l'hypothèse, déjà formulée par d'autres neurobiologistes, que ces deux points de vue antagonistes pourraient s'expliquer par une gestion modulaire de la navigation, permettant des apprentissages différenciés et parallèles de plusieurs stratégies, et dont le mécanisme de sélection pourrait favoriser soit les compétitions entre amers, soit la nécessité de leur intégration. Cette thèse vise à concevoir un modèle computationnel de sélection de stratégies de navigation qui concilie les deux théories ou, a minima, y apporte des éléments de débats. La conception du modèle computationnel proposé dans ce travail et sous-tendu par cette hypothèse a nécessité de fait la mise en place d'une règle de sélection ne dépendant pas de la nature de l'apprentissage des stratégies et pouvant privilégier soit certains amers, soit l'utilisation d'une représentation spatiale construite avec plusieurs amers. Ce modèle sélectionne en ligne des stratégies apprises par des algorithmes d'apprentissage procéduraux (apprentissage par renforcement) et déclaratifs (recherche de graphe). Ces acquisitions s'effectuent en parallèle et peuvent favoriser une coopération entre les stratégies, car chacune peut apprendre des comportements de l'autre. Le module de sélection de ces stratégies peut inciter des interactions compétitives, car il effectue ses choix sur la base d'un apprentissage de type associatif. L'existence d'un tel module de sélection, indépendant des systèmes d'apprentissage des stratégies, est corroboré par certains travaux récents démontrant l'implication de structures du cortex préfrontal et des ganglions de la base dans cette fonction. Le dispositif expérimental utilisé est la piscine de Morris, dans laquelle le comportement spatial de rats a été étudié de façon approfondie depuis une trentaine d'années. Nous avons limité nos analyses, d'une part, aux interactions entre stratégies de guidage (utilisant directement des indices visuels) et stratégies de lieu (utilisant une représentation spatiale construite à partir de cellules de lieu simulées par un modèle d'hippocampe intégré au modèle) et, d'autre part, à la recherche d'un seul but, dépendant d'un seul système motivationnel. Après avoir démontré le comportement du modèle dans des situations où seuls certains types d'amers (proximaux ou distaux) sont présents, nous avons reproduit diverses expériences dans lesquelles l'influence de l'interaction de ces types d'amers a donné lieu à des interprétations issues de l'une ou de l'autre des deux théories antagonistes. Nous y apportons un corpus d'explications, conciliant à la fois les données neurobiologiques et comportementales, ainsi que des prédictions comportementales qui permettront aux neurobiologistes d'estimer l'utilité de ce modèle. Nous avançons notamment que l'utilisation d'une stratégie fondée sur une carte cognitive (intégration d'amers) ne peut pas être écartée, car elle se révèle indispensable pour expliquer certains effets de blocage ou d'occultation caractéristiques de la théorie associative. Nous suggérons aussi que l'existence de deux stratégies de guidage, l'une ayant un cadre de référence égocentré (apprenant les trajets conduisant au but en fonction de l'orientation du corps), l'autre un cadre de référence allocentré (apprenant une direction générale conduisant au but en fonction d'un repère absolu) doit nécessairement être prise en compte pour générer certaines interactions compétitives ou coopératives observées entre systèmes de navigation. Nous montrons aussi qu'une intégration d'amers n'est pas forcément utilisée par les animaux car une stratégie de guidage allocentrée, même fondée sur une compétition d'amers, peut être suffisante dans certains contextes pour expliquer leur comportement. En résumé, ce modèle de navigation, associant des systèmes parallèles d'apprentissage procéduraux et déclaratifs et sélectionnés par un mécanisme procédural, est en mesure de proposer une architecture computationnelle qui pourrait concilier les hypothèses issues des théories associative et cognitive du comportement spatial. Ce travail a également une retombée dans le domaine de la robotique, proposant par cette architecture une augmentation de l'autonomie dans la navigation d'un système artificiel, pouvant sélectionner en ligne les stratégies les plus efficaces pour atteindre ses ressources.
20

Une double approche modulaire de l'apprentissage par renforcement pour des agents intelligents adaptatifs

Buffet, Olivier 10 September 2003 (has links) (PDF)
Cette thèse s'est intéressée à deux domaines de l'intelligence artificielle : d'une part l'apprentissage par renforcement (A/R), et d'autre part les systèmes multi-agents (SMA). Le premier permet de concevoir des agents (entités intelligentes) en se basant sur un signal de renforcement qui récompense les décisions menant au but fixé, alors que le second concerne l'intelligence qui peut venir de l'interaction d'un groupe d'entités (dans la perspective que le tout soit plus que la somme de ses parties). Chacun de ces deux outils souffre de diverses difficultés d'emploi. Le travail que nous avons mené a permis de montrer comment chacun des deux outils peut servir à l'autre pour répondre à certains de ces problèmes. On a ainsi conçu les agents d'un SMA par A/R, et organisé l'architecture d'un agent apprenant par renforcement sous la forme d'un SMA. Ces deux outils se sont avérés très complémentaires, et notre approche globale d'une conception “progressive” a prouvé son efficacité.

Page generated in 0.1665 seconds