Return to search

Méta-enseignement : génération active d’exemples par apprentissage par renforcement

Le problème d’intérêt est un problème d’optimisation discrète dont on tente d’approximer les
solutions des instances particulières à l’aide de réseaux de neurones. Un obstacle à résoudre ce
problème par apprentissage automatique réside dans le coût d’étiquettage élevé (et variable)
des différentes instances, rendant coûteuse et difficile la génération d’un ensemble de données
étiquettées. On propose une architecture d’apprentissage actif, qu’on nomme architecture de
méta-enseignement, dans le but de pallier à ce problème. On montre comment on combine
plusieurs modèles afin de résoudre ce problème d’apprentissage actif, formulé comme un
problème de méta-apprentissage, en utilisant un agent d’apprentissage par renforcement
pour la génération active d’exemples. Ainsi, on utilise des concepts de plusieurs domaines
de l’apprentissage automatique dont des notions d’apprentissage supervisé, d’apprentissage
actif, d’apprentissage par renforcement, ainsi que des réseaux récurrents. Dans ce travail
exploratoire, on évalue notre méthodologie sur un problème simple, soit celui de classifier
des mains de poker en 10 classes pré-établies. On teste notre architecture sur ce problème
jouet dans le but de simplifier l’analyse. Malheureusement, l’avantage d’utiliser l’architecture
de génération active n’est pas significatif. On expose ensuite plusieurs pistes de réflexion
sur certaines observations à approfondir dans de futurs travaux, comme la définition de la
fonction de récompense. Dans de futurs projets, il serait également intéressant d’utiliser un
problème plus similaire au problème d’optimisation initial qui comporterait, entre autres,
des coûts d’étiquettage variables. / The motivating application behind this architecture is a discrete optimisation problem
whose solution we aim to predict using neural networks. A main challenge of solving this
problem by machine learning lies in the high (and variable) labelling cost associated to
the various instances, which leads to an expensive and difficult dataset generation. We
propose an active learning architecture, called meta-teaching, to address this problem. We
show how we combine several models to solve the active learning problem, formulated as
a metalearning problem, by using a reinforcement learning agent to actively generate new
instances. Therefore, we use concepts from various areas of machine learning, including
supervised learning, active learning, reinforcement learning and recurrent networks. In this
exploratory work, we evaluate our method on a simpler problem, which is to classify poker
hands in 10 predefined classes. We test our architecture on this toy dataset in order to
simplify the analysis. Unfortunately, we do not achieve a significant advantage using our
active generation architecture on this dataset. We outline avenues for further reflections,
including the definition of the reward function. In future projects, using a more similar
problem to our problem of interest having, among others, a variable labelling cost, would
be interesting.

Identiferoai:union.ndltd.org:umontreal.ca/oai:papyrus.bib.umontreal.ca:1866/24323
Date05 1900
CreatorsLarocque, Stéphanie
ContributorsBengio, Yoshua, Frejinger, Emma
Source SetsUniversité de Montréal
Languagefra
Detected LanguageFrench
Typethesis, thèse

Page generated in 0.003 seconds