Return to search

Rethinking continual learning approach and study out-of-distribution generalization algorithms

L'un des défis des systèmes d'apprentissage automatique actuels est que les paradigmes d'IA standard
ne sont pas doués pour transférer (ou exploiter) les connaissances entre les tâches. Alors que de nombreux systèmes
ont été formés et ont obtenu des performances élevées sur une distribution spécifique d'une tâche, il est
pas facile de former des systèmes d'IA qui peuvent bien fonctionner sur un ensemble diversifié de tâches qui appartiennent
aux différentes distributions. Ce problème a été abordé sous différents angles dans
différents domaines, y compris l'apprentissage continu et la généralisation hors distribution.

Si un système d'IA est formé sur un ensemble de tâches appartenant à différentes distributions, il pourrait
oublier les connaissances acquises lors des tâches précédentes. En apprentissage continu, ce processus
entraîne un oubli catastrophique qui est l'un des problèmes fondamentaux de ce domaine. La première
projet de recherche dans cette thèse porte sur la comparaison d'un apprenant chaotique et d'un naïf
configuration de l'apprentissage continu. La formation d'un modèle de réseau neuronal profond nécessite généralement plusieurs
itérations, ou époques, sur l'ensemble de données d'apprentissage, pour mieux estimer les paramètres
du modèle. La plupart des approches proposées pour ce problème tentent de compenser les effets de
mises à jour des paramètres dans la configuration incrémentielle par lots dans laquelle le modèle de formation visite un grand nombre de
échantillons pour plusieurs époques. Cependant, il n'est pas réaliste de s'attendre à ce que les données de formation soient toujours
alimenté au modèle. Dans ce chapitre, nous proposons un apprenant de flux chaotique qui imite le chaotique
comportement des neurones biologiques et ne met pas à jour les paramètres du réseau. De plus, il
peut fonctionner avec moins d'échantillons par rapport aux modèles d'apprentissage en profondeur sur les configurations d'apprentissage par flux.
Fait intéressant, nos expériences sur différents ensembles de données montrent que l'apprenant de flux chaotique
a moins d'oubli catastrophique de par sa nature par rapport à un modèle CNN en continu
apprentissage.

Les modèles d'apprentissage en profondeur ont une performance de généralisation hors distribution naïve où
la distribution des tests est inconnue et différente de la formation. Au cours des dernières années, il y a eu
eu de nombreux projets de recherche pour comparer les algorithmes hors distribution, y compris la moyenne et
méthodes basées sur les scores. Cependant, la plupart des méthodes proposées ne tiennent pas compte du niveau de difficulté
de tâches. Le deuxième projet de recherche de cette thèse, l'analyse de certains éléments logiques et pratiques
les forces et les inconvénients des méthodes existantes de comparaison et de classement hors distribution
algorithmes. Nous proposons une nouvelle approche de classement pour définir les ratios de difficulté des tâches afin de comparer les algorithmes de généralisation hors distribution. Nous avons comparé la moyenne, basée sur le score,
et des classements basés sur la difficulté de quatre tâches sélectionnées du benchmark WILDS et cinq
algorithmes hors distribution populaires pour l'expérience. L'analyse montre d'importantes
changements dans les ordres de classement par rapport aux approches de classement actuelles. / One of the challenges of current machine learning systems is that standard AI paradigms
are not good at transferring (or leveraging) knowledge across tasks. While many systems
have been trained and achieved high performance on a specific distribution of a task, it is
not easy to train AI systems that can perform well on a diverse set of tasks that belong
to different distributions. This problem has been addressed from different perspectives in
different domains including continual learning and out-of-distribution generalization.

If an AI system is trained on a set of tasks belonging to different distributions, it could
forget the knowledge it acquired from previous tasks. In continual learning, this process
results in catastrophic forgetting which is one of the core issues of this domain. The first
research project in this thesis focuses on the comparison of a chaotic learner and a naive
continual learning setup. Training a deep neural network model usually requires multiple
iterations, or epochs, over the training data set, to better estimate the parameters
of the model. Most proposed approaches for this issue try to compensate for the effects of
parameter updates in the batch incremental setup in which the training model visits a lot of
samples for several epochs. However, it is not realistic to expect training data will always be
fed to the model. In this chapter, we propose a chaotic stream learner that mimics the chaotic
behavior of biological neurons and does not update network parameters. In addition, it
can work with fewer samples compared to deep learning models on stream learning setups.
Interestingly, our experiments on different datasets show that the chaotic stream learner
has less catastrophic forgetting by its nature in comparison to a CNN model in continual
learning.

Deep Learning models have a naive out-of-distribution~(OoD) generalization performance where
the testing distribution is unknown and different from the training. In the last years, there have
been many research projects to compare OoD algorithms, including average and
score-based methods. However, most proposed methods do not consider the level of difficulty
of tasks. The second research project in this thesis, analysis some logical and practical
strengths and drawbacks of existing methods for comparing and ranking OoD
algorithms. We propose a novel ranking approach to define the task difficulty ratios to compare OoD generalization algorithms. We compared the average, score-based,
and difficulty-based rankings of four selected tasks from the WILDS benchmark and five
popular OoD algorithms for the experiment. The analysis shows significant
changes in the ranking orders compared with current ranking approaches.

Identiferoai:union.ndltd.org:umontreal.ca/oai:papyrus.bib.umontreal.ca:1866/32000
Date08 1900
CreatorsLaleh, Touraj
ContributorsRish, Irina
Source SetsUniversité de Montréal
LanguageEnglish
Detected LanguageFrench
Typethesis, thèse
Formatapplication/pdf

Page generated in 0.0168 seconds