Spelling suggestions: "subject:"oubli catastrophic"" "subject:"oubli catastrophe""
1 |
Re-weighted softmax cross-entropy to control forgetting in federated learningLegate, Gwendolyne 12 1900 (has links)
Dans l’apprentissage fédéré, un modèle global est appris en agrégeant les mises à jour du
modèle calculées à partir d’un ensemble de nœuds clients, un défi clé dans ce domaine est
l’hétérogénéité des données entre les clients qui dégrade les performances du modèle. Les
algorithmes d’apprentissage fédéré standard effectuent plusieurs étapes de gradient avant
de synchroniser le modèle, ce qui peut amener les clients à minimiser exagérément leur
propre objectif local et à s’écarter de la solution globale. Nous démontrons que dans un tel
contexte, les modèles de clients individuels subissent un oubli catastrophique par rapport
aux données d’autres clients et nous proposons une approche simple mais efficace qui
modifie l’objectif d’entropie croisée sur une base par client en repondérant le softmax de les
logits avant de calculer la perte. Cette approche protège les classes en dehors de l’ensemble
d’étiquettes d’un client d’un changement de représentation brutal. Grâce à une évaluation
empirique approfondie, nous démontrons que notre approche peut atténuer ce problème,
en apportant une amélioration continue aux algorithmes d’apprentissage fédéré standard.
Cette approche est particulièrement avantageux dans les contextes d’apprentissage fédéré
difficiles les plus étroitement alignés sur les scénarios du monde réel où l’hétérogénéité des
données est élevée et la participation des clients à chaque cycle est faible. Nous étudions
également les effets de l’utilisation de la normalisation par lots et de la normalisation de
groupe avec notre méthode et constatons que la normalisation par lots, qui était auparavant
considérée comme préjudiciable à l’apprentissage fédéré, fonctionne exceptionnellement bien
avec notre softmax repondéré, remettant en question certaines hypothèses antérieures sur la
normalisation dans un système fédéré / In Federated Learning, a global model is learned by aggregating model updates computed
from a set of client nodes, a key challenge in this domain is data heterogeneity across
clients which degrades model performance. Standard federated learning algorithms perform
multiple gradient steps before synchronizing the model which can lead to clients overly
minimizing their own local objective and diverging from the global solution. We demonstrate
that in such a setting, individual client models experience a catastrophic forgetting with
respect to data from other clients and we propose a simple yet efficient approach that
modifies the cross-entropy objective on a per-client basis by re-weighting the softmax of
the logits prior to computing the loss. This approach shields classes outside a client’s
label set from abrupt representation change. Through extensive empirical evaluation, we
demonstrate our approach can alleviate this problem, providing consistent improvement to
standard federated learning algorithms. It is particularly beneficial under the challenging
federated learning settings most closely aligned with real world scenarios where data
heterogeneity is high and client participation in each round is low. We also investigate the
effects of using batch normalization and group normalization with our method and find that
batch normalization which has previously been considered detrimental to federated learning
performs particularly well with our re-weighted softmax, calling into question some prior
assumptions about normalization in a federated setting
|
2 |
The role of continual learning and adaptive computation in improving computational efficiency of deep learningGupta, Kshitij 01 1900 (has links)
Au cours de la dernière décennie, des progrès significatifs ont été réalisés dans le domaine de l’IA, principalement grâce aux progrès de l’apprentissage automatique, de l’apprentissage profond et de l’utilisation de modèles à grande échelle. Cependant, à mesure que ces modèles évoluent, ils présentent de nouveaux défis en termes de gestion de grands ensembles de données et d’efficacité informatique. Cette thèse propose des approches pour réduire les coûts de calcul de la formation et de l’inférence dans les systèmes d’intelligence artificielle (IA).
Plus précisément, ce travail étudie les techniques d’apprentissage continu et de calcul adaptatif, démontrant des stratégies possibles pour préserver les niveaux de performance de ces systèmes tout en réduisant considérablement les coûts de formation et d’inférence. Les résultats du premier article montrent que les modèles de base peuvent être continuellement pré-entraînés grâce à une méthode d’échauffement et de relecture, ce qui réduit considérable- ment les coûts de calcul de l’entraînement tout en préservant les performances par rapport à un entraînement à partir de zéro.
Par la suite, la thèse étudie comment les stratégies de calcul adaptatif, lorsqu’elles sont combinées avec la mémoire, peuvent être utilisées pour créer des agents d’IA plus efficaces au moment de l’inférence pour des tâches de raisonnement complexes, telles que le jeu stratégique de Sokoban. Nos résultats montrent que les modèles peuvent offrir des per- formances similaires ou améliorées tout en utilisant beaucoup moins de ressources de calcul. Les résultats de cette étude ont de vastes implications pour l’amélioration de l’efficacité in- formatique des systèmes d’IA, soutenant à terme le développement de technologies d’IA plus abordables, accessibles et efficaces. / Over the past decade, significant progress has been made by the field of AI, primarily due to advances in machine learning, deep learning, and the usage of large scale models. However, as these models scale, they present new challenges with respect to handling large datasets and being computationally efficient. This thesis proposes approaches to reducing computational costs of training and inference in artificial intelligence (AI) systems.
Specifically, this work investigates how Continual Learning and Adaptive Computation techniques can be used to reducing training and inference costs while preserving the perfor- mance levels of these systems . The findings of the first article show that foundation models can be continually pre-trained through a method of warm-up and replay, which significantly decreases training computational costs while preserving performance compared to training from scratch.
Subsequently, the thesis investigates how adaptive computation strategies, when com- bined with memory, can be utilized to create more computationally efficient AI agents at inference time for complex reasoning tasks, such as the strategic game of Sokoban. Our results exhibit that models can deliver similar or improved performances while using signifi- cantly fewer computational resources. Findings from this study have broad implications for improving the computational efficiency of AI systems, ultimately supporting the development of more affordable, accessible, and efficient AI technologies.
|
3 |
On challenges in training recurrent neural networksAnbil Parthipan, Sarath Chandar 11 1900 (has links)
Dans un problème de prédiction à multiples pas discrets, la prédiction à chaque instant peut dépendre de l’entrée à n’importe quel moment dans un passé lointain. Modéliser une telle dépendance à long terme est un des problèmes fondamentaux en apprentissage automatique. En théorie, les Réseaux de Neurones Récurrents (RNN) peuvent modéliser toute dépendance à long terme. En pratique, puisque la magnitude des gradients peut croître ou décroître exponentiellement avec la durée de la séquence, les RNNs ne peuvent modéliser que les dépendances à court terme. Cette thèse explore ce problème dans les réseaux de neurones récurrents et propose de nouvelles solutions pour celui-ci.
Le chapitre 3 explore l’idée d’utiliser une mémoire externe pour stocker les états cachés d’un réseau à Mémoire Long et Court Terme (LSTM). En rendant l’opération d’écriture et de lecture de la mémoire externe discrète, l’architecture proposée réduit le taux de décroissance des gradients dans un LSTM. Ces opérations discrètes permettent également au réseau de créer des connexions dynamiques sur de longs intervalles de temps. Le chapitre 4 tente de caractériser cette décroissance des gradients dans un réseau de neurones récurrent et propose une nouvelle architecture récurrente qui, grâce à sa conception, réduit ce problème. L’Unité Récurrente Non-saturante (NRUs) proposée n’a pas de fonction d’activation saturante et utilise la mise à jour additive de cellules au lieu de la mise à jour multiplicative.
Le chapitre 5 discute des défis de l’utilisation de réseaux de neurones récurrents dans un contexte d’apprentissage continuel, où de nouvelles tâches apparaissent au fur et à mesure. Les dépendances dans l’apprentissage continuel ne sont pas seulement contenues dans une tâche, mais sont aussi présentes entre les tâches. Ce chapitre discute de deux problèmes fondamentaux dans l’apprentissage continuel: (i) l’oubli catastrophique d’anciennes tâches et (ii) la capacité de saturation du réseau. De plus, une solution est proposée pour régler ces deux problèmes lors de l’entraînement d’un réseau de neurones récurrent. / In a multi-step prediction problem, the prediction at each time step can depend on the input at any of the previous time steps far in the past. Modelling such long-term dependencies is one of the fundamental problems in machine learning. In theory, Recurrent Neural Networks (RNNs) can model any long-term dependency. In practice, they can only model short-term dependencies due to the problem of vanishing and exploding gradients. This thesis explores the problem of vanishing gradient in recurrent neural networks and proposes novel solutions for the same.
Chapter 3 explores the idea of using external memory to store the hidden states of a Long Short Term Memory (LSTM) network. By making the read and write operations of the external memory discrete, the proposed architecture reduces the rate of gradients vanishing in an LSTM. These discrete operations also enable the network to create dynamic skip connections across time. Chapter 4 attempts to characterize all the sources of vanishing gradients in a recurrent neural network and proposes a new recurrent architecture which has significantly better gradient flow than state-of-the-art recurrent architectures. The proposed Non-saturating Recurrent Units (NRUs) have no saturating activation functions and use additive cell updates instead of multiplicative cell updates.
Chapter 5 discusses the challenges of using recurrent neural networks in the context of lifelong learning. In the lifelong learning setting, the network is expected to learn a series of tasks over its lifetime. The dependencies in lifelong learning are not just within a task, but also across the tasks. This chapter discusses the two fundamental problems in lifelong learning: (i) catastrophic forgetting of old tasks, and (ii) network capacity saturation. Further, it proposes a solution to solve both these problems while training a recurrent neural network.
|
Page generated in 0.0765 seconds