Spelling suggestions: "subject:"continual 1earning"" "subject:"continual c1earning""
21 |
Rethinking continual learning approach and study out-of-distribution generalization algorithmsLaleh, Touraj 08 1900 (has links)
L'un des défis des systèmes d'apprentissage automatique actuels est que les paradigmes d'IA standard
ne sont pas doués pour transférer (ou exploiter) les connaissances entre les tâches. Alors que de nombreux systèmes
ont été formés et ont obtenu des performances élevées sur une distribution spécifique d'une tâche, il est
pas facile de former des systèmes d'IA qui peuvent bien fonctionner sur un ensemble diversifié de tâches qui appartiennent
aux différentes distributions. Ce problème a été abordé sous différents angles dans
différents domaines, y compris l'apprentissage continu et la généralisation hors distribution.
Si un système d'IA est formé sur un ensemble de tâches appartenant à différentes distributions, il pourrait
oublier les connaissances acquises lors des tâches précédentes. En apprentissage continu, ce processus
entraîne un oubli catastrophique qui est l'un des problèmes fondamentaux de ce domaine. La première
projet de recherche dans cette thèse porte sur la comparaison d'un apprenant chaotique et d'un naïf
configuration de l'apprentissage continu. La formation d'un modèle de réseau neuronal profond nécessite généralement plusieurs
itérations, ou époques, sur l'ensemble de données d'apprentissage, pour mieux estimer les paramètres
du modèle. La plupart des approches proposées pour ce problème tentent de compenser les effets de
mises à jour des paramètres dans la configuration incrémentielle par lots dans laquelle le modèle de formation visite un grand nombre de
échantillons pour plusieurs époques. Cependant, il n'est pas réaliste de s'attendre à ce que les données de formation soient toujours
alimenté au modèle. Dans ce chapitre, nous proposons un apprenant de flux chaotique qui imite le chaotique
comportement des neurones biologiques et ne met pas à jour les paramètres du réseau. De plus, il
peut fonctionner avec moins d'échantillons par rapport aux modèles d'apprentissage en profondeur sur les configurations d'apprentissage par flux.
Fait intéressant, nos expériences sur différents ensembles de données montrent que l'apprenant de flux chaotique
a moins d'oubli catastrophique de par sa nature par rapport à un modèle CNN en continu
apprentissage.
Les modèles d'apprentissage en profondeur ont une performance de généralisation hors distribution naïve où
la distribution des tests est inconnue et différente de la formation. Au cours des dernières années, il y a eu
eu de nombreux projets de recherche pour comparer les algorithmes hors distribution, y compris la moyenne et
méthodes basées sur les scores. Cependant, la plupart des méthodes proposées ne tiennent pas compte du niveau de difficulté
de tâches. Le deuxième projet de recherche de cette thèse, l'analyse de certains éléments logiques et pratiques
les forces et les inconvénients des méthodes existantes de comparaison et de classement hors distribution
algorithmes. Nous proposons une nouvelle approche de classement pour définir les ratios de difficulté des tâches afin de comparer les algorithmes de généralisation hors distribution. Nous avons comparé la moyenne, basée sur le score,
et des classements basés sur la difficulté de quatre tâches sélectionnées du benchmark WILDS et cinq
algorithmes hors distribution populaires pour l'expérience. L'analyse montre d'importantes
changements dans les ordres de classement par rapport aux approches de classement actuelles. / One of the challenges of current machine learning systems is that standard AI paradigms
are not good at transferring (or leveraging) knowledge across tasks. While many systems
have been trained and achieved high performance on a specific distribution of a task, it is
not easy to train AI systems that can perform well on a diverse set of tasks that belong
to different distributions. This problem has been addressed from different perspectives in
different domains including continual learning and out-of-distribution generalization.
If an AI system is trained on a set of tasks belonging to different distributions, it could
forget the knowledge it acquired from previous tasks. In continual learning, this process
results in catastrophic forgetting which is one of the core issues of this domain. The first
research project in this thesis focuses on the comparison of a chaotic learner and a naive
continual learning setup. Training a deep neural network model usually requires multiple
iterations, or epochs, over the training data set, to better estimate the parameters
of the model. Most proposed approaches for this issue try to compensate for the effects of
parameter updates in the batch incremental setup in which the training model visits a lot of
samples for several epochs. However, it is not realistic to expect training data will always be
fed to the model. In this chapter, we propose a chaotic stream learner that mimics the chaotic
behavior of biological neurons and does not update network parameters. In addition, it
can work with fewer samples compared to deep learning models on stream learning setups.
Interestingly, our experiments on different datasets show that the chaotic stream learner
has less catastrophic forgetting by its nature in comparison to a CNN model in continual
learning.
Deep Learning models have a naive out-of-distribution~(OoD) generalization performance where
the testing distribution is unknown and different from the training. In the last years, there have
been many research projects to compare OoD algorithms, including average and
score-based methods. However, most proposed methods do not consider the level of difficulty
of tasks. The second research project in this thesis, analysis some logical and practical
strengths and drawbacks of existing methods for comparing and ranking OoD
algorithms. We propose a novel ranking approach to define the task difficulty ratios to compare OoD generalization algorithms. We compared the average, score-based,
and difficulty-based rankings of four selected tasks from the WILDS benchmark and five
popular OoD algorithms for the experiment. The analysis shows significant
changes in the ranking orders compared with current ranking approaches.
|
22 |
Problem hierarchies in continual learningNormandin, Fabrice 06 1900 (has links)
La recherche en apprentissage automatique peut être vue comme une quête vers l’aboutissement d’algorithmes d’apprentissage de plus en plus généraux, applicable à des problèmes de plus en plus réalistes. Selon cette perspective, le progrès dans ce domaine peut être réalisé de deux façons: par l’amélioration des méthodes algorithmiques associées aux problèmes existants, et par l’introduction de nouveaux types de problèmes. Avec le progrès marqué du côté des méthodes d’apprentissage machine, une panoplie de nouveaux types de problèmes d’apprentissage ont aussi été proposés, où les hypothèses de problèmes existants sont assouplies ou généralisées afin de mieux refléter les conditions du monde réel. Le domaine de l’apprentissage en continu (Continual Learning) est un exemple d’un tel domaine, où l’hypothèse de
la stationarité des distributions encourues lors de l’entrainement d’un modèles est assouplie, et où les algorithmes d’apprentissages doivent donc s’adapter à des changements soudains ou progressifs dans leur environnement. Dans cet ouvrage, nous introduisons les hiérarchiées de problèmes, une application du concept de hiérarchie des types provenant des sciences informatiques, au domaine des problèmes de recherche en apprentissage machine. Les hierarchies de problèmes organisent et structurent les problèmes d’apprentissage en fonction de leurs hypothéses. Les méthodes peuvent donc définir explicitement leur domaine d’application, leur permettant donc d’être partagées et réutilisées à travers différent types de problèmes de manière polymorphique: Une méthode conçue pour un domaine donné peut aussi être appli-
quée à un domaine plus précis que celui-ci, tel qu’indiqué par leur relation dans la hierarchie de problèmes. Nous démontrons que ce système, lorsque mis en oeuvre, comporte divers bienfaits qui addressent directement plusieurs des problèmes encourus par les chercheurs en apprentissage machine. Nous démontrons la viabilité de ce principe avec Sequoia, une
infrastructure logicielle libre qui implémente une hierarchie des problèmes en apprentissage continu. Nous espérons que ce nouveau paradigme, ainsi que sa première implémentation, pourra servir à unifier et accélérer les divers efforts de recherche en apprentissage continu, ainsi qu’à encourager des efforts similaires dans d’autres domaines de recherche. Vous pouvez nous aider à faire grandir l’arbre en visitant github.com/lebrice/Sequoia. / Research in Machine Learning (ML) can be viewed as a quest to develop increasingly general
algorithmic solutions (methods) for increasingly challenging research problems (settings).
From this perspective, progress can be realized in two ways: by introducing better methods
for current settings, or by proposing interesting new settings for the research community to
solve. Alongside recent progress in methods, a wide variety of research settings have also been
introduced, often as variants of existing settings where underlying assumptions are removed
to make the problem more realistic or general. The field of Continual Learning (CL), for
example, consists of a family of settings where the stationarity assumption is removed, and
where methods as a result have to learn from environments or data distributions that can
change over time. In this work, we introduce the concept of problem hierarchies: hierarchical
structures in which research settings are systematically organized based on their assumptions.
Methods can then explicitly state their assumptions by selecting a target setting from this
hierarchy. Most importantly, these structures make it possible to easily share and reuse
research methods across different settings using inheritance, since a method developed for a
given setting is also directly applicable onto any of its children in the hierarchy. We argue
that this simple mechanism can have great implications for ML research in practice. As a
proof-of-concept of this approach, we introduce Sequoia, an open-source research framework
in which we construct a hierarchy of the settings and methods in CL. We hope that this
new paradigm and its first implementation can help unify and accelerate research in CL and
serve as inspiration for future work in other fields. You can help us grow the tree by visiting
github.com/lebrice/Sequoia.
|
23 |
A Comparison of CNN and Transformer in Continual Learning / En jämförelse mellan CNN och Transformer för kontinuerlig InlärningFu, Jingwen January 2023 (has links)
Within the realm of computer vision tasks, Convolutional Neural Networks (CNN) and Transformers represent two predominant methodologies, often subject to extensive comparative analyses elucidating their respective merits and demerits. This thesis embarks on an exploration of these two models within the framework of continual learning, with a specific focus on their propensities for resisting catastrophic forgetting. We hypothesize that Transformer models exhibit a higher resilience to catastrophic forgetting in comparison to their CNN counterparts. To substantiate this hypothesis, a meticulously crafted experimental design was implemented, involving the selection of diverse models and continual learning approaches, and careful tuning of the networks to ensure an equitable comparison. In the majority of conducted experiments, encompassing both the contexts of class incremental learning settings and task incremental learning settings, our results substantiate the aforementioned hypothesis. Nevertheless, the insights garnered also underscore the necessity for more exhaustive and encompassing experimental evaluations to fully validate the asserted hypothesis. / Inom datorseende är Convolutional Neural Networks (CNN) och Transformers två dominerande metoder, som ofta är föremål för omfattande jämförande analyser som belyser deras respektive fördelar och nackdelar. Denna avhandling utforskar dessa två modeller inom ramen för kontinuerligt lärande, med särskilt fokus på deras benägenhet att motstå katastrofal glömska. Vi antar att Transformer-modeller uppvisar en ökad motståndskraft mot katastrofal glömska i jämförelse med deras CNN-motsvarigheter. För att underbygga denna hypotes implementerades en noggrant utformad experimentell design, som involverade val av olika modeller och kontinuerliga inlärningstekniker, och noggrann inställning av nätverken för att säkerställa en rättvis jämförelse. I majoriteten av de genomförda experimenten, som omfattade både inkrementell klassinlärning och inkrementell uppgiftsinlärning, bekräftade våra resultat den ovannämnda hypotesen. De insikter vi fått understryker dock också behovet av mer uttömmande och omfattande experimentella utvärderingar för att fullt ut validera den påstådda hypotesen.
|
24 |
Efficient Continual Learning in Deep Neural NetworksGobinda Saha (18512919) 07 May 2024 (has links)
<p dir="ltr">Humans exhibit remarkable ability in continual adaptation and learning new tasks throughout their lifetime while maintaining the knowledge gained from past experiences. In stark contrast, artificial neural networks (ANNs) under such continual learning (CL) paradigm forget the information learned in the past tasks upon learning new ones. This phenomenon is known as ‘Catastrophic Forgetting’ or ‘Catastrophic Interference’. The objective of this thesis is to enable efficient continual learning in deep neural networks while mitigating this forgetting phenomenon. Towards this, first, a continual learning algorithm (SPACE) is proposed where a subset of network filters or neurons is allocated for each task using Principal Component Analysis (PCA). Such task-specific network isolation not only ensures zero forgetting but also creates structured sparsity in the network which enables energy-efficient inference. Second, a fast and more efficient training algorithm for CL is proposed by introducing Gradient Projection Memory (GPM). Here, the most important gradient spaces (GPM) for each task are computed using Singular Value Decomposition (SVD) and the new tasks are learned in the orthogonal direction to GPM to minimize forgetting. Third, to improve new learning while minimizing forgetting, a Scaled Gradient Projection (SGP) method is proposed that, in addition to orthogonal gradient updates, allows scaled updates along the important gradient spaces of the past task. Next, for continual learning on an online stream of tasks a memory efficient experience replay method is proposed. This method utilizes saliency maps explaining network’s decision for selecting memories that are replayed during new tasks for preventing forgetting. Finally, a meta-learning based continual learner - Amphibian - is proposed that achieves fast online continual learning without any experience replay. All the algorithms are evaluated on short and long sequences of tasks from standard image-classification datasets. Overall, the methods proposed in this thesis address critical limitations of DNNs for continual learning and advance the state-of-the-art in this domain.</p>
|
25 |
Utilizing energy-saving techniques to reduce energy and memory consumption when training machine learning models : Sustainable Machine Learning / Implementation av energibesparande tekniker för att minska energi- och minnesförbrukningen vid träning av modeller för maskininlärning : Hållbar maskininlärningEl Yaacoub, Khalid January 2024 (has links)
Emerging machine learning (ML) techniques are showing great potential in prediction performance. However, research and development is often conducted in an environment with extensive computational resources and blinded by prediction performance. In reality, computational resources might be contained on constrained hardware where energy and memory consumption must be restrained. Furthermore, shortages of sufficiently large datasets for ML is a frequent problem, combined with the cost of data retention. This generates a significant demand for sustainable ML. With sustainable ML, practitioners can train ML models on less data, which reduces memory and energy consumption during the training process. To explore solutions to these problems, this thesis dives into several techniques that have been introduced in the literature to achieve energy-savings when training machine learning models. These techniques include Quantization-Aware Training, Model Distillation, Quantized Distillation, Continual Learning and a deeper dive into Siamese Neural Networks (SNNs), one of the most promising techniques for sustainability. Empirical evaluations are conducted using several datasets to illustrate the potential of these techniques and their contribution to sustainable ML. The findings of this thesis show that the energy-saving techniques could be leveraged in some cases to make machine learning models more manageable and sustainable whilst not compromising significant model prediction performance. In addition, the deeper dive into SNNs shows that SNNs can outperform standard classification networks, under both the standard multi-class classification case and the Continual Learning case, whilst being trained on significantly less data. / Maskininlärning har i den senaste tidens forskning visat stor potential och hög precision inom klassificering. Forskning, som ofta bedrivs i en miljö med omfattande beräkningsresurser, kan lätt bli förblindad av precision. I verkligheten är ofta beräkningsresurser lokaliserade på hårdvara där energi- och minneskapacitet är begränsad. Ytterligare ett vanligt problem är att uppnå en tillräckligt stor datamängd för att uppnå önskvärd precision vid träning av maskininlärningsmodeller. Dessa problem skapar en betydande efterfrågan av hållbar maskininlärning. Hållbar maskininlärning har kapaciteten att träna modeller på en mindre datamängd, vilket minskar minne- och energiförbrukning under träningsprocessen. För att utforska hållbar maskininlärning analyserar denna avhandling Quantization-Aware Training, Model Distillation, Quantized Distillation, Continual Learning och en djupare evaluering av Siamesiska Neurala Nätverk (SNN), en av de mest lovande teknikerna inom hållbar maskininlärning. Empiriska utvärderingar utfördes med hjälp av flera olika datamängder för att illustrera potentialen hos dessa tekniker. Resultaten visar att energibesparingsteknikerna kan utnyttjas för att göra maskininlärningsmodeller mer hållbara utan att kompromissa för precision. Dessutom visar undersökningen av SNNs att de kan överträffa vanliga neurala nätverk, med och utan Continual Learning, även om de tränas på betydligt mindre data.
|
26 |
Look-ahead meta-learning for continual learningGupta, Gunshi 07 1900 (has links)
Le problème “d’apprentissage continu” implique l’entraînement des modèles profonds avec
une capacité limitée qui doivent bien fonctionner sur un nombre inconnu de tâches arrivant
séquentiellement. Cette configuration peut souvent résulter en un système d’apprentissage
qui souffre de “l’oublie catastrophique”, lorsque l’apprentissage d’une nouvelle tâche provoque
des interférences sur la progression de l’apprentissage des anciennes tâches. Les travaux
récents ont montré que les techniques de “méta-apprentissage” ont le potentiel de ré-
duire les interférences entre les anciennes et les nouvelles tâches. Cependant, les procé-
dures d’entraînement ont présentement une tendance à être lente ou hors ligne et sensibles
à de nombreux hyperparamètres. Dans ce travail, nous proposons “Look-ahead MAML
(La-MAML)”, un algorithme de méta-apprentissage rapide basé sur l’optimisation pour
l’apprentissage continu en ligne et aidé par une petite mémoire épisodique. Ceci est réalisé en
utilisant l’équivalence d’un objectif MAML en plusieurs étapes et un objectif d’apprentissage
continu “temps conscient”. L’équivalence résulte au développement d’un algorithme intuitif
que nous appelons Continual-MAML (C-MAML), utilisant un méta-apprentissage continu
pour optimiser un modèle afin qu’il fonctionne bien sur une série de distributions de don-
nées changeantes. En intégrant la modulation des taux d’apprentissage par paramètre dans
La-MAML, notre approche fournit un moyen plus flexible et efficace d’atténuer l’oubli catas-
trophique par rapport aux méthodes classiques basées sur les prieurs. Cette modulation a
également des liens avec des travaux sur la métadescendance, que nous identifions comme
une direction importante de la recherche pour développer de meilleurs optimiser pour un ap-
prentissage continu. Dans des expériences menées sur des repères de classification visuelle du
monde réel, La-MAML atteint des performances supérieures aux autres approches basées sur
la relecture, basées sur les prieurs et basées sur le méta-apprentissage pour un apprentissage
continu. Nous démontrons également qu’elle est robuste et plus évolutive que de nombreuses
approches de pointe. / The continual learning problem involves training models with limited capacity to perform
well on a set of an unknown number of sequentially arriving tasks. This setup can of-
ten see a learning system undergo catastrophic forgetting, when learning a newly seen task
causes interference on the learning progress of old tasks. While recent work has shown that
meta-learning has the potential to reduce interference between old and new tasks, the current
training procedures tend to be either slow or offline, and sensitive to many hyper-parameters.
In this work, we propose Look-ahead MAML (La-MAML), a fast optimisation-based meta-
learning algorithm for online-continual learning, aided by a small episodic memory. This is
achieved by realising the equivalence of a multi-step MAML objective to a time-aware con-
tinual learning objective adopted in prior work. The equivalence leads to the formulation of
an intuitive algorithm that we call Continual-MAML (C-MAML), employing continual meta-
learning to optimise a model to perform well across a series of changing data distributions.
By additionally incorporating the modulation of per-parameter learning rates in La-MAML,
our approach provides a more flexible and efficient way to mitigate catastrophic forgetting
compared to conventional prior-based methods. This modulation also has connections to
prior work on meta-descent, which we identify as an important direction of research to de-
velop better optimizers for continual learning. In experiments conducted on real-world visual
classification benchmarks, La-MAML achieves performance superior to other replay-based,
prior-based and meta-learning based approaches for continual learning. We also demonstrate
that it is robust, and more scalable than many recent state-of-the-art approaches.
|
27 |
A concept of an intent-based contextual chat-bot with capabilities for continual learningStrutynskiy, Maksym January 2020 (has links)
Chat-bots are computer programs designed to conduct textual or audible conversations with a single user. The job of a chat-bot is to be able to find the best response for any request the user issues. The best response is considered to answer the question and contain relevant information while following grammatical and lexical rules. Modern chat-bots often have trouble accomplishing all these tasks. State-of-the-art approaches, such as deep learning, and large datasets help chat-bots tackle this problem better. While there is a number of different approaches that can be applied for different kind of bots, datasets of suitable size are not always available. In this work, we introduce and evaluate a method of expanding the size of datasets. This will allow chat-bots, in combination with a good learning algorithm, to achieve higher precision while handling their tasks. The expansion method uses the continual learning approach that allows the bot to expand its own dataset while holding conversations with its users. In this work we test continual learning with IBM Watson Assistant chat-bot as well as a custom case study chat-bot implementation. We conduct the testing using a smaller and a larger datasets to find out if continual learning stays effective as the dataset size increases. The results show that the more conversations the chat-bot holds, the better it gets at guessing the intent of the user. They also show that continual learning works well for larger and smaller datasets, but the effect depends on the specifics of the chat-bot implementation. While continual learning makes good results better, it also turns bad results into worse ones, thus the chat-bot should be manually calibrated should the precision of the original results, measured before the expansion, decrease.
|
28 |
Online Unsupervised Domain Adaptation / Online-övervakad domänanpassningPanagiotakopoulos, Theodoros January 2022 (has links)
Deep Learning models have seen great application in demanding tasks such as machine translation and autonomous driving. However, building such models has proved challenging, both from a computational perspective and due to the requirement of a plethora of annotated data. Moreover, when challenged on new situations or data distributions (target domain), those models may perform inadequately. Such examples are transitioning from one city to another, different weather situations, or changes in sunlight. Unsupervised Domain adaptation (UDA) exploits unlabelled data (easy access) to adapt models to new conditions or data distributions. Inspired by the fact that environmental changes happen gradually, we focus on Online UDA. Instead of directly adjusting a model to a demanding condition, we constantly perform minor adaptions to every slight change in the data, creating a soft transition from the current domain to the target one. To perform gradual adaptation, we utilized state-of-the-art semantic segmentation approaches on increasing rain intensities (25, 50, 75, 100, and 200mm of rain). We demonstrate that deep learning models can adapt substantially better to hard domains when exploiting intermediate ones. Moreover, we introduce a model switching mechanism that allows adjusting back to the source domain, after adaptation, without dropping performance. / Deep Learning-modeller har sett stor tillämpning i krävande uppgifter som maskinöversättning och autonom körning. Att bygga sådana modeller har dock visat sig vara utmanande, både ur ett beräkningsperspektiv och på grund av kravet på en uppsjö av kommenterade data. Dessutom, när de utmanas i nya situationer eller datadistributioner (måldomän), kan dessa modeller prestera otillräckligt. Sådana exempel är övergång från en stad till en annan, olika vädersituationer eller förändringar i solljus. Unsupervised Domain adaptation (UDA) utnyttjar omärkt data (enkel åtkomst) för att anpassa modeller till nya förhållanden eller datadistributioner. Inspirerade av att miljöförändringar sker gradvis, fokuserar vi på Online UDA. Istället för att direkt anpassa en modell till ett krävande tillstånd, gör vi ständigt mindre anpassningar till varje liten förändring i data, vilket skapar en mjuk övergång från den aktuella domänen till måldomänen. För att utföra gradvis anpassning använde vi toppmoderna semantiska segmenteringsmetoder för att öka regnintensiteten (25, 50, 75, 100 och 200 mm regn). Vi visar att modeller för djupinlärning kan anpassa sig betydligt bättre till hårda domäner när man utnyttjar mellanliggande. Dessutom introducerar vi en modellväxlingsmekanism som tillåter justering tillbaka till källdomänen, efter anpassning, utan att tappa prestanda.
|
29 |
IIRC : Incremental Implicitly-Refined ClassificationAbdelsalam, Mohamed 05 1900 (has links)
Nous introduisons la configuration de la "Classification Incrémentale Implicitement Raffinée / Incremental Implicitly-Refined Classification (IIRC)", une extension de la configuration de l'apprentissage incrémental des classes où les lots de classes entrants possèdent deux niveaux de granularité, c'est-à-dire que chaque échantillon peut avoir une étiquette (label) de haut niveau (brute), comme "ours”, et une étiquette de bas niveau (plus fine), comme "ours polaire". Une seule étiquette (label) est fournie à la fois, et le modèle doit trouver l’autre étiquette s’il l’a déjà apprise. Cette configuration est plus conforme aux scénarios de la vie réelle, où un apprenant aura tendance à interagir avec la même famille d’entités plusieurs fois, découvrant ainsi encore plus de granularité à leur sujet, tout en essayant de ne pas oublier les connaissances acquises précédemment. De plus, cette configuration permet d’évaluer les modèles pour certains défis importants liés à l’apprentissage tout au long de la vie (lifelong learning) qui ne peuvent pas être facilement abordés dans les configurations existantes. Ces défis peuvent être motivés par l’exemple suivant: “si un modèle a été entraîné sur la classe ours dans une tâche et sur ours polaire dans une autre tâche; oubliera-t-il le concept d’ours, déduira-t-il à juste titre qu’un ours polaire est également un ours ? et associera-t-il à tort l’étiquette d’ours polaire à d’autres races d’ours ?” Nous développons un benchmark qui permet d’évaluer les modèles sur la configuration de l’IIRC. Nous évaluons plusieurs algorithmes d’apprentissage ”tout au long de la vie” (lifelong learning) de l’état de l’art. Par exemple, les méthodes basées sur la distillation sont relativement performantes mais ont tendance à prédire de manière incorrecte un trop grand nombre d’étiquettes par image. Nous espérons que la configuration proposée, ainsi que le benchmark, fourniront un cadre de problème significatif aux praticiens. / We introduce the "Incremental Implicitly-Refined Classification (IIRC)" setup, an extension to the class incremental learning setup where the incoming batches of classes have two granularity levels. i.e., each sample could have a high-level (coarse) label like "bear" and a low-level (fine) label like "polar bear". Only one label is provided at a time, and the model has to figure out the other label if it has already learned it. This setup is more aligned with real-life scenarios, where a learner usually interacts with the same family of entities multiple times, discovers more granularity about them, while still trying not to forget previous knowledge. Moreover, this setup enables evaluating models for some important lifelong learning challenges that cannot be easily addressed under the existing setups. These challenges can be motivated by the example "if a model was trained on the class bear in one task and on polar bear in another task, will it forget the concept of bear, will it rightfully infer that a polar bear is still a bear? and will it wrongfully associate the label of polar bear to other breeds of bear?". We develop a standardized benchmark that enables evaluating models on the IIRC setup. We evaluate several state-of-the-art lifelong learning algorithms and highlight their strengths and limitations. For example, distillation-based methods perform relatively well but are prone to incorrectly predicting too many labels per image. We hope that the proposed setup, along with the benchmark, would provide a meaningful problem setting to the practitioners.
|
30 |
The role of continual learning and adaptive computation in improving computational efficiency of deep learningGupta, Kshitij 01 1900 (has links)
Au cours de la dernière décennie, des progrès significatifs ont été réalisés dans le domaine de l’IA, principalement grâce aux progrès de l’apprentissage automatique, de l’apprentissage profond et de l’utilisation de modèles à grande échelle. Cependant, à mesure que ces modèles évoluent, ils présentent de nouveaux défis en termes de gestion de grands ensembles de données et d’efficacité informatique. Cette thèse propose des approches pour réduire les coûts de calcul de la formation et de l’inférence dans les systèmes d’intelligence artificielle (IA).
Plus précisément, ce travail étudie les techniques d’apprentissage continu et de calcul adaptatif, démontrant des stratégies possibles pour préserver les niveaux de performance de ces systèmes tout en réduisant considérablement les coûts de formation et d’inférence. Les résultats du premier article montrent que les modèles de base peuvent être continuellement pré-entraînés grâce à une méthode d’échauffement et de relecture, ce qui réduit considérable- ment les coûts de calcul de l’entraînement tout en préservant les performances par rapport à un entraînement à partir de zéro.
Par la suite, la thèse étudie comment les stratégies de calcul adaptatif, lorsqu’elles sont combinées avec la mémoire, peuvent être utilisées pour créer des agents d’IA plus efficaces au moment de l’inférence pour des tâches de raisonnement complexes, telles que le jeu stratégique de Sokoban. Nos résultats montrent que les modèles peuvent offrir des per- formances similaires ou améliorées tout en utilisant beaucoup moins de ressources de calcul. Les résultats de cette étude ont de vastes implications pour l’amélioration de l’efficacité in- formatique des systèmes d’IA, soutenant à terme le développement de technologies d’IA plus abordables, accessibles et efficaces. / Over the past decade, significant progress has been made by the field of AI, primarily due to advances in machine learning, deep learning, and the usage of large scale models. However, as these models scale, they present new challenges with respect to handling large datasets and being computationally efficient. This thesis proposes approaches to reducing computational costs of training and inference in artificial intelligence (AI) systems.
Specifically, this work investigates how Continual Learning and Adaptive Computation techniques can be used to reducing training and inference costs while preserving the perfor- mance levels of these systems . The findings of the first article show that foundation models can be continually pre-trained through a method of warm-up and replay, which significantly decreases training computational costs while preserving performance compared to training from scratch.
Subsequently, the thesis investigates how adaptive computation strategies, when com- bined with memory, can be utilized to create more computationally efficient AI agents at inference time for complex reasoning tasks, such as the strategic game of Sokoban. Our results exhibit that models can deliver similar or improved performances while using signifi- cantly fewer computational resources. Findings from this study have broad implications for improving the computational efficiency of AI systems, ultimately supporting the development of more affordable, accessible, and efficient AI technologies.
|
Page generated in 0.0664 seconds