Spelling suggestions: "subject:"apprentissage continu"" "subject:"apprentissage kontinu""
1 |
Apprentissage spatial de corrélations multimodales par des mécanismes d'inspiration corticale / Spatial learning of multimodal correlations in a cortically inspired wayLefort, Mathieu 04 July 2012 (has links)
Cette thèse traite de la problématique de l'unification de différents flux d'informations modales qui peuvent provenir des senseurs d'un agent. Cette unification, inspirée des expériences psychologiques comme l'effet ventriloque, s'appuie sur la détection de corrélations, définies comme des motifs spatiauxqui apparaissent régulièrement dans les flux d'entrée. L'apprentissage de l'espace des corrélations du flux d'entrée échantillonne cet espace et généralise les échantillons appris. Cette thèse propose des principes fonctionnels pour le traitement multimodal de l'information qui ont aboutit à l'architectureconnexionniste, générique, modulaire et cortico-inspirée SOMMA (Self-Organizing Maps for Multimodal Association). Dans ce modèle, le traitement de chaque modalité s'effectue au sein d'une carte corticale. L'unification multimodale de l'information est obtenue par la mise en relation réciproque de ces cartes.L'échantillonnage et la généralisation des corrélations reposent sur une auto-organisation contrainte des cartes. Ce modèle est caractérisé par un apprentissage progressif de ces propriétés fonctionnelles : les propriétés monomodales amorcent l'émergence des propriétés multimodales et, dans le même temps, l'apprentissagede certaines corrélations par chaque carte est un préalable à l'auto-organisation de ces cartes. Par ailleurs, l'utilisation d'une architecture connexionniste et d'un apprentissage continu et non supervisé fournit au modèle des propriétés de robustesse et d'adaptabilité qui sont généralement absentes des approches informatiques classiques. / This thesis focuses on unifying multiple modal data flows that may be provided by sensors of an agent. This unification, inspired by psychological experiments like the ventriloquist effect, is based on detecting correlations which are defined as temporally recurrent spatial patterns that appear in the input flows. Learning of the input flow correlations space consists on sampling this space and generalizing theselearned samples. This thesis proposed some functional paradigms for multimodal data processing, leading to the connectionist, generic, modular and cortically inspired architecture SOMMA (Self-Organizing Maps for Multimodal Association). In this model, each modal stimulus is processed in a cortical map. Interconnectionof these maps provides an unifying multimodal data processing. Sampling and generalization of correlations are based on the constrained self-organization of each map. The model is characterised by a gradual emergence of these functional properties : monomodal properties lead to the emergence of multimodal ones and learning of correlations in each map precedes self-organization of these maps.Furthermore, the use of a connectionist architecture and of on-line and unsupervised learning provides plasticity and robustness properties to the data processing in SOMMA. Classical artificial intelligence models usually miss such properties.
|
2 |
Apprentissage spatial de corrélations multimodales par des mécanismes d'inspiration corticaleLefort, Mathieu 04 July 2012 (has links) (PDF)
Cette thèse traite de la problématique de l'unification de différents flux d'informations modales qui peuvent provenir des senseurs d'un agent. Cette unification, inspirée des expériences psychologiques comme l'effet ventriloque, s'appuie sur la détection de corrélations, définies comme des motifs spatiaux qui apparaissent régulièrement dans les flux d'entrée. L'apprentissage de l'espace des corrélations du flux d'entrée échantillonne cet espace et généralise les échantillons appris. Cette thèse propose des principes fonctionnels pour le traitement multimodal de l'information qui ont aboutit à l'architecture connexionniste, générique, modulaire et cortico-inspirée SOMMA (Self-Organizing Maps for Multimodal Association). Dans ce modèle, le traitement de chaque modalité s'effectue au sein d'une carte corticale. L'unification multimodale de l'information est obtenue par la mise en relation réciproque de ces cartes. L'échantillonnage et la généralisation des corrélations reposent sur une auto-organisation contrainte des cartes. Ce modèle est caractérisé par un apprentissage progressif de ces propriétés fonctionnelles: les propriétés monomodales amorcent l'émergence des propriétés multimodales et, dans le même temps, l'apprentissage de certaines corrélations par chaque carte est un préalable à l'auto-organisation de ces cartes. Par ailleurs, l'utilisation d'une architecture connexionniste et d'un apprentissage continu et non supervisé fournit au modèle des propriétés de robustesse et d'adaptabilité qui sont généralement absentes des approches informatiques classiques.
|
3 |
Rethinking continual learning approach and study out-of-distribution generalization algorithmsLaleh, Touraj 08 1900 (has links)
L'un des défis des systèmes d'apprentissage automatique actuels est que les paradigmes d'IA standard
ne sont pas doués pour transférer (ou exploiter) les connaissances entre les tâches. Alors que de nombreux systèmes
ont été formés et ont obtenu des performances élevées sur une distribution spécifique d'une tâche, il est
pas facile de former des systèmes d'IA qui peuvent bien fonctionner sur un ensemble diversifié de tâches qui appartiennent
aux différentes distributions. Ce problème a été abordé sous différents angles dans
différents domaines, y compris l'apprentissage continu et la généralisation hors distribution.
Si un système d'IA est formé sur un ensemble de tâches appartenant à différentes distributions, il pourrait
oublier les connaissances acquises lors des tâches précédentes. En apprentissage continu, ce processus
entraîne un oubli catastrophique qui est l'un des problèmes fondamentaux de ce domaine. La première
projet de recherche dans cette thèse porte sur la comparaison d'un apprenant chaotique et d'un naïf
configuration de l'apprentissage continu. La formation d'un modèle de réseau neuronal profond nécessite généralement plusieurs
itérations, ou époques, sur l'ensemble de données d'apprentissage, pour mieux estimer les paramètres
du modèle. La plupart des approches proposées pour ce problème tentent de compenser les effets de
mises à jour des paramètres dans la configuration incrémentielle par lots dans laquelle le modèle de formation visite un grand nombre de
échantillons pour plusieurs époques. Cependant, il n'est pas réaliste de s'attendre à ce que les données de formation soient toujours
alimenté au modèle. Dans ce chapitre, nous proposons un apprenant de flux chaotique qui imite le chaotique
comportement des neurones biologiques et ne met pas à jour les paramètres du réseau. De plus, il
peut fonctionner avec moins d'échantillons par rapport aux modèles d'apprentissage en profondeur sur les configurations d'apprentissage par flux.
Fait intéressant, nos expériences sur différents ensembles de données montrent que l'apprenant de flux chaotique
a moins d'oubli catastrophique de par sa nature par rapport à un modèle CNN en continu
apprentissage.
Les modèles d'apprentissage en profondeur ont une performance de généralisation hors distribution naïve où
la distribution des tests est inconnue et différente de la formation. Au cours des dernières années, il y a eu
eu de nombreux projets de recherche pour comparer les algorithmes hors distribution, y compris la moyenne et
méthodes basées sur les scores. Cependant, la plupart des méthodes proposées ne tiennent pas compte du niveau de difficulté
de tâches. Le deuxième projet de recherche de cette thèse, l'analyse de certains éléments logiques et pratiques
les forces et les inconvénients des méthodes existantes de comparaison et de classement hors distribution
algorithmes. Nous proposons une nouvelle approche de classement pour définir les ratios de difficulté des tâches afin de comparer les algorithmes de généralisation hors distribution. Nous avons comparé la moyenne, basée sur le score,
et des classements basés sur la difficulté de quatre tâches sélectionnées du benchmark WILDS et cinq
algorithmes hors distribution populaires pour l'expérience. L'analyse montre d'importantes
changements dans les ordres de classement par rapport aux approches de classement actuelles. / One of the challenges of current machine learning systems is that standard AI paradigms
are not good at transferring (or leveraging) knowledge across tasks. While many systems
have been trained and achieved high performance on a specific distribution of a task, it is
not easy to train AI systems that can perform well on a diverse set of tasks that belong
to different distributions. This problem has been addressed from different perspectives in
different domains including continual learning and out-of-distribution generalization.
If an AI system is trained on a set of tasks belonging to different distributions, it could
forget the knowledge it acquired from previous tasks. In continual learning, this process
results in catastrophic forgetting which is one of the core issues of this domain. The first
research project in this thesis focuses on the comparison of a chaotic learner and a naive
continual learning setup. Training a deep neural network model usually requires multiple
iterations, or epochs, over the training data set, to better estimate the parameters
of the model. Most proposed approaches for this issue try to compensate for the effects of
parameter updates in the batch incremental setup in which the training model visits a lot of
samples for several epochs. However, it is not realistic to expect training data will always be
fed to the model. In this chapter, we propose a chaotic stream learner that mimics the chaotic
behavior of biological neurons and does not update network parameters. In addition, it
can work with fewer samples compared to deep learning models on stream learning setups.
Interestingly, our experiments on different datasets show that the chaotic stream learner
has less catastrophic forgetting by its nature in comparison to a CNN model in continual
learning.
Deep Learning models have a naive out-of-distribution~(OoD) generalization performance where
the testing distribution is unknown and different from the training. In the last years, there have
been many research projects to compare OoD algorithms, including average and
score-based methods. However, most proposed methods do not consider the level of difficulty
of tasks. The second research project in this thesis, analysis some logical and practical
strengths and drawbacks of existing methods for comparing and ranking OoD
algorithms. We propose a novel ranking approach to define the task difficulty ratios to compare OoD generalization algorithms. We compared the average, score-based,
and difficulty-based rankings of four selected tasks from the WILDS benchmark and five
popular OoD algorithms for the experiment. The analysis shows significant
changes in the ranking orders compared with current ranking approaches.
|
4 |
IIRC : Incremental Implicitly-Refined ClassificationAbdelsalam, Mohamed 05 1900 (has links)
Nous introduisons la configuration de la "Classification Incrémentale Implicitement Raffinée / Incremental Implicitly-Refined Classification (IIRC)", une extension de la configuration de l'apprentissage incrémental des classes où les lots de classes entrants possèdent deux niveaux de granularité, c'est-à-dire que chaque échantillon peut avoir une étiquette (label) de haut niveau (brute), comme "ours”, et une étiquette de bas niveau (plus fine), comme "ours polaire". Une seule étiquette (label) est fournie à la fois, et le modèle doit trouver l’autre étiquette s’il l’a déjà apprise. Cette configuration est plus conforme aux scénarios de la vie réelle, où un apprenant aura tendance à interagir avec la même famille d’entités plusieurs fois, découvrant ainsi encore plus de granularité à leur sujet, tout en essayant de ne pas oublier les connaissances acquises précédemment. De plus, cette configuration permet d’évaluer les modèles pour certains défis importants liés à l’apprentissage tout au long de la vie (lifelong learning) qui ne peuvent pas être facilement abordés dans les configurations existantes. Ces défis peuvent être motivés par l’exemple suivant: “si un modèle a été entraîné sur la classe ours dans une tâche et sur ours polaire dans une autre tâche; oubliera-t-il le concept d’ours, déduira-t-il à juste titre qu’un ours polaire est également un ours ? et associera-t-il à tort l’étiquette d’ours polaire à d’autres races d’ours ?” Nous développons un benchmark qui permet d’évaluer les modèles sur la configuration de l’IIRC. Nous évaluons plusieurs algorithmes d’apprentissage ”tout au long de la vie” (lifelong learning) de l’état de l’art. Par exemple, les méthodes basées sur la distillation sont relativement performantes mais ont tendance à prédire de manière incorrecte un trop grand nombre d’étiquettes par image. Nous espérons que la configuration proposée, ainsi que le benchmark, fourniront un cadre de problème significatif aux praticiens. / We introduce the "Incremental Implicitly-Refined Classification (IIRC)" setup, an extension to the class incremental learning setup where the incoming batches of classes have two granularity levels. i.e., each sample could have a high-level (coarse) label like "bear" and a low-level (fine) label like "polar bear". Only one label is provided at a time, and the model has to figure out the other label if it has already learned it. This setup is more aligned with real-life scenarios, where a learner usually interacts with the same family of entities multiple times, discovers more granularity about them, while still trying not to forget previous knowledge. Moreover, this setup enables evaluating models for some important lifelong learning challenges that cannot be easily addressed under the existing setups. These challenges can be motivated by the example "if a model was trained on the class bear in one task and on polar bear in another task, will it forget the concept of bear, will it rightfully infer that a polar bear is still a bear? and will it wrongfully associate the label of polar bear to other breeds of bear?". We develop a standardized benchmark that enables evaluating models on the IIRC setup. We evaluate several state-of-the-art lifelong learning algorithms and highlight their strengths and limitations. For example, distillation-based methods perform relatively well but are prone to incorrectly predicting too many labels per image. We hope that the proposed setup, along with the benchmark, would provide a meaningful problem setting to the practitioners.
|
5 |
The role of continual learning and adaptive computation in improving computational efficiency of deep learningGupta, Kshitij 01 1900 (has links)
Au cours de la dernière décennie, des progrès significatifs ont été réalisés dans le domaine de l’IA, principalement grâce aux progrès de l’apprentissage automatique, de l’apprentissage profond et de l’utilisation de modèles à grande échelle. Cependant, à mesure que ces modèles évoluent, ils présentent de nouveaux défis en termes de gestion de grands ensembles de données et d’efficacité informatique. Cette thèse propose des approches pour réduire les coûts de calcul de la formation et de l’inférence dans les systèmes d’intelligence artificielle (IA).
Plus précisément, ce travail étudie les techniques d’apprentissage continu et de calcul adaptatif, démontrant des stratégies possibles pour préserver les niveaux de performance de ces systèmes tout en réduisant considérablement les coûts de formation et d’inférence. Les résultats du premier article montrent que les modèles de base peuvent être continuellement pré-entraînés grâce à une méthode d’échauffement et de relecture, ce qui réduit considérable- ment les coûts de calcul de l’entraînement tout en préservant les performances par rapport à un entraînement à partir de zéro.
Par la suite, la thèse étudie comment les stratégies de calcul adaptatif, lorsqu’elles sont combinées avec la mémoire, peuvent être utilisées pour créer des agents d’IA plus efficaces au moment de l’inférence pour des tâches de raisonnement complexes, telles que le jeu stratégique de Sokoban. Nos résultats montrent que les modèles peuvent offrir des per- formances similaires ou améliorées tout en utilisant beaucoup moins de ressources de calcul. Les résultats de cette étude ont de vastes implications pour l’amélioration de l’efficacité in- formatique des systèmes d’IA, soutenant à terme le développement de technologies d’IA plus abordables, accessibles et efficaces. / Over the past decade, significant progress has been made by the field of AI, primarily due to advances in machine learning, deep learning, and the usage of large scale models. However, as these models scale, they present new challenges with respect to handling large datasets and being computationally efficient. This thesis proposes approaches to reducing computational costs of training and inference in artificial intelligence (AI) systems.
Specifically, this work investigates how Continual Learning and Adaptive Computation techniques can be used to reducing training and inference costs while preserving the perfor- mance levels of these systems . The findings of the first article show that foundation models can be continually pre-trained through a method of warm-up and replay, which significantly decreases training computational costs while preserving performance compared to training from scratch.
Subsequently, the thesis investigates how adaptive computation strategies, when com- bined with memory, can be utilized to create more computationally efficient AI agents at inference time for complex reasoning tasks, such as the strategic game of Sokoban. Our results exhibit that models can deliver similar or improved performances while using signifi- cantly fewer computational resources. Findings from this study have broad implications for improving the computational efficiency of AI systems, ultimately supporting the development of more affordable, accessible, and efficient AI technologies.
|
6 |
The shifting landscape of data : learning to tame distributional shiftsIbrahim, Adam 05 1900 (has links)
Les modèles d'apprentissage automatique (ML) atteignent des performances remarquables sur les tâches pour lesquelles ils sont entraînés. Cependant, ils sont souvent sensibles aux changements dans la distribution des données, ce qui peut nuir à leur fiabilité. Cela peut se produire lorsque la distribution des données rencontrées au déploiement diffère de celle vue pendant l'entraînement, entraînant une dégradation considérable des performances. Pire encore, les attaquants peuvent également induire de tels changements afin d'induire les modèles d'apprentissage automatique en erreur. Enfin, cela peut même arriver si l'entraînement est effectué séquentiellement sur des distributions de données différentes. Ces changements de distribution sont omniprésents en ML, nuisant à l'équité, à la fiabilité, à la sécurité et à l'efficacité des modèles d'apprentissage automatique. Cette thèse se concentre sur la compréhension et l'amélioration de la robustesse et de l'adaptation des modèles de ML aux changements de distribution, englobant à la fois des travaux théoriques et expérimentaux.
Tout d'abord, nous étudions les limites fondamentales de l'optimisation différentiable à plusieurs objectifs. Une meilleure compréhension de ces limites est importante car les travaux sur les changements de distribution reposent souvent sur des formulations de la théorie des jeux. Nous fournissons de nouvelles bornes inférieures sur la vitesse de convergence d'une large classe de méthodes, ainsi que de nouvelles métriques de conditionnement qui aident à évaluer la difficulté d'optimiser des classes de jeux, et expliquent le potentiel de convergence rapide, même sans forte convexité ou forte concavité.
Deuxièmement, nous abordons le manque de robustesse aux attaques adversarielles contre plusieurs types d'attaques, une limitation courante des méthodes de pointe. Nous proposons une approche inspirée de la généralisation de domaine, utilisant l'extrapolation des risques (REx) pour promouvoir la robustesse à plusieurs attaques. Notre méthode atteint des performances supérieures aux bases de référence existantes, que les attaques aient été vues ou non lors de l'entraînement.
Enfin, nous nous intéressons aux défis du pré-entraînement continu pour les grands modèles de langage (LLM). Ces modèles sont confrontés à un compromis: soit ils oublient de manière catastrophique les connaissances antérieures lorsqu'ils sont mis à jour sur de nouvelles données, soit ils nécessitent un réentraînement complet coûteux en calcul. Nous démontrons qu'une combinaison de réchauffement et de re-décroissance du taux d'apprentissage, et de réutilisation des données précédemment utilisées permet aux LLM d'apprendre continuellement à partir de nouvelles distributions tout en préservant leurs performances sur les données auparavant apprises. Cette approche permet d'atteindre les performances d'un réentraînement complet, mais à une fraction du coût en calcul.
Dans l'ensemble, cette thèse apporte des considérations importantes pour améliorer la robustesse et l'adaptation aux changements de distribution. Ces contributions ouvrent des voies prometteuses pour relever les défis du ML du monde réel dans l'optimisation multiobjectif, la défense contre les adversaires et l'apprentissage continu des grands modèles de langage. / Machine learning (ML) models achieve remarkable performance on tasks they are trained for. However, they often are sensitive to shifts in the data distribution, which may lead to unexpected behaviour. This can happen when the data distribution encountered during deployment differs from that used for training, leading to considerable degradation of performance. Worse, attackers may also induce such shifts to fool machine learning models. Finally, this can even happen when training sequentially on different data distribution. These distributional shifts are pervasive in ML, hindering the fairness, reliability, safety and efficiency of machine learning models. This thesis is focused on understanding and improving the robustness and adaptation of ML models to distributional shifts, encompassing both theoretical and experimental work.
First, we investigate the fundamental limits of differentiable multiobjective optimisation. This investigation is important because works on distributional shifts often rely on game theoretical formulations. We provide new lower bounds on the speed of convergence of a large class of methods, along with novel condition numbers that help assess the difficulty to optimise classes of games, and explain the potential for fast convergence even without strong convexity or strong concavity.
Second, we address the lack of adversarial robustness against multiple attack types, a common limitation of state-of-the-art methods. We propose a domain generalisation-inspired approach, using Risk Extrapolation (REx) to promote robustness across a range of attacks. Our method achieves performance superior to existing baselines for both seen and novel types of attacks.
Finally, we tackle the challenges of continual pretraining for large language models (LLMs). These models face a trade-off: either they catastrophically forget previous knowledge when updated on new data, or they require computationally expensive full retraining. We demonstrate that a combination of learning rate re-warming, re-decaying, and the replay of previous data allows LLMs to continually learn from new distributions while preserving past knowledge. This approach matches the performance of full retraining, but at a fraction of the computational cost.
Overall, this thesis contributes impactful considerations towards improving robustness and adaptation to distributional shifts. These contributions open promising avenues for addressing real-world ML challenges across multiobjective optimisation, adversarial defense, and continual learning of large language models.
|
Page generated in 0.0866 seconds