Return to search

Theoretical framework for prior knowledge transfer in deep learning

Thèse ou mémoire avec insertion d'articles / Le transfert de connaissances a priori est essentiel pour améliorer les performances des modèles modernes d'apprentissage profond et réduire les coûts pour les entraîner. Cet article vise à étudier ce sujet important en établissant des cadres théoriques systématiques pour le transfert de connaissances a priori en apprentissage profond. Premièrement, nous introduisons un cadre théorique unifié reliant les approches conventionnelles d'apprentissage à apprendre et les méthodes modernes de méta-apprentissage indépendant du modèle (MAML). Les méthodes conventionnelles apprennent conjointement des modèles spécifiques à une tâche et des méta-paramètres en utilisant tous les données, tandis que MAML alterne entre les données de méta-train et de méta-validation pour entraîner les modèles et les méta-paramètres. Nous fournissons des bornes de généralisation qui sont dépendantes de l'algorithme d'apprentissage et des données, garantissant l'efficacité des deux approches. De plus, nous analysons l'impact des séparations des données de méta-train et méta-validation sur l'apprentissage alterné et proposons des bornes de généralisation non-trivials pour "l'apprentissage profond avec peu d'exemples", qui sont estimées avec l'incohérence de gradient entre les donnés de méta-train et tous les données. Par la suite, pour l'adaptation de domaine, cette thèse procède à une analyse complète des travaux théoriques antérieurs, visant à aborder certaines limites concernant les approches utilisant l'alignement de la représentation, le changement de distribution cible et le pseudo-étiquetage. Concrètement, nous présentons des analyses rigoureuses basées sur la théorie de l'information mutuelle pour l'adaptation de domaine multi-sources et proposons un algorithme qui effectue un alignement de représentation conjointe avec des pseudo-étiquettes pour atténuer le changement de distribution cible. Cet algorithme peut surpasser celui des travaux précédents dans le scénario non supervisé. Enfin, nous visons à résoudre le dilemme stabilité-plasticité dans le méta-apprentissage continu. Nous sommes les premiers à formuler théoriquement ce problème constitué d'un mélange d'apprentissage statistique et d'apprentissage en ligne dans des environnements statiques ou changeants. La théorie proposée peut identifier les facteurs influençant le compromis apprentissage-oubli à deux niveaux pour l'apprenant d'une tache et le méta-apprenant dans des environnements changeants. Nous proposons en outre un algorithme qui équilibre ce compromis à deux niveaux avec des performances empiriques améliorées. Dans l'ensemble, cette thèse fournit un cadre théorique unifié pour le méta-apprentissage, résout certaines limitations de l'adaptation de domaine et aborde le dilemme stabilité-plasticité dans le méta-apprentissage continu. Ses contributions constituent une amélioration de notre compréhension de ces domaines et proposent de meilleures méthodes de transfert de connaissances dans l'apprentissage profond. / Transferring prior knowledge is crucial in enhancing performance and reducing the training costs of modern deep-learning models. This thesis aims to study this important topic by developing systematic theoretical frameworks for prior knowledge transfer in deep learning. Firstly, we introduce a unified theoretical framework connecting the conventional learning-to-learn approaches and the modern model-agnostic meta-learning (MAML) methods. Conventional methods jointly learn task-specific models and meta-parameters using the entire dataset, while MAML alternates between meta-train and meta-validation sets for training models and meta-parameters. We provide algorithm-dependent and data-dependent generalization bounds, ensuring the effectiveness of both approaches. Furthermore, we analyze the impact of meta-train-validation split on alternate training methods and offer non-vacuous generalization bounds for deep few-shot learning estimated with the gradient-incoherence between the meta-train and the entire dataset. Subsequently, for domain adaptation, the thesis conducts a comprehensive analysis of previous theoretical works, aiming to address several limitations in representation alignment, target shift, and pseudo-labeling. Concretely, we present rigorous analyses based on information-theoretic learning theory for multi-source domain adaptation and propose an algorithm that conducts joint representation alignment with pseudo labels to mitigate target shift. The proposed algorithm outperforms previous works under the unsupervised scenario. Finally, we aim to address the stability-plasticity dilemma in continual meta-learning. We are the first to theoretically formulate this online statistical mixture learning problem in both static and shifting environments. The proposed theory can identify factors influencing the bi-level (task- and meta-level) learning-forgetting trade-off in shifting environments. We further propose an algorithm that balances the bi-level trade-off with enhanced empirical performance. Overall, this thesis provides a unified theoretical framework for meta-learning, addresses several limitations in domain adaptation, and tackles the stability-plasticity dilemma in continual meta-learning. Its contributions constitute improving our understanding of these areas and proposing new enhanced methods of knowledge transfer in deep learning.

Identiferoai:union.ndltd.org:LAVAL/oai:corpus.ulaval.ca:20.500.11794/138683
Date25 March 2024
CreatorsChen, Qi
ContributorsMarchand, Mario
Source SetsUniversité Laval
LanguageEnglish
Detected LanguageFrench
TypeCOAR1_1::Texte::Thèse::Thèse de doctorat
Format1 ressource en ligne (xiv, 233 pages), application/pdf
Rightshttp://purl.org/coar/access_right/c_abf2

Page generated in 0.003 seconds