Global ETD Search

1	On the generalization properties of VC classes and application to decision trees Leboeuf, Jean-Samuel 13 December 2023 (has links) Titre de l'écran-titre (visionné le 27 février 2023) / La théorie « Vapnik-Chervonenkis » (VC) est un sous-domaine de la théorie de l'apprentissage automatique qui offre un moyen de comprendre la notion de généralisation d'un algorithme d'apprentissage en bornant le taux d'erreur des prédicteurs par l'utilisation d'outils combinatoires, tels que la dimension VC et la fonction de croissance. Bien que des pistes de recherche récentes indiquent que la théorie VC n'est pas le bon cadre pour comprendre la généralisation dans les réseaux de neurones profonds (Zhang et al., 2021), elle reste pertinente pour les modèles interprétables basés sur des décisions à seuil ferme, comme les arbres de décision et les formules booléennes. Pourtant, les bornes de généralisation pour les classes VC n'ont pas connu d'améliorations substantielles depuis près d'une décennie, et les propriétés combinatoires des arbres de décision, nécessaires à l'application de ces bornes, sont encore mal comprises. Dans cette thèse, nous abordons ces deux problèmes de deux manières distinctes, présentées en deux parties différentes. Dans la première partie, nous améliorons significativement les bornes de généralisation pour les classes VC à l'aide de deux idées majeures. Premièrement, nous évitons d'utiliser les inégalités de concentration en inversant la queue de l'hypergéométrique pour obtenir une borne supérieure non-uniforme, très serrée et indépendante de la distribution, sur le risque pour les classes VC. Ensuite, l'utilisation de l'inversion de la queue de l'hypergéométrique permet d'optimiser l'astuce de l'échantillon fantôme pour obtenir des gains supplémentaires non négligeables. Ces améliorations sont ensuite utilisées pour dériver une borne de déviation relative, une borne pour les classificateurs multiclasses à marge, ainsi qu'une borne inférieure. Dans nos dérivations, nous prenons soin d'introduire aussi peu d'approximations que possible afin de réduire au minimum les facteurs constants de la borne. Des comparaisons numériques montrent que la nouvelle borne est presque toujours informative et qu'elle est plus serrée que toute autre borne VC courante pour toutes des tailles raisonnables de jeux de données. Ensuite, dans la deuxième partie, nous revisitons les arbres de décision binaires du point de vue des partitions des données. Nous introduisons la notion de fonction de partitionnement, et nous la relions à la fonction de croissance et à la dimension VC. Nous considérons trois types d'attributs : à valeur réelle, catégorique ordinale et catégorique nominale, chacune avec des règles de décision différentes. Pour chaque type d'attribut, nous bornons supérieurement la fonction de partitionnement des souches de décision avant d'étendre les bornes aux arbres de décision généraux (avec n'importe quelle structure fixe) en utilisant une approche récursive. Parmi les nouveaux résultats les plus notables, nous obtenons que la dimension VC exacte des souches de décision sur des exemples de ℓ attributs à valeurs réelles est donnée par le plus grand entier d tel que $2\ell\geq \bigl(\begin{smallmatrix} d \\\left \lfloor \frac{d}{2}\right \rfloor \end{smallmatrix}\bigr)$. De plus, nous montrons que la dimension VC d'une structure d'arbre binaire avec $L_T$ feuilles sur des exemples de ℓ attributs à valeurs réelles est de l'ordre de $\mathscr{O}(L_T\,log(L_T\ell))$. Enfin, nous élaborons un algorithme d'élagage basé sur ces résultats qui surpasse les populaires algorithmes d'élagage cost-complexity (C4.5) et reduced-error (ID3) sur de nombreux jeux de données, avec l'avantage qu'aucune validation croisée n'est nécessaire. / Vapnik-Chervonenkis (VC) theory is a subfield of theoretical machine learning that offers a way to understand the notion of generalization of a learning algorithm by bounding the error rate of predictors through the use of combinatorial tools, such as the VC dimension and the growth function. Although recent research avenues indicate that VC theory is not the right framework to understand generalization in deep neural networks (Zhang et al., 2021), it is still relevant for interpretable models based on hard threshold decisions, such as decision trees and Boolean formulas. Yet, generalization bounds for VC classes have not seen any substantial improvement for nearly a decade now, and the combinatorial properties of decision trees, needed for these bounds to apply, are still poorly understood. In this thesis, we tackle both of these problems in two distinct ways, presented in two different parts. In the first part, we significantly improve the generalization bounds for VC classes by using two main ideas. First, we avoid making use of concentration inequalities by considering the hypergeometric tail inversion to obtain a very tight non-uniform distribution-independent risk upper bound for VC classes. Second, the use of the hypergeometric tail inversion allows us to optimize the ghost sample trick to procure further non-negligible gains. These improvements are then used to derive a relative deviation bound, a multiclass margin bound, as well as a lower bound. In our derivations, we are careful to introduce as few approximations as possible in order to bring to a minimum the constant factors of the bounds. Numerical comparisons show that the new bound is nearly never vacuous and is tighter than other common VC bounds for all reasonable data set sizes. Then, in the second part, we revisit binary decision trees from the perspective of partitions of the data. We introduce the notion of partitioning function, and we relate it to the growth function and to the VC dimension. We consider three types of features: real-valued, categorical ordinal and categorical nominal, all with different split rules. For each feature type, we upper bound the partitioning function of the class of decision stumps before extending the bounds to the class of general decision tree (of any fixed structure) using a recursive approach. Amongst the most notable new results, we find that the exact VC dimension of decision stumps on examples of ℓ real-valued features is given by the largest integer d such that $2\ell\geq \bigl(\begin{smallmatrix} d \\\left \lfloor d\over2\right \rfloor \end{smallmatrix}\bigr)$. Furthermore, we show that the VC dimension of a binary tree structure with $L_T$ leaves on examples of ℓ real-valued features is of order $(L_T\,log(L_T\ell))$). Finally, we elaborate a pruning algorithm based on these results that outperforms cost-complexity (C4.5) and reduced-error pruning algorithms on a number of data sets, with the advantage that no cross-validation is required. Algorithmes d'apprentissage. Arbres de décision.
2	Méthodes d'apprentissage inspirées de l'humain pour un tuteur cognitif artificiel Faghihi, Usef January 2008 (has links) (PDF) Les systèmes tuteurs intelligents sont considérés comme un remarquable concentré de technologies qui permettent un processus d'apprentissage. Ces systèmes sont capables de jouer le rôle d'assistants voire même de tuteur humain. Afin d'y arriver, ces systèmes ont besoin de maintenir et d'utiliser une représentation interne de l'environnement. Ainsi, ils peuvent tenir compte des évènements passés et présents ainsi que de certains aspects socioculturels. Parallèlement à l'évolution dynamique de l'environnement, un agent STI doit évoluer en modifiant ses structures et en ajoutant de nouveaux phénomènes. Cette importante capacité d'adaptation est observée dans le cas de tuteurs humains. Les humains sont capables de gérer toutes ces complexités à l'aide de l'attention et du mécanisme de conscience (Baars B. J., 1983, 1988), et (Sloman, A and Chrisley, R., 2003). Toutefois, reconstruire et implémenter des capacités humaines dans un agent artificiel est loin des possibilités actuelles de la connaissance de même que des machines les plus sophistiquées. Pour réaliser un comportement humanoïde dans une machine, ou simplement pour mieux comprendre l'adaptabilité et la souplesse humaine, nous avons à développer un mécanisme d'apprentissage proche de celui de l'homme. Ce présent travail décrit quelques concepts d'apprentissage fondamentaux implémentés dans un agent cognitif autonome, nommé CTS (Conscious Tutoring System) développé dans le GDAC (Dubois, D., 2007). Nous proposons un modèle qui étend un apprentissage conscient et inconscient afin d'accroître l'autonomie de l'agent dans un environnement changeant ainsi que d'améliorer sa finesse. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Apprentissage, Conscience, Agent cognitif, Codelet. Tuteur intelligent Apprentissage automatique Théorie de l'apprentissage Conscience Agent intelligent
3	Coping with the computational and statistical bipolar nature of machine learning Machart, Pierre 21 December 2012 (has links) L'Apprentissage Automatique tire ses racines d'un large champ disciplinaire qui inclut l'Intelligence Artificielle, la Reconnaissance de Formes, les Statistiques ou l'Optimisation. Dès les origines de l'Apprentissage, les questions computationelles et les propriétés en généralisation ont toutes deux été identifiées comme centrales pour la discipline. Tandis que les premières concernent les questions de calculabilité ou de complexité (sur un plan fondamental) ou d'efficacité computationelle (d'un point de vue plus pratique) des systèmes d'apprentissage, les secondes visent a comprendre et caractériser comment les solutions qu'elles fournissent vont se comporter sur de nouvelles données non encore vues. Ces dernières années, l'émergence de jeux de données à grande échelle en Apprentissage Automatique a profondément remanié les principes de la Théorie de l'Apprentissage. En prenant en compte de potentielles contraintes sur le temps d'entraînement, il faut faire face à un compromis plus complexe que ceux qui sont classiquement traités par les Statistiques. Une conséquence directe tient en ce que la mise en place d'algorithmes efficaces (autant en théorie qu'en pratique) capables de tourner sur des jeux de données a grande échelle doivent impérativement prendre en compte les aspects statistiques et computationels de l'Apprentissage de façon conjointe. Cette thèse a pour but de mettre à jour, analyser et exploiter certaines des connections qui existent naturellement entre les aspects statistiques et computationels de l'Apprentissage. / Machine Learning is known to have its roots in a broad spectrum of fields including Artificial Intelligence, Pattern Recognition, Statistics or Optimisation. From the earliest stages of Machine Learning, both computational issues and generalisation properties have been identified as central to the field. While the former address the question of computability, complexity (from a fundamental perspective) or computational efficiency (on a more practical standpoint) of learning systems, the latter aim at understanding and characterising how well the solutions they provide perform on new, unseen data. Those last years, the emergence of large-scale datasets in Machine Learning has been deeply reshaping the principles of Learning Theory. Taking into account possible constraints on the training time, one has to deal with more complex trade-offs than the ones classically addressed by Statistics. As a direct consequence, designing new efficient algorithms (both in theory and practice), able to handle large-scale datasets, imposes to jointly deal with the statistical and computational aspects of Learning. The present thesis aims at unravelling, analysing and exploiting some of the connections that naturally exist between the statistical and computational aspects of Learning. More precisely, in a first part, we extend the stability analysis, which relates some algorithmic properties to the generalisation abilities of learning algorithms, to a novel (and fine-grain) performance measure, namely the confusion matrix. In a second part, we present a novel approach to learn a kernel-based regression function, that serves the learning task at hand and exploits the structure of Apprentissage statistique Théorie de l'apprentissage Optimisation Algorithmes Efficacité computationelle Statistical learning Learning theory Optimisation Algorithms Computational efficiency
4	Coping with the Computational and Statistical Bipolar Nature of Machine Learning Machart, Pierre 21 December 2012 (has links) (PDF) L'Apprentissage Automatique tire ses racines d'un large champ disciplinaire qui inclut l'Intelligence Artificielle, la Reconnaissance de Formes, les Statistiques ou l'Optimisation. Dès les origines de l'Apprentissage, les questions computationelles et les propriétés en généralisation ont toutes deux été identifiées comme centrales pour la discipline. Tandis que les premières concernent les questions de calculabilité ou de complexité (sur un plan fondamental) ou d'efficacité computationelle (d'un point de vue plus pratique) des systèmes d'apprentissage, les secondes visent a comprendre et caractériser comment les solutions qu'elles fournissent vont se comporter sur de nouvelles données non encore vues. Ces dernières années, l'émergence de jeux de données à grande échelle en Apprentissage Automatique a profondément remanié les principes de la Théorie de l'Apprentissage. En prenant en compte de potentielles contraintes sur le temps d'entraînement, il faut faire face à un compromis plus complexe que ceux qui sont classiquement traités par les Statistiques. Une conséquence directe tient en ce que la mise en place d'algorithmes efficaces (autant en théorie qu'en pratique) capables de tourner sur des jeux de données a grande échelle doivent impérativement prendre en compte les aspects statistiques et computationels de l'Apprentissage de façon conjointe. Cette thèse a pour but de mettre à jour, analyser et exploiter certaines des connections qui existent naturellement entre les aspects statistiques et computationels de l'Apprentissage. Plus précisément, dans une première partie, nous étendons l'analyse en stabilité, qui relie certaines propriétés algorithmiques aux capacités de généralisation des algorithmes d'apprentissage, la matrice de confusion, que nous suggérons comme nouvelle mesure de performance (fine). Dans une seconde partie, nous présentons un nouvelle approche pour apprendre une fonction de régression basée sur les noyaux, où le noyau appris sert directement la tâche de régression, et qui exploite la structure du problème pour offrir une procédure d'optimisation peu coûteuse. Finalement, nous étudions le compromis entre vitesse de convergence et coût computationel lorsque l'on minimise une fonction composite avec des méthodes par gradient-proximal inexact. Dans ce contexte, nous identifions des stratégies d'optimisation qui sont computationellement optimales. apprentissage automatique optimisation apprentissage statistique algorithmes théorie de l'apprentissage
5	Theory and algorithms for learning metrics with controlled behaviour / Théorie et algorithmes pour l'apprentissage de métriques à comportement contrôlé Perrot, Michaël 13 December 2016 (has links) De nombreux algorithmes en Apprentissage Automatique utilisent une notion de distance ou de similarité entre les exemples pour résoudre divers problèmes tels que la classification, le partitionnement ou l'adaptation de domaine. En fonction des tâches considérées ces métriques devraient avoir des propriétés différentes mais les choisir manuellement peut-être fastidieux et difficile. Une solution naturelle est alors d'adapter automatiquement ces métriques à la tâche considérée. Il s'agit alors d'un problème connu sous le nom d'Apprentissage de Métriques et où le but est principalement de trouver les meilleurs paramètres d'une métrique respectant des contraintes spécifiques. Les approches classiques dans ce domaine se focalisent habituellement sur l'apprentissage de distances de Mahalanobis ou de similarités bilinéaires et l'une des principales limitations est le fait que le contrôle du comportement de ces métriques est souvent limité. De plus, si des travaux théoriques existent pour justifier de la capacité de généralisation des modèles appris, la plupart des approches ne présentent pas de telles garanties. Dans cette thèse nous proposons de nouveaux algorithmes pour apprendre des métriques à comportement contrôlé et nous mettons l'accent sur les propriétés théoriques de ceux-ci. Nous proposons quatre contributions distinctes qui peuvent être séparées en deux parties: (i) contrôler la métrique apprise en utilisant une métrique de référence et (ii) contrôler la transformation induite par la métrique apprise. Notre première contribution est une approche locale d'apprentissage de métriques où le but est de régresser une distance proportionnelle à la perception humaine des couleurs. Notre approche est justifiée théoriquement par des garanties en généralisation sur les métriques apprises. Dans notre deuxième contribution nous nous sommes intéressés à l'analyse théorique de l'intérêt d'utiliser une métrique de référence dans un terme de régularisation biaisé pour aider lors du processus d'apprentissage. Nous proposons d'utiliser trois cadres théoriques différents qui nous permettent de dériver trois mesures différentes de l'apport de la métrique de référence. Ces mesures nous donnent un aperçu de l'impact de la métrique de référence sur celle apprise. Dans notre troisième contribution nous proposons un algorithme d'apprentissage de métriques où la transformation induite est contrôlée. L'idée est que, plutôt que d'utiliser des contraintes de similarité et de dissimilarité, chaque exemple est associé à un point virtuel qui appartient déjà à l'espace induit par la métrique apprise. D'un point de vue théorique nous montrons que les métriques apprises de cette façon généralisent bien mais aussi que notre approche est liée à une méthode plus classique d'apprentissage de métriques basée sur des contraintes de paires. Dans notre quatrième contribution nous essayons aussi de contrôler la transformation induite par une métrique apprise. Cependant, plutôt que considérer un contrôle individuel pour chaque exemple, nous proposons une approche plus globale en forçant la transformation à suivre une transformation géométrique associée à un problème de transport optimal. D'un point de vue théorique nous proposons une discussion sur le lien entre la transformation associée à la métrique apprise et la transformation associée au problème de transport optimal. D'un point de vue plus pratique nous montrons l'intérêt de notre approche pour l'adaptation de domaine mais aussi pour l'édition d'images / Many Machine Learning algorithms make use of a notion of distance or similarity between examples to solve various problems such as classification, clustering or domain adaptation. Depending on the tasks considered these metrics should have different properties but manually choosing an adapted comparison function can be tedious and difficult. A natural trend is then to automatically tailor such metrics to the task at hand. This is known as Metric Learning and the goal is mainly to find the best parameters of a metric under some specific constraints. Standard approaches in this field usually focus on learning Mahalanobis distances or Bilinear similarities and one of the main limitations is that the control over the behaviour of the learned metrics is often limited. Furthermore if some theoretical works exist to justify the generalization ability of the learned models, most of the approaches do not come with such guarantees. In this thesis we propose new algorithms to learn metrics with a controlled behaviour and we put a particular emphasis on the theoretical properties of these algorithms. We propose four distinct contributions which can be separated in two parts, namely (i) controlling the metric with respect to a reference metric and (ii) controlling the underlying transformation corresponding to the learned metric. Our first contribution is a local metric learning method where the goal is to regress a distance proportional to the human perception of colors. Our approach is backed up by theoretical guarantees on the generalization ability of the learned metrics. In our second contribution we are interested in theoretically studying the interest of using a reference metric in a biased regularization term to help during the learning process. We propose to use three different theoretical frameworks allowing us to derive three different measures of goodness for the reference metric. These measures give us some insights on the impact of the reference metric on the learned one. In our third contribution we propose a metric learning algorithm where the underlying transformation is controlled. The idea is that instead of using similarity and dissimilarity constraints we associate each learning example to a so-called virtual point belonging to the output space associated with the learned metric. We theoretically show that metrics learned in this way generalize well but also that our approach is linked to a classic metric learning method based on pairs constraints. In our fourth contribution we also try to control the underlying transformation of a learned metric. However instead of considering a point-wise control we consider a global one by forcing the transformation to follow the geometrical transformation associated to an optimal transport problem. From a theoretical standpoint we propose a discussion on the link between the transformation associated with the learned metric and the transformation associated with the optimal transport problem. On a more practical side we show the interest of our approach for domain adaptation but also for a task of seamless copy in images Intelligence artificielle Apprentissage automatique Apprentissage statistique Apprentissage des métriques Théorie de l'apprentissage Artificial intelligence Machine learning Statistical learning Metric learning Learning theory
6	Learning similarities for linear classification : theoretical foundations and algorithms / Apprentissage de similarités pour la classification linéaire : fondements théoriques et algorithmes Nicolae, Maria-Irina 02 December 2016 (has links) La notion de métrique joue un rôle clef dans les problèmes d’apprentissage automatique tels que la classification, le clustering et le ranking. L’apprentissage à partir de données de métriques adaptées à une tâche spécifique a suscité un intérêt croissant ces dernières années. Ce domaine vise généralement à trouver les meilleurs paramètres pour une métrique donnée sous certaines contraintes imposées par les données. La métrique apprise est utilisée dans un algorithme d’apprentissage automatique dans le but d’améliorer sa performance. La plupart des méthodes d’apprentissage de métriques optimisent les paramètres d’une distance de Mahalanobis pour des vecteurs de features. Les méthodes actuelles de l’état de l’art arrivent à traiter des jeux de données de tailles significatives. En revanche, le sujet plus complexe des séries temporelles multivariées n’a reçu qu’une attention limitée, malgré l’omniprésence de ce type de données dans les applications réelles. Une importante partie de la recherche sur les séries temporelles est basée sur la dynamic time warping (DTW), qui détermine l’alignement optimal entre deux séries temporelles. L’état actuel de l’apprentissage de métriques souffre de certaines limitations. La plus importante est probablement le manque de garanties théoriques concernant la métrique apprise et sa performance pour la classification. La théorie des fonctions de similarité (ℰ , ϓ, T)-bonnes a été l’un des premiers résultats liant les propriétés d’une similarité à celles du classifieur qui l’utilise. Une deuxième limitation vient du fait que la plupart des méthodes imposent des propriétés de distance, qui sont coûteuses en terme de calcul et souvent non justifiées. Dans cette thèse, nous abordons les limitations précédentes à travers deux contributions principales. La première est un nouveau cadre général pour l’apprentissage conjoint d’une fonction de similarité et d’un classifieur linéaire. Cette formulation est inspirée de la théorie de similarités (ℰ , ϓ, τ) -bonnes, fournissant un lien entre la similarité et le classifieur linéaire. Elle est convexe pour une large gamme de fonctions de similarité et de régulariseurs. Nous dérivons deux bornes de généralisation équivalentes à travers les cadres de robustesse algorithmique et de convergence uniforme basée sur la complexité de Rademacher, prouvant les propriétés théoriques de notre formulation. Notre deuxième contribution est une méthode d’apprentissage de similarités basée sur DTW pour la classification de séries temporelles multivariées. Le problème est convexe et utilise la théorie des fonctions (ℰ , ϓ, T)-bonnes liant la performance de la métrique à celle du classifieur linéaire associé. A l’aide de la stabilité uniforme, nous prouvons la consistance de la similarité apprise conduisant à la dérivation d’une borne de généralisation. / The notion of metric plays a key role in machine learning problems, such as classification, clustering and ranking. Learning metrics from training data in order to make them adapted to the task at hand has attracted a growing interest in the past years. This research field, known as metric learning, usually aims at finding the best parameters for a given metric under some constraints from the data. The learned metric is used in a machine learning algorithm in hopes of improving performance. Most of the metric learning algorithms focus on learning the parameters of Mahalanobis distances for feature vectors. Current state of the art methods scale well for datasets of significant size. On the other hand, the more complex topic of multivariate time series has received only limited attention, despite the omnipresence of this type of data in applications. An important part of the research on time series is based on the dynamic time warping (DTW) computing the optimal alignment between two time series. The current state of metric learning suffers from some significant limitations which we aim to address in this thesis. The most important one is probably the lack of theoretical guarantees for the learned metric and its performance for classification.The theory of (ℰ , ϓ, τ)-good similarity functions has been one of the first results relating the properties of a similarity to its classification performance. A second limitation in metric learning comes from the fact that most methods work with metrics that enforce distance properties, which are computationally expensive and often not justified. In this thesis, we address these limitations through two main contributions. The first one is a novel general framework for jointly learning a similarity function and a linear classifier. This formulation is inspired from the (ℰ , ϓ, τ)-good theory, providing a link between the similarity and the linear classifier. It is also convex for a broad range of similarity functions and regularizers. We derive two equivalent generalization bounds through the frameworks of algorithmic robustness and uniform convergence using the Rademacher complexity, proving the good theoretical properties of our framework. Our second contribution is a method for learning similarity functions based on DTW for multivariate time series classification. The formulation is convex and makes use of the(ℰ , ϓ, τ)-good framework for relating the performance of the metric to that of its associated linear classifier. Using uniform stability arguments, we prove the consistency of the learned similarity leading to the derivation of a generalization bound. Apprentissage de métriques Apprentissage statistique Théorie de l'apprentissage Classification Séries temporelles Metric learning Statistical learning Learning theory Classification Time series
7	Deep networks training and generalization: insights from linearization George, Thomas 01 1900 (has links) Bien qu'ils soient capables de représenter des fonctions très complexes, les réseaux de neurones profonds sont entraînés à l'aide de variations autour de la descente de gradient, un algorithme qui est basé sur une simple linéarisation de la fonction de coût à chaque itération lors de l'entrainement. Dans cette thèse, nous soutenons qu'une approche prometteuse pour élaborer une théorie générale qui expliquerait la généralisation des réseaux de neurones, est de s'inspirer d'une analogie avec les modèles linéaires, en étudiant le développement de Taylor au premier ordre qui relie des pas dans l'espace des paramètres à des modifications dans l'espace des fonctions. Cette thèse par article comprend 3 articles ainsi qu'une bibliothèque logicielle. La bibliothèque NNGeometry (chapitre 3) sert de fil rouge à l'ensemble des projets, et introduit une Interface de Programmation Applicative (API) simple pour étudier la dynamique d'entrainement linéarisée de réseaux de neurones, en exploitant des méthodes récentes ainsi que de nouvelles accélérations algorithmiques. Dans l'article EKFAC (chapitre 4), nous proposons une approchée de la Matrice d'Information de Fisher (FIM), utilisée dans l'algorithme d'optimisation du gradient naturel. Dans l'article Lazy vs Hasty (chapitre 5), nous comparons la fonction obtenue par dynamique d'entrainement linéarisée (par exemple dans le régime limite du noyau tangent (NTK) à largeur infinie), au régime d'entrainement réel, en utilisant des groupes d'exemples classés selon différentes notions de difficulté. Dans l'article NTK alignment (chapitre 6), nous révélons un effet de régularisation implicite qui découle de l'alignement du NTK au noyau cible, au fur et à mesure que l'entrainement progresse. / Despite being able to represent very complex functions, deep artificial neural networks are trained using variants of the basic gradient descent algorithm, which relies on linearization of the loss at each iteration during training. In this thesis, we argue that a promising way to tackle the challenge of elaborating a comprehensive theory explaining generalization in deep networks, is to take advantage of an analogy with linear models, by studying the first order Taylor expansion that maps parameter space updates to function space progress. This thesis by publication is made of 3 papers and a software library. The library NNGeometry (chapter 3) serves as a common thread for all projects, and introduces a simple Application Programming Interface (API) to study the linearized training dynamics of deep networks using recent methods and contributed algorithmic accelerations. In the EKFAC paper (chapter 4), we propose an approximate to the Fisher Information Matrix (FIM), used in the natural gradient optimization algorithm. In the Lazy vs Hasty paper (chapter 5), we compare the function obtained while training using a linearized dynamics (e.g. in the infinite width Neural Tangent Kernel (NTK) limit regime), to the actual training regime, by means of examples grouped using different notions of difficulty. In the NTK alignment paper (chapter 6), we reveal an implicit regularization effect arising from the alignment of the NTK to the target kernel as training progresses. apprentissage profond réseaux de neurones généralisation optimisation théorie de l'apprentissage deep learning neural networks generalization optimization learning theory
8	Le mentorat : les perceptions des enseignants débutants dans un contexte scolaire francophone minoritaire Gauthier, Manon Madeleine 22 September 2011 (has links) Dans les dernières années, une pénurie d’enseignants s’est fait sentir en Ontario. Bien qu’elle ne soit pas aussi omniprésente que par le passé, les conseils scolaires éprouvent toujours de la difficulté à recruter et à retenir des enseignants qualifiés. L’attrition des enseignants débutants mérite également une attention particulière étant donné que de 30 à 50 % d’entre eux laissent l’enseignement avant cinq années d’expérience. Ces faits portent à réfléchir sur le mentorat des enseignants qui ressort des écrits recensés comme la clé de la rétention. La présente recherche descriptive et exploratoire a été effectuée selon l’approche mixte avec le questionnaire, l’entrevue semi-structurée et l’analyse documentaire comme techniques de collecte de données. Elle s’est inspirée des fondements conceptuels de la théorie de l’apprentissage transformatif de Mezirow (1991, 2000), dont le constructivisme, la pratique réflexive et l’autoefficacité. Le questionnaire a fait émerger la nécessité du temps adéquat dans une relation mentorale ainsi que le bien-fondé de la théorie de l’apprentissage transformatif comme choix d’assise théorique. L’échantillon des entrevues a consisté en cinq enseignants débutants provenant d’un milieu minoritaire francophone du nord de l’Ontario. Les résultats ont signalé l’importance du mentorat comme activité professionnelle essentielle au succès du système d’éducation dans son ensemble et ont permis de mieux comprendre l’expérience des enseignants débutants en milieu scolaire francophone minoritaire et isolés des grands centres. Adhérant fortement aux principes sous-jacents des concepts théoriques de cette étude, les participants ont précisé que 13 facteurs sont particulièrement significatifs pour la réussite mentorale. Entre autres, la relation mentorale doit être une activité de transformation perpétuelle tant pour les enseignants débutants que pour les enseignants chevronnés. L’analyse documentaire a rapporté que le conseil scolaire tient compte du constructivisme dans ses documents qui portent sur le mentorat; la pratique réflexive et l’autoefficacité, bien que présents, l’y sont moins. enseignants débutants insertion professionnelle perfectionnement professionnel mentorat milieu minoritaire francophonie franco-ontarien rétention attrition stress motivation satisfaction au travail ethnoculturalisme constructivisme pratique réflexive autoefficacité méthodologie mixte andragogie pénurie des enseignants
9	Le mentorat : les perceptions des enseignants débutants dans un contexte scolaire francophone minoritaire Gauthier, Manon Madeleine 22 September 2011 (has links) Dans les dernières années, une pénurie d’enseignants s’est fait sentir en Ontario. Bien qu’elle ne soit pas aussi omniprésente que par le passé, les conseils scolaires éprouvent toujours de la difficulté à recruter et à retenir des enseignants qualifiés. L’attrition des enseignants débutants mérite également une attention particulière étant donné que de 30 à 50 % d’entre eux laissent l’enseignement avant cinq années d’expérience. Ces faits portent à réfléchir sur le mentorat des enseignants qui ressort des écrits recensés comme la clé de la rétention. La présente recherche descriptive et exploratoire a été effectuée selon l’approche mixte avec le questionnaire, l’entrevue semi-structurée et l’analyse documentaire comme techniques de collecte de données. Elle s’est inspirée des fondements conceptuels de la théorie de l’apprentissage transformatif de Mezirow (1991, 2000), dont le constructivisme, la pratique réflexive et l’autoefficacité. Le questionnaire a fait émerger la nécessité du temps adéquat dans une relation mentorale ainsi que le bien-fondé de la théorie de l’apprentissage transformatif comme choix d’assise théorique. L’échantillon des entrevues a consisté en cinq enseignants débutants provenant d’un milieu minoritaire francophone du nord de l’Ontario. Les résultats ont signalé l’importance du mentorat comme activité professionnelle essentielle au succès du système d’éducation dans son ensemble et ont permis de mieux comprendre l’expérience des enseignants débutants en milieu scolaire francophone minoritaire et isolés des grands centres. Adhérant fortement aux principes sous-jacents des concepts théoriques de cette étude, les participants ont précisé que 13 facteurs sont particulièrement significatifs pour la réussite mentorale. Entre autres, la relation mentorale doit être une activité de transformation perpétuelle tant pour les enseignants débutants que pour les enseignants chevronnés. L’analyse documentaire a rapporté que le conseil scolaire tient compte du constructivisme dans ses documents qui portent sur le mentorat; la pratique réflexive et l’autoefficacité, bien que présents, l’y sont moins. enseignants débutants insertion professionnelle perfectionnement professionnel mentorat milieu minoritaire francophonie franco-ontarien rétention attrition stress motivation satisfaction au travail ethnoculturalisme constructivisme pratique réflexive autoefficacité méthodologie mixte andragogie pénurie des enseignants
10	Contributions à l'apprentissage statistique dans les modèles parcimonieux Alquier, Pierre 06 December 2013 (has links) (PDF) Ce mémoire d'habilitation a pour objet diverses contributions à l'estimation et à l'apprentissage statistique dans les modeles en grande dimension, sous différentes hypothèses de parcimonie. Dans une première partie, on introduit la problématique de la statistique en grande dimension dans un modèle générique de régression linéaire. Après avoir passé en revue les différentes méthodes d'estimation populaires dans ce modèle, on présente de nouveaux résultats tirés de (Alquier & Lounici 2011) pour des estimateurs agrégés. La seconde partie a essentiellement pour objet d'étendre les résultats de la première partie à l'estimation de divers modèles de séries temporelles (Alquier & Doukhan 2011, Alquier & Wintenberger 2013, Alquier & Li 2012, Alquier, Wintenberger & Li 2012). Enfin, la troisième partie présente plusieurs extensions à des modèles non param\étriques ou à des applications plus spécifiques comme la statistique quantique (Alquier & Biau 2013, Guedj & Alquier 2013, Alquier, Meziani & Peyré 2013, Alquier, Butucea, Hebiri, Meziani & Morimae 2013, Alquier 2013, Alquier 2008). Dans chaque section, des estimateurs sont proposés, et, aussi souvent que possible, des inégalités oracles optimales sont établies. [MATH:MATH_ST] Mathematics/Statistics [STAT:TH] Statistics/Statistics Theory [STAT:TH] Statistiques/Théorie Théorie de l'apprentissage statistique estimateurs agrégés inégalités PAC-Bayésiennes statistique en grande dimension parcimonie estimateur LASSO estimateurs pénalisés dépendance faible statistique quantique régression matricielle méthodes de Monte-Carlo

Search results