Global ETD Search

Return to search

Méthodes des matrices aléatoires pour l’apprentissage en grandes dimensions / Methods of random matrices for large dimensional statistical learning

Le défi du BigData entraîne un besoin pour les algorithmes d'apprentissage automatisé de s'adapter aux données de grande dimension et de devenir plus efficace. Récemment, une nouvelle direction de recherche est apparue qui consiste à analyser les méthodes d’apprentissage dans le régime moderne où le nombre n et la dimension p des données sont grands et du même ordre. Par rapport au régime conventionnel où n>>p, le régime avec n,p sont grands et comparables est particulièrement intéressant, car les performances d’apprentissage dans ce régime restent sensibles à l’ajustement des hyperparamètres, ouvrant ainsi une voie à la compréhension et à l’amélioration des techniques d’apprentissage pour ces données de grande dimension.L'approche technique de cette thèse s'appuie sur des outils avancés de statistiques de grande dimension, nous permettant de mener des analyses allant au-delà de l'état de l’art. La première partie de la thèse est consacrée à l'étude de l'apprentissage semi-supervisé sur des grandes données. Motivés par nos résultats théoriques, nous proposons une alternative supérieure à la méthode semi-supervisée de régularisation laplacienne. Les méthodes avec solutions implicites, comme les SVMs et la régression logistique, sont ensuite étudiées sous des modèles de mélanges réalistes, fournissant des détails exhaustifs sur le mécanisme d'apprentissage. Plusieurs conséquences importantes sont ainsi révélées, dont certaines sont même en contradiction avec la croyance commune. / The BigData challenge induces a need for machine learning algorithms to evolve towards large dimensional and more efficient learning engines. Recently, a new direction of research has emerged that consists in analyzing learning methods in the modern regime where the number n and the dimension p of data samples are commensurately large. Compared to the conventional regime where n>>p, the regime with large and comparable n,p is particularly interesting as the learning performance in this regime remains sensitive to the tuning of hyperparameters, thus opening a path into the understanding and improvement of learning techniques for large dimensional datasets.The technical approach employed in this thesis draws on several advanced tools of high dimensional statistics, allowing us to conduct more elaborate analyses beyond the state of the art. The first part of this dissertation is devoted to the study of semi-supervised learning on high dimensional data. Motivated by our theoretical findings, we propose a superior alternative to the standard semi-supervised method of Laplacian regularization. The methods involving implicit optimizations, such as SVMs and logistic regression, are next investigated under realistic mixture models, providing exhaustive details on the learning mechanism. Several important consequences are thus revealed, some of which are even in contradiction with common belief.

http://www.theses.fr/2019SACLC078/document

Apprentissage en grandes dimensions

Théorie des matrices aléatoires

Apprentissage semi-Supervisé

Machines à vecteurs de support

Régression logistique

Large dimensional learning

Random matrix theory

Semi-Supervised learning

Support vector machines

Logistic regression

Identifer	oai:union.ndltd.org:theses.fr/2019SACLC078
Date	16 October 2019
Creators	Mai, Xiaoyi
Contributors	Université Paris-Saclay (ComUE), Couillet, Romain, Hachem, Walid
Source Sets	Dépôt national des thèses électroniques françaises
Language	English
Detected Language	French
Type	Electronic Thesis or Dissertation, Text

Page generated in 0.0019 seconds

Méthodes des matrices aléatoires pour l’apprentissage en grandes dimensions / Methods of random matrices for large dimensional statistical learning

Description

Links & Downloads

Tags

Additional Fields