Global ETD Search

Return to search

Approches statistiques en apprentissage : boosting et ranking

Depuis une dizaine d'années, la théorie statistique de l'apprentissage a connu une forte expansion. L'avènement d'algorithmes hautement performants pour la classification de données en grande dimension, tels que le boosting ou les machines à noyaux (SVM) a engendré de nombreuses questions statistiques que la théorie de Vapnik-Chervonenkis (VC) ne permettait pas de résoudre. En effet, le principe de Minimisation du Risque Empirique ne rend pas compte des méthodes d'apprentissage concrètes et le concept de complexité combinatoire de VC dimension ne permet pas d'expliquer les capacités de généralisation d'algorithmes sélectionnant un estimateur au sein d'une classe massive telle que l'enveloppe convexe d'une classe de VC. Dans le premier volet du mémoire, on rappelle les interprétations des algorithmes de boosting comme des implémentations de principes de minimisation de risques convexes et on étudie leurs propriétés sous cet angle. En particulier, on montre l'importance de la régularisation pour obtenir des stratégies consistantes. On développe également une nouvelle classe d'algorithmes de type gradient stochastique appelés algorithmes de descente miroir avec moyennisation et on évalue leur comportement à travers des simulations informatiques. Après avoir présenté les principes fondamentaux du boosting, on s'attache dans le deuxième volet à des questions plus avancées telles que l'élaboration d'inégalités d'oracle. Ainsi, on étudie la calibration précise des pénalités en fonction des critères de coût utilisés. On présente des résultats non-asymptotiques sur la performance des estimateurs du boosting pénalisés, notamment les vitesses rapides sous les conditions de marge de type Mammen-Tsybakov et on décrit les capacités d'approximation du boosting utilisant les "rampes" (stumps) de décision. Le troisième volet du mémoire explore le problème du ranking. Un enjeu important dans des applications telles que la fouille de documents ou le "credit scoring" est d'ordonner les instances plutôt que de les catégoriser. On propose une formulation simple de ce problème qui permet d'interpréter le ranking comme une classification sur des paires d'observations. La différence dans ce cas vient du fait que les critères empiriques sont des U-statistiques et on développe donc la théorie de la classification adaptée à ce contexte. On explore également la question de la généralisation de l'erreur de ranking afin de pouvoir inclure des a priori sur l'ordre des instances, comme dans le cas où on ne s'intéresse qu'aux "meilleures" instances.

[MATH] Mathematics

apprentissage statistique

algorithmes de classification

inégalités oracles

vitesses rapides

approximation stochastique

critère AUC

$U$-processus

Identifer	oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00120738
Date	09 December 2006
Creators	Vayatis, Nicolas
Publisher	Université Pierre et Marie Curie - Paris VI
Source Sets	CCSD theses-EN-ligne, France
Language	English
Detected Language	French
Type	habilitation ࠤiriger des recherches

Page generated in 0.0022 seconds

Approches statistiques en apprentissage : boosting et ranking

Description

Links & Downloads

Tags

Additional Fields