Return to search

Apprentissage de vote de majorité pour la classification supervisée et l'adaptation de domaine : approches PAC-Bayésiennes et combinaison de similarités

De nos jours, avec l'expansion d'Internet, l'abondance et la diversité des données accessibles qui en résulte, de nombreuses applications requièrent l'utilisation de méthodes d'apprentissage automatique supervisé capables de prendre en considération différentes sources d'informations. Par exemple, pour des applications relevant de l'indexation sémantique de documents multimédia, il s'agit de pouvoir efficacement tirer bénéfice d'informations liées à la couleur, au texte, à la texture ou au son des documents à traiter. La plupart des méthodes existantes proposent de combiner ces informations multimodales, soit en fusionnant directement les descriptions, soit en combinant des similarités ou des classifieurs, avec pour objectif de construire un modèle de classification automatique plus fiable pour la tâche visée. Ces aspects multimodaux induisent généralement deux types de difficultés. D'une part, il faut être capable d'utiliser au mieux toute l'information a priori disponible sur les objets à combiner. D'autre part, les données sur lesquelles le modèle doit être appliqué ne suivent nécessairement pas la même distribution de probabilité que les données utilisées lors de la phase d'apprentissage. Dans ce contexte, il faut être à même d'adapter le modèle à de nouvelles données, ce qui relève de l'adaptation de domaine. Dans cette thèse, nous proposons plusieurs contributions fondées théoriquement et répondant à ces problématiques. Une première série de contributions s'intéresse à l'apprentissage de votes de majorité pondérés sur un ensemble de votants dans le cadre de la classification supervisée. Ces contributions s'inscrivent dans le contexte de la théorie PAC-Bayésienne permettant d'étudier les capacités en généralisation de tels votes de majorité en supposant un a priori sur la pertinence des votants. Notre première contribution vise à étendre un algorithme récent, MinCq, minimisant une borne sur l'erreur du vote de majorité en classification binaire. Cette extension permet de prendre en compte une connaissance a priori sur les performances des votants à combiner sous la forme d'une distribution alignée. Nous illustrons son intérêt dans une optique de combinaison de classifieurs de type plus proches voisins, puis dans une perspective de fusion de classifieurs pour l'indexation sémantique de documents multimédia. Nous proposons ensuite une contribution théorique pour des problèmes de classification multiclasse. Cette approche repose sur une analyse PAC-Bayésienne originale en considérant la norme opérateur de la matrice de confusion comme mesure de risque. Notre seconde série de contributions concerne la problématique de l'adaptation de domaine. Dans cette situation, nous présentons notre troisième apport visant à combiner des similarités permettant d'inférer un espace de représentation de manière à rapprocher les distributions des données d'apprentissage et des données à traiter. Cette contribution se base sur la théorie des fonctions de similarités (epsilon,gamma,tau)-bonnes et se justifie par la minimisation d'une borne classique en adaptation de domaine. Pour notre quatrième et dernière contribution, nous proposons la première analyse PAC-Bayésienne appropriée à l'adaptation de domaine. Cette analyse se base sur une mesure consistante de divergence entre distributions permettant de dériver une borne en généralisation pour l'apprentissage de votes de majorité en classification binaire. Elle nous permet également de proposer un algorithme adapté aux classifieurs linéaires capable de minimiser cette borne de manière directe.

Identiferoai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00879072
Date18 September 2013
CreatorsMorvant, Emilie
PublisherAix-Marseille Université
Source SetsCCSD theses-EN-ligne, France
Languagefra
Detected LanguageFrench
TypePhD thesis

Page generated in 0.0021 seconds