Global ETD Search

Return to search

Evaluation d'une mesure de similitude en classification supervisée : application à la préparation de données séquentielles

En phase de préparation d'un processus de fouille de données, une part importante du travail est consacrée à la construction et à la sélection des variables descriptives. L'approche filtre univariée usuellement adoptée nécessite l'emploi d'une méthode d'évaluation d'une variable. Nous considérons la question de l'évaluation supervisée d'une variable séquentielle. Pour résoudre ce problème, nous montrons qu'il suffit de résoudre un problème plus général : celui de l'évaluation supervisée d'une mesure de similitude. Nous proposons une telle méthode d'évaluation. Pour l'obtenir, nous formulons le problème en un problème de recherche d'une partition de Voronoi informative. Nous proposons un nouveau critère d'évaluation supervisée de ces partitions et une nouvelle heuristique de recherche optimisée. Le critère prévient automatiquement le risque de surapprentissage et l'heuristique trouve rapidement une bonne solution. Au final, la méthode réalise une estimation non paramétrique robuste de la densité d'une variable cible catégorielle conditionnellement à une mesure de similitude définie à partir d'une variable descriptive. La méthode a été testée sur de nombreux jeux de données. Son utilisation permet de répondre à des questions comme : quel jour de la semaine ou quelle tranche horaire sur la semaine discrimine le mieux le segment auquel appartient un foyer à partir de sa consommation téléphonique fixe ? Quelle série de mesures permet de quantifier au mieux l'appétence à un nouveau service ?

Identifer	oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00123406
Date	23 October 2006
Creators	Ferrandiz, Sylvain
Publisher	Université de Caen
Source Sets	CCSD theses-EN-ligne, France
Language	fra
Detected Language	French
Type	PhD thesis

Page generated in 0.0021 seconds

Evaluation d'une mesure de similitude en classification supervisée : application à la préparation de données séquentielles

Description

Links & Downloads

Tags

Additional Fields