Return to search

Calcul de motifs sous contraintes pour la classification supervisée

Ces dernières années, l'extraction de motifs locaux (itemsets fréquents et règles d'association) a suscité beaucoup d'entrain pour la classification supervisée. Cette thèse traite du calcul et de l'usage de motifs sous contraintes pour la classification supervisée. Nous nous attaquons à deux problèmes difficiles en classification supervisée à base de motifs et proposons deux contributions méthodologiques : D'un côté, lorsque les attributs sont bruités, les performances des classifieurs peuvent être désastreuses. Les méthodes existantes consistent à corriger les valeurs d'attributs ou supprimer les objets bruités -- ce qui génère une perte d'information. Dans ce mémoire, nous proposons une méthode générique de construction de descripteurs robustes au bruit d'attributs -- sans modifier les valeurs d'attributs ni supprimer les objets bruités. Notre approche se déroule en deux étapes : premièrement nous extrayons l'ensemble des règles delta-fortes de caractérisation. Ces règles offrent des propriétés de corps minimal, de non-redondance et sont basées sur les itemsets delta-libres et leur delta-fermeture -- qui ont déjà fait leur preuve pour la caractérisation de groupements dans des contextes bruités. Deuxièmement, nous construisons un nouveau descripteur numérique robuste pour chaque règle extraite. Les expérimentations menées dans des données bruitées, montrent que des classifieurs classiques sont plus performants en terme de précision sur les données munies des nouveaux descripteurs que sur les données avec les attributs originaux. D'autre part, lorsque la distribution des classes est inégale, les approches existantes de classification à base de motifs ont tendance à être biaisées vers la classe majoritaire. La précision sur la (ou les) classe(s) majoritaire(s) est alors élevée au détriment de la précision sur la (ou les) classe(s) minoritaire(s). Nous montrons que ce problème est dû au fait que les approches existantes ne tiennent pas compte de la répartition des classes et/ou de la fréquence relative des motifs dans chacune des classes de la base. Pour pallier ce problème, nous proposons un nouveau cadre de travail dans lequel nous extrayons un nouveau type de motifs : les règles de caractérisation One-Versus-Each (OVE-règles). Ce nouveau cadre de travail nécessite le paramétrage d'un nombre conséquent de seuils de fréquence et d'infréquence. Pour ce faire, nous proposons un algorithme d'optimisation de paramètres, fitcare ainsi qu'un algorithme d'extraction d'OVE-règles. Les expérimentations menées sur des données UCI multi-classes disproportionnées et sur des données de diagnostic de méningite aigüe, montrent que notre approche fitcare est plus performante que les approches existantes en terme de précision sur les classes mineures. L'application de notre méthode de classification associative à l'analyse de données d'érosion des sols en Nouvelle-Calédonie a mis en évidence l'intérêt de notre proposition pour caractériser les phénomènes d'érosion.

Identiferoai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00516706
Date30 November 2009
CreatorsGay, Dominique
PublisherUniversité de Nouvelle Calédonie, INSA de Lyon
Source SetsCCSD theses-EN-ligne, France
LanguageFrench
Detected LanguageFrench
TypePhD thesis

Page generated in 0.0024 seconds