Les progrès scientifiques réalisés ces dernières années ont produit des bases de données de plus en plus grandes et complexes. Ceci amène certains classificateurs à générer des règles de classification basées sur des attributs non pertinents, et dégrader ainsi la qualité de classification et la capacité de généralisation. Dans ce contexte, nous proposons une nouvelle méthode pour l’extraction d’attributs afin d’améliorer la qualité de la classification. Notre méthode consiste à effectuer une classification non supervisée des attributs afin de retrouver les groupements d’attributs similaires. Une nouvelle mesure de similarité à base d’analyse de tendance est alors conçue afin de retrouver les attributs similaires dans leur comportement. En effet, notre méthode cherche à réduire l’information redondante tout en identifiant les tendances similaires dans les vecteurs attributs tout au long de la base de données. Suite à la formation des clusters, une transformation linéaire sera appliquée sur les attributs dans chaque groupement pour obtenir un représentant unique. Afin de retrouver un centre optimal, nous proposons de maximiser l’Information Mutuelle (IM) comme mesure de dépendance entre les groupements d’attributs et leur centre recherché. Des expériences réalisées sur des bases de données réelles et artificielles montrent que notre méthode atteint de bonnes performances de classification en comparaison avec d’autres méthodes d’extraction d’attributs. Notre méthode a été également appliquée sur le diagnostic industriel d’un procédé chimique complexe Tennessee Eastman Process (TEP). / Scientific advances in recent years have produced databases increasingly large and complex. This brings some classifiers to generate classification rules based on irrelevant features, and thus degrade the quality of classification and generalization ability. In this context, we propose a new method for extracting features to improve the quality of classification. Our method performs a clustering of features to find groups of similar features. A new similarity measure based on trend analysis is then designed to find similarity between features in their behavior. Indeed, our method aims to reduce redundant information while identifying similar trends in features vectors throughout the database. Following the construction of clusters, a linear transformation is applied on each group to obtain a single representative. To find an optimal center, we propose to maximize the Mutual Information (IM) as a measure of dependency between groups of features and the desired center. Experiments on real and synthetic data show that our method achieved good classification performance in comparison with other methods of extracting features. Our method has also been applied to the industrial diagnosis of a complex chemical process Tennessee Eastman Process (TEP).
Identifer | oai:union.ndltd.org:theses.fr/2013LIL10042 |
Date | 01 July 2013 |
Creators | El Ferchichi, Sabra |
Contributors | Lille 1, École nationale d'ingénieurs de Tunis (Tunisie), Maouche, Salah, Ksouri-Lahmari, Moufida |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | French |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text |
Page generated in 0.0014 seconds