Cette thèse traite deux problèmes importants dans les domaine de l'apprentissage automatique et du raisonnement dans l'incertain : comment évaluer une relation de similarité entre deux informations incertaines et comment assurer la classification \`a partir de données incertaines. Notre première principale contribution est de proposer une approche, appelée arbre de décision possibiliste, qui permet de construire des arbres de décision à partir de données d'apprentissage imparfaites. Plus précisément, elle traite des données caractérisées par des classes incertaines o\`u l'incertitude est modélisée avec la théorie des possibilités quantitative. Nous avons développé trois approches d'arbres de décision possibilistes. Pour chacune des approches, nous avons été confrontés à résoudre plusieurs problèmes pour pouvoir construire des arbres de décision possibilistes, tels que, comment définir une mesure de sélection d'attributs quand les classes sont représentes par des distributions de possibilité, comment trouver les critères d'arrêt et comment les feuilles vont être étiquetées dans ce contexte incertain. La première approche, appelée arbre de décision possibiliste basée sur la non- spécificité, utilise le concept de non-spécificité relatif à la théorie des possibilités dans la définition de sa mesure de sélection d'attributs. Cette approche maintient les distributions de possibilité durant toutes les étapes de la procédure de construction et ce particulièrement, au moment de l'évaluation de la quantité d'information apportée par chaque attribut. En revanche, la deuxième et la troisième approches, appelées arbre de décision possibiliste basé sur la similarité et arbre de décision possibiliste basé sur le clustering, éliminent automatiquement les distributions de possibilité dans leurs mesures de sélection d'attributs. Cette stratégie a permis d'étendre le ratio de gain et, par conséquent, d'étendre l'algorithme C4.5 pour qu'il puisse traiter des données libellées par des classes possibilistes. Ces deux dernières approches sont principalement basées sur le concept de similarité entre les distributions de possibilité étudié dans la thèse.La deuxième principale contribution de cette thèse concerne l'analyse des mesures de similarité en théorie des possibilités. En effet, un challenge important était de fournir une analyse des mesures de similarité possibiliste conduite par les propriétés qu'elles doivent satisfaire. Après avoir montré le rôle important de la notion d'incohérence dans l'évaluation de la similarité en théorie des possibilités, une nouvelle mesure, appelée affinité de l'information a été proposée. Cette mesure satisfait plusieurs propriétés que nous avons établies. A la fin de cette thèse, nous avons proposé des expérimentations pour comparer et montrer la faisabilité des approches d'arbres de décision possibilistes que nous avons développées. / This thesis concerns two important issues in machine learning and reasoning under uncertainty: how to evaluate a similarity relation between two uncertain pieces of information, and how to perform classification from uncertain data. Our first main contribution is to propose a so-called possibilistic decision tree which allows to induce decision trees from training data afflicted with imperfection. More precisely, it handles training data characterized by uncertain class labels where uncertainty is modeled within the quantitative possibility theory framework. We have developed three possibilistic decision tree approaches. For each approach, we were faced and solved typical questions for inducing possibilistic decision trees such as how to define an attribute selection measure when classes are represented by possibility distributions, how to find the stopping criteria and how leaves should be labeled in such uncertain context. The first approach, so-called, non-specificity-based possibilistic decision tree uses the concept of non-specificity relative to possibility theory in its attribute selection measure component. This approach keeps up the possibility distributions within all the stages of the building procedure and especially when evaluating the informativeness of the attributes in the attribute selection step. Conversely, the second and the third approaches, so-called similarity-based possibilistic decision tree and clustering-based possibilistic decision tree, automatically, get rid of possibility distributions in their attribute selection measure. This strategy has allowed them to extend the gain ratio criterion and hence to extend the C4.5 algorithm to handle possibilistic labeled data. These two possibilistic decision tree approaches are mainly based on the concept of similarity between possibility distributions.This latter issue constitutes our second main contribution in this thesis. In fact, an important challenge was to provide a property-based analysis of possibilistic similarity measures. After showing the important role that inconsistency could play in assessing possibilistic similarity, a new inconsistency-based possibilistic similarity measure, so-called information affinity has been proposed. This measure satisfies a set of natural properties that we have established. Finally, we have conducted experiments to show the feasibility and to compare the different possibilistic decision tree approaches developed in this thesis.
Identifer | oai:union.ndltd.org:theses.fr/2010ARTO0402 |
Date | 01 February 2010 |
Creators | Jenhani, Ilyes |
Contributors | Artois, Institut supérieur de gestion (Tunis), Benferhat, Salem, Elouedi, Zied |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | English |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text |
Page generated in 0.0021 seconds