Spelling suggestions: "subject:"classification associative"" "subject:"1classification associative""
1 |
Amélioration des procédures adaptatives pour l'apprentissage supervisé des données réelles / Improving adaptive methods of supervised learning for real dataBahri, Emna 08 December 2010 (has links)
L'apprentissage automatique doit faire face à différentes difficultés lorsqu'il est confronté aux particularités des données réelles. En effet, ces données sont généralement complexes, volumineuses, de nature hétérogène, de sources variées, souvent acquises automatiquement. Parmi les difficultés les plus connues, on citera les problèmes liés à la sensibilité des algorithmes aux données bruitées et le traitement des données lorsque la variable de classe est déséquilibrée. Le dépassement de ces problèmes constitue un véritable enjeu pour améliorer l'efficacité du processus d'apprentissage face à des données réelles. Nous avons choisi dans cette thèse de réfléchir à des procédures adaptatives du type boosting qui soient efficaces en présence de bruit ou en présence de données déséquilibrées.Nous nous sommes intéressés, d’abord, au contrôle du bruit lorsque l'on utilise le boosting. En effet, les procédures de boosting ont beaucoup contribué à améliorer l'efficacité des procédures de prédiction en data mining, sauf en présence de données bruitées. Dans ce cas, un double problème se pose : le sur-apprentissage des exemples bruités et la détérioration de la vitesse de convergence du boosting. Face à ce double problème, nous proposons AdaBoost-Hybride, une adaptation de l’algorithme Adaboost fondée sur le lissage des résultats des hypothèses antérieures du boosting, qui a donné des résultats expérimentaux très satisfaisants.Ensuite, nous nous sommes intéressés à un autre problème ardu, celui de la prédiction lorsque la distribution de la classe est déséquilibrée. C'est ainsi que nous proposons une méthode adaptative du type boosting fondée sur la classification associative qui a l’intérêt de permettre la focalisation sur des petits groupes de cas, ce qui est bien adapté aux données déséquilibrées. Cette méthode repose sur 3 contributions : FCP-Growth-P, un algorithme supervisé de génération des itemsets de classe fréquents dérivé de FP-Growth dans lequel est introduit une condition d'élagage fondée sur les contre-exemples pour la spécification des règles, W-CARP une méthode de classification associative qui a pour but de donner des résultats au moins équivalents à ceux des approches existantes pour un temps d'exécution beaucoup plus réduit, enfin CARBoost, une méthode de classification associative adaptative qui utilise W-CARP comme classifieur faible. Dans un chapitre applicatif spécifique consacré à la détection d’intrusion, nous avons confronté les résultats de AdaBoost-Hybride et de CARBoost à ceux des méthodes de référence (données KDD Cup 99). / Machine learning often overlooks various difficulties when confronted real data. Indeed, these data are generally complex, voluminous, and heterogeneous, due to the variety of sources. Among these problems, the most well known concern the sensitivity of the algorithms to noise and unbalanced data. Overcoming these problems is a real challenge to improve the effectiveness of the learning process against real data. In this thesis, we have chosen to improve adaptive procedures (boosting) that are less effective in the presence of noise or with unbalanced data.First, we are interested in robustifying Boosting against noise. Most boosting procedures have contributed greatly to improve the predictive power of classifiers in data mining, but they are prone to noisy data. In this case, two problems arise, (1) the over-fitting due to the noisy examples and (2) the decrease of convergence rate of boosting. Against these two problems, we propose AdaBoost-Hybrid, an adaptation of the Adaboost algorithm that takes into account mistakes made in all the previous iteration. Experimental results are very promising.Then, we are interested in another difficult problem, the prediction when the class is unbalanced. Thus, we propose an adaptive method based on boosted associative classification. The interest of using associations rules is allowing the focus on small groups of cases, which is well suited for unbalanced data. This method relies on 3 contributions: (1) FCP-Growth-P, a supervised algorithm for extracting class frequent itemsets, derived from FP-Growth by introducing the condition of pruning based on counter-examples to specify rules, (2) W-CARP associative classification method which aims to give results at least equivalent to those of existing approaches but in a faster manner, (3) CARBoost, a classification method that uses adaptive associative W-CARP as weak classifier. Finally, in a chapter devoted to the specific application of intrusion’s detection, we compared the results of AdaBoost-Hybrid and CARBoost to those of reference methods (data KDD Cup 99).
|
2 |
Théorie des fonctions de croyance : application des outils de data mining pour le traitement des données imparfaites / Belief function theory : application of data mining tools for imperfect data treatmentSamet, Ahmed 03 December 2014 (has links)
Notre travail s'inscrit dans l'intersection de deux disciplines qui sont la Théorie des Fonctions de Croyance (TFC) et la fouille de données. L'interaction pouvant exister entre la TFC et la fouille de données est étudiée sous deux volets.La première interaction souligne l'apport des règles associatives génériques au sein de la TFC. Nous nous sommes intéressés au problème de fusion de sources non fiables dont la principale conséquence est l'apparition de conflit lors de la combinaison. Une approche de gestion de conflit reposant sur les règles d'association génériques appelé ACM a été proposée.La deuxième interaction s'intéresse aux bases de données imparfaites en particulier les bases de données évidentielles. Les informations, représentées par des fonctions de masse, sont étudiées afin d'extraire des connaissances cachées par le biais des outils de fouille de données. L'extraction des informations pertinentes et cachées de la base se fait grâce à la redéfinition de la mesure du support et de la confiance. Ces mesures introduites ont été les fondements d'un nouveau classifieur associatif que nous avons appelé EDMA. / This thesis explores the relation between two domains which are the Belief Function Theory (BFT) and data mining. Two main interactions between those domain have been pointed out.The first interaction studies the contribution of the generic associative rules in the BFT. We were interested in managing conflict in case of fusing conflictual information sources. A new approach for conflict management based on generic association rules has been proposed called ACM.The second interation studies imperfect databases such as evidential databases. Those kind of databases, where information is represented by belief functions, are studied in order to extract hidden knowledges using data mining tools. The extraction of those knowledges was possible thanks to a new definition to the support and the confidence measures. Those measures were integrated into a new evidential associative classifier called EDMA.
|
3 |
Calcul de motifs sous contraintes pour la classification superviséeGay, Dominique 30 November 2009 (has links) (PDF)
Ces dernières années, l'extraction de motifs locaux (itemsets fréquents et règles d'association) a suscité beaucoup d'entrain pour la classification supervisée. Cette thèse traite du calcul et de l'usage de motifs sous contraintes pour la classification supervisée. Nous nous attaquons à deux problèmes difficiles en classification supervisée à base de motifs et proposons deux contributions méthodologiques : D'un côté, lorsque les attributs sont bruités, les performances des classifieurs peuvent être désastreuses. Les méthodes existantes consistent à corriger les valeurs d'attributs ou supprimer les objets bruités -- ce qui génère une perte d'information. Dans ce mémoire, nous proposons une méthode générique de construction de descripteurs robustes au bruit d'attributs -- sans modifier les valeurs d'attributs ni supprimer les objets bruités. Notre approche se déroule en deux étapes : premièrement nous extrayons l'ensemble des règles delta-fortes de caractérisation. Ces règles offrent des propriétés de corps minimal, de non-redondance et sont basées sur les itemsets delta-libres et leur delta-fermeture -- qui ont déjà fait leur preuve pour la caractérisation de groupements dans des contextes bruités. Deuxièmement, nous construisons un nouveau descripteur numérique robuste pour chaque règle extraite. Les expérimentations menées dans des données bruitées, montrent que des classifieurs classiques sont plus performants en terme de précision sur les données munies des nouveaux descripteurs que sur les données avec les attributs originaux. D'autre part, lorsque la distribution des classes est inégale, les approches existantes de classification à base de motifs ont tendance à être biaisées vers la classe majoritaire. La précision sur la (ou les) classe(s) majoritaire(s) est alors élevée au détriment de la précision sur la (ou les) classe(s) minoritaire(s). Nous montrons que ce problème est dû au fait que les approches existantes ne tiennent pas compte de la répartition des classes et/ou de la fréquence relative des motifs dans chacune des classes de la base. Pour pallier ce problème, nous proposons un nouveau cadre de travail dans lequel nous extrayons un nouveau type de motifs : les règles de caractérisation One-Versus-Each (OVE-règles). Ce nouveau cadre de travail nécessite le paramétrage d'un nombre conséquent de seuils de fréquence et d'infréquence. Pour ce faire, nous proposons un algorithme d'optimisation de paramètres, fitcare ainsi qu'un algorithme d'extraction d'OVE-règles. Les expérimentations menées sur des données UCI multi-classes disproportionnées et sur des données de diagnostic de méningite aigüe, montrent que notre approche fitcare est plus performante que les approches existantes en terme de précision sur les classes mineures. L'application de notre méthode de classification associative à l'analyse de données d'érosion des sols en Nouvelle-Calédonie a mis en évidence l'intérêt de notre proposition pour caractériser les phénomènes d'érosion.
|
Page generated in 0.1556 seconds