Global ETD Search

Return to search

Modèles de classification en classes empiétantes : cas des modèles arborés / Classification models with class infringement : tree models

Le but des modèles traditionnels en classification (comme les partitions et les hiérarchies de parties) est de permettre de discriminer sans ambiguïté et donc de produire des classes non empiétantes (i.e. l’intersection de deux classes est vide ou une classe est incluse dans l'autre). Cependant, cette exigence de non ambiguïté peut conduire à occulter de l’information. Dans le cas des plantes hybrides en biologie par exemple ou encore de textes appartenant à plusieurs genres en analyse textuelle. Les modèles généraux comme les hypergraphes ou les treillis permettent de prendre en compte l’empiétance entre les classes. Plus précisément, les modèles dits "totalement équilibrés" autorisent l'empiétance tout en conservant certaines contraintes utiles en classification.En apprentissage automatique, les arbres de décision, très utilisés pour leur simplicité d'utilisation et de compréhension réalisent à chaque étape un partitionnement d'un ensemble en deux sous-ensembles.Nous montrons dans ce travail différents liens entre la classification traditionnelle et l'apprentissage automatique supervisé et montrons certains apports que chacun des deux mondes peut faire à l'autre.Nous proposons deux méthodes de classification mêlant les deux univers puis étendons la notion de binarité, très utilisée dans le cas des arbres, aux hypergraphes et aux treillis. Nous montrons alors l'équivalence entre les systèmes binarisables et les systèmes totalement équilibrés, faisant de ces derniers de parfaits candidats à la réalisation de modèles de classification en classes empiétantes. Nous proposons également diverses approximations de systèmes par des systèmes totalement équilibrés. / Traditionally, classification models (such as partitions and hierarchies) aim at separating without ambiguities and produce non-overlapping clusters (i.e two clusters are either disjoint or one is included in the other). However, this non ambiguity may lead to mask information such as in the case of hybrid plants in biology or of texts which belong to two (or more) different genres in textual analysis for instance. General models like hypergraphs or lattices allow to take into account overlapping clusters. More precisely, "totally balanced" models allows class infringement and presents some useful constraints for classification.In machine learning, decision trees are a widely used model as they are simple to use and understand. They are also based on the idea of partition of sets.We show in this work different links between traditional classification and supervised machine learning and show what each world can bring to the other.We propose two methods of classification which link the two universes. We then extend the notion of binarity, widely-used for trees, to hypergraphs and lattices. We show the equivalence between binarizable systems and totally balanced systems, which makes of totally balanced structures a great candidate for classification models with class infringement. We also propose some approximation methods of any system (lattice, hypergraph, dissimilarity) by a totally balanced one.

http://www.theses.fr/2018AIXM0538/document

Hypergraphes totalement équilibrés

Treillis démontables

Classification

Apprentissage automatique

Totally balanced hypergraphs

Dismantlable lattices

Classification

Machine learning

004

Identifer	oai:union.ndltd.org:theses.fr/2018AIXM0538
Date	07 December 2018
Creators	Châtel, Célia
Contributors	Aix-Marseille, Brucker, François, Préa, Pascal
Source Sets	Dépôt national des thèses électroniques françaises
Language	French
Detected Language	French
Type	Electronic Thesis or Dissertation, Text

Page generated in 0.0023 seconds

Modèles de classification en classes empiétantes : cas des modèles arborés / Classification models with class infringement : tree models

Description

Links & Downloads

Tags

Additional Fields