Nous proposons une nouvelle approche pour l'apprentissage de représentation parcimonieuse, où le but est de limiter le nombre de caractéristiques sélectionnées \textbf{par donnée}, résultant en un modèle que nous appellerons \textit{Modèle de parcimonie locale pour la classification} --- \textit{Datum-Wise Sparse Classification} (DWSC) en anglais. Notre approche autorise le fait que les caractéristiques utilisées lors de la classification peuvent être différentes d'une donnée à une autre: une donnée facile à classifier le sera ainsi en ne considérant que quelques caractéristiques, tandis que plus de caractéristiques seront utilisées pour les données plus complexes. Au contraire des approches traditionnelles de régularisation qui essaient de trouver un équilibre entre performance et parcimonie au niveau de l'ensemble du jeu de données, notre motivation est de trouver cet équilibre au niveau des données individuelles, autorisant une parcimonie moyenne plus élevée, pour une performance équivalente. Ce type de parcimonie est intéressant pour plusieurs raisons~: premièrement, nous partons du principe que les explications les plus simples sont toujours préférables~; deuxièmement, pour la compréhension des données, une représentation parcimonieuse par donnée fournit une information par rapport à la structure sous-jacente de celles-ci~: typiquement, si un jeu de données provient de deux distributions disjointes, DWSC autorise le modèle à choisir automatiquement de ne prendre en compte que les caractéristiques de la distribution génératrice de chaque donnée considérée. / This thesis introduces a body of work on sequential models for classification. These models allow for a more flexible and general approach to classification tasks. Many tasks ultimately require the classification of some object, but cannot be handled with a single atomic classification step. This is the case for tasks where information is either not immediately available upfront, or where the act of accessing different aspects of the object being classified may present various costs (due to time, computational power, monetary cost, etc.). The goal of this thesis is to introduce a new method, which we call datum-wise classification, that is able to handle these more complex classifications tasks by modelling them as sequential processes.
Identifer | oai:union.ndltd.org:theses.fr/2014PA066572 |
Date | 07 February 2014 |
Creators | Dulac-Arnold, Gabriel |
Contributors | Paris 6, Gallinari, Patrick |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | English |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text |
Page generated in 0.0019 seconds