La multiplication des sources d'information et le développement de nouvelles technologies ont engendré des bases données complexes, souvent caractérisées par un nombre de variables relativement élevé par rapport aux individus. En particulier, dans les études environnementales sur la pollution de l'air intérieur, la collecte des informations sur les individus se fait au regard de plusieurs thématiques, engendrant ainsi des données de grande dimension avec une structure multi-blocs définie par les thématiques. L'objectif de ce travail a été de développer des méthodes de classification adaptées à ces jeux de données de grande dimension et structurées en blocs de variables. La première partie de ce travail présente un état de l'art des méthodes de classification en général et dans le cas de la grande dimension. Dans la deuxième partie, trois nouvelles approches de classification d'individus décrits par des variables structurées en blocs ont été proposées. La méthode 2S-SOM (Soft Subspace-Self Organizing Map), une approche de type subspace clustering basée sur une modification de la fonction de coût de l'algorithme des cartes topologiques à travers un double système de poids adaptatifs défini sur les blocs et sur les variables. Nous proposons ensuite des approches CSOM (Consensus SOM) et Rv-CSOM de recherche de consensus de cartes auto-organisées basées sur un système de poids déterminés à partir des partitions initiales. Enfin, la troisième partie présente une application de ces méthodes sur le jeu de données réelles de la campagne nationale logement (CNL) menée par l'OQAI afin de définir une typologie des logements au regard des thématiques : qualité de l'air intérieur, structure du bâtiment, composition des ménages et habitudes des occupants. / The multiplication of information source and the development of news technologies generates complex databases, often characterized by relatively high number of variables compared to individuals. In particular, in the environmental studies on the indoor air quality, the information's collection is done according to several thematic, yielding column partitioned or multi-block data set. However, in case of high dimensional data, classical clustering algorithms are not efficient to find clusters which may exist in subspaces of the original space. The goal of this work is to develop clustering algorithms adapted to high dimensional data sets with multi-block structure. The first part of the work shows the state of art on clustering methods. In the second part, three new methods of clustering: the subspace clustering method 2S-SOM (Soft Subspace-Self Organizing Map)is based on a modified cost function of the Self Organizing Maps method across a double system of weights on the blocks and the variables. Then we propose two approaches to find the consensus of self-organized maps CSOM (Consensus SOM) and Rv-CSOM based on weights determined from initial partitions. The last part presents an application of these methods on the OQAI data to determine a typology of dwellings relatively to the following topics: indoor air quality, dwellings structure, household characteristics and habits of the inhabitants.
Identifer | oai:union.ndltd.org:theses.fr/2014CNAM0914 |
Date | 18 March 2014 |
Creators | Ouattara, Mory |
Contributors | Paris, CNAM, Badran, Fouad, Niang-Kéïta, Ndèye, Mandin, Corinne |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | French |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text |
Page generated in 0.0037 seconds