Le sujet principal de notre travail d'habilitation concerne l'extension de l'approche systémique, initialement implantée dans le Système de Recherche d'Information NOMAD, qui a fait l'objet de notre travail de thèse, pour mettre en place un nouveau paradigme général d'analyse de données basé sur les points de vue multiples, paradigme que nous avons baptisé MVDA (Multi-View Data Analysis). Ce paradigme couvre à la fois le domaine de l'analyse de données et celui de la fouille de données. Selon celui-ci, chaque analyse de données est considérée comme une vue différente sur les données. Le croisement entre les vues s'opère par l'intermédiaire d'un réseau bayésien construit, de manière non supervisée, à partir des données ou des propriétés partagées entre ces dernières. Le paradigme MDVA repose également sur l'exploitation de méthodes spécifiques de visualisation, comme la visualisation topographique ou la visualisation hyperbolique. La mise en place de nouveaux estimateurs de qualité de type Rappel/Précision non supervisés basés sur l'analyse de la distribution des propriétés associées aux classes, et qui à la fois sont indépendants des méthodes de classification et des changements relatifs à leur mode opératoire (initialisation, distances utilisées ...), nous a permis de démontrer objectivement la supériorité de ce paradigme par rapport à l'approche globale, classique en analyse de données. Elle nous a également permis de comparer et d'intégrer dans le paradigme MVDA des méthodes de classification non supervisées (clustering) neuronales qui sont plus particulièrement adaptées à la gestion des données ultra-éparses et fortement multidimensionnelles, à l'image des données documentaires, ainsi que d'optimiser le mode opératoire de telles méthodes. Notre démarche a par ailleurs impliqué de développer la cohabitation entre le raisonnement neuronal et le raisonnement symbolique, ou entre des modèles de nature différente, de manière à couvrir l'ensemble des fonctions de la recherche et de l'analyse de l'information et à éliminer, sinon à réduire, les défauts inhérents à chacun des types d'approche. A travers de nombreuses applications, notamment dans le domaine de l'évaluation des sciences, nous montrons comment l'exploitation d'un tel paradigme peut permettre de résoudre des problèmes complexes d'analyse de données, comme ceux liés l'analyse diachronique à grande échelle des données textuelles polythématiques. Nous montrons également comment l'ensemble des outils développés dans le cadre de ce paradigme nous ont permis mettre en place de nouvelles méthodes très robustes et très performantes pour la classification supervisée et pour le clustering incrémental. Nous montrons finalement comment nous envisageons d'étendre leur application à d'autres domaines très porteurs, comme ceux du traitement automatique des langues ou de la bioinformatique.
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00552247 |
Date | 06 December 2010 |
Creators | Lamirel, Jean-Charles |
Publisher | Université Nancy II |
Source Sets | CCSD theses-EN-ligne, France |
Language | French |
Detected Language | French |
Type | habilitation ࠤiriger des recherches |
Page generated in 0.0028 seconds