En raison de l'augmentation constante du volume d'information accessible électroniquement, la conception et la mise en uvre d'outils efficaces, permettant notamment à l'utilisateur de n'avoir accès qu'à l'information qu'il juge pertinente, devient une nécessité absolue. Comme la plupart de ces outils sont destinés à être utilisés dans un cadre professionnel, les exigences de fiabilité et de convivialité sont très importantes; les problèmes à résoudre pour satisfaire ces exigences sont nombreux et difficiles. L'accès à cette information pertinente peut se faire en fournissant à un utilisateur des documents pertinents ou en lui proposant des passages de documents pertinents (ou des réponses à des questions). Le premier cas relève du domaine de la recherche de textes et le second du domaine de l'extraction d'informations. C'est dans le domaine très actif de la recherche de textes que s'est situé notre travail, réalisé dans le cadre d'une collaboration entre Informatique CDC, filiale de la Caisse des Dépôts et Consignations, et le Laboratoire d'Électronique de l'ESPCI. Le but de nos travaux a été de développer un modèle fondé sur l'apprentissage numérique pour la catégorisation de textes ou, plus précisément, pour ce qui correspond à la tâche de routing dans le découpage de la conférence TREC (Text REtrieval Conference). L'approche que nous avons conçue nous a permis d'obtenir un résultat très satisfaisant: nous avons remporté la tâche de "routing" de la compétition TREC 9, devançant notamment Microsoft. Le point essentiel de notre approche est l'utilisation d'un classifieur qui est un réseau de neurones dont l'architecture prend en considération le contexte local des mots. La mise en uvre d'une méthode de sélection des entrées nous a permis de réduire à une vingtaine le nombre de descripteurs de chaque texte; néanmoins, le nombre de paramètres reste élevé eu égard au nombre d'exemples disponibles (notamment lors de la compétition TREC 9). Il a donc été nécessaire de mettre en uvre une méthode de régularisation pour obtenir des résultats significatifs à l'issue des apprentissages. Nos résultats ont été validés d'une part grâce au corpus Reuters-21578 qui est souvent utilisé par la communauté de la catégorisation de textes, et d'autre part, par la participation aux sous-tâches de routing de TREC-8 et TREC-9, qui ont permis d'effectuer des comparaisons chiffrées avec d'autres approches. Nos travaux ont été intégrés dans l'application ExoWeb développée à la Caisse des Dépôts, pour y ajouter des fonctionnalités opérationnelles originales. Cette application offrait, sur l'intranet du groupe, un service de catégorisation de dépêches AFP en temps réel; cette catégorisation s'effectuait grâce à des modèles à bases de règles. La première fonctionnalité nouvelle résultant de nos travaux est un outil qui permet à l'administrateur du système de surveiller automatiquement le vieillissement de filtres construits sur des modèles à base de règles. L'idée de cette application est de fabriquer une "copie" d'un filtre à base de règles avec un filtre utilisant un réseau de neurones. Comme le réseau de neurones produit une probabilité de pertinence et non une réponse binaire, il est possible d'attirer l'attention de l'administrateur sur les documents pour lesquels les filtres et les réseaux de neurones fournissent des réponses divergentes: documents considérés comme pertinents par la méthode à base de règles, mais obtenant une probabilité proche de zéro avec le réseau de neurones, et documents considérés comme non pertinents avec le premier et obtenant une probabilité de pertinence proche de un avec le second. Nous avons également proposé les bases d'une deuxième application, qui permet à un utilisateur de fabriquer lui-même un filtre à sa convenance avec un travail minimum. Pour réaliser cette application, il est nécessaire que l'utilisateur fournisse une base de documents pertinents. Cela peut se faire grâce à l'utilisation d'un moteur de recherche conjointement avec un réseau de neurones ou uniquement grâce au moteur de recherche.
Identifer | oai:union.ndltd.org:CCSD/oai:pastel.archives-ouvertes.fr:pastel-00000488 |
Date | 12 1900 |
Creators | Stricker, Mathieu |
Source Sets | CCSD theses-EN-ligne, France |
Detected Language | French |
Type | PhD thesis |
Page generated in 0.0019 seconds