Aucun système de commerce électronique opérationnel n'est capable de traiter en ligne des requêtes d'utilisateurs exprimées en langue naturelle spontanée. Certains systèmes évitent le problème difficile du développement et du support d'une interface en langue naturelle en simplifiant le type d'interaction de l'utilisateur, par l'utilisation de formulaires à remplir ou d'un langage naturel contrôlé. D'autres systèmes ont cherché mais échoué à offrir une interface en langue naturelle spontanée, parce qu'ils utilisaient des techniques de TALN inadaptées.<br />Le but de cette thèse est de montrer qu'il est nécessaire et possible de construrie des systèmes de commerce électronique à interface en langue naturelle restreints (et multilingues) en utilisant des méthodes orientées vers les sous-langages et le contenu. L'analyse du sous-langage et l'intégration de méthodes orientées vers le contenu augmentent en effet l'exactitude et la robustesse du traitement de façon décisive.<br />Pour vérifier cela, nous avons construit un système expérimental, CATS, comme "preuve de concept". C'est un système de petites annonces en langue naturelle (actuellement l'arabe) basé sur les SMS destiné à mettre en contact des personnes désirant vendre ou acheter des voitures d'occasion, de l'immobilier, etc. Pour analyser le sous-langage très particulier de ces petites annonces en SMS, nous sommes partis d'un corpus web de messages de ce type (mais pas en SMS) pour construire un système de base couvrant l'occasion automobile et l'immobilier en Jordanie. Ce premier système a été déployé, ce qui nous a permis de collecter un corpus réel de SMS "spontanés" dans ces domaines, et d'ajuster finement CATS à ces domaines.<br />Le traitement sémantique étant nécessaire, nous avons défini CRL-cats, un langage de représentation du contenu très simple, mais suffisant pour exprimer le contenu de telles petites annonces. Nous avons écrit l'extracteur de contenu dans le langage spécialisé pour la programmation linguisitique EnCo, dans lequel nous avions déjà écrit le premier "enconvertisseur" arabe-UNL. Ce langage étant d'assez bas niveau, et n'offant aucune aide à la programmation modulaire, nous avons développé une méthodologie qui facilite l'écriture d'enconvertisseurs aussi bien que d'extracteurs de contenu, et permet un codage systématique et efficace.<br />La génération des réponses est basée sur une reconnaissance de patrons sémantiques, différents selon qu'il s'agit d'une annonce de recherche ("look for") ou d'offre ("sell"), et sur un mécanisme de raisonnement, de sorte qu'on peut traiter les situations "sans réponse". À la différence d'autres systèmes expérimentaux, CATS a été conçu dès le départ pour être un "système de production". Il est actuellement déployé en Jordanie par le plus grand opérateur de téléphonie mobile (Fastlink), qui lui a d'abord fait passer des tests sévères. Le test de l'extracteur de contenu sur du texte réel et bruité a donné une f-mesure de 90%. Le temps de réponse moyen est d'environ 10 à 30 secondes à une heure de pointe (10 annonces par minute).
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00097826 |
Date | 20 September 2006 |
Creators | Daoud, Daoud |
Source Sets | CCSD theses-EN-ligne, France |
Language | English |
Detected Language | French |
Type | PhD thesis |
Page generated in 0.0058 seconds