Les systèmes de dialogue homme-machine ont pour objectif de permettre un échange oral efficace et convivial entre un utilisateur humain et un ordinateur. Leurs domaines d'applications sont variés, depuis la gestion d'échanges commerciaux jusqu'au tutorat ou l'aide à la personne. Cependant, les capacités de communication de ces systèmes sont actuellement limités par leur aptitude à comprendre la parole spontanée. Nos travaux s'intéressent au module de compréhension de la parole et présentent une proposition entièrement basée sur des approches stochastiques, permettant l'élaboration d'une hypothèse sémantique complète. Notre démarche s'appuie sur une représentation hiérarchisée du sens d'une phrase à base de frames sémantiques. La première partie du travail a consisté en l'élaboration d'une base de connaissances sémantiques adaptée au domaine du corpus d'expérimentation MEDIA (information touristique et réservation d'hôtel). Nous avons eu recours au formalisme FrameNet pour assurer une généricité maximale à notre représentation sémantique. Le développement d'un système à base de règles et d'inférences logiques nous a ensuite permis d'annoter automatiquement le corpus. La seconde partie concerne l'étude du module de composition sémantique lui-même. En nous appuyant sur une première étape d'interprétation littérale produisant des unités conceptuelles de base (non reliées), nous proposons de générer des fragments sémantiques (sous-arbres) à l'aide de réseaux bayésiens dynamiques. Les fragments sémantiques générés fournissent une représentation sémantique partielle du message de l'utilisateur. Pour parvenir à la représentation sémantique globale complète, nous proposons et évaluons un algorithme de composition d'arbres décliné selon deux variantes. La première est basée sur une heuristique visant à construire un arbre de taille et de poids minimum. La seconde s'appuie sur une méthode de classification à base de séparateurs à vaste marge pour décider des opérations de composition à réaliser. Le module de compréhension construit au cours de ce travail peut être adapté au traitement de tout type de dialogue. Il repose sur une représentation sémantique riche et les modèles utilisés permettent de fournir des listes d'hypothèses sémantiques scorées. Les résultats obtenus sur les données expérimentales confirment la robustesse de l'approche proposée aux données incertaines et son aptitude à produire une représentation sémantique consistante / Spoken dialog systems enable users to interact with computer systems via natural dialogs, as they would with human beings. These systems are deployed into a wide range of application fields from commercial services to tutorial or information services. However, the communication skills of such systems are bounded by their spoken language understanding abilities. Our work focus on the spoken language understanding module which links the automatic speech recognition module and the dialog manager. From the user’s utterance analysis, the spoken language understanding module derives a representation of its semantic content upon which the dialog manager can decide the next best action to perform. The system we propose introduces a stochastic approach based on Dynamic Bayesian Networks (DBNs) for spoken language understanding. DBN-based models allow to infer and then to compose semantic frame-based tree structures from speech transcriptions. First, we developed a semantic knowledge source covering the domain of our experimental corpus (MEDIA, a French corpus for tourism information and hotel booking). The semantic frames were designed according to the FrameNet paradigm and a hand-craft rule-based approach was used to derive the seed annotated training data.Then, to derive automatically the frame meaning representations, we propose a system based on a two decoding step process using DBNs : first basic concepts are derived from the user’s utterance transcriptions, then inferences are made on sequential semantic frame structures, considering all the available previous annotation levels. The inference process extracts all possible sub-trees according to lower level information and composes the hypothesized branches into a single utterance-span tree. The composition step investigates two different algorithms : a heuristic minimizing the size and the weight of the tree ; a context-sensitive decision process based on support vector machines for detecting the relations between the hypothesized frames. This work investigates a stochastic process for generating and composing semantic frames using DBNs. The proposed approach offers a convenient way to automatically derive semantic annotations of speech utterances based on a complete frame hierarchical structure. Experimental results, obtained on the MEDIA dialog corpus, show that the system is able to supply the dialog manager with a rich and thorough representation of the user’s request semantics
Identifer | oai:union.ndltd.org:theses.fr/2009AVIG0177 |
Date | 10 December 2009 |
Creators | Meurs, Marie-Jean |
Contributors | Avignon, De Mori, Renato, Lefèvre, Fabrice |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | French |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text |
Page generated in 0.0024 seconds