• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 4
  • 1
  • Tagged with
  • 6
  • 6
  • 5
  • 3
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Approche stochastique bayésienne de la composition sémantique pour les modules de compréhension automatique de la parole dans les systèmes de dialogue homme-machine

Meurs, Marie-Jean 10 December 2009 (has links) (PDF)
Les systèmes de dialogue homme-machine ont pour objectif de permettre un échange oral efficace et convivial entre un utilisateur humain et un ordinateur. Leurs domaines d'applications sont variés, depuis la gestion d'échanges commerciaux jusqu'au tutorat ou l'aide à la personne. Cependant, les capacités de communication de ces systèmes sont actuellement limités par leur aptitude à comprendre la parole spontanée. Nos travaux s'intéressent au module de compréhension de la parole et présentent une proposition entièrement basée sur des approches stochastiques, permettant l'élaboration d'une hypothèse sémantique complète. Notre démarche s'appuie sur une représentation hiérarchisée du sens d'une phrase à base de frames sémantiques. La première partie du travail a consisté en l'élaboration d'une base de connaissances sémantiques adaptée au domaine du corpus d'expérimentation MEDIA (information touristique et réservation d'hôtel). Nous avons eu recours au formalisme FrameNet pour assurer une généricité maximale à notre représentation sémantique. Le développement d'un système à base de règles et d'inférences logiques nous a ensuite permis d'annoter automatiquement le corpus. La seconde partie concerne l'étude du module de composition sémantique lui-même. En nous appuyant sur une première étape d'interprétation littérale produisant des unités conceptuelles de base (non reliées), nous proposons de générer des fragments sémantiques (sous-arbres) à l'aide de réseaux bayésiens dynamiques. Les fragments sémantiques générés fournissent une représentation sémantique partielle du message de l'utilisateur. Pour parvenir à la représentation sémantique globale complète, nous proposons et évaluons un algorithme de composition d'arbres décliné selon deux variantes. La première est basée sur une heuristique visant à construire un arbre de taille et de poids minimum. La seconde s'appuie sur une méthode de classification à base de séparateurs à vaste marge pour décider des opérations de composition à réaliser. Le module de compréhension construit au cours de ce travail peut être adapté au traitement de tout type de dialogue. Il repose sur une représentation sémantique riche et les modèles utilisés permettent de fournir des listes d'hypothèses sémantiques scorées. Les résultats obtenus sur les données expérimentales confirment la robustesse de l'approche proposée aux données incertaines et son aptitude à produire une représentation sémantique consistante
2

Approche stochastique bayésienne de la composition sémantique pour les modules de compréhension automatique de la parole dans les systèmes de dialogue homme-machine / A Bayesian Approach of Semantic Composition for Spoken Language Understanding Modules in Spoken Dialog Systems

Meurs, Marie-Jean 10 December 2009 (has links)
Les systèmes de dialogue homme-machine ont pour objectif de permettre un échange oral efficace et convivial entre un utilisateur humain et un ordinateur. Leurs domaines d'applications sont variés, depuis la gestion d'échanges commerciaux jusqu'au tutorat ou l'aide à la personne. Cependant, les capacités de communication de ces systèmes sont actuellement limités par leur aptitude à comprendre la parole spontanée. Nos travaux s'intéressent au module de compréhension de la parole et présentent une proposition entièrement basée sur des approches stochastiques, permettant l'élaboration d'une hypothèse sémantique complète. Notre démarche s'appuie sur une représentation hiérarchisée du sens d'une phrase à base de frames sémantiques. La première partie du travail a consisté en l'élaboration d'une base de connaissances sémantiques adaptée au domaine du corpus d'expérimentation MEDIA (information touristique et réservation d'hôtel). Nous avons eu recours au formalisme FrameNet pour assurer une généricité maximale à notre représentation sémantique. Le développement d'un système à base de règles et d'inférences logiques nous a ensuite permis d'annoter automatiquement le corpus. La seconde partie concerne l'étude du module de composition sémantique lui-même. En nous appuyant sur une première étape d'interprétation littérale produisant des unités conceptuelles de base (non reliées), nous proposons de générer des fragments sémantiques (sous-arbres) à l'aide de réseaux bayésiens dynamiques. Les fragments sémantiques générés fournissent une représentation sémantique partielle du message de l'utilisateur. Pour parvenir à la représentation sémantique globale complète, nous proposons et évaluons un algorithme de composition d'arbres décliné selon deux variantes. La première est basée sur une heuristique visant à construire un arbre de taille et de poids minimum. La seconde s'appuie sur une méthode de classification à base de séparateurs à vaste marge pour décider des opérations de composition à réaliser. Le module de compréhension construit au cours de ce travail peut être adapté au traitement de tout type de dialogue. Il repose sur une représentation sémantique riche et les modèles utilisés permettent de fournir des listes d'hypothèses sémantiques scorées. Les résultats obtenus sur les données expérimentales confirment la robustesse de l'approche proposée aux données incertaines et son aptitude à produire une représentation sémantique consistante / Spoken dialog systems enable users to interact with computer systems via natural dialogs, as they would with human beings. These systems are deployed into a wide range of application fields from commercial services to tutorial or information services. However, the communication skills of such systems are bounded by their spoken language understanding abilities. Our work focus on the spoken language understanding module which links the automatic speech recognition module and the dialog manager. From the user’s utterance analysis, the spoken language understanding module derives a representation of its semantic content upon which the dialog manager can decide the next best action to perform. The system we propose introduces a stochastic approach based on Dynamic Bayesian Networks (DBNs) for spoken language understanding. DBN-based models allow to infer and then to compose semantic frame-based tree structures from speech transcriptions. First, we developed a semantic knowledge source covering the domain of our experimental corpus (MEDIA, a French corpus for tourism information and hotel booking). The semantic frames were designed according to the FrameNet paradigm and a hand-craft rule-based approach was used to derive the seed annotated training data.Then, to derive automatically the frame meaning representations, we propose a system based on a two decoding step process using DBNs : first basic concepts are derived from the user’s utterance transcriptions, then inferences are made on sequential semantic frame structures, considering all the available previous annotation levels. The inference process extracts all possible sub-trees according to lower level information and composes the hypothesized branches into a single utterance-span tree. The composition step investigates two different algorithms : a heuristic minimizing the size and the weight of the tree ; a context-sensitive decision process based on support vector machines for detecting the relations between the hypothesized frames. This work investigates a stochastic process for generating and composing semantic frames using DBNs. The proposed approach offers a convenient way to automatically derive semantic annotations of speech utterances based on a complete frame hierarchical structure. Experimental results, obtained on the MEDIA dialog corpus, show that the system is able to supply the dialog manager with a rich and thorough representation of the user’s request semantics
3

Vers des modèles spatiaux incarnés : mémoire, posture et possibilités d'action / Towards embodied spatial models : memory, posture and action possibilities

Dutriaux, Léo 30 November 2016 (has links)
La cognition incarnée est un courant théorique qui considère que l'esprit doit être compris dans le contexte de son corps, et de l'interaction de ce dernier avec l'environnement. Elle s'est construite en réaction à l'approche cognitiviste classique qui voit la cognition dite « centrale » (mémoire, raisonnement, compréhension...) comme un système de traitement de l'information de symboles amodaux, indépendant des systèmes sensorimoteurs. S'opposant à cette vision, la cognition incarnée soutient notamment que 1/ la cognition aurait pour fonction de guider l'action 2/ elle serait ancrée dans les systèmes sensorimoteurs, c'est-à-dire qu'elle aurait des ressources de traitement en commun avec eux plutôt que d'en être indépendante. Depuis les années 80, les travaux s'inscrivant dans cette approche sont chaque année plus nombreux. Pourtant, la cognition spatiale envisagée selon cette perspective reste encore un domaine peu exploré. L'objectif de la revue de littérature présentée dans cette thèse est de montrer que différentes sources d'informations des représentations spatiales, la perception, la mémoire, et le langage, sont incarnées. Si leurs sources sont incarnées, alors il y a de bonnes raisons de penser que les représentations spatiales le sont aussi. Nous rapportons ensuite quelques éléments suggérant que les représentations spatiales pourraient être incarnées. Notre travail expérimental a eu pour objectif de montrer que la mémoire d'objets pouvant constituer une base à la formation d'une représentation spatiale est incarnée, dans le sens où elle aurait pour fonction de guider l'action, et qu'elle est ancrée dans les systèmes sensorimoteurs. A cette fin, nous avons réalisé plusieurs études explorant, au travers de postures réduisant les possibilités d'action, le rôle du système moteur dans la mémoire (Expériences 1 à 11), le langage (Expériences 9a à 10), et les représentations spatiales (Expériences 10 et 11). Les Expériences 1 à 8 ont montré dans l'ensemble qu'une posture contraignante a un effet négatif sur la mémoire d'images ou de noms d'objets manipulables, mais pas sur la mémoire des objets-non-manipulables (effet PI). Les Expériences 9a et 9b ont utilisé des phrases et ont montré que l'effet de la posture sur la mémoire de noms d'objets manipulables est présent lorsqu'il est associé à un verbe impliquant une action, mais pas lorsqu'il est associé à un verbe n'impliquant pas d'action. Les Expériences 10 et 11 ont utilisé respectivement des descriptions spatiales et des environnements virtuels, et ont montré nouvellement que des objets décrits ou présentés à une distance ne permettant par leur atteinte manuelle sont moins bien mémorisés que ceux situés à une distance proche. Après avoir discuté de ces résultats, nous proposerons notre conception des modèles de situations spatiaux incarnés. / The embodied cognition framework claims that the mind must be understood in the context of its relationship to a physical body that interacts with the world. It has been developed in response to the classical cognitivist approach, which regards the so-called « central » cognition (memory, reasoning, comprehension...) as an amodal symbols processing system, independent from the sensorimotor systems. Contrary to this idea, embodied cognition claims in particular that 1/ cognition is for action 2/ cognition is grounded on sensorimotor systems, that is, it shares processing resources with sensorimotor systems, rather than being independent from them. Since the 1980s, the amount of work within this framework is growing each year. Yet, there are still few researches on spatial cognition with this approach. The aim of the state of art of this thesis is to show that several sources of information of spatial representations, such as perception, memory, and language, are embodied. If their sources are embodied, then it is likely that spatial representations are also embodied. We will report then some direct elements in favor of the embodiment of spatial representations. The aim of our empirical work was to show that the memory of objects, which can potentially be part of a spatial representation, is embodied in the sense that it is for action, and that it is grounded on sensorimotor systems. To fulfill this aim, a body of studies has been run in order to explore, by the mean of postures decreasing the possibilities for action, the role of the motor system in memory (Experiment 1 to 11), language (Experiment 9a to 10), and spatial representations (Experiment 10 and 11). Experiments 1 to 8 showed as a whole that a constraining posture has a negative effect on the memory of manipulable objects, but not on non-manipulable objects (PI effect). Experiments 9a and 9b used sentences. They showed an effect of posture on the memory of manipulable objects only when their name is associated with a verb which involves an action, but not when it is associated with a verb which does not involve an action. Experiments 10 and 11 used respectively spatial descriptions and virtual environments, and newly showed that the objects described or presented out of reach are less recalled than those located at a close distance. After a discussion of these results, we will propose our conception of embodied spatial situation models.
4

Latent variable language models

Tan, Shawn 08 1900 (has links)
No description available.
5

Interprétation des pronoms clitiques objets chez les enfants avec TSA et chez les enfants avec TSL. : étude comparative en suivi du regard / Object clitic pronouns interpretation by children with ASD and by children with SLI : an eye-tracking comparative study

Léger, Elodie 10 November 2017 (has links)
Bien que les troubles du langage formel affectent une grande partie des enfants avec Trouble du Spectre Autistique (TSA), leur nature reste encore incertaine. Certaines études postulent que le trouble observable chez ces enfants est de même nature que celui dont souffrent les enfants avec trouble spécifique du langage (TSL), tandis que d’autres argumentent en faveur de deux troubles qui diffèrent dans leur étiologie. Au centre de ce débat réside la complexité à recueillir des données sur le langage chez les enfants avec TSA, notamment quand il s’agit de participer de manière active. Dans cette étude, nous explorons l’interprétation en temps réel des indices grammaticaux chez des enfants avec TSA monolingues francophones, en nous intéressant aux pronoms clitiques objets, dont la faible production en contexte obligatoire a été proposée comme marqueur du TSL pour le français. / It is well-known that children with Autism Spectrum Disorder (ASD) often have language impairment. However, the nature of this impairment is still largely unknown. Some studies hold that language impairment in children with ASD is of the same nature as impairment found in children with Specific Language Impairment (SLI), whereas others argue that SLI and language impairment in ASD may be different both in their structure and their etiology. At the heart of this debate lies the difficulty of assessing language abilities of children with ASD, especially when active participation is required. Moreover, to date, few studies have investigated formal aspects of language in children with ASD in languages other than English. In this study, we explore real-time interpretation of grammatical cues in French-speaking children with ASD, with a focus on object clitics.
6

Advances in deep learning methods for speech recognition and understanding

Serdyuk, Dmitriy 10 1900 (has links)
Ce travail expose plusieurs études dans les domaines de la reconnaissance de la parole et compréhension du langage parlé. La compréhension sémantique du langage parlé est un sous-domaine important de l'intelligence artificielle. Le traitement de la parole intéresse depuis longtemps les chercheurs, puisque la parole est une des charactéristiques qui definit l'être humain. Avec le développement du réseau neuronal artificiel, le domaine a connu une évolution rapide à la fois en terme de précision et de perception humaine. Une autre étape importante a été franchie avec le développement d'approches bout en bout. De telles approches permettent une coadaptation de toutes les parties du modèle, ce qui augmente ainsi les performances, et ce qui simplifie la procédure d'entrainement. Les modèles de bout en bout sont devenus réalisables avec la quantité croissante de données disponibles, de ressources informatiques et, surtout, avec de nombreux développements architecturaux innovateurs. Néanmoins, les approches traditionnelles (qui ne sont pas bout en bout) sont toujours pertinentes pour le traitement de la parole en raison des données difficiles dans les environnements bruyants, de la parole avec un accent et de la grande variété de dialectes. Dans le premier travail, nous explorons la reconnaissance de la parole hybride dans des environnements bruyants. Nous proposons de traiter la reconnaissance de la parole, qui fonctionne dans un nouvel environnement composé de différents bruits inconnus, comme une tâche d'adaptation de domaine. Pour cela, nous utilisons la nouvelle technique à l'époque de l'adaptation du domaine antagoniste. En résumé, ces travaux antérieurs proposaient de former des caractéristiques de manière à ce qu'elles soient distinctives pour la tâche principale, mais non-distinctive pour la tâche secondaire. Cette tâche secondaire est conçue pour être la tâche de reconnaissance de domaine. Ainsi, les fonctionnalités entraînées sont invariantes vis-à-vis du domaine considéré. Dans notre travail, nous adoptons cette technique et la modifions pour la tâche de reconnaissance de la parole dans un environnement bruyant. Dans le second travail, nous développons une méthode générale pour la régularisation des réseaux génératif récurrents. Il est connu que les réseaux récurrents ont souvent des difficultés à rester sur le même chemin, lors de la production de sorties longues. Bien qu'il soit possible d'utiliser des réseaux bidirectionnels pour une meilleure traitement de séquences pour l'apprentissage des charactéristiques, qui n'est pas applicable au cas génératif. Nous avons développé un moyen d'améliorer la cohérence de la production de longues séquences avec des réseaux récurrents. Nous proposons un moyen de construire un modèle similaire à un réseau bidirectionnel. L'idée centrale est d'utiliser une perte L2 entre les réseaux récurrents génératifs vers l'avant et vers l'arrière. Nous fournissons une évaluation expérimentale sur une multitude de tâches et d'ensembles de données, y compris la reconnaissance vocale, le sous-titrage d'images et la modélisation du langage. Dans le troisième article, nous étudions la possibilité de développer un identificateur d'intention de bout en bout pour la compréhension du langage parlé. La compréhension sémantique du langage parlé est une étape importante vers le développement d'une intelligence artificielle de type humain. Nous avons vu que les approches de bout en bout montrent des performances élevées sur les tâches, y compris la traduction automatique et la reconnaissance de la parole. Nous nous inspirons des travaux antérieurs pour développer un système de bout en bout pour la reconnaissance de l'intention. / This work presents several studies in the areas of speech recognition and understanding. The semantic speech understanding is an important sub-domain of the broader field of artificial intelligence. Speech processing has had interest from the researchers for long time because language is one of the defining characteristics of a human being. With the development of neural networks, the domain has seen rapid progress both in terms of accuracy and human perception. Another important milestone was achieved with the development of end-to-end approaches. Such approaches allow co-adaptation of all the parts of the model thus increasing the performance, as well as simplifying the training procedure. End-to-end models became feasible with the increasing amount of available data, computational resources, and most importantly with many novel architectural developments. Nevertheless, traditional, non end-to-end, approaches are still relevant for speech processing due to challenging data in noisy environments, accented speech, and high variety of dialects. In the first work, we explore the hybrid speech recognition in noisy environments. We propose to treat the recognition in the unseen noise condition as the domain adaptation task. For this, we use the novel at the time technique of the adversarial domain adaptation. In the nutshell, this prior work proposed to train features in such a way that they are discriminative for the primary task, but non-discriminative for the secondary task. This secondary task is constructed to be the domain recognition task. Thus, the features trained are invariant towards the domain at hand. In our work, we adopt this technique and modify it for the task of noisy speech recognition. In the second work, we develop a general method for regularizing the generative recurrent networks. It is known that the recurrent networks frequently have difficulties staying on same track when generating long outputs. While it is possible to use bi-directional networks for better sequence aggregation for feature learning, it is not applicable for the generative case. We developed a way improve the consistency of generating long sequences with recurrent networks. We propose a way to construct a model similar to bi-directional network. The key insight is to use a soft L2 loss between the forward and the backward generative recurrent networks. We provide experimental evaluation on a multitude of tasks and datasets, including speech recognition, image captioning, and language modeling. In the third paper, we investigate the possibility of developing an end-to-end intent recognizer for spoken language understanding. The semantic spoken language understanding is an important step towards developing a human-like artificial intelligence. We have seen that the end-to-end approaches show high performance on the tasks including machine translation and speech recognition. We draw the inspiration from the prior works to develop an end-to-end system for intent recognition.

Page generated in 0.1068 seconds