• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 3
  • 1
  • Tagged with
  • 5
  • 5
  • 5
  • 4
  • 4
  • 3
  • 3
  • 3
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Automatic recognition of multiparty human interactions using dynamic Bayesian networks

Dielmann, Alfred January 2009 (has links)
Relating statistical machine learning approaches to the automatic analysis of multiparty communicative events, such as meetings, is an ambitious research area. We have investigated automatic meeting segmentation both in terms of “Meeting Actions” and “Dialogue Acts”. Dialogue acts model the discourse structure at a fine grained level highlighting individual speaker intentions. Group meeting actions describe the same process at a coarse level, highlighting interactions between different meeting participants and showing overall group intentions. A framework based on probabilistic graphical models such as dynamic Bayesian networks (DBNs) has been investigated for both tasks. Our first set of experiments is concerned with the segmentation and structuring of meetings (recorded using multiple cameras and microphones) into sequences of group meeting actions such as monologue, discussion and presentation. We outline four families of multimodal features based on speaker turns, lexical transcription, prosody, and visual motion that are extracted from the raw audio and video recordings. We relate these lowlevel multimodal features to complex group behaviours proposing a multistreammodelling framework based on dynamic Bayesian networks. Later experiments are concerned with the automatic recognition of Dialogue Acts (DAs) in multiparty conversational speech. We present a joint generative approach based on a switching DBN for DA recognition in which segmentation and classification of DAs are carried out in parallel. This approach models a set of features, related to lexical content and prosody, and incorporates a weighted interpolated factored language model. In conjunction with this joint generative model, we have also investigated the use of a discriminative approach, based on conditional random fields, to perform a reclassification of the segmented DAs. The DBN based approach yielded significant improvements when applied both to the meeting action and the dialogue act recognition task. On both tasks, the DBN framework provided an effective factorisation of the state-space and a flexible infrastructure able to integrate a heterogeneous set of resources such as continuous and discrete multimodal features, and statistical language models. Although our experiments have been principally targeted on multiparty meetings; features, models, and methodologies developed in this thesis can be employed for a wide range of applications. Moreover both group meeting actions and DAs offer valuable insights about the current conversational context providing valuable cues and features for several related research areas such as speaker addressing and focus of attention modelling, automatic speech recognition and understanding, topic and decision detection.
2

The study of the social cues exchanged during natural interaction / L'étude des signaux sociaux lors d'interactions naturelles

Fang, Sheng 05 February 2018 (has links)
L'objectif de la thèse consiste à étudier les indices sociaux échangés lors d'interactions naturelles. Cette étude a deux principaux défis. Le premier défi réside dans la sélection des indices sociaux. Il y a des centaines de milliers de signaux sociaux. Il est important de savoir quels signaux sociaux sont essentiels pour comprendre l'interaction sociale. Le deuxième défi concerne la modélisation de l'interaction sociale. Pendant la thèse, nous nous concentrons sur ces deux défis et réalisons 3 applications: la reconnaissance des rôles, la prédiction de la personnalité et l'estimation de la cohésion. Dans l'application de la reconnaissance de rôle, nous proposons une nouvelle approche en combinant un modèle d'apprentissage automatique génératif et discriminatif. Par rapport aux approches conventionnelles, la nouvelle approche a non seulement la capacité de traiter des données de séries temporelles et de modéliser la synchronie des signaux sociaux, mais aussi une forte capacité de discrimination.Dans l'application de la prédiction de la personnalité, nous proposons une nouvelle catégorisation des caractéristiques, qui divise les signaux sociaux en trois groupes, les caractéristiques intra-personnelles, les caractéristiques dyadiques et les caractéristiques de One_VS_All. Cette catégorisation aide à comprendre la relation entre les traits de personnalité / impressions sociales et les catégories d'indices sociaux.La dernière application, appelée estimation de la cohésion, prédit la cohésion entre les participants aux réunions. Nous recueillons des annotations de la cohésion des réunions dans une base de données publique et estimons la cohésion avec un ensemble de caractéristiques abondantes. / The goal of this Ph.D. work is to study the social cues exchanged during natural interaction. This study has 2 main challenges. The first challenge lies in the selection of social cues. There are hundreds of thousands social cues. It's important to find out which social signals are essential to understand social interaction. The second challenge concerns the modelling of social interaction. During the Ph.D. work, we focus on these two challenge and realize 3 applications: role recognition, personality prediction and cohesion estimation.In the application of role recognition, we propose a new approach by combining a generative and a discriminative machine learning model. Compared to conventional approaches, the new approach has not only the ability to process time-series data and model the synchrony of social signals, but also a strong capacity in discrimination.In the application of personality prediction, we propose a new feature categorization, which divides the social signals into 3 groups, Intra-Personal features, Dyadic features, and One_VS_All features. This categorization helps to understand the relation between personality traits/social impressions and the categories of social cues.The last application, named cohesion estimation, predicts the cohesion between the participants in small scale meetings. We collect annotations of cohesion of meetings in a public database and estimate the cohesion with an abundant feature set.
3

Modélisation non-supervisée de signaux sociaux / Unsupervised modelisation of social signals

Michelet, Stéphane 10 March 2016 (has links)
Le but de cette thèse est de proposer des méthodes d'étude et des modèles pour l'analyse des signaux sociaux dans un contexte d'interaction en exploitant à la fois des techniques issues du traitement du signal et de la reconnaissance des formes.Tout d'abord, une méthode non supervisée permettant de mesurer l'imitation entre deux partenaires en termes de délai et de degré est proposée en étudiant uniquement des données gestuelles. Dans un premier temps, des points d'intérêts spatio-temporels sont détectés afin de sélectionner les régions les plus importantes des vidéos. Ils sont ensuite décrits à l'aide d'histogrammes pour permettre la construction de modèles sac-de-mots dans lesquels l'information spatiale est réintroduite. Le degré d'imitation et le délai entre les partenaires sont alors estimés de manière continue grâce à une corrélation-croisée entre les deux modèles sac-de-mots.La deuxième partie de cette thèse porte sur l'extraction automatique d'indices permettant de caractériser des interactions de groupe. Après avoir regroupé tous les indices couramment employés dans la littérature, nous avons proposé l'utilisation d'une factorisation en matrice non négative. En plus d'extraire les indices les plus pertinents, celle-ci a permis de regrouper automatiquement et de manière non supervisée des meetings en 3 classes correspondant aux trois types de leadership tels que définis par les psychologues.Enfin, la dernière partie se focalise sur l'extraction non supervisée d'indices permettant de caractériser des groupes. La pertinence de ces indices, par rapport à des indices ad-hoc provenant de l'état de l'art, est ensuite validée dans une tâche de reconnaissance des rôles. / In a social interaction, we adapt our behavior to our interlocutors. Studying and understanding the underlying mecanisms of this adaptation is the center of Social Signal Processing. The goal of this thesis is to propose methods of study and models for the analysis of social signals in the context of interaction, by exploiting both social processing and pattern recognition techniques. First, an unsupervised method allowing the measurement of imitation between two partners in terms of delay and degree is proposed, only using gestual data. Spatio-temporal interest point are first detected in order to select the most important regions of videos. Then they are described by histograms in order to construct bag-of-words models in which spatial information is reintroduced. Imitation degree and delay between partners are estimated in a continuous way thanks to cross-correlation between the two bag-of-words models. The second part of this thesis focus on the automatic extraction of features permitting to characterizing group interactions. After regrouping all features commonly used in literature, we proposed the utilization of non-negative factorization. More than only extracting the most pertinent features, it also allowed to automatically regroup, and in an unsupervised manner, meetings in three classes corresponding to three types of leadership defined by psychologists. Finally, the last part focus on unsupervised extraction of features permitting to characterize groups. The relevance of these features, compared to ad-hoc features from state of the art, is then validated in a role recognition task.
4

Collaboration entre un humain, un robot et un système ambiant pour l’évaluation de comportements / Human, robot an ambient system collaboration for behavior evaluation

Dumont, Emmanuel 07 May 2019 (has links)
Évaluer un comportement humain c’est évaluer tous les marqueurs traduisant ce comportement (gestes, paroles interactions, etc.). L’observation par un humain de certains marqueurs tels que les expressions faciales, la prosodie ou encore la linguistique, nécessite une formation spécialisée. Pour faciliter l’évaluation du comportement, des échelles indiquant les observations à mener et les conclusions à faire sont employées. Ainsi, automatiser l’évaluation du comportement revient à automatiser l’analyse d’un environnement par le biais de plusieurs capteurs, puis analyser les signaux obtenus afin d’en extraire les marqueurs permettant la déduction du comportement observé. Suite à la variabilité des observations de l’humain lors d’analyses trop spécifiques, de plus en plus d’études emploient ces systèmes automatiques d’observation et d’évaluation du comportement. L’objectif est d’assister l’analyse et l’évaluation humaine en exploitant des systèmes automatiques capables d’extraire des informations difficilement observables pour l’humain. En conséquence, la collaboration entre l’humain et les systèmes informatiques permet d’analyser plus d’éléments du comportement de manière fiable et objective. Cette thèse propose une approche de l’analyse du comportement s’appuyant sur la collaboration entre l’humain et un système automatique. Nous avons mis en place une plate-forme électronique et informatique composée d’un robot mobile et d’un système ambiant afin d’évaluer le comportement humain. Cette plate-forme se définie comme étant : — Modulaire à l’ajout ou le retrait de capteurs : L’ajout et la suppression de capteurs est faisable sans qu’un système ne soit impacté autrement que sur ses performances à reconnaître précisément les comportements; — Accessible à la lecture des données enregistrées : L’utilisation d’ontologies, en tant que base de données sémantiques et logiques, rend la plate-forme utilisable et accessible aux personnes non familiarisées aux systèmes informatiques complexes; — Robuste aux ambiguïtés : Chaque système de la plate-forme (ambiant ou robot) est indépendant et a sa propre représentation de l’environnement. Cependant, ils collaborent entre eux pour répondre aux incohérences ou aux manques d’informations durant l’accomplissement d’une tâche. A partir de la plate-forme présentée précédemment, nous analysons et mesurons la qualité de l’interaction entre un patient et un soignant lors d’une prise de sang réalisée en conditions habituelles. Pour cela, nous utilisons deux méthodes de renseignement des échelles : par un observateur présent lors du soin et par une étude de l’enregistrement vidéo réalisé durant le soin par la plate-forme. Nous émettons l’hypothèse que la présence d’un système automatique d’aide au diagnostic lors de l’analyse des vidéos enregistrées limite la complexité de l’évaluation du comportement et améliore l’objectivité de l’analyse. / To evaluate a human behavior is equivalent to evaluate all the markers translating this behavior (gestures, lyrics interactions, etc.). The observation by a human of certain markers such as facial expressions, prosody or linguistics, requires specialized training. To facilitate the assessment of behavior, scales indicating the observations to be made and the conclusions to be made are used. Thus, automating the evaluation of the behavior amounts to automate the analysis of an environment by means of several sensors, then analyzing the signals obtained in order to extract the markers allowing the deduction of the observed behavior. Due to the variability of human observations in overly specific analyzes, more and more studies are using thes automatic observation and behavioral evaluation systems. The objective is to assist human analysis and evaluation by exploiting automatic systems capable of extracting information that is difficult to observe for humans. As a result, the collaboration between the human and the computer systems makes it possible to analyze more elements of the behavior in a reliable and objective way. This thesis proposes an approach of behavior analysis based on the collaboration between humans and an automatic system. We set up an electronic and computer platform consisting of a mobile robot and an ambient system to evaluate human behavior. This platform is defined as: — Modular to the addition or removal of sensors: The addition and removal of sensors is feasible without a system is impacted otherwise than its performance to accurately recognize behaviors; — Accessible to Reading Recorded Data: The use of ontologies, as a semantic and logical database, makes the platform usable and accessible to people unfamiliar With complex computer systems; — Robust to ambiguities: every platform system (ambient or robot) is independent and has its own representation of the environment. However, they collaborate With each Other to respond to inconsistencies or lack of information during the performance of a task.
5

Apprentissage statistique de modèles de comportement multimodal pour les agents conversationnels interactifs / Learning multimodal behavioral models for interactive conversational agents

Mihoub, Alaeddine 08 October 2015 (has links)
L'interaction face-à-face représente une des formes les plus fondamentales de la communication humaine. C'est un système dynamique multimodal et couplé – impliquant non seulement la parole mais de nombreux segments du corps dont le regard, l'orientation de la tête, du buste et du corps, les gestes faciaux et brachio-manuels, etc – d'une grande complexité. La compréhension et la modélisation de ce type de communication est une étape cruciale dans le processus de la conception des agents interactifs capables d'engager des conversations crédibles avec des partenaires humains. Concrètement, un modèle de comportement multimodal destiné aux agents sociaux interactifs fait face à la tâche complexe de générer un comportement multimodal étant donné une analyse de la scène et une estimation incrémentale des objectifs conjoints visés au cours de la conversation. L'objectif de cette thèse est de développer des modèles de comportement multimodal pour permettre aux agents artificiels de mener une communication co-verbale pertinente avec un partenaire humain. Alors que l'immense majorité des travaux dans le domaine de l'interaction humain-agent repose essentiellement sur des modèles à base de règles, notre approche se base sur la modélisation statistique des interactions sociales à partir de traces collectées lors d'interactions exemplaires, démontrées par des tuteurs humains. Dans ce cadre, nous introduisons des modèles de comportement dits "sensori-moteurs", qui permettent à la fois la reconnaissance des états cognitifs conjoints et la génération des signaux sociaux d'une manière incrémentale. En particulier, les modèles de comportement proposés ont pour objectif d'estimer l'unité d'interaction (IU) dans laquelle sont engagés de manière conjointe les interlocuteurs et de générer le comportement co-verbal du tuteur humain étant donné le comportement observé de son/ses interlocuteur(s). Les modèles proposés sont principalement des modèles probabilistes graphiques qui se basent sur les chaînes de markov cachés (HMM) et les réseaux bayésiens dynamiques (DBN). Les modèles ont été appris et évalués – notamment comparés à des classifieurs classiques – sur des jeux de données collectés lors de deux différentes interactions face-à-face. Les deux interactions ont été soigneusement conçues de manière à collecter, en un minimum de temps, un nombre suffisant d'exemplaires de gestion de l'attention mutuelle et de deixis multimodale d'objets et de lieux. Nos contributions sont complétées par des méthodes originales d'interprétation et d'évaluation des propriétés des modèles proposés. En comparant tous les modèles avec les vraies traces d'interactions, les résultats montrent que le modèle HMM, grâce à ses propriétés de modélisation séquentielle, dépasse les simples classifieurs en terme de performances. Les modèles semi-markoviens (HSMM) ont été également testé et ont abouti à un meilleur bouclage sensori-moteur grâce à leurs propriétés de modélisation des durées des états. Enfin, grâce à une structure de dépendances riche apprise à partir des données, le modèle DBN a les performances les plus probantes et démontre en outre la coordination multimodale la plus fidèle aux évènements multimodaux originaux. / Face to face interaction is one of the most fundamental forms of human communication. It is a complex multimodal and coupled dynamic system involving not only speech but of numerous segments of the body among which gaze, the orientation of the head, the chest and the body, the facial and brachiomanual movements, etc. The understanding and the modeling of this type of communication is a crucial stage for designing interactive agents capable of committing (hiring) credible conversations with human partners. Concretely, a model of multimodal behavior for interactive social agents faces with the complex task of generating gestural scores given an analysis of the scene and an incremental estimation of the joint objectives aimed during the conversation. The objective of this thesis is to develop models of multimodal behavior that allow artificial agents to engage into a relevant co-verbal communication with a human partner. While the immense majority of the works in the field of human-agent interaction (HAI) is scripted using ruled-based models, our approach relies on the training of statistical models from tracks collected during exemplary interactions, demonstrated by human trainers. In this context, we introduce "sensorimotor" models of behavior, which perform at the same time the recognition of joint cognitive states and the generation of the social signals in an incremental way. In particular, the proposed models of behavior have to estimate the current unit of interaction ( IU) in which the interlocutors are jointly committed and to predict the co-verbal behavior of its human trainer given the behavior of the interlocutor(s). The proposed models are all graphical models, i.e. Hidden Markov Models (HMM) and Dynamic Bayesian Networks (DBN). The models were trained and evaluated - in particular compared with classic classifiers - using datasets collected during two different interactions. Both interactions were carefully designed so as to collect, in a minimum amount of time, a sufficient number of exemplars of mutual attention and multimodal deixis of objects and places. Our contributions are completed by original methods for the interpretation and comparative evaluation of the properties of the proposed models. By comparing the output of the models with the original scores, we show that the HMM, thanks to its properties of sequential modeling, outperforms the simple classifiers in term of performances. The semi-Markovian models (HSMM) further improves the estimation of sensorimotor states thanks to duration modeling. Finally, thanks to a rich structure of dependency between variables learnt from the data, the DBN has the most convincing performances and demonstrates both the best performance and the most faithful multimodal coordination to the original multimodal events.

Page generated in 0.113 seconds