Spelling suggestions: "subject:"fusion multimodal""
11 |
Détection multimodale du stress pour la conception de logiciels de remédiation / Multimodal stress detection for remediation software designSoury, Mariette 28 October 2014 (has links)
Ces travaux de thèse portent sur la reconnaissance automatique du stress chez des humains en interaction dans des situations anxiogènes: prise de parole en public, entretiens et jeux sérieux à partir d'indices audio et visuels.Afin de concevoir des modèles de reconnaissance automatique du stress, nous utilisons : des indices audio calculés à partir de la voix des sujets, capturée par un micro cravate; et des indices visuels calculés soit à partir de l'expression faciale des sujets capturés par une webcam, soit à partir de la posture des sujets capturée par une Kinect. Une partie des travaux portent sur la fusion des informations apportées par les différentes modalités.L'expression et la gestion du stress sont influencées à la fois par des différences interpersonnelles (traits de personnalité, expériences passées, milieu culturel) et contextuelles (type de stresseur, enjeux de la situation). Nous évaluons le stress sur différents publics à travers des corpus de données collectés pendant la thèse: un public sociophobe en situation anxiogène, face à une machine et face à des humains; un public non pathologique en simulation d'entretien d'embauche; et un public non pathologique en interaction face à un ordinateur ou face au robot humanoïde Nao. Les comparaisons inter- individus, et inter-corpus révèlent la diversité de l'expression du stress.Une application de ces travaux pourrait être la conception d'outils thérapeutiques pour la maitrise du stress, notamment à destination des populations phobiques.Mots clé : stress, phobie sociale, détection multimodale du stress , indices audio du stress, indices faciaux du stress, indices posturaux du stress, fusion multimodale / This thesis focuses on the automatic recognition of human stress during stress-inducing interactions (public speaking, job interview and serious games), using audio and visual cues.In order to build automatic stress recognition models, we used audio cues computed from subjects' voice captured via a lapel microphone, and visual cues computed either form subjects' facial expressions captured via a webcam, or subjects' posture captured via a Kinect. Part of this work is dedicated to the study of information fusion form those various modalities.Stress expression and coping are influenced both by interpersonal differences (personality traits, past experiences, cultural background) and contextual differences (type of stressor, situation's stakes). We evaluated stress in various populations in data corpora collected during this thesis: social phobics in anxiety-inducing situations in interaction with a machine and with humans; apathologic subjects in a mock job interview; and apathologic subjects interaction with a computer and with the humanoid robot Nao. Inter-individual and inter-corpora comparisons highlight the variability of stress expression.A possible application of this work could be the elaboration of therapeutic software to learn stress coping strategies, particularly for social phobics.Key words: stress, social phobia, multimodal stress detection, stress audio cues, stress facial cues, stress postural cues, multimodal fusion
|
12 |
Modélisation pour la reconnaissance continue de la langue française parlée complétée à l'aide de méthodes avancées d'apprentissage automatique / Modeling for Continuous Cued Speech Recognition in French using Advanced Machine Learning MethodsLiu, Li 11 September 2018 (has links)
Cette thèse de doctorat traite de la reconnaissance automatique du Langage français Parlé Complété (LPC), version française du Cued Speech (CS), à partir de l’image vidéo et sans marquage de l’information préalable à l’enregistrement vidéo. Afin de réaliser cet objectif, nous cherchons à extraire les caractéristiques de haut niveau de trois flux d’information (lèvres, positions de la main et formes), et fusionner ces trois modalités dans une approche optimale pour un système de reconnaissance de LPC robuste. Dans ce travail, nous avons introduit une méthode d’apprentissage profond avec les réseaux neurono convolutifs (CNN)pour extraire les formes de main et de lèvres à partir d’images brutes. Un modèle de mélange de fond adaptatif (ABMM) est proposé pour obtenir la position de la main. De plus, deux nouvelles méthodes nommées Modified Constraint Local Neural Fields (CLNF Modifié) et le model Adaptive Ellipse Model ont été proposées pour extraire les paramètres du contour interne des lèvres (étirement et ouverture aux lèvres). Le premier s’appuie sur une méthode avancée d’apprentissage automatique (CLNF) en vision par ordinateur. Toutes ces méthodes constituent des contributions significatives pour l’extraction de caractéristiques du LPC. En outre, en raison de l’asynchronie des trois flux caractéristiques du LPC, leur fusion est un enjeu important dans cette thèse. Afin de le résoudre, nous avons proposé plusieurs approches, y compris les stratégies de fusion au niveau données et modèle avec une modélisation HMM dépendant du contexte. Pour obtenir le décodage, nous avons proposé trois architectures CNNs-HMMs. Toutes ces architectures sont évaluées sur un corpus de phrases codées en LPC en parole continue sans aucun artifice, et la performance de reconnaissance CS confirme l’efficacité de nos méthodes proposées. Le résultat est comparable à l’état de l’art qui utilisait des bases de données où l’information pertinente était préalablement repérée. En même temps, nous avons réalisé une étude spécifique concernant l’organisation temporelle des mouvements de la main, révélant une avance de la main en relation avec l’emplacement dans la phrase. En résumé, ce travail de doctorat propose les méthodes avancées d’apprentissage automatique issues du domaine de la vision par ordinateur et les méthodologies d’apprentissage en profondeur dans le travail de reconnaissance CS, qui constituent un pas important vers le problème général de conversion automatique de CS en parole audio. / This PhD thesis deals with the automatic continuous Cued Speech (CS) recognition basedon the images of subjects without marking any artificial landmark. In order to realize thisobjective, we extract high level features of three information flows (lips, hand positions andshapes), and find an optimal approach to merging them for a robust CS recognition system.We first introduce a novel and powerful deep learning method based on the ConvolutionalNeural Networks (CNNs) for extracting the hand shape/lips features from raw images. Theadaptive background mixture models (ABMMs) are also applied to obtain the hand positionfeatures for the first time. Meanwhile, based on an advanced machine learning method Modi-fied Constrained Local Neural Fields (CLNF), we propose the Modified CLNF to extract theinner lips parameters (A and B ), as well as another method named adaptive ellipse model. Allthese methods make significant contributions to the feature extraction in CS. Then, due tothe asynchrony problem of three feature flows (i.e., lips, hand shape and hand position) in CS,the fusion of them is a challenging issue. In order to resolve it, we propose several approachesincluding feature-level and model-level fusion strategies combined with the context-dependentHMM. To achieve the CS recognition, we propose three tandem CNNs-HMM architectureswith different fusion types. All these architectures are evaluated on the corpus without anyartifice, and the CS recognition performance confirms the efficiency of our proposed methods.The result is comparable with the state of the art using the corpus with artifices. In parallel,we investigate a specific study about the temporal organization of hand movements in CS,especially about its temporal segmentation, and the evaluations confirm the superior perfor-mance of our methods. In summary, this PhD thesis applies the advanced machine learningmethods to computer vision, and the deep learning methodologies to CS recognition work,which make a significant step to the general automatic conversion problem of CS to sound.The future work will mainly focus on an end-to-end CNN-RNN system which incorporates alanguage model, and an attention mechanism for the multi-modal fusion.
|
13 |
Modélisation statistique et segmentation d'images TEP : application à l'hétérogénéité et au suivi de tumeurs / Statistical model and segmentation of PET images : application to tumor heterogeneity and trackingIrace, Zacharie 08 October 2014 (has links)
Cette thèse étudie le traitement statistique des images TEP. Plus particulièrement, la distribution binomiale négative est proposée pour modéliser l’activité d’une région mono-tissulaire. Cette représentation a l’avantage de pouvoir prendre en compte les variations d’activité biologique (ou hétérogénéité) d’un même tissu. A partir de ces résultats, il est proposé de modéliser la distribution de l’image TEP entière comme un mélange spatialement cohérent de lois binomiales négatives. Des méthodes Bayésiennes sont considérées pour la segmentation d’images TEP et l’estimation conjointe des paramètres du modèle. La cohérence spatiale inhérente aux tissus biologiques est modélisée par un champ aléatoire de Potts-Markov pour représenter la dépendance locale entre les composantes du mélange. Un algorithme original de Monte Carlo par Chaîne de Markov (MCMC) est utilisé, faisant appel aux notions d’échantillonnage dans un espace Riemannien et d’opérateurs proximaux. L’approche proposée est appliquée avec succès à la segmentation de tumeurs en imagerie TEP. Cette méthode est ensuite étendue d’une part en intégrant au processus de segmentation des informations anatomiques acquises par tomodensitométrie (TDM), et d’autre part en traitant une série temporelle d’images correspondant aux différentes phases de respiration. Un modèle de mélange de distributions bivariées binomiale négative - normale est proposé pour représenter les images dynamiques TEP et TDM fusionnées. Un modèle Bayésien hiérarchique a été élaboré comprenant un champ de Potts-Markov à quatre dimensions pour respecter la cohérence spatiale et temporelle des images PET-TDM dynamiques. Le modèle proposé montre une bonne qualité d’ajustement aux données et les résultats de segmentation obtenus sont visuellement en concordance avec les structures anatomiques et permettent la délimitation et le suivi de la tumeur. / This thesis studies statistical image processing of PET images. More specifically, the negative binomial distribution is proposed to model the activity of a single tissue. This representation has the advantage to take into account the variations of biological activity (or heterogeneity) within a single tissue. Based on this, it is proposed to model the data of the entire PET image as a spatially coherent finite mixture of negative binomial distributions. Bayesian methods are considered to jointly perform the segmentation and estimate the model parameters. The inherent spatial coherence of the biological tissue is modeled by a Potts-Markov random field to represent the local dependence between the components of the mixture. An original Markov Chain Monte Carlo (MCMC) algorithm is proposed, based on sampling in a Riemannian space and proximal operators. The proposed approach is successfully applied to the segmentation of tumors in PET imaging. This method is further extended by incorporating anatomical information acquired by computed tomography (CT) and processing a time series of images corresponding to the phases of respiration. A mixture model of bivariate negative binomial - normal distributions is proposed to represent the dynamic PET and CT fused images. A hierarchical Bayesian model was developed including a four dimensional Potts-Markov field to enforce the spatiotemporal coherence of dynamic PET-CT images. The proposed model shows a good fit to the data and the segmentation results obtained are visually consistent with the anatomical structures and allow accurate tumor delineation and tracking.
|
14 |
Predictive coding in auditory processing : insights from advanced modeling of EEG and MEG mismatch responses / Principe du codage prédictif pour le traitement de l'information auditive : apports de l'EEG et de la MEG pour la modélisation de réponses à la dévianceLecaignard, Françoise 28 September 2016 (has links)
Cette thèse porte sur le codage prédictif comme principe général pour la perception et vise à en étayer les mécanismes computationnels et neurophysiologiques dans la modalité auditive. Ce codage repose sur des erreurs de prédictions se propageant dans une hiérarchie, et qui pourraient se refléter dans des réponses cérébrales au changement (ou déviance) telles que la Négativité de discordance (mismatch negativity, MMN). Nous avons manipulé la prédictibilité de sons déviants et utilisé des approches de modélisation computationnelle et dynamique causale (DCM) appliquées à des enregistrements électrophysiologiques (EEG, MEG) simultanés.Une modulation des réponses à la déviance par la prédictibilité a été observée, permettant d'établir un lien avec les erreurs de prédictions. Cet effet implique un apprentissage implicite des régularités acoustiques, dont l'influence sur le traitement auditif a pu être caractérisée par notre approche de modélisation. Sur le plan computationnel, un apprentissage a été mis en évidence au cours de ce traitement auditif, reposant sur une fenêtre d'intégration temporelle dont la taille varie avec la prédictibilité des déviants. Cet effet pourrait également moduler la connectivité synaptique sous-tendant le traitement auditif, comme le suggère l'analyse DCM.Nos résultats mettent en évidence la mise en œuvre d'un apprentissage perceptif au sein d'une hiérarchie auditive soumis à une modulation par la prédictibilité du contexte acoustique, conformément aux prédictions du codage prédictif. Ils soulignent également l'intérêt de ce cadre théorique pour émettre et tester expérimentalement des hypothèses mécanistiques précises / This thesis aims at testing the predictive coding account of auditory perception. This framework rests on precision-weighted prediction errors elicited by unexpected sounds that propagate along a hierarchical organization in order to maintain the brain adapted to a varying acoustic environment. Using the mismatch negativity (MMN), a brain response to unexpected stimuli (deviants) that could reflect such errors, we could address the computational and neurophysiological underpinnings of predictive coding. Precisely, we manipulated the predictability of deviants and applied computational learning models and dynamic causal models (DCM) to electrophysiological responses (EEG, MEG) measured simultaneously. Deviant predictability was found to modulate deviance responses, a result supporting their interpretation as prediction errors. Such effect might involve the (high-level) implicit learning of sound sequence regularities that would in turn influence auditory processing in lower hierarchical levels. Computational modeling revealed the perceptual learning of sounds, resting on temporal integration exhibiting differences induced by our predictability manipulation. In addition, DCM analysis indicated predictability changes in the synaptic connectivity established by deviance processing. These results conform predictive coding predictions regarding both deviance processing and its modulation by deviant predictability and strongly support perceptual learning of auditory regularities achieved within an auditory hierarchy. Our findings also highlight the power of this mechanistic framework to elaborate and test new hypothesis enabling to improve our understanding of auditory processing
|
Page generated in 0.085 seconds