Global ETD Search

11	Reconstitution de la parole par imagerie ultrasonore et vidéo de l'appareil vocal : vers une communication parlée silencieuse Hueber, Thomas 09 December 2009 (has links) (PDF) L'objectif poursuivi dans ce travail de thèse est la réalisation d'un dispositif capable d'interpréter une parole normalement articulée mais non vocalisée, permettant ainsi la " communication parlée silencieuse ". Destiné, à terme, à être léger et portatif, ce dispositif pourrait être utilisé d'une part, par une personne ayant subi une laryngectomie (ablation du larynx suite à un cancer), et d'autre part, pour toute communication, soit dans un milieu où le silence est requis (transport en commun, opération militaire, etc.), soit dans un environnement extrêmement bruité. Le dispositif proposé combine deux systèmes d'imagerie pour capturer l'activité de l'appareil vocal pendant " l'articulation silencieuse " : l'imagerie ultrasonore, qui donne accès aux articulateurs internes de la cavité buccale (comme la langue), et la vidéo, utilisée pour capturer le mouvement des lèvres. Le problème traité dans cette étude est celui de la synthèse d'un signal de parole " acoustique ", uniquement à partir d'un flux de données " visuelles " (images ultrasonores et vidéo). Cette conversion qualifiée ici de " visuo-acoustique ", s'effectue par apprentissage artificiel et fait intervenir quatre étapes principales : l'acquisition des données audiovisuelles, leur caractérisation, l'inférence d'une cible acoustique à partir de l'observation du geste articulatoire et la synthèse du signal. Dans le cadre de la réalisation du dispositif expérimental d'acquisition des données, un système de positionnement de la sonde ultrasonore par rapport à la tête du locuteur, basé sur l'utilisation combinée de deux capteurs inertiaux a tout d'abord été conçu. Un système permettant l'enregistrement simultané des flux visuels et du flux acoustique, basé sur la synchronisation des capteurs ultrasonore, vidéo et audio par voie logicielle, a ensuite été développé. Deux bases de données associant observations articulatoires et réalisations acoustiques, contenant chacune environ une heure de parole (continue), en langue anglaise, ont été construites. Pour la caractérisation des images ultrasonores et vidéo, deux approches ont été mises en œuvre. La première est basée sur l'utilisation de la transformée en cosinus discrète, la seconde, sur l'analyse en composantes principales (approche EigenTongues/EigenLips). La première approche proposée pour l'inférence des paramètres acoustiques, qualifiée de " directe ", est basée sur la construction d'une " fonction de conversion " à l'aide d'un réseau de neurones et d'un modèle par mélange de gaussiennes. Dans une seconde approche, qualifiée cette fois " d'indirecte ", une étape de décodage des flux visuels au niveau phonétique est introduite en amont du processus de synthèse. Cette étape intermédiaire permet notamment l'introduction de connaissances linguistiques a priori sur la séquence observée. Elle s'appuie sur la modélisation des gestes articulatoires par des modèles de Markov cachés (MMC). Deux méthodes sont enfin proposées pour la synthèse du signal à partir de la suite phonétique décodée. La première est basée sur une approche par concaténation d'unités ; la seconde utilise la technique dite de " synthèse par MMC ". Pour permettre notamment la réalisation d'adaptations prosodiques, ces deux méthodes de synthèse s'appuient sur une description paramétrique du signal de parole du type "Harmonique plus Bruit" (HNM). Parole silencieuse Communication parlée augmentée Imagerie ultrasonore Vidéo Capteurs Traitement du signal appliqué Modélisation par apprentissage Fusion de données Multimodalité Reconnaissance Synthèse modèle de Markov caché Mélange de gaussiennes Réseau de neurones Image Systèmes homme-machine Laryngectomie Cancer Handicap Langue Lèvres Articulateurs
12	Segmentation et suivi des contours externe et interne des lèvres pour des applications de maquillage virtuel et de labiophonie Stillittano, Sébastien 26 May 2009 (has links) (PDF) Ces dernières années, l'analyse des visages connaît un intérêt grandissant dans le domaine de la vision par ordinateur. Le visage est un vecteur d'information puissant de la communication entre être humains et il fournit des indications pertinentes sur l'identité d'une personne, sur son état émotionnel ou sur ce qu'elle dit. Le laboratoire GIPSA a mené de multiples études concernant le problème de la segmentation automatique des traits du visage pour des applications de type multimédia (réalité mixte, terminal téléphonique, interaction homme machine, interprétation de gestes de communication non verbal, simulateur de conduite interactif...). Des travaux ont porté sur la localisation de la tête dans une image, sur l'extraction des contours des yeux, des sourcils et de l'arc mandibulaire et, plus récemment, sur la segmentation des contours de la bouche. Cette thèse présente un algorithme automatique de segmentation des contours intérieur et extérieur des lèvres utilisé pour des images statiques et des séquences vidéo. Ce système est composé de deux modules : un module statique et un module de suivi. Dans le cas d'une image statique, après avoir localisé le visage et avoir calculé une boîte englobante de la bouche, l'algorithme statique permet d'extraire automatiquement le contour complet des lèvres en combinant contours actifs et modèles paramétriques. Les jumping snakes permettent de trouver des points clefs externes et internes sur les contours afin de positionner un modèle paramétrique composé de courbes cubiques appropriées aux déformations possibles des lèvres. Le modèle interne peut prendre deux formes différentes selon que la bouche soit ouverte ou fermée. Finalement, une méthode de maximisation de flux moyen de gradients optimise le modèle paramétrique. Dans le cas de séquences vidéo, le même traitement statique est réalisé sur la 1ère image pour initialiser l'algorithme de suivi. La segmentation des contours dans les images suivantes se fait à l'aide de méthodes de tracking permettant le suivi des points clefs du modèle paramétrique des lèvres. L'ajustement du modèle paramétrique s'effectue ensuite de nouveau par maximisation de flux moyen de gradients. Les contributions de cette thèse sont les suivantes: 1) Proposition d'un modèle paramétrique complet des lèvres suffisamment flexible pour reproduire un ensemble varié de formes possibles de la bouche 2) Création de plusieurs gradients combinant des informations de luminance et de chrominance adaptés à chaque partie du contour labial. 3) Évaluation quantitative et qualitative de l'algorithme de segmentation dans le cadre d'applications de maquillage virtuel et de lecture labiale. segmentation suivi contours actifs (jumping snakes) modèles paramétriques courbes cubiques détection des dents maquillage virtuel lecture labiale
13	Perception de la langue française parlée complétée: intégration du trio lèvres-main-son Bayard, Clémence 25 October 2014 (has links) La Langue française Parlée Complétée est un système peu connu du grand public. Adapté du Cued Speech en 1977, il a pour ambition d’aider les sourds francophones à percevoir un message oral en complétant les informations fournies par la lecture labiale à l’aide d’un geste manuel. Si, depuis sa création, la LPC a fait l’objet de nombreuses recherches scientifiques, peu de chercheurs ont, jusqu’à présent, étudié les processus mis en jeu dans la perception de la parole codée. Or, par la présence conjointe d’indices visuels (liés aux lèvres et à la main) et d’indices auditifs (via les prothèses auditives ou l’implant cochléaire), l’étude de la LPC offre un cadre idéal pour les recherches sur l’intégration multimodale dans le traitement de la parole. En effet, on sait aujourd’hui que sourds comme normo-entendants mettent à contribution l’ouïe et la vue pour percevoir la parole, un phénomène appelé intégration audio-visuelle (AV).<p><p>Dans le cadre de cette thèse nous avons cherché à objectiver et caractériser l’intégration labio-manuelle dans la perception de la parole codée. Le poids accordé par le système perceptif aux informations manuelles, d’une part, et aux informations labiales, d’autre part, dépend-il de la qualité de chacune d’entre elles ?Varie-t-il en fonction du statut auditif ?Quand l’information auditive est disponible, comment le traitement de l’information manuelle est-il incorporé au traitement audio-visuel ?Pour tenter de répondre à cette série de questions, cinq paradigmes expérimentaux ont été créés et administrés à des adultes sourds et normo-entendants décodant la LPC. <p><p>Les trois premières études étaient focalisées sur la perception de la parole codée sans informations auditives. Dans l’étude n° 1, le but était d’objectiver l’intégration labio-manuelle ;l’impact de la qualité des informations labiales et du statut auditif sur cette intégration a également été investigué. L’objectif de l’étude n° 2 était d’examiner l’impact conjoint de la qualité des informations manuelles et labiales ;nous avons également comparé des décodeurs normo-entendants à des décodeurs sourds. Enfin, dans l’étude n° 3, nous avons examiné, chez des décodeurs normo-entendants et sourds, l’effet de l’incongruence entre les informations labiales et manuelles sur la perception de mots. <p><p>Les deux dernières études étaient focalisées sur la perception de la parole codée avec du son. L’objectif de l’étude n°4 était de comparer l’impact de la LPC sur l’intégration AV entre les sourds et les normo-entendants. Enfin, dans l’étude n°5, nous avons comparé l’impact de la LPC chez des décodeurs sourds présentant une récupération auditive faible ou forte. <p><p>Nos résultats ont permis de confirmer le véritable ancrage du code LPC sur la parole et de montrer que le poids de chaque information au sein du processus d’intégration est dépendant notamment de la qualité du stimulus manuel, de la qualité du stimulus labial et du niveau de performance auditive.<p> / Doctorat en Sciences Psychologiques et de l'éducation / info:eu-repo/semantics/nonPublished Psychologie Deafness Deaf -- Means of communication Lipreading Sign language Speech perception Surdité Sourds -- Moyens de communication Lecture sur les lèvres Langage par signes Perception de la parole deafness Cued Speech audiovisual speech integration multimodal speech perception
14	Intégration audio-visuelle de la parole: le poids de la vision varie-t-il en fonction de l'âge et du développement langagier? / Audio-visual speech integration: does the visual weight depend on age and language development? Huyse, Aurélie 03 May 2012 (has links) Pour percevoir la parole, le cerveau humain utilise les informations sensorielles provenant non seulement de la modalité auditive mais également de la modalité visuelle. En effet, de précédentes recherches ont mis en évidence l’importance de la lecture labiale dans la perception de la parole, en montrant sa capacité à améliorer et à modifier celle-ci. C’est ce que l’on appelle l’intégration audio-visuelle de la parole. L’objectif de cette thèse de doctorat était d’étudier la possibilité de faire varier ce processus d’intégration en fonction de différentes variables. Ce travail s’inscrit ainsi au cœur d’un débat régnant depuis plusieurs années, celui opposant l’hypothèse d’une intégration audio-visuelle universelle à l’hypothèse d’une intégration dépendante du contexte. C’est dans ce cadre que nous avons réalisé les cinq études constituant cette thèse, chacune d’elles investiguant l’impact d’une variable bien précise sur l’intégration bimodale :la qualité du signal visuel, l’âge des participants, le fait de porter un implant cochléaire, l’âge au moment de l’implantation cochléaire et le fait d’avoir des troubles spécifiques du langage. <p>Le paradigme expérimental utilisé consistait toujours en une tâche d’identification de syllabes présentées dans trois modalités :auditive seule, visuelle seule et audio-visuelle (congruente et incongruente). Les cinq études avaient également comme point commun la présentation de stimuli visuels dont la qualité était réduite, visant à empêcher une lecture labiale de bonne qualité. Le but de chacune de ces études était non seulement d’examiner si les performances variaient en fonction des variables investiguées mais également de déterminer si les différences provenaient bien du processus d’intégration lui-même et non uniquement de différences au niveau de la perception unimodale. Pour cela, les scores des participants ont été comparés à des scores prédits sur base d’un modèle prenant en compte les variations individuelles des poids auditifs et visuels, le weighted fuzzy-logical model of perception.<p>L’ensemble des résultats, discuté dans la dernière partie de ce travail, fait pencher la balance en faveur de l’hypothèse d’une intégration dépendante du contexte. Nous proposons alors une nouvelle architecture de fusion bimodale, prenant en compte ces dernières données. Enfin, les implications sont aussi d’ordre pratique, suggérant la nécessité d’incorporer des évaluations et rééducations à la fois auditives et visuelles dans le cadre des programmes de revalidation de personnes âgées, dysphasiques ou avec implant cochléaire./During face-to-face conversation, perception of auditory speech is influenced by the visual speech cues contained in lip movements. Indeed, previous research has highlighted the ability of lip-reading to enhance and even modify speech perception. This phenomenon is known as audio-visual integration. The aim of this doctoral thesis is to study the possibility of modifying this audio-visual integration according to several variables. This work lies into the scope of an important debate between invariant versus subject-dependent audio-visual integration in speech processing. Each study of this dissertation investigates the impact of a specific variable on bimodal integration: the quality of the visual input, age of participants, the use of a cochlear implant, age at cochlear implantation and the presence of specific language impairments. <p>The paradigm used always consisted of a syllable identification task, where syllables were presented in three modalities: auditory only, visual only and audio-visual (congruent and incongruent). There was also a condition where the quality of the visual input was reduced, in order to prevent a lip-reading of good quality. The aim of each of the five studies was not only to examine whether performances were modified according to the variable under study but also to ascertain that differences were indeed issued from the integration process itself. Thereby, our results were analyzed in the framework of model predictive of audio-visual speech performance (weighted fuzzy-logical model of perception) in order to disentangle unisensory effects from audio-visual integration effects. <p>Taken together, our data suggest that speech integration is not automatic but rather depends on the context. We propose a new architecture of bimodal fusions, taking these considerations into account. Finally, there are also practical implications suggesting the need to incorporate not only auditory but also visual exercise in the rehabilitation programs of older adults and children with cochlear implants or with specific language impairements. <p> / Doctorat en Sciences Psychologiques et de l'éducation / info:eu-repo/semantics/nonPublished Psychologie Lipreading -- Psychological aspects Speech perception Visual perception Perception de la parole Perception visuelle démasquage auditif perception visual reduction effet McGurk réduction visuelle perception/McGyrk effect masking release
15	Le visage romanesque : dans les œuvres de Chariton, de Xénophon d'Éphèse, de Longus, d'Héliodore d'Émèse et d'Achille Tatius / Face in greek novel : in Chariton, Xenophon, Longus, Heliodorus and Achilles Tatius's novels Saussard-Colard, Dorothée-Laure 28 September 2012 (has links) L’analyse du vocabulaire grec du visage dans l’ensemble des romans de Chariton, de Xénophon, de Longus, d’Héliodore et d’Achille Tatius a pour dessein de montrer l’intérêt certain, à la fois esthétique et sensoriel, porté à cette partie souveraine du corps. Quelle est donc l’importance accordée au visage du héros ou de l’héroïne ? Et de quelle manière le discours rend-il compte de son incarnation, de sa réalité organique ? Comment les visages des personnages interagissent-ils ? Parce que le visage se révèle une interface entre l’intime et le social, entre l’intériorité et l’expressivité, on peut se demander en quoi ce lieu privilégié du corps, à travers la description de l’aspect physique des personnages, caractérise leur éthos permanent ou communique au lecteur leurs émotions fugitives. Le visage s’offre aux regards et interpelle. Ses traits sont autant de signes à interpréter pour celui ou celle qui le regarde et dont il mobilise le système de reconnaissance et de représentation. Certes, la description physique des héroïnes comme celle des jeunes hommes ne se limite pas au visage. Mais, seul le visage, qui n’a rien d’incertain, d’irrégulier, de disharmonieux, est appelé à refléter les vertus des personnages mais aussi ses plus grandes souffrances. La mise en icônes de traits représentatifs des personnages s’inscrit dans la logique des procédures de description physique qui caractérise la culture romanesque. Le roman aime ainsi à représenter la beauté, en alliant aux manifestations physiques les émotions de l’âme. Les visages des héros romanesques grecs sont dévoilés dans une sorte de mosaïque à la fois anatomique et littéraire, évoquant les éléments fondamentaux qui les constituent. Ainsi, sans confondre visage et portrait, nous avons déconstruit le visage romanesque pour en montrer les diverses facettes, la palette des couleurs, les références littéraires intertextuelles et mythologiques mais aussi certains invariants, pour enfin mieux le reconstruire. Nous avons donc procédé à l’étude et à l’analyse du visage, non seulement comme entité mais en tant que visage morcelé, voire éclaté. L’étude approfondie des sens s’est attachée à souligner la passion, ses effets et les émotions du corps, entre plaisir et souffrance, entre affection et violence. Cette recherche a permis de souligner les éléments communs aux différents romanciers, mais aussi leur originalité d'écriture. L'importance accordée au visage et plus généralement au corps dans la narratologie laisse apparaître le reflet des valeurs de la société grecque de leur temps. / The analysis of Greek vocabulary about the face in Chariton, Xenophon, Longus, Heliodorus and Achilles Tatius’s novels as a whole plans to show the definite interest, both aesthetic and sensory focused on this sovereign part of the body. So what is the importance attached to the hero or heroine’s faces? And how does the discourse explain its incarnation and organical reality? The face proves to be an interface between the private and social world, between interiority and expressiveness. So we can wonder how this privileged part of the body characterizes their permanent ethos ; we can wonder how it transmits their fleeting emotions to the reader, through the description of the physical look of the characters. The face catches attention. Its features mobilize the system of recognition and representation. Indeed the physical description of heroines as well as heroes is not limited to the face. But only the face, with nothing uncertain, irregular, disharmonious, is assigned to reflect the characters’ virtues but also their greatest suffering. « La mise en icônes »of characters’ representative features is part of the procedures of physical description that characterize the culture of the novel. Thus the novel likes to represent beauty by combining physical expressions with soul feeling. The faces of Greek novelistic heroes are revealed in a kind of mosaic at once anatomical and literary, evoking the basic elements that constitute them. Thus, without mixing up face and portrait, we have deconstructed the novelistic face to show its various facets, colour palette, intertextual literary and mythological references ; but also to show some invariants to, at last, rebuild it in a better way. We have therefore conducted a thorough study and analysis of the face not only as an entity but as a fragmented even blown up face. The detailed study of senses has endeavoured to emphasize passion and its effects, and show the emotions of the body between pleasure and suffering, affection and violence. On the one hand this research has permitted to highlight the elements common to the different novelists, their original writing and the importance granted to face and more generally to body in narratology. On the other hand it has led us to analyze the reflection of the values of the Greek society of their days. Romans grecs Achille Tatius Chariton Longus Héliodore Xénophon d'Éphèse Tête Cou Visage Joues Chevelure Bouche Lèvres Nez Oreilles Yeux Regard Peau Goût Odorat Ouïe Vue Toucher Greek novel Achilles Tatius Heliodorus Xenophon of Ephesus Head Neck Face Cheeks Hair Mouth Lips Nose Ears Eyes Skin Taste Smell Hearing View Touch 880

Page generated in 0.0371 seconds