Spelling suggestions: "subject:"audiovisual epeech"" "subject:"audiovisual cpeech""
1 |
A novel lip geometry approach for audio-visual speech recognitionIbrahim, Zamri January 2014 (has links)
By identifying lip movements and characterizing their associations with speech sounds, the performance of speech recognition systems can be improved, particularly when operating in noisy environments. Various method have been studied by research group around the world to incorporate lip movements into speech recognition in recent years, however exactly how best to incorporate the additional visual information is still not known. This study aims to extend the knowledge of relationships between visual and speech information specifically using lip geometry information due to its robustness to head rotation and the fewer number of features required to represent movement. A new method has been developed to extract lip geometry information, to perform classification and to integrate visual and speech modalities. This thesis makes several contributions. First, this work presents a new method to extract lip geometry features using the combination of a skin colour filter, a border following algorithm and a convex hull approach. The proposed method was found to improve lip shape extraction performance compared to existing approaches. Lip geometry features including height, width, ratio, area, perimeter and various combinations of these features were evaluated to determine which performs best when representing speech in the visual domain. Second, a novel template matching technique able to adapt dynamic differences in the way words are uttered by speakers has been developed, which determines the best fit of an unseen feature signal to those stored in a database template. Third, following on evaluation of integration strategies, a novel method has been developed based on alternative decision fusion strategy, in which the outcome from the visual and speech modality is chosen by measuring the quality of audio based on kurtosis and skewness analysis and driven by white noise confusion. Finally, the performance of the new methods introduced in this work are evaluated using the CUAVE and LUNA-V data corpora under a range of different signal to noise ratio conditions using the NOISEX-92 dataset.
|
2 |
Séparation de sources en ligne dans des environnements réverbérants en exploitant la localisation des sources / Online source separation in reverberant environments exploiting known speaker locationsHarris, Jack 12 October 2015 (has links)
Cette thèse porte sur les techniques de séparation de sources en aveugle en utilisant des statistiques de second ordre et statistiques d'ordresupérieur pour les environnements de réverbération. Un objectif de la thèse est la simplicité algorithmique en vue de l'implantation en lignedes algorithmes. Le principal défi des applications de séparation de sources aveugles est de s'occuper des environnements acoustiques de réverbération; une complication supplémentaire concerne les changements dans l'environnement acoustique lorsque les sources humaines se déplacent physiquement.Une nouvelle méthode dans le domaine temporel qui utilise une paire de filtres à réponse impulsionnelle finie est proposée. Cette méthode, dite les angles principaux, sur un décomposition en valeurs singulières. Une paire de filtres, jouant le rôle de formation de voie, est estimée de façon à annuler une des sources. Une étape de filtrage adaptatif estensuite utilisée pour récupérer la source restante, en exploitant la sortie de l'étage de beamforming en tant que une référence de bruit. Une approche commune de la séparation de sources aveugle est d'utiliser des méthodes fondée sur les statistiques d'ordre supérieur comme l'analyse en composantes indépendantes. Cependant, pour des mélanges convolutifs audio et vocales réalistes, la transformation dansle domaine fréquentiel pour chaque fréquence de calcul est nécessaire. Ceci introduit le problème de permutations, inhérentes à l'analyse en composantes indépendantes, pour tout les fréquences. L'analyse en vecteur indépendant résout directement cette question par la modélisation des dépendances entre les fréquences de calcul, à partir d'a priori sur les sources. Un algorithme de gradient naturel en temps réel est également proposé proposé avec un autre a priori sur les sources. Cette méthode exploite la fonction de densité de probabilité de Student, est connu pour être bien adapté pour les sources de parole, en raison de queues de distribution plus lourdes. L'algorithme final est implanté en temps réel sur un processeur numérique de signal à virgule flottante de Texas Instruments.Les sources mobiles, avec des environnements réverbérant, causent des problèmes significatifs dans les systèmes de séparation desources réalistes car les filtres de mélange deviennent variants dans le temps. Dans ce cadre, une méthode qui utilise conjointement leprincipe de la paire de filtres d'annulation et le principe de l'analyse en vecteurs indépendant. Cette approche permet de limiter les baisses de performance lorsque les sources sont mobiles. Les résultats montrent également que les temps moyen de convergence des divers paramètres sont diminués.Les méthodes en ligne qui sont introduites dans la thèse, sont testées en utilisant des réponses impulsionnelles mesurées dans des environnements de réverbération. Les résultats montrent leur robustesse et d'excellentes performances par rapport à d'autres méthodes classique, dans plusieurs situations expérimentales. / Methods for improving the real-time performance and speed of various source enhancement and separation are considered. Two themes of research are considered so far: a method which relies only on second order statistics to enhance a target source exploiting video cues. Secondly, a higher-order statistics method, independent vector analysis is implemented in real-time on a digital signal processor, where an alternative source prior has been used performance is shown to have improved.
|
3 |
Selective attention and speech processing in the cortexRajaram, Siddharth 24 September 2015 (has links)
In noisy and complex environments, human listeners must segregate the mixture of sound sources arriving at their ears and selectively attend a single source, thereby solving a computationally difficult problem called the cocktail party problem. However, the neural mechanisms underlying these computations are still largely a mystery. Oscillatory synchronization of neuronal activity between cortical areas is thought to provide a crucial role in facilitating information transmission between spatially separated populations of neurons, enabling the formation of functional networks.
In this thesis, we seek to analyze and model the functional neuronal networks underlying attention to speech stimuli and find that the Frontal Eye Fields play a central 'hub' role in the auditory spatial attention network in a cocktail party experiment. We use magnetoencephalography (MEG) to measure neural signals with high temporal precision, while sampling from the whole cortex. However, several methodological issues arise when undertaking functional connectivity analysis with MEG data. Specifically, volume conduction of electrical and magnetic fields in the brain complicates interpretation of results. We compare several approaches through simulations, and analyze the trade-offs among various measures of neural phase-locking in the presence of volume conduction. We use these insights to study functional networks in a cocktail party experiment.
We then construct a linear dynamical system model of neural responses to ongoing speech. Using this model, we are able to correctly predict which of two speakers is being attended by a listener. We then apply this model to data from a task where people were attending to stories with synchronous and scrambled videos of the speakers' faces to explore how the presence of visual information modifies the underlying neuronal mechanisms of speech perception. This model allows us to probe neural processes as subjects listen to long stimuli, without the need for a trial-based experimental design. We model the neural activity with latent states, and model the neural noise spectrum and functional connectivity with multivariate autoregressive dynamics, along with impulse responses for external stimulus processing. We also develop a new regularized Expectation-Maximization (EM) algorithm to fit this model to electroencephalography (EEG) data.
|
4 |
A facial animation model for expressive audio-visual speechSomasundaram, Arunachalam 21 September 2006 (has links)
No description available.
|
5 |
Synthèse acoustico-visuelle de la parole par sélection d'unités bimodales / Acoustic-Visual Speech Synthesis by Bimodal Unit SelectionMusti, Utpala 21 February 2013 (has links)
Ce travail porte sur la synthèse de la parole audio-visuelle. Dans la littérature disponible dans ce domaine, la plupart des approches traite le problème en le divisant en deux problèmes de synthèse. Le premier est la synthèse de la parole acoustique et l'autre étant la génération d'animation faciale correspondante. Mais, cela ne garantit pas une parfaite synchronisation et cohérence de la parole audio-visuelle. Pour pallier implicitement l'inconvénient ci-dessus, nous avons proposé une approche de synthèse de la parole acoustique-visuelle par la sélection naturelle des unités synchrones bimodales. La synthèse est basée sur le modèle de sélection d'unité classique. L'idée principale derrière cette technique de synthèse est de garder l'association naturelle entre la modalité acoustique et visuelle intacte. Nous décrivons la technique d'acquisition de corpus audio-visuelle et la préparation de la base de données pour notre système. Nous présentons une vue d'ensemble de notre système et nous détaillons les différents aspects de la sélection d'unités bimodales qui ont besoin d'être optimisées pour une bonne synthèse. L'objectif principal de ce travail est de synthétiser la dynamique de la parole plutôt qu'une tête parlante complète. Nous décrivons les caractéristiques visuelles cibles que nous avons conçues. Nous avons ensuite présenté un algorithme de pondération de la fonction cible. Cet algorithme que nous avons développé effectue une pondération de la fonction cible et l'élimination de fonctionnalités redondantes de manière itérative. Elle est basée sur la comparaison des classements de coûts cible et en se basant sur une distance calculée à partir des signaux de parole acoustiques et visuels dans le corpus. Enfin, nous présentons l'évaluation perceptive et subjective du système de synthèse final. Les résultats montrent que nous avons atteint l'objectif de synthétiser la dynamique de la parole raisonnablement bien / This work deals with audio-visual speech synthesis. In the vast literature available in this direction, many of the approaches deal with it by dividing it into two synthesis problems. One of it is acoustic speech synthesis and the other being the generation of corresponding facial animation. But, this does not guarantee a perfectly synchronous and coherent audio-visual speech. To overcome the above drawback implicitly, we proposed a different approach of acoustic-visual speech synthesis by the selection of naturally synchronous bimodal units. The synthesis is based on the classical unit selection paradigm. The main idea behind this synthesis technique is to keep the natural association between the acoustic and visual modality intact. We describe the audio-visual corpus acquisition technique and database preparation for our system. We present an overview of our system and detail the various aspects of bimodal unit selection that need to be optimized for good synthesis. The main focus of this work is to synthesize the speech dynamics well rather than a comprehensive talking head. We describe the visual target features that we designed. We subsequently present an algorithm for target feature weighting. This algorithm that we developed performs target feature weighting and redundant feature elimination iteratively. This is based on the comparison of target cost based ranking and a distance calculated based on the acoustic and visual speech signals of units in the corpus. Finally, we present the perceptual and subjective evaluation of the final synthesis system. The results show that we have achieved the goal of synthesizing the speech dynamics reasonably well
|
6 |
The Effect of Static and Dynamic Visual Gestures on Stuttering InhibitionGuntupalli, Vijaya K., Nanjundeswaran (Guntupalli), Chaya D., Kalinowski, Joseph, Dayalu, Vikram N. 29 March 2011 (has links)
The aim of the study was to evaluate the role of steady-state and dynamic visual gestures of vowels in stuttering inhibition. Eight adults who stuttered recited sentences from memory while watching video presentations of the following visual speech gestures: (a) a steady-state /u/, (b) dynamic production of /a-i-u/, (c) steady-state /u/ with an accompanying audible 1kHz pure tone, and (d) dynamic production of /a-i-u/ with an accompanying audible 1kHz pure tone. A 1kHz pure tone and a no-external signal condition served as control conditions. Results revealed a significant main effect of auditory condition on stuttering frequency. Relative to the no-external signal condition, the combined visual plus pure tone conditions resulted in a statistically significant reduction in stuttering frequency. In addition, a significant difference in stuttering frequency was also observed when the visual plus pure tone conditions were compared to the visual only conditions. However, no significant differences were observed between the no-external signal condition and visual only conditions, or the no-external signal condition and pure tone condition. These findings are in contrast to previous findings demonstrated by similar vowel gestures presented via the auditory modality that resulted in high levels of stuttering inhibition. The differential role of sensory modalities in speech perception and production as well as their individual capacities to transfer gestural information for the purposes of stuttering inhibition is discussed.
|
7 |
Apport des mouvements buccaux, des mouvements extra-buccaux et du contexte facial à la perception de la parole chez l'enfant et chez l'adulte / Contribution of oral movement, extraoral movement and facial context to speech perception in children and adultsErjavec, Grozdana 16 December 2015 (has links)
Le présent travail de thèse s’inscrit dans le domaine de recherche sur la perception audio-visuelle (AV) de la parole. Son objectif est de répondre aux questions suivantes : (i) Quelle est la nature du traitement de l’input visuel (holistique vs analytique) dans la perception AV de la parole ? (ii) Quelle est l’implication des régions faciales extra-buccales dans la perception AV de la parole ? (iii) Quel est le comportement oculaire des sujets lors de la perception AV de la parole ? (iv) Quelle est l’évolution de la perception AV de la parole dans les aspects (i), (ii) et (iii) au cours du développement. Le paradigme de dégradation de l’information auditive par le bruit a été utilisé dans deux expériences qui ont été menées avec des participants de quatre groupes d’âge, enfants, préadolescents, adolescents, adultes (16 participants par groupe). La tâche des participants consistait à répéter les syllabes de type consonne-voyelle /a/, faiblement et fortement dégradées par le bruit rose, présentées dans quatre conditions différentes. Ces conditions étaient les suivantes : une auditive (AU) et trois audio-visuelles (AV) (AV visage (AVV)), AV « bouche extraction » (AVB-E) (format bouche sans contrastes lumineux), AV « bouche-masquage » (AVB-M) (format bouche avec contrastes lumineux) pour l’expérience 1, et AVV, AV « bouche active » (AVV-BA) (format « visage » avec un contexte facial statique), AV « régions extra-buccales actives » (AVV-EBA) (format « visage » sans bouche) pour l’expérience 2. Le nombre total des répétitions correctes par condition (performance totale), la différence dans ce score entre chaque condition AV et la condition auditive (gain AV) et la durée totale des fixations oculaires dans la région buccale et les autres régions faciales (pour les formats AVV) ont été analysés. Les principaux résultats montrent que les mécanismes de traitement AV de la parole atteignent leur maturité avant l’enfance tardive. La vision du visage entier de l’orateur n’est pas avantageuse pour ce type de traitement. Elle semble même désavantageuse pour les adultes possiblement car elle déclenche le traitement d’autres aspects du visage (identité, expressions faciales) qui pourrait interférer avec le traitement des indices acoustiques relatifs à la parole. Pour les quatre groupes d’âge, la contribution des mouvements articulatoires dans les régions extra-buccales à la perception AV de la parole s’est avérée faible et limitée aux conditions de haute incertitude quant à l’information auditive. Pour les stimuli respectant les caractéristiques écologiques de l’information faciale, les patterns du comportement oculaire dans la perception bimodale de la parole varient en fonction du degré de dégradation de l’information auditive, mais semblent relativement stables durant la période allant de l’enfance à l’âge adulte. Finalement, les modalités de présentation de l’information visuelle localisée à la bouche ont affecté le comportement oculaire chez les adultes, les pré-adolescents et les enfants. Ceci suggère que le traitement visuo-attentionnel dans le cadre de la perception AV de la parle est sensible aux caractéristiques de bas niveau des stimuli visuels chez ces populations. Les variations au niveau du traitement visuo-attentionnel s’accompagnent, dans une certaine mesure, de variations dans la perception AV de la parole. / The present thesis work fits into the domain/is incorporated within the framework of research on audio-visual (AV) speech perception. Its objective is to answer the following questions: (i) What is the nature of visual input processing (holistic vs analytic) in AV speech perception? (ii) What is the implication of extra-oral facial movement in AV speech perception? (iii) What are the oculomotor patterns in AV speech perception? (iv) What are the developmental changes in the above-mentioned aspects (i), (ii) and (iii)? The classic noise degradation paradigm was applied in two experiments conducted in the framework of the present thesis. Each experiment were conducted on participants of 4 age groups, adults, adolescents, pre-adolescents and children. Each group consisted of 16 participants. Participants’ task was to repeat consonant-vowel (/a/) syllables. The syllables were both mildly and strongly degraded by pink noise and were presented in four audio(-visual) conditions, one purely auditory (AO) and three audio-visual conditions. The AV conditions were the following: (i) AV face (AVF), (ii) AV « mouth extraction » (AVM-E ; mouth format without visual contrasts), (iii) AV « mouth window » (AVM-W ; mouth format with high visual contrasts) in experiment 1, and (i) AVF, (ii) AVF « mouth active (and facial frame static) » (AVF-MA), (iii) AVF « extra-oral regions active (and mouth absent) » (AVF-EOA) in experiment 2. The data relative to (i) the total number of correct repetitions (total performance), (ii) the difference in the correct repetitions score between each AV and the AO condition (AV gain), and (iii) the total fixations duration in the oral area and other facial areas (for the AV formats) were analyzed. The main results showed that the mechanisms involved in AV speech perception reach their maturity before late childhood. The vision of the talker’s full face does not seem to be advantageous in this context. It seems that the vision of the talker’s full face might perturb AV speech processing in adults, possibly because it triggers processing of other types of information (identity, facial expressions) which could in terms interfere with the processing of acoustic aspects of speech. The contribution of the extra-oral articulatory movement to AV speech perception was poor and limited to the condition of highly degraded auditory information. For ecologically presented facial information, the oculomotor patterns in AV speech perception varied as a function of the level of auditory information degradation, but appeared rather stable across the 4 groups. Finally, the modalities of the featural (mouth) facial information presentation affected the oculomotor behavior patterns in adults, pre-adolescents and children, thus suggesting a certain sensitivity of visuo-attentional processing to low-level visual stimuli characteristics in AV speech perception. The variations in visuo-attentional processing seemed to be associated to a certain extent with variations in AV speech perception.
|
Page generated in 0.0577 seconds