Global ETD Search

1	Vériﬁcation de l'identité d'un visage parlant.<br />Apport de la mesure de synchronie audiovisuelle face aux tentatives délibérées d'imposture. Bredin, Hervé 13 November 2007 (has links) (PDF) La sécurité des personnes, des biens ou des informations est l'une des préoccupations majeures de nos sociétés actuelles. L'authentiﬁcation de l'identité des personnes est l'un des moyens permettant de s'en assurer. La principale faille des moyens actuels de vériﬁcation d'identité est qu'ils sont liés à ce qu'une personne possède (un passeport, un badge magnétique, etc.) et/ou ce qu'elle sait (un code PIN de carte bancaire, un mot de passe, etc.). Or, un badge peut être volé, un mot de passe deviné ou cassé par force algorithmique brute. La biométrie est le domaine technologique traitant de la vériﬁcation d'identité et/ou de l'identiﬁcation de personnes par leurs caractéristiques physiques individuelles, pouvant être morphologiques ou morpho-comportementales. Elle apparaît comme une solution évidente au problème soulevé précédemment : l'identité d'une personne est alors liée à ce qu'elle est et non plus à ce qu'elle possède ou sait.<br /><br />En plus d'être une des modalités biométriques les moins intrusives et donc plus facilement acceptée par le grand public, la vériﬁcation d'identité basée sur les visages parlants est intrinsèquement multimodale : elle regroupe à la fois la reconnaissance du visage, la vériﬁcation du locuteur et une troisième modalité relevant de la synchronie entre la voix et le mouvement des lèvres.<br /><br />La première partie de notre travail est l'occasion de faire un tour d'horizon de la littérature portant sur la biométrie par visage parlant et nous soulevons le fait que les protocoles d'évaluation classiquement utilisés ne tiennent pas compte des tentatives délibérées d'imposture. Pour cela, nous confrontons un système de référence (basé sur la fusion des scores de vériﬁcation du locuteur et du visage) à quatre types d'imposture délibérée de type rejeu et mettons ainsi en évidence les faiblesses des systèmes actuels.<br /><br />Dans la seconde partie, nous proposons d'étudier la synchronie audiovisuelle entre le mouvement des lèvres acquis par la caméra et la voix acquise par le microphone de façon à rendre le système de référence robuste aux attaques. Plusieurs nouvelles mesures de synchronie basées sur l'analyse de corrélation canonique et l'analyse de co-inertie sont présentées et évaluées sur la tâche de détection d'asynchronie. Les bonnes performances obtenues par la mesure de synchronie basée sur un modèle dépendant du client nous encouragent ensuite à proposer une nouvelle modalité biométrique basée sur la synchronie audiovisuelle. Ses performances sont comparées à celle des modalités locuteur et visage et sa robustesse intrinsèque aux attaques de type rejeu est mise en évidence. La complémentarité entre le système de référence et la nouvelle modalité synchronie est soulignée et des stratégies de fusion originales sont ﬁnalement mises en place de façon à trouver un compromis entre les performances brutes du premier et la robustesse de la seconde. biométrie visage parlant multimodalité fusion parole audiovisuelle
2	Perception audiovisuelle de la parole chez le sourd postlingual implanté cochléaire et le sujet normo-entendant : étude longitudinale psychophysique et neurofonctionnelle Rouger, Julien 29 November 2007 (has links) (PDF) Nos travaux ont consisté à étudier les mécanismes perceptifs et neuronaux impliqués lors de la perception audiovisuelle de la parole chez des patients sourds postlinguaux implantés cochléaires et des sujets contrôles normo-entendants. Dans ce but nous avons testé les performances audiovisuelles des patients implantés au cours de suivis longitudinaux en compor-temental et en tomographie par émission de positrons, ainsi qu'au travers d'un paradigme de parole audio-visuelle incongruente (McGurk). Pour comparaison nous avons systématiquement testé des sujets contrôles dans les mêmes conditions. Nous avons également testé ces derniers en condition de lecture labiale puis en utilisant des dégradations de la parole auditive et audiovisuelle par du bruit blanc et par une simulation acoustique d'implant cochléaire. L'ensemble de ces études concorde pour indiquer, à la suite de l'implantation cochléaire, une réorganisation rapide des réseaux corticaux multi-sensoriels impliqués dans l'intégration audiovisuelle de la parole, aboutissant à une combinaison optimale des indices perceptifs audiovisuels. parole audiovisuelle implant cochléaire intégration multisensorielle plasticité corticale
3	Séparation de sources en ligne dans des environnements réverbérants en exploitant la localisation des sources / Online source separation in reverberant environments exploiting known speaker locations Harris, Jack 12 October 2015 (has links) Cette thèse porte sur les techniques de séparation de sources en aveugle en utilisant des statistiques de second ordre et statistiques d'ordresupérieur pour les environnements de réverbération. Un objectif de la thèse est la simplicité algorithmique en vue de l'implantation en lignedes algorithmes. Le principal défi des applications de séparation de sources aveugles est de s'occuper des environnements acoustiques de réverbération; une complication supplémentaire concerne les changements dans l'environnement acoustique lorsque les sources humaines se déplacent physiquement.Une nouvelle méthode dans le domaine temporel qui utilise une paire de filtres à réponse impulsionnelle finie est proposée. Cette méthode, dite les angles principaux, sur un décomposition en valeurs singulières. Une paire de filtres, jouant le rôle de formation de voie, est estimée de façon à annuler une des sources. Une étape de filtrage adaptatif estensuite utilisée pour récupérer la source restante, en exploitant la sortie de l'étage de beamforming en tant que une référence de bruit. Une approche commune de la séparation de sources aveugle est d'utiliser des méthodes fondée sur les statistiques d'ordre supérieur comme l'analyse en composantes indépendantes. Cependant, pour des mélanges convolutifs audio et vocales réalistes, la transformation dansle domaine fréquentiel pour chaque fréquence de calcul est nécessaire. Ceci introduit le problème de permutations, inhérentes à l'analyse en composantes indépendantes, pour tout les fréquences. L'analyse en vecteur indépendant résout directement cette question par la modélisation des dépendances entre les fréquences de calcul, à partir d'a priori sur les sources. Un algorithme de gradient naturel en temps réel est également proposé proposé avec un autre a priori sur les sources. Cette méthode exploite la fonction de densité de probabilité de Student, est connu pour être bien adapté pour les sources de parole, en raison de queues de distribution plus lourdes. L'algorithme final est implanté en temps réel sur un processeur numérique de signal à virgule flottante de Texas Instruments.Les sources mobiles, avec des environnements réverbérant, causent des problèmes significatifs dans les systèmes de séparation desources réalistes car les filtres de mélange deviennent variants dans le temps. Dans ce cadre, une méthode qui utilise conjointement leprincipe de la paire de filtres d'annulation et le principe de l'analyse en vecteurs indépendant. Cette approche permet de limiter les baisses de performance lorsque les sources sont mobiles. Les résultats montrent également que les temps moyen de convergence des divers paramètres sont diminués.Les méthodes en ligne qui sont introduites dans la thèse, sont testées en utilisant des réponses impulsionnelles mesurées dans des environnements de réverbération. Les résultats montrent leur robustesse et d'excellentes performances par rapport à d'autres méthodes classique, dans plusieurs situations expérimentales. / Methods for improving the real-time performance and speed of various source enhancement and separation are considered. Two themes of research are considered so far: a method which relies only on second order statistics to enhance a target source exploiting video cues. Secondly, a higher-order statistics method, independent vector analysis is implemented in real-time on a digital signal processor, where an alternative source prior has been used performance is shown to have improved. Parole Audiovisuelle Separation de Source Amélioration de source audio Source Separation Audio-Visual Speech Audio source enhancement 004
4	CONCEPTION ET EVALUATION D'UN SYSTEME DE SUIVI AUTOMATIQUE DES GESTES LABIAUX EN PAROLE Reveret, Lionel 28 May 1999 (has links) (PDF) Cette thèse présente un système de suivi automatique des gestes labiaux à partir d'une séquence vidéo d'un locuteur. Le système combine une analyse ascendante et descendante de la forme des lèvres. Une première étape d'analyse chromatique, basée sur un apprentissage statistique, fournit une image en niveaux de gris où le contraste entre lèvres et peau est rehaussé. Parallèlement, un modèle linéaire 3D des gestes labiaux est appris pour un locuteur à partir de formes clés phonétiquement pertinentes. Le modèle est alors synthétisé et projeté sur l'image imposant a priori les caractéristiques de la forme des lèvres. Il est adapté sur l'image rehaussée des lèvres par optimisation de ses paramètres de contrôle. Ce système combine ainsi de manière hybride la précision de l'analyse chromatique et la robustesse imposée par le modèle. Ce système est évalué sous divers aspects : ses capacités à s'adapter à la morphologie labiale et aux stratégies articulatoire de plusieurs locuteurs, la qualité des mesures géométriques délivrées et sa rapidité d'analyse. Le système complet a été implanté et testé en langage C sur une station de travail monoprocesseur. L'exécution est évaluée en nombre d'instructions à partir du code machine généré par le compilateur du système de la station. Ces résultats ont permis d'identifier les zones critiques de traitement pour lesquels des optimisations sont proposées. Compte tenu de ces optimisations, il apparaît que la cadence de 50 images par seconde est alors accessible sans avoir recours à une implantation matérielle spécialisée. parole audiovisuelle suivi automatique des lèvres analyse chromatique modélisation articulatoire analyse / synthèse de modèle 3D temps réel
5	Conception et évaluation d'un système de synthèse 3D de Langue française Parlée Complétée (LPC) à partir du texte Gibert, Guillaume 05 April 2006 (has links) (PDF) Cette thèse traite de la mise en œuvre d'un système de synthèse 3D de parole audiovisuelle capable, a partir d'une simple chaîne phonétique, de générer un signal audio synthétique, les mouvements du visage correspondant ainsi que les mouvements de la main reproduisant les gestes de la Langue française Parlée Complétée (LPC). Nous avons enregistré les mouvements faciaux et manuels d'une codeuse LPC par une technique de motion capture, ainsi que le signal audio correspondant, lors de la production d'un corpus de 238 phrases couvrant l'ensemble des diphones du français. Après traitements et analyses des données, nous avons implémenté un système de synthèse par concaténation d'unités en deux étapes capable de générer de la parole codée. Enfin, nous avons évalué notre système tant au niveau de l'intelligibilité segmentale qu'au niveau de la compréhension. Les résultats sont prometteurs et montrent clairement un apport d'information du code de synthèse. Synthèse de parole audiovisuelle Capture de mouvements Animation 3D évaluation
6	Parole Multimodale : de la parole articulatoire à la parole audiovisuelle Ouni, Slim 29 November 2013 (has links) (PDF) La communication parlée est par essence multimodale. Le signal acoustique véhicule la modalité auditive, et l'image la modalité visuelle et gestuelle (déformations du visage). Le signal de parole est en effet la conséquence des déformations du conduit vocal sous l'effet du mouvement de la mâchoire, des lèvres, de la langue, etc.. pour moduler le signal d'excitation produit par les cordes vocales ou les turbulences aérodynamiques. Ces déformations sont visibles au niveau du visage (lèvres, joues, mâchoire) grâce à la coordination des différents muscles orofaciaux et de la déformation de la peau induite par ces derniers. La modalité visuelle permet de fournir des informations complémentaires au signal acoustique, et elle devient indispensable dans le cas où le signal acoustique est dégradé, comme c'est le cas chez les malentendants, ou en milieu bruité. D'autres modalités peuvent être liées à la parole, comme les mouvements des sourcils et les différents gestes qui expriment l'émotion. Cette dernière modalité suprasegmentale peut, comme la modalité visuelle, compléter le message acoustique ou acoustique-visuel. Cet exposé présentera les travaux que je mène sur la parole multimodale. Ce caractère multimodal de la communication parlée est traité de deux façons différentes : (1) étudier les deux composantes articulatoire et acoustique de la parole. En effet, je m'intéresse à la caractérisation articulatoire des sons et à l'étude du lien entre l'espace articulatoire et l'espace acoustique. En particulier, je m'intéresse à la récupération de l'évolution temporelle du conduit vocal à partir du signal acoustique (aussi appelée inversion acoustique-articulatoire) et à l'étude de la caractérisation articulatoire de la parole par l'analyse de corpus de données articulatoires. (2) étudier les deux composantes acoustique et visuelle. Dans ce cadre, je m'intéresse à l'effet de la déformation du conduit vocal sur l'apparence du visage qui véhicule le message visuel. La synthèse acoustique-visuelle est un cadre qui permet d'étudier cet aspect. De plus, l'étude de l'intelligibilité audiovisuelle permet de mieux comprendre les mécanismes de la communication audiovisuelle, mais également d'évaluer le système de synthèse acoustique-visuelle. Enfin, je présenterai mon programme de recherche qui porte sur la parole multimodale expressive que je propose d'étudier globalement, c.-à-d. en considérant les composantes articulaire, acoustique et visuelle ainsi que l'expressivité intrinsèque de celles-ci, simultanément. Je propose en particulier d'aborder la modélisation de la dynamique articulatoire et faciale de la parole pour produire de la parole combinée avec les expressions faciales. Parole acoustique articulatoire production de la parole synthèse de la parole audiovisuelle inversion acoustique articulatoire

1

Page generated in 0.0705 seconds