La segmentation de la bouche est un problème important qui trouve des applications dans plusieurs domaines du multimédia.<br /> Dans ce travail, notre objectif est d'obtenir une détection robuste et efficace des contours des lèvres de façon à être capable de restaurer les mouvements de la parole aussi fidèlement que possible. <br /> Nous apportons une attention particulière au contour intérieur de la bouche dans la segmentation est une tâche difficile à cause des variations non-linéaires de l'apparence.<br /> Nous proposons une méthode basée sur un modèle statistique de la forme et de l'apparence échantillonnée faisant intervenir des descripteurs gaussiens locaux d'apparence.<br /> Notre hypothèse est que la réponse de ces descripteurs locaux peut être prédite à partir de la forme par le biais d'un réseau de neurones non-linéaire.<br /> Nous avons d'abord testé cette hypothèse dans un cas mono-locuteur et l'avons ensuite généralisé à un cas multi-locuteurs en tenant de la variabilité<br />inter-personne.<br /> A cet effet, nous adaptons progressivement notre modèle au locuteur traité en déterminant son apparence caractéristique.<br /> A partir de notre segmentation de la bouche, nous pouvons ensuite générer un clone de la bouche de la personne dont les mouvements seront aussi proches que possible de ceux de l'originale.<br /> Finalement, nous avons évalué quantitativement puis qualitativement la pertinence de notre méthode en menant une expérience qui a quantifié l'apport effectif de compréhension de notre schéma d'analyse/synthèse dans le cas de numéros de téléphone en milieu bruité.
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00207391 |
Date | 19 July 2006 |
Creators | Gacon, Pierre |
Source Sets | CCSD theses-EN-ligne, France |
Language | French |
Detected Language | French |
Type | PhD thesis |
Page generated in 0.002 seconds