Global ETD Search

1	Visualisation tridimensionnelle de la langue basée sur des séquences d'image échographique en mode-B / 3D tongue motion visualization based on the B-mode ultrasound tongue images Xu, Kele 13 December 2016 (has links) Une interface vocale silencieuse (SSI) est un système permettant une communication vocale à partir d’un signal non audible. Un tel système emploie des capteurs qui enregistrent des données non-acoustiques, pour la reconnaissance et la synthèse vocales. Cependant, l’extraction des caractéristiques articulatoires robustes à partir de ces signaux reste un défi. La langue est une composante majeure de l'appareil vocal, et l'articulateur le plus important dans la production de parole. Une simulation réaliste du mouvement de la langue en 3D peut fournir une représentation visuelle directe et efficace de la production de parole. Cette représentation pourrait à son tour être utilisée pour améliorer les performances de reconnaissance vocale d'un SSI, ou servir d'outil dans le cadre de recherches sur la production de parole et de l'étude des troubles de l'articulation. Dans cette thèse, nous explorons un nouveau cadre de visualisation en trois dimensions de la langue, qui combine l'imagerie échographique 2D et une technique de modélisation tridimensionnelle fondée sur la physique. Tout d'abord, différentes approches sont utilisées pour suivre le mouvement de la langue dans les séquences d'images échographiques, qui peuvent être regroupées en deux principaux types de méthodes : le suivi de la granularité et le suivi de contour. Les méthodes de suivi du chatoiement (speckle tracking) comprennent le recalage de déformations (deformation registration), le flux optique, et la méthode de transformation de caractéristiques visuelles invariante à l'échelle (Scale-invariant feature transform, ou SIFT). En outre, une méthode de suivi réinitialisation basée sur l'image est proposée afin d'améliorer la robustesse du suivi du chatoiement. En comparaison avec le suivi de chatoiement, l'extraction du contour de la surface de la langue à partir d'images échographiques présente des performances supérieures et une meilleure robustesse. Dans cette thèse, un nouvel algorithme de suivi de contour est présenté pour des séquences d'images échographiques de la langue. Cet algorithme permet de suivre le mouvement des contours de la langue sur de longues durées avec une bonne robustesse. Pour résoudre la difficulté causée par les segments manquants dus au bruit ou celle causée par la surface mi-sagittale de la langue qui est parallèle à la direction de propagation de l'onde ultrasonore, nous proposons d’utiliser des contours actifs avec une contrainte de similitude de contour, qui fournissent des informations a priori sur la forme de la langue. Des expériences sur des données synthétiques et sur des images réelles acquises sur différents sujets à la cadence de 60 images par seconde montrent que la méthode proposée donne un bon contour de suivi pour ultrasons des séquences d'images, même sur des durées de quelques minutes. Cette technique peut par conséquent être utile dans des applications telles que la reconnaissance vocale où de très longues séquences doivent être analysées dans leur intégralité… / A silent speech interface (SSI) is a system to enable speech communication with non-audible signal, that employs sensors to capture non-acoustic features for speech recognition and synthesis. Extracting robust articulatory features from such signals, however, remains a challenge. As the tongue is a major component of the vocal tract, and the most important articulator during speech production, a realistic simulation of tongue motion in 3D can provide a direct, effective visual representation of speech production. This representation could in turn be used to improve the performance of speech recognition of an SSI, or serve as a tool for speech production research and the study of articulation disorders. In this thesis, we explore a novel 3D tongue visualization framework, which combines the 2D ultrasound imaging and 3D physics-based modeling technique. Firstly, different approaches are employed to follow the motion of the tongue in the ultrasound image sequences, which can be divided into two main types of methods: speckle tracking and contour tracking. The methods to track speckles include deformation registration, optical-flow, and local invariant features-based method. Moreover, an image-based tracking re-initialization method is proposed to improve the robustness of speckle tracking. Compared to speckle tracking, the extraction of the contour of the tongue surface from ultrasound images exhibits superior performance and robustness. In this thesis, a novel contour-tracking algorithm is presented for ultrasound tongue image sequences, which can follow the motion of tongue contours over long durations with good robustness. To cope with missing segments caused by noise, or by the tongue midsagittal surface being parallel to the direction of ultrasound wave propagation, active contours with a contour-similarity constraint are introduced, which can be used to provide “prior” shape information. Experiments on synthetic data and on real 60 frame per second data from different subjects demonstrate that the proposed method gives good contour tracking for ultrasound image sequences even over durations of minutes, which can be useful in applications such as speech recognition where very long sequences must be analyzed in their entirety… Visualisation tridimensionnelle Langue Séquences d'image échographique Mode-B Interface vocale silencieuse Suivi du chatoiement 3D tongue motion visualization B-mode ultrasound image sequences Speckle tracking 621.367
2	Analyse sonore et multimodale dans le domaine de l'assistance à domicile Vacher, Michel 18 October 2011 (has links) (PDF) La moyenne d'âge de la population des pays industriels augmente régulièrement. Les personnes âgées vivant seules sont de plus en plus nombreuses, soit parce qu'elles préfèrent vivre de manière autonome, soit par manque de place dans les institutions spécialisées. Il faut donc trouver des solutions leur permettant de continuer à rester chez elles de manière confortable et sûre. Les habitats intelligents peuvent constituer une de ces solutions. Un des plus grands défis dans l'Assistance à la Vie Autonome (AVA) est de concevoir des habitats intelligents pour la santé qui anticipent les besoins de leurs habitants tout en maintenant leur sécurité et leur confort. Il est donc essentiel de faciliter l'interaction avec l'habitat intelligent grâce à des systèmes qui réagissent naturellement aux commandes vocales, en utilisant des microphones et pas des interfaces tactiles. Ce mémoire définit le concept de maison intelligente et présente quelques projets intéressants. Il précise ensuite de quelle manière l'assistance à domicile peut tirer parti de ce concept en s'appuyant sur l'analyse sonore. L'acceptabilité d'une interface vocale dans le cadre de l'habitat intelligent a été étudiée grâce à une expérience qui a montré quels étaient les souhaits, les attentes et les craintes des utilisateurs âgés, de leurs familles, et des travailleurs sociaux. L'analyse audio dans la maison intelligente étant un domaine de recherche encore peu exploré, l'intérêt et la manière d'analyser les informations sonores dans un habitat intelligent sont ensuite abordés par une expérience qui a permis de mettre en évidence les défis et les verrous technologiques qui devront être levés pour pouvoir utiliser les informations sonores en complément des autres modalités, et, dans le cas de la parole, la reconnaissance en conditions d'enregistre- ment distant. Une solution pratique mettant en œuvre plusieurs microphones est ensuite présentée. Le but envisagé est la réalisation d'un système de commande vocale mettant l'utilisateur en mesure de piloter son environnement non seulement par les interrupteurs et télécommandes classiques, mais aussi par la voix. L'intérêt de l'information audio combinée à celle des capteurs domotiques est ensuite mis en évidence au travers d'une analyse multimodale permettant de localiser une personne dans un habitat intelligent ou de déterminer son activité. La localisation est nécessaire, par exemple pour avoir connaissance du contexte dans lequel un ordre domotique a été donné. L'activité peut être utilisée pour observer une évolution des habitudes de la personne pour aider à un diagnostic. Pour finir, le mémoire présente les perspectives de recherche et les projets à venir de l'auteur. Il est accompagné de la reproduction de 4 communications scientifiques publiées dans des congrès sélectifs à comité de lecture. analyse sonore interface vocale analyse multimodale habitat intelligent domotique

Search results

Visualisation tridimensionnelle de la langue basée sur des séquences d'image échographique en mode-B / 3D tongue motion visualization based on the B-mode ultrasound tongue images

Analyse sonore et multimodale dans le domaine de l'assistance à domicile