• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 37
  • 15
  • 9
  • Tagged with
  • 58
  • 58
  • 58
  • 26
  • 21
  • 13
  • 12
  • 10
  • 9
  • 9
  • 9
  • 8
  • 8
  • 8
  • 8
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
41

Modeling and Recognizing Network Scanning Activities with Finite Mixture Models and Hidden Markov Models / Modélisation et reconnaissance des activités de balayage du réseau à l'aide de modèles à mélange fini et de modèles de Markov cachés

De Santis, Giulia 20 December 2018 (has links)
Le travail accompli dans cette thèse a consisté à construire des modèles stochastiques de deux scanners de l'Internet qui sont ZMap et Shodan. Les paquets provenant de chacun des deux scanners ont été collectés par le Laboratoire de Haute Sécurité (LHS) hébergé à Inria Nancy Grand Est, et ont été utilisés pour construire par apprentissage des chaînes de Markov cachées (HMMs). La première partie du travail consistait à modéliser l'intensité des deux scanners considérés. Nous avons cherché à savoir si l'intensité de ZMap varie en fonction du service ciblé et si les intensités des deux scanners sont comparables. Les résultats ont montré que la réponse à la première question est positive (c'est-à-dire que l'intensité de ZMap varie en fonction des ports ciblés), alors que la réponse à la deuxième question est négative. En d'autres termes, nous avons obtenu un modèle pour chaque ensemble de logs. La partie suivante du travail consistait à étudier deux autres caractéristiques des mêmes scanners : leurs mouvements spatiotemporels. Nous avons créé des ensembles d'échantillons de logs avec chacune d'elle contient une seule exécution de ZMap et Shodan. Ensuite, nous avons calculé les différences d'adresses IP ciblées consécutivement par le même scanner (c.-à-d. dans chaque échantillon), et les timestamps correspondants. Les premiers ont été utilisés pour modéliser les mouvements spatiaux, tandis que les seconds pour les mouvements temporels. Une fois que les modèles de chaînes de Markov cachées sont construites, ils ont été appliqués pour identifier les scanners d'autres ensembles de logs. Dans les deux cas, nos modèles ne sont pas capables de détecter le service ciblé, mais ils détectent correctement le scanner qui génère de nouveaux logs, avec une précision de 95% en utilisant les mouvements spatiaux et de 98% pour les mouvements temporels / The work accomplished in this PhD consisted in building stochastic models of ZMap and Shodan, respectively, two Internet-wide scanners. More in detail, packets originated by each of the two considered scanners have been collected by the High Security Lab hosted in Inria, and have been used to learn Hidden Markov Models (HMMs). The rst part of the work consisted in modeling intensity of the two considered scanners. We investigated if the intensity of ZMap varies with respect to the targeted service, and if the intensities of the two scanners are comparable. Results showed that the answer to the first question is positive (i.e., intensity of ZMap varied with respect to the targeted ports), whereas the answer to the second question is negative. In other words, we obtained a model for each set of logs. The following part of the work consisted in investigating other two features of the same scanners: their spatial and temporal movements, respectively. More in detail, we created datasets containing logs of one single execution of ZMap and Shodan, respectively. Then, we computed di erences of IP addresses consecutively targeted by the same scanner (i.e., in each sample), and of the corresponding timestamps. The former have been used to model spatial movements, whereas the latter temporal ones. Once the Hidden Markov Models are available, they have been applied to detect scanners from other sets of logs. In both cases, our models are not able to detect the targeted service, but they correctly detect the scanner that originates new logs, with an accuracy of 95% when exploiting spatial movements, and of 98% when using temporal movements
42

Contributions aux Modèles de Markov Cachés : métaheuristiques d'apprentissage, nouveaux modèles et visualisation de dissimilarité

Aupetit, Sébastien 30 November 2005 (has links) (PDF)
Dans ce travail de thèse, nous présentons plusieurs contributions visant à améliorer l'utilisation des modèles de Markov cachés (MMC) dans les systèmes d'intelligence artificielle. Nous nous sommes concentrés sur trois objectifs : l'amélioration de l'apprentissage de MMC, l'expérimentation d'un nouveau type de MMC et la visualisation de dissimilarité pour mieux comprendre les interactions entre MMC. Dans la première partie, nous proposons, évaluons et comparons plusieurs nouvelles applications<br />de métaheuristiques biomimétiques classiques (les algorithmes génétiques, l'algorithme de fourmis artificielles API et l'optimisation par essaim particulaire) au problème de l'apprentissage de MMC. Dans la<br />deuxième partie, nous proposons un nouveau type de modèle de Markov caché, appelé modèle Markov caché à substitutions de symboles (MMCSS). Un MMCSS permet d'incorporer des connaissances a priori dans le processus d'apprentissage et de reconnaissance. Les premières expérimentations de ces modèles sur des images démontrent leur intérêt. Dans la troisième partie, nous proposons une nouvelle méthode de représentation de dissimilarité appelée matrice de scatterplots pseudo-euclidienne (MSPE), permettant de mieux comprendre les interactions entre des MMC. Cette MSPE est construite à partir<br />d'une technique que nous nommons analyse en composantes principales à noyau indéfini (ACPNI). Nous terminons par la présentation de la bibliothèque HMMTK, développée au cours de ce travail. Cette dernière intègre des mécanismes de parallélisation et les algorithmes développés au cours de la thèse.
43

Inférence bayésienne pour la détermination et la<br />sélection de modèles stochastiques

Caron, Francois 10 November 2006 (has links) (PDF)
On s'intéresse à l'ajout d'incertitudes supplémentaires dans les modèles de Markov cachés. L'inférence est réalisée dans un cadre bayésien à l'aide des méthodes de Monte Carlo. Dans un cadre multicapteur, on suppose que chaque capteur peut commuter entre plusieurs états de fonctionnement. Un modèle à saut original est développé et des algorithmes de Monte Carlo efficaces sont présentés pour différents types de situations, prenant en compte des données synchrones/asynchrones et le cas binaire capteur valide/défaillant. Le modèle/algorithme développé est appliqué à la localisation d'un véhicule terrestre équipé de trois capteurs, dont un récepteur GPS, potentiellement défaillant à cause de phénomènes de trajets multiples. <br />On s'intéresse ensuite à l'estimation de la densité de probabilité des bruits d'évolution et de mesure dans les modèles de Markov cachés, à l'aide des mélanges de processus de Dirichlet. Le cas de modèles linéaires est tout d'abord étudié, et des algorithmes MCMC et de filtrage particulaire sont développés. Ces algorithmes sont testés sur trois applications différentes. Puis le cas de l'estimation des densités de probabilité des bruits dans les modèles non linéaires est étudié. On définit pour cela des processus de Dirichlet variant temporellement, permettant l'estimation en ligne d'une densité de probabilité non stationnaire.
44

Algorithmes de restauration bayésienne mono- et multi-objets dans des modèles markoviens

Petetin, Yohan 27 November 2013 (has links) (PDF)
Cette thèse est consacrée au problème d'estimation bayésienne pour le filtrage statistique, dont l'objectif est d'estimer récursivement des états inconnus à partir d'un historique d'observations, dans un modèle stochastique donné. Les modèles stochastiques considérés incluent principalement deux grandes classes de modèles : les modèles de Markov cachés et les modèles de Markov à sauts conditionnellement markoviens. Ici, le problème est abordé sous sa forme générale dans la mesure où nous considérons le problème du filtrage mono- et multi objet(s), ce dernier étant abordé sous l'angle de la théorie des ensembles statistiques finis et du filtre " Probability Hypothesis Density ". Tout d'abord, nous nous intéressons à l'importante classe d'approximations que constituent les algorithmes de Monte Carlo séquentiel, qui incluent les algorithmes d'échantillonnage d'importance séquentiel et de filtrage particulaire auxiliaire. Les boucles de propagation mises en jeux dans ces algorithmes sont étudiées et des algorithmes alternatifs sont proposés. Les algorithmes de filtrage particulaire dits " localement optimaux ", c'est à dire les algorithmes d'échantillonnage d'importance avec densité d'importance conditionnelle optimale et de filtrage particulaire auxiliaire pleinement adapté sont comparés statistiquement, en fonction des paramètres du modèle donné. Ensuite, les méthodes de réduction de variance basées sur le théorème de Rao-Blackwell sont exploitées dans le contexte du filtrage mono- et multi-objet(s) Ces méthodes, utilisées principalement en filtrage mono-objet lorsque la dimension du vecteur d'état à estimer est grande, sont dans un premier temps étendues pour les approximations Monte Carlo du filtre Probability Hypothesis Density. D'autre part, des méthodes de réduction de variance alternatives sont proposées : bien que toujours basées sur le théorème de Rao-Blackwell, elles ne se focalisent plus sur le caractère spatial du problème mais plutôt sur son caractère temporel. Enfin, nous abordons l'extension des modèles probabilistes classiquement utilisés. Nous rappelons tout d'abord les modèles de Markov couple et triplet dont l'intérêt est illustré à travers plusieurs exemples pratiques. Ensuite, nous traitons le problème de filtrage multi-objets, dans le contexte des ensembles statistiques finis, pour ces modèles. De plus, les propriétés statistiques plus générales des modèles triplet sont exploitées afin d'obtenir de nouvelles approximations de l'estimateur bayésien optimal (au sens de l'erreur quadratique moyenne) dans les modèles à sauts classiquement utilisés; ces approximations peuvent produire des estimateurs de performances comparables à celles des approximations particulaires, mais ont l'avantage d'être moins coûteuses sur le plan calculatoire
45

Alignement temporel musique-sur-partition par modèles graphiques discriminatifs

Joder, Cyril 29 September 2011 (has links) (PDF)
Cette thèse étudie le problème de l'alignement temporel d'un enregistrement musical et de la partition correspondante. Cette tâche peut trouver de nombreuses applications dans le domaine de l'indexation automatique de documents musicaux. Nous adoptons une approche probabiliste et nous proposons l'utilisation de modèles graphiques discriminatifs de type champs aléatoires conditionnels pour l'alignement, en l'exprimant comme un problème d'étiquetage de séquence. Cette classe de modèles permet d'exprimer des modèles plus flexibles que les modèles de Markov cachés ou les modèles semi-markoviens cachés, couramment utilisés dans ce domaine. En particulier, elle rend possible l'utilisation d'attributs (ou descripteurs acoustiques) extraits de séquences de trames audio qui se recouvrent, au lieu d'observations disjointes. Nous tirons parti de cette propriété pour introduire des attributs qui réalisent une modélisation implicite du tempo au plus bas niveau du modèle. Nous proposons trois structures de modèles différentes de complexité croissant, correspondant à différents niveaux de précision dans la modélisation de la durées des évènements musicaux. Trois types de descripteurs acoustiques sont utilisés, pour caractériser localement l'harmonie, les attaques de notes et le tempo de l'enregistrement. Une série d'expériences réalisées sur une base de données de piano classique et de musique pop permet de valider la grande précision de nos modèles. En effet, avec le meilleur des systèmes proposés, plus de 95 % des attaques de notes sont détectées à moins de 100 ms de leur position réelle. Plusieurs attributs acoustiques classiques, calculés à partir de différentes représentation de l'audio, sont utiliser pour mesurer la correspondance instantanée entre un point de la partition et une trame de l'enregistrement. Une comparaison de ces descripteurs est alors menée sur la base de leurs performances d'alignement. Nous abordons ensuite la conception de nouveaux attributs, grâce à l'apprentissage d'une transformation linéaire de la représentation symbolique vers une représentation temps-fréquence quelconque de l'audio. Nous explorons deux stratégies différentes, par minimum de divergence et maximum de vraisemblance, pour l'apprentissage de la transformation optimale. Les expériences effectuées montrent qu'une telle approche peut améliorer la précision des alignements, quelle que soit la représentation de l'audio utilisée. Puis, nous étudions différents ajustements à effectuer afin de confronter les systèmes à des cas d'utilisation réalistes. En particulier, une réduction de la complexité est obtenue grâce à une stratégie originale d'élagage hiérarchique. Cette méthode tire parti de la structure hiérarchique de la musique en vue d'un décodage approché en plusieurs passes. Une diminution de complexité plus importante que celle de la méthode classique de recherche par faisceaux est observée dans nos expériences. Nous examinons en outre une modification des modèles proposés afin de les rendre robustes à d'éventuelles différences structurelles entre la partition et l'enregistrement. Enfin, les propriétés de scalabilité des modèles utilisés sont étudiées.
46

Sélection de paramètres acoustiques pertinents pour la reconnaissance de la parole

Hacine-Gharbi, Abdenour 09 December 2012 (has links) (PDF)
L'objectif de cette thèse est de proposer des solutions et améliorations de performance à certains problèmes de sélection des paramètres acoustiques pertinents dans le cadre de la reconnaissance de la parole. Ainsi, notre première contribution consiste à proposer une nouvelle méthode de sélection de paramètres pertinents fondée sur un développement exact de la redondance entre une caractéristique et les caractéristiques précédemment sélectionnées par un algorithme de recherche séquentielle ascendante. Le problème de l'estimation des densités de probabilités d'ordre supérieur est résolu par la troncature du développement théorique de cette redondance à des ordres acceptables. En outre, nous avons proposé un critère d'arrêt qui permet de fixer le nombre de caractéristiques sélectionnées en fonction de l'information mutuelle approximée à l'itération j de l'algorithme de recherche. Cependant l'estimation de l'information mutuelle est difficile puisque sa définition dépend des densités de probabilités des variables (paramètres) dans lesquelles le type de ces distributions est inconnu et leurs estimations sont effectuées sur un ensemble d'échantillons finis. Une approche pour l'estimation de ces distributions est basée sur la méthode de l'histogramme. Cette méthode exige un bon choix du nombre de bins (cellules de l'histogramme). Ainsi, on a proposé également une nouvelle formule de calcul du nombre de bins permettant de minimiser le biais de l'estimateur de l'entropie et de l'information mutuelle. Ce nouvel estimateur a été validé sur des données simulées et des données de parole. Plus particulièrement cet estimateur a été appliqué dans la sélection des paramètres MFCC statiques et dynamiques les plus pertinents pour une tâche de reconnaissance des mots connectés de la base Aurora2.
47

Chaînes de Markov cachées et séparation non supervisée de sources

RAFI, Selwa 11 June 2012 (has links) (PDF)
Le problème de la restauration est rencontré dans domaines très variés notamment en traitement de signal et de l'image. Il correspond à la récupération des données originales à partir de données observées. Dans le cas de données multidimensionnelles, la résolution de ce problème peut se faire par différentes approches selon la nature des données, l'opérateur de transformation et la présence ou non de bruit. Dans ce travail, nous avons traité ce problème, d'une part, dans le cas des données discrètes en présence de bruit. Dans ce cas, le problème de restauration est analogue à celui de la segmentation. Nous avons alors exploité les modélisations dites chaînes de Markov couples et triplets qui généralisent les chaînes de Markov cachées. L'intérêt de ces modèles réside en la possibilité de généraliser la méthode de calcul de la probabilité à posteriori, ce qui permet une segmentation bayésienne. Nous avons considéré ces méthodes pour des observations bi-dimensionnelles et nous avons appliqué les algorithmes pour une séparation sur des documents issus de manuscrits scannés dans lesquels les textes des deux faces d'une feuille se mélangeaient. D'autre part, nous avons attaqué le problème de la restauration dans un contexte de séparation aveugle de sources. Une méthode classique en séparation aveugle de sources, connue sous l'appellation "Analyse en Composantes Indépendantes" (ACI), nécessite l'hypothèse d'indépendance statistique des sources. Dans des situations réelles, cette hypothèse n'est pas toujours vérifiée. Par conséquent, nous avons étudié une extension du modèle ACI dans le cas où les sources peuvent être statistiquement dépendantes. Pour ce faire, nous avons introduit un processus latent qui gouverne la dépendance et/ou l'indépendance des sources. Le modèle que nous proposons combine un modèle de mélange linéaire instantané tel que celui donné par ACI et un modèle probabiliste sur les sources avec variables cachées. Dans ce cadre, nous montrons comment la technique d'Estimation Conditionnelle Itérative permet d'affaiblir l'hypothèse usuelle d'indépendance en une hypothèse d'indépendance conditionnelle
48

Analyse des intervalles ECG inter- et intra-battement sur des modèles d'espace d'état et de Markov cachés / Inter-beat and intra-beat ECG interval analysis based on state space and hidden markov models

Akhbari, Mahsa 08 February 2016 (has links)
Les maladies cardiovasculaires sont l'une des principales causes de mortalité chez l'homme. Une façon de diagnostiquer des maladies cardiaques et des anomalies est le traitement de signaux cardiaques tels que le ECG. Dans beaucoup de ces traitements, des caractéristiques inter-battements et intra-battements de signaux ECG doivent être extraites. Ces caractéristiques comprennent les points de repère des ondes de l’ECG (leur début, leur fin et leur point de pic), les intervalles significatifs et les segments qui peuvent être définis pour le signal ECG. L'extraction des points de référence de l'ECG consiste à identifier l'emplacement du pic, de début et de la fin de l'onde P, du complexe QRS et de l'onde T. Ces points véhiculent des informations cliniquement utiles, mais la segmentation precise de chaque battement de l'ECG est une tâche difficile, même pour les cardiologues expérimentés.Dans cette thèse, nous utilisons un cadre bayésien basé sur le modèle dynamique d'ECG proposé par McSharry. Depuis ce modèle s'appuyant sur la morphologie des ECG, il peut être utile pour la segmentation et l'analyse d'intervalles d'ECG. Afin de tenir compte de la séquentialité des ondes P, QRS et T, nous utiliserons également l'approche de Markov et des modèles de Markov cachés (MMC). En bref dans cette thèse, nous utilisons un modèle dynamique (filtre de Kalman), un modèle séquentiel (MMC) et leur combinaison (commutation de filtres de Kalman (SKF)). Nous proposons trois méthodes à base de filtres de Kalman, une méthode basée sur les MMC et un procédé à base de SKF. Nous utilisons les méthodes proposées pour l'extraction de points de référence et l'analyse d'intervalles des ECG. Le méthodes basées sur le filtrage de Kalman sont également utilisés pour le débruitage d'ECG, la détection de l'alternation de l'onde T, et la détection du pic R de l'ECG du foetus.Pour évaluer les performances des méthodes proposées pour l'extraction des points de référence de l'ECG, nous utilisons la base de données "Physionet QT", et une base de données "Swine" qui comprennent ECG annotations de signaux par les médecins. Pour le débruitage d'ECG, nous utilisons les bases de données "MIT-BIH Normal Sinus Rhythm", "MIT-BIH Arrhythmia" et "MIT-BIH noise stress test". La base de données "TWA Challenge 2008 database" est utilisée pour la détection de l'alternation de l'onde T. Enfin, la base de données "Physionet Computing in Cardiology Challenge 2013 database" est utilisée pour la détection du pic R de l'ECG du feotus. Pour l'extraction de points de reference, la performance des méthodes proposées sont évaluées en termes de moyenne, écart-type et l'erreur quadratique moyenne (EQM). Nous calculons aussi la sensibilité des méthodes. Pour le débruitage d'ECG, nous comparons les méthodes en terme d'amélioration du rapport signal à bruit. / Cardiovascular diseases are one of the major causes of mortality in humans. One way to diagnose heart diseases and abnormalities is processing of cardiac signals such as ECG. In many of these processes, inter-beat and intra-beat features of ECG signal must be extracted. These features include peak, onset and offset of ECG waves, meaningful intervals and segments that can be defined for ECG signal. ECG fiducial point (FP) extraction refers to identifying the location of the peak as well as the onset and offset of the P-wave, QRS complex and T-wave which convey clinically useful information. However, the precise segmentation of each ECG beat is a difficult task, even for experienced cardiologists.In this thesis, we use a Bayesian framework based on the McSharry ECG dynamical model for ECG FP extraction. Since this framework is based on the morphology of ECG waves, it can be useful for ECG segmentation and interval analysis. In order to consider the time sequential property of ECG signal, we also use the Markovian approach and hidden Markov models (HMM). In brief in this thesis, we use dynamic model (Kalman filter), sequential model (HMM) and their combination (switching Kalman filter (SKF)). We propose three Kalman-based methods, an HMM-based method and a SKF-based method. We use the proposed methods for ECG FP extraction and ECG interval analysis. Kalman-based methods are also used for ECG denoising, T-wave alternans (TWA) detection and fetal ECG R-peak detection.To evaluate the performance of proposed methods for ECG FP extraction, we use the "Physionet QT database", and a "Swine ECG database" that include ECG signal annotations by physicians. For ECG denoising, we use the "MIT-BIH Normal Sinus Rhythm", "MIT-BIH Arrhythmia" and "MIT-BIH noise stress test" databases. "TWA Challenge 2008 database" is used for TWA detection and finally, "Physionet Computing in Cardiology Challenge 2013 database" is used for R-peak detection of fetal ECG. In ECG FP extraction, the performance of the proposed methods are evaluated in terms of mean, standard deviation and root mean square of error. We also calculate the Sensitivity for methods. For ECG denoising, we compare methods in their obtained SNR improvement.
49

Etude de la pertinence des paramètres stochastiques sur des modèles de Markov cachés / Study of the relevance of stochastic parameters on hidden Markov models

Robles, Bernard 18 December 2013 (has links)
Le point de départ de ce travail est la thèse réalisée par Pascal Vrignat sur la modélisation de niveaux de dégradation d’un système dynamique à l’aide de Modèles de Markov Cachés (MMC), pour une application en maintenance industrielle. Quatre niveaux ont été définis : S1 pour un arrêt de production et S2 à S4 pour des dégradations graduelles. Recueillant un certain nombre d’observations sur le terrain dans divers entreprises de la région, nous avons réalisé un modèle de synthèse à base de MMC afin de simuler les différents niveaux de dégradation d’un système réel. Dans un premier temps, nous identifions la pertinence des différentes observations ou symboles utilisés dans la modélisation d’un processus industriel. Nous introduisons ainsi le filtre entropique. Ensuite, dans un but d’amélioration du modèle, nous essayons de répondre aux questions : Quel est l’échantillonnage le plus pertinent et combien de symboles sont ils nécessaires pour évaluer au mieux le modèle ? Nous étudions ensuite les caractéristiques de plusieurs modélisations possibles d’un processus industriel afin d’en déduire la meilleure architecture. Nous utilisons des critères de test comme les critères de l’entropie de Shannon, d’Akaike ainsi que des tests statistiques. Enfin, nous confrontons les résultats issus du modèle de synthèse avec ceux issus d’applications industrielles. Nous proposons un réajustement du modèle pour être plus proche de la réalité de terrain. / As part of preventive maintenance, many companies are trying to improve the decision support of their experts. This thesis aims to assist our industrial partners in improving their maintenance operations (production of pastries, aluminum smelter and glass manufacturing plant). To model industrial processes, different topologies of Hidden Markov Models have been used, with a view to finding the best topology by studying the relevance of the model outputs (also called signatures). This thesis should make it possible to select a model framework (a framework includes : a topology, a learning & decoding algorithm and a distribution) by assessing the signature given by different synthetic models. To evaluate this « signature », the following widely-used criteria have been applied : Shannon Entropy, Maximum likelihood, Akaike Information Criterion, Bayesian Information Criterion and Statistical tests.
50

Contrôle de têtes parlantes par inversion acoustico-articulatoire pour l’apprentissage et la réhabilitation du langage / Control of talking heads by acoustic-to-articulatory inversion for language learning and rehabilitation

Ben Youssef, Atef 26 October 2011 (has links)
Les sons de parole peuvent être complétés par l'affichage des articulateurs sur un écran d'ordinateur pour produire de la parole augmentée, un signal potentiellement utile dans tous les cas où le son lui-même peut être difficile à comprendre, pour des raisons physiques ou perceptuelles. Dans cette thèse, nous présentons un système appelé retour articulatoire visuel, dans lequel les articulateurs visibles et non visibles d'une tête parlante sont contrôlés à partir de la voix du locuteur. La motivation de cette thèse était de développer un tel système qui pourrait être appliqué à l'aide à l'apprentissage de la prononciation pour les langues étrangères, ou dans le domaine de l'orthophonie. Nous avons basé notre approche de ce problème d'inversion sur des modèles statistiques construits à partir de données acoustiques et articulatoires enregistrées sur un locuteur français à l'aide d'un articulographe électromagnétique (EMA). Notre approche avec les modèles de Markov cachés (HMMs) combine des techniques de reconnaissance automatique de la parole et de synthèse articulatoire pour estimer les trajectoires articulatoires à partir du signal acoustique. D'un autre côté, les modèles de mélanges gaussiens (GMMs) estiment directement les trajectoires articulatoires à partir du signal acoustique sans faire intervenir d'information phonétique. Nous avons basé notre évaluation des améliorations apportées à ces modèles sur différents critères : l'erreur quadratique moyenne (RMSE) entre les coordonnées EMA originales et reconstruites, le coefficient de corrélation de Pearson, l'affichage des espaces et des trajectoires articulatoires, aussi bien que les taux de reconnaissance acoustique et articulatoire. Les expériences montrent que l'utilisation d'états liés et de multi-gaussiennes pour les états des HMMs acoustiques améliore l'étage de reconnaissance acoustique des phones, et que la minimisation de l'erreur générée (MGE) dans la phase d'apprentissage des HMMs articulatoires donne des résultats plus précis par rapport à l'utilisation du critère plus conventionnel de maximisation de vraisemblance (MLE). En outre, l'utilisation du critère MLE au niveau de mapping direct de l'acoustique vers l'articulatoire par GMMs est plus efficace que le critère de minimisation de l'erreur quadratique moyenne (MMSE). Nous constatons également trouvé que le système d'inversion par HMMs est plus précis celui basé sur les GMMs. Par ailleurs, des expériences utilisant les mêmes méthodes statistiques et les mêmes données ont montré que le problème de reconstruction des mouvements de la langue à partir des mouvements du visage et des lèvres ne peut pas être résolu dans le cas général, et est impossible pour certaines classes phonétiques. Afin de généraliser notre système basé sur un locuteur unique à un système d'inversion de parole multi-locuteur, nous avons implémenté une méthode d'adaptation du locuteur basée sur la maximisation de la vraisemblance par régression linéaire (MLLR). Dans cette méthode MLLR, la transformation basée sur la régression linéaire qui adapte les HMMs acoustiques originaux à ceux du nouveau locuteur est calculée de manière à maximiser la vraisemblance des données d'adaptation. Finalement, cet étage d'adaptation du locuteur a été évalué en utilisant un système de reconnaissance automatique des classes phonétique de l'articulation, dans la mesure où les données articulatoires originales du nouveau locuteur n'existent pas. Finalement, en utilisant cette procédure d'adaptation, nous avons développé un démonstrateur complet de retour articulatoire visuel, qui peut être utilisé par un locuteur quelconque. Ce système devra être évalué de manière perceptive dans des conditions réalistes. / Speech sounds may be complemented by displaying speech articulators shapes on a computer screen, hence producing augmented speech, a signal that is potentially useful in all instances where the sound itself might be difficult to understand, for physical or perceptual reasons. In this thesis, we introduce a system called visual articulatory feedback, in which the visible and hidden articulators of a talking head are controlled from the speaker's speech sound. The motivation of this research was to develop such a system that could be applied to Computer Aided Pronunciation Training (CAPT) for learning of foreign languages, or in the domain of speech therapy. We have based our approach to this mapping problem on statistical models build from acoustic and articulatory data. In this thesis we have developed and evaluated two statistical learning methods trained on parallel synchronous acoustic and articulatory data recorded on a French speaker by means of an electromagnetic articulograph. Our Hidden Markov models (HMMs) approach combines HMM-based acoustic recognition and HMM-based articulatory synthesis techniques to estimate the articulatory trajectories from the acoustic signal. Gaussian mixture models (GMMs) estimate articulatory features directly from the acoustic ones. We have based our evaluation of the improvement results brought to these models on several criteria: the Root Mean Square Error between the original and recovered EMA coordinates, the Pearson Product-Moment Correlation Coefficient, displays of the articulatory spaces and articulatory trajectories, as well as some acoustic or articulatory recognition rates. Experiments indicate that the use of states tying and multi-Gaussian per state in the acoustic HMM improves the recognition stage, and that the minimum generation error (MGE) articulatory HMMs parameter updating results in a more accurate inversion than the conventional maximum likelihood estimation (MLE) training. In addition, the GMM mapping using MLE criteria is more efficient than using minimum mean square error (MMSE) criteria. In conclusion, we have found that the HMM inversion system has a greater accuracy compared with the GMM one. Beside, experiments using the same statistical methods and data have shown that the face-to-tongue inversion problem, i.e. predicting tongue shapes from face and lip shapes cannot be solved in a general way, and that it is impossible for some phonetic classes. In order to extend our system based on a single speaker to a multi-speaker speech inversion system, we have implemented a speaker adaptation method based on the maximum likelihood linear regression (MLLR). In MLLR, a linear regression-based transform that adapts the original acoustic HMMs to those of the new speaker was calculated to maximise the likelihood of adaptation data. Finally, this speaker adaptation stage has been evaluated using an articulatory phonetic recognition system, as there are not original articulatory data available for the new speakers. Finally, using this adaptation procedure, we have developed a complete articulatory feedback demonstrator, which can work for any speaker. This system should be assessed by perceptual tests in realistic conditions.

Page generated in 0.4636 seconds