Spelling suggestions: "subject:"reconnaissance dde locuteurs"" "subject:"reconnaissance dee locuteurs""
1 |
Reconnaissance de locuteurs pour robot mobileGrondin, François January 2012 (has links)
L'audition artificielle est de plus en plus utilisée en robotique mobile pour améliorer l'interaction humain-robot. La reconnaissance de la parole occupe présentement une place importante tandis qu'un intérêt particulier se développe pour la reconnaissance de locuteurs. Le système ManyEars permet actuellement à un robot mobile de localiser, suivre et séparer plusieurs sources sonores. Ce système utilise un ensemble de huit microphones qui sont disposés en cube. Ce mémoire porte sur la conception et l'évaluation d'un système de reconnaissance de locuteurs, baptisé WISS (Who IS Speaking), couplé au système ManyEars. Le système de reconnaissance de locuteurs conçu est robuste au bruit ambiant et au changement d'environnement. Une technique de combinaison de modèle parallèle (parallel model combination (PMC)) et des masques sont utilisés pour améliorer le taux d'identification dans un milieu bruité. Un indice de confiance est également introduit pour pondérer les identifications obtenues. La simplicité du système proposé fait en sorte qu'il est possible d'exécuter en temps réel l'algorithme sur un processeur généraliste ( General Purpose Processor (GPP)). Les performances du système sont établies à l'aide de plusieurs scénarios. Dans un premier lieu, des enregistrements sont diffusés dans des haut-parleurs pour un ensemble de vingt locuteurs. Le système est ainsi caractérisé en fonction des positions angulaires et radiales des sources sonores. Le taux de reconnaissance est affecté par la qualité du signal (i.e. diminution du rapport signal sur bruit ( Signal-to-Noise Ratio (SNR))) : il passe de 95.6% à 84.3% en moyenne lorsque le SNR passe d'environ 16 dB à 2 dB lorsque le locuteur se situe à 1.5 mètres des microphones. Par la suite, un scénario dit statique est vérifié à l'aide de quatre locuteurs qui récitent chacun leur tour des phrases à un volume de voix naturel. Finalement, un scénario dynamique dans lequel un groupe de quatre locuteurs ont une conversation naturelle avec des chevauchements entre les segments de paroles est étudié. Le taux de reconnaissance varie entre 74.2% et 100.0% (avec une moyenne de 90.6%) avec le scénario statique, et entre 42.6% et 100.0% avec le scénario dynamique (avec des moyennes de 58.3%, 72.8% et 81.4% pour des segments de 1, 2 et 3 secondes respectivement). Des solutions sont identifiées afin d'améliorer les performances lors de travaux futurs. Au meilleur de notre connaissance, il n'existe aucun système qui effectue une reconnaissance de locuteurs dans un environnement contaminé simultanément par des bruits convolutif et additif. De plus, l'utilisation de masques pour estimer ces bruits est un nouveau concept. Ces masques sont d'ailleurs généralement employés pour la reconnaissance de la parole et leur utilisation dans un contexte de reconnaissance de locuteur est une première. De plus, une caractérisation complète du système qui inclue les SNRs est proposée en fonction de la position du locuteur, ce qui est rarement disponible dans la littérature en audition artificielle pour les robots.
|
2 |
Indexation de documents audio : Cas des grands volumes de donnéesRougui, Jamal 16 July 2008 (has links) (PDF)
Cette thèse est consacrée à l'élaboration et l'évaluation des techniques visant à renforcer la robustesse des systèmes d'indexation de documents audio au sens du locuteur. L'indexation audio au sens du locuteur consiste à reconnaître l'identité des locuteurs ainsi que leurs interventions dans un ux continu audio ou dans une base de données d'archives audio, ne contenant que la parole. Dans ce cadre nous avons choisi de structurer les documents audio (restreints à des journaux radiodiffusés) selon une classication en locuteurs. La technique utilisée repose sur l'extraction des coefficients mel-cepstrales, suivi par l'apprentissage statistique de modèles de mélange de gaussiennes (MMG) et sur la détection des changements de locuteur au moyen de test d'hypothèse Bayésien. Le processus est incrémental : au fur et à mesure que de nouveaux locuteurs sont détectés, ils sont identifiés à ceux de la base de données ou bien, le cas échéant, de nouvelles entrées sont créées dans la base. Comme toute structure de données adaptée au problème incrémental, notre système d'indexation permet d'effectuer la mise à jour des modèles MMG de locuteur à l'aide de l'algorithme fusion des MMG. Cet algorithme à été conçu à la fois pour créer une structure ascendante en regroupant deux à deux les modèles GMM jugés similaires. Enn, à travers de deux études utilisant des structures arborescentes binaire ou n'aire, une réexion est conduite an de trouver une structure ordonnée et adaptée au problème incrémental. Quelques pistes de réexions sur l'apport de l'analyse vidéo sont discutées et les besoins futurs sont explorés.
|
3 |
Utilisation des coefficients de régression linéaire par maximum de vraisemblance comme paramètres pour la reconnaissance automatique du locuteurFerràs Font, Marc 10 July 2009 (has links) (PDF)
The goal of this thesis is to find new and efficient features for speaker recognition. We are mostly concerned with the use of the Maximum-Likelihood Linear Regression (MLLR) family of adaptation techniques as features in speaker recognition systems. MLLR transformcoefficients are able to capture speaker cues after adaptation of a speaker-independent model using speech data. The resulting supervectors are high-dimensional and no underlying model guiding its generation is assumed a priori, becoming suitable for SVM for classification. This thesis brings some contributions to the speaker recognition field by proposing new approaches to feature extraction and studying existing ones via experimentation on large corpora: 1. We propose a compact yet efficient system, MLLR-SVM, which tackles the issues of transcript- and language-dependency of the standard MLLR-SVM approach by using single-class Constrained MLLR (CMLLR) adaptation transforms together with Speaker Adaptive Training (SAT) of a Universal Background Model (UBM). 1- When less data samples than dimensions are available. 2- We propose several alternative representations of CMLLR transformcoefficients based on the singular value and symmetric/skew-symmetric decompositions of transform matrices. 3- We develop a novel framework for feature-level inter-session variability compensation based on compensation of CMLLR transform supervectors via Nuisance Attribute Projection (NAP). 4- We perform a comprehensive experimental study of multi-class (C)MLLR-SVM systems alongmultiple axes including front-end, type of transform, type fmodel,model training and number of transforms. 5- We compare CMLLR and MLLR transform matrices based on an analysis of properties of their singular values. 6- We propose the use of lattice-basedMLLR as away to copewith erroneous transcripts in MLLR-SVMsystems using phonemic acoustic models.
|
4 |
Bénéfices et limites des représentations en facteur de variabilité totale pour la reconnaissance du locuteur / Benefits and limits of the total variability factor representation for speaker recognitionBousquet, Pierre-Michel 23 May 2014 (has links)
Le domaine de la reconnaissance automatique du locuteur (RAL) recouvre l’ensembledes techniques visant à discriminer des locuteurs à partir de leurs énoncésde voix. Il se classe dans la famille des procédures d’authentification biométrique del’identité. La reconnaissance du locuteur a connu ces dernières années une avancée significativeavec un nouveau concept de représentation de l’énoncé de voix, désignésous le terme de i-vector. Ce type de représentation s’appuie sur le paradigme de modélisationpar mélange de gaussiennes et présente la particularité de se réduire numériquementà un vecteur de dimension faible, au regard des représentations précédentes,et pourtant très discriminant vis à vis du locuteur.Les travaux présentés dans cette thèse s’inscrivent dans ce nouveau contexte. Orientésautour de cette représentation, ils visent à en comprendre et évaluer les hypothèses,les points fondamentaux, le comportement et les limites.Nous avons en premier lieu conduit une analyse statistique sur cette nouvelle représentation.L’étude a porté sur l’effet et l’importance relative des différentes étapes deconstitution et d’exploitation du concept. Cette analyse a permis de mieux comprendreses caractéristiques, mais aussi de faire apparaître des défauts de la représentation quinous ont conduits à mettre en place de nouvelles transformations dans cet espace. L’objectifde ces techniques est de faire converger les données vers des modèles théoriques,à meilleur pouvoir discriminant. Nous recensons et démontrons un certain nombre depropriétés induites par ces transformations, qui justifient leur emploi. En terme de performance,ces techniques réduisent d’un ordre de grandeur de 50% les taux d’erreurdes systèmes basés sur les i-vectors et des postulats gaussiens, permettant notammentd’atteindre par la voie du cadre probabiliste gaussien les meilleurs taux de détectiondans le domaine.Une évaluation générale des composants de la méthode est ensuite détaillée dansce document. Elle met en avant l’importance de certaines étapes, permettant ainsi dedégager, par comparaison à des méthodes alternatives, les approches fondamentalesqui confèrent au concept une valeur de paradigme. Nous montrons la primauté decertaines étapes stratégiques dans la chaîne des traitements, parmi lesquelles les transformationsque nous avons mises en place, et leur relative indépendance aux méthodes et hypothèses adoptées.Des limites de la solution sont mises au jour et exposées dans une étude dite d’anisotropie,qui relativise sa capacité à produire une paramétrisation linéaire globale des variabilitésqui soit optimale.En parallèle de ces investigations, nous avons participé à l’exploration d’un nouveaumodèle alternatif à la solution la plus usuelle de représentation des énoncés devoix. Conçu par J.F. Bonastre, il produit des vecteurs sous forme de clés binaires etfournit les moyens de les comparer, en suivant une voie semi-paramétrique basée surune nouvelle approche de la problématique. Cette exploration a contribué à l’améliorationde ce modèle et à l’ouverture de nouvelles pistes. Elle a été également utile à notreévaluation du concept de i-vector.Les travaux présentés dans ce document contribuent à l’amélioration de ce modèleet à l’ouverture de nouvelles pistes. Ils sont également utiles à notre évaluation duconcept de i-vector.Enfin, quelques aménagements des solutions i-vectors à des cas particuliers ont étémis en place : nous proposons de nouvelles variantes pour gérer la décision sur lesénoncés de courte durée (qui constituent l’un des enjeux actuels du domaine) et sur lesénoncés présentant une divergence a priori (support, durée, langue distincts).L’ensemble de ces travaux vise à mieux circonscrire les pistes de recherche les plusporteuses autour de ce nouveau concept de représentation de la voix humaine / The speaker recognition field covers all the techniques intended to authentify theidentity by using voice utterances. Speaker recognition has experienced in recent yearsa significant step forward with a new concept of representation, referred to as the ivector. This type of representation is based on the Gaussian mixture model paradigmand has the distinguishing feature of being a small size vector compared to previousrepresentations, yet very discriminating towards the speaker.The works presented in this thesis are within that new context. Focused on thisrepresentation, they aim to better understand it and assess its assumptions, highlightits key points, its behaviors and limits.We first carried out a statistical analysis of this new representation. This analysishelped to better understand its characteristics, but also reveal defaults of the representationthat led us to develop new transformations. The goal of these techniques is tomove data towards a theoretical model, having a better accuracy for discrimination.We identify and demonstrate a number of properties of these transformations whichjustify their relevance. In terms of performance, applying these techniques reduce byan order of magnitude of 50% the error rate of systems based on i-vectors and Gaussianassumptions and yield the best detection rate in the field through the Gaussianprobabilistic framework. A complete evaluation of the system components is detailed later in this document.By comparing the fundamental approaches to alternative methods, this evaluationidentifies and highlights the fundamental steps that give the concept a value ofparadigm.We show the primacy of some strategic steps in the process chain, includingour propositions, and their relative independence from methods and assumptions.Limits of the solution are uncovered and exposed in a study of "anisotropy", whichreveals some lack of compliance of i-vector distributions with Gaussian assumptions.Alongside these investigations, we participated in the exploration of a new model,alternative to the most usual statistical representations of utterances, which relies on asemi- parametric representation. Designed by J.F. Bonastre, it produces binary key vectorsand provides the means to compare them. This exploration has contributed to the improvement of this model and opens new gates. It was also helpful to our evaluationof the concept of i -vector.Some adaptations of i-vector approach to special speaker recognition tasks are described: we propose new variants to handle short duration utterances ( which is oneof the current issues in the field ) and to deal with a priori mismatch (for example ofsupport, time or distinct language).We hope that this work will better highlight some of the most promising slopes ofresearch around this new concept of representation for speaker recognition
|
5 |
Contribution à l'évaluation opérationnelle des systèmes biométriques multimodaux / Contribution to the operational evaluation of multimodal biometric systemsCabana, Antoine 28 November 2018 (has links)
Le développement et la multiplication de dispositifs connectés, en particulier avec les \textit{smartphones}, nécessitent la mise en place de moyens d'authentification. Dans un soucis d'ergonomie, les industriels intègrent massivement des systèmes biométrique afin de garantir l'identité du porteur, et ce afin d'autoriser l'accès à certaines applications et fonctionnalités sensibles (paiements, e-banking, accès à des données personnelles : correspondance électronique..). Dans un soucis de garantir, une adéquation entre ces systèmes d'authentification et leur usages, la mise en œuvre d'un processus d'évaluation est nécessaire.L'amélioration des performances biométriques est un enjeux important afin de permettre l'intégration de telles solutions d'authentification dans certains environnement ayant d'importantes exigences sur les performances, particulièrement sécuritaires. Afin d'améliorer les performances et la fiabilité des authentifications, différentes sources biométriques sont susceptibles d'être utilisées dans un processus de fusion. La biométrie multimodale réalise, en particulier, la fusion des informations extraites de différentes modalités biométriques. / Development and spread of connected devices, in particular smartphones, requires the implementation of authentication methods. In an ergonomic concern, manufacturers integrates biometric systems in order to deal with logical control access issues. These biometric systems grant access to critical data and application (payment, e-banking, privcy concerns : emails...). Thus, evaluation processes allows to estimate the systems' suitabilty with these uses. In order to improve recognition performances, manufacturer are susceptible to perform multimodal fusion.In this thesis, the evaluation of operationnal biometric systems has been studied, and an implementation is presented. A second contribution studies the quality estimation of speech samples, in order to predict recognition performances.
|
6 |
Réseaux Bayésiens Dynamiques pour la Vérification du LocuteurSanchez-Soto, Eduardo 10 May 2005 (has links) (PDF)
Cette thèse est concernée avec la modélisation statistique du signal de parole appliqué à la vérification du locuteur (VL) en utilisant des réseaux bayésiens (RBs). L'idée principale de ce travail est d'employer les RBs comme un outil mathématique afin de combiner plusieurs sources d'information obtenues à partir du signal de parole en gardant ses relations. Elle combine de travail théorique et expérimental. Une différence fondamentale entre les systèmes de VL et les humains est la quantité et la qualité de l'information utilisée ainsi que la relation entre les sources d'information employées pour prendre des décisions. L'identité d'un locuteur est codée dans plusieurs sources d'information qui peuvent être modélisées par des RBs. La première partie de cette thèse passe en revue les modules principaux des systèmes de VL, les sources possibles d'information aussi bien que les concepts de base des modèles graphiques. La deuxième partie de cette thèse aborde le module de modélisation du système de VL proposé. On propose une nouvelle façon d'approcher les problèmes liés aux systèmes de VL. Il est décrit comment apprendre les relations d'indépendance conditionnelle parmi les variables directement à partir des données. Enfin, nous proposons une technique pour adapter les RBs basée sur certaines caractéristiques mathématiques des relations d'indépendance conditionnelles. Cette adaptation est basée sur une mesure entre les distributions de probabilité conditionnelles entre des variables discrètes, et de la même façon, sur la matrice de régression pour des variables continues. A l'issue de nos recherches, l'intérêt d'employer les RBs dans les systèmes de VL est clairement montré.
|
7 |
Reconnaissance de locuteurs par localisation dans un espace de locuteurs de référenceMami, Yassine 21 October 2003 (has links) (PDF)
Cette thèse s'inscrit dans le domaine de la reconnaissance automatique du locuteur, domaine riche d'applications potentielles allant de la sécurisation d'accès à l'indexation de documents audio. Afin de laisser le champ à un large éventail d'applications, nous nous intéressons à la reconnaissance de locuteur en mode indépendant du texte et dans le cas où nous disposons de très peu de données d'apprentissage. Nous nous intéressons plus particulièrement à la modélisation et à la représentation des locuteurs. Il s'agit d'estimer avec très peu de données un modèle suffisamment robuste du locuteur pour permettre la reconnaissance du locuteur. La modélisation par un mélange de gaussiennes (GMM), en mode indépendant du texte, fournit des bonnes performances et constitue l'état de l'art en la matière. Malheureusement, cette modélisation est peu robuste dans le cas où on ne dispose que de quelques secondes de parole pour apprendre le modèle du locuteur. Pour tenter de remédier à ce problème, une perspective intéressante de modélisation consiste à représenter un nouveau locuteur, non plus de façon absolue, mais relativement à un ensemble de modèles de locuteurs bien appris. Chaque locuteur est représenté par sa localisation dans un espace de locuteurs de référence. C'est cette perspective que nous avons explorée dans cette thèse. Au cours de ce travail, nous avons recherché le meilleur espace de représentation et la meilleure localisation dans cet espace. Nous avons utilisé le regroupement hiérarchique et la sélection d'un sous-ensemble pour construire cet espace. Les locuteurs sont ensuite localisés par la technique des modèles d'ancrage. Il s'agit de calculer un score de vraisemblance par rapport à chaque locuteur de référence. Ainsi, la proximité entre les locuteurs est évaluée par l'application des distances entre leurs vecteurs de coordonnées.<br />Nous avons proposé ensuite une nouvelle représentation des locuteurs basée sur une distribution de distances. L'idée est de modéliser un locuteur par une distribution sur les distances mesurées dans l'espace des modèles d'ancrage. Cela permet d'appliquer une mesure statistique entre l'occurrence de test et les modèles des locuteurs à reconnaître (au lieu d'une mesure géométrique).<br />Ainsi, si nous avons approfondi la modélisation d'un locuteur par sa position dans un espace de locuteurs de référence, nous avons également étudié comment cette position pouvait permettre une meilleure estimation du modèle GMM du locuteur, par exemple en fusionnant les modèles de ses plus proches voisins. Finalement, en complément à la modélisation GMM-UBM, nous avons étudié des algorithmes de fusion de décisions avec les différentes approches proposées.
|
8 |
Convergence phonétique en interaction Phonetic convergence in interactionLelong, Amelie 03 July 2012 (has links) (PDF)
Le travail présenté dans cette thèse est basé sur l'étude d'un phénomène appelé convergence phonétique qui postule que deux interlocuteurs en interaction vont avoir tendance à adapter leur façon de parler à leur interlocuteur dans un but communicatif. Nous avons donc mis en place un paradigme appelé " Dominos verbaux " afin de collecter un corpus large pour caractériser ce phénomène, le but final étant de doter un agent conversationnel animé de cette capacité d'adaptation afin d'améliorer la qualité des interactions homme-machine.Nous avons mené différentes études pour étudier le phénomène entre des paires d'inconnus, d'amis de longue date, puis entre des personnes provenant de la même famille. On s'attend à ce que l'amplitude de la convergence soit liée à la distance sociale entre les deux interlocuteurs. On retrouve bien ce résultat. Nous avons ensuite étudié l'impact de la connaissance de la cible linguistique sur l'adaptation. Pour caractériser la convergence phonétique, nous avons développé deux méthodes : la première basée sur une analyse discriminante linéaire entre les coefficients MFCC de chaque locuteur, la seconde utilisant la reconnaissance de parole. La dernière méthode nous permettra par la suite d'étudier le phénomène en condition moins contrôlée.Finalement, nous avons caractérisé la convergence phonétique à l'aide d'une mesure subjective en utilisant un nouveau test de perception basé sur la détection " en ligne " d'un changement de locuteur. Le test a été réalisé à l'aide signaux extraits des interactions mais également avec des signaux obtenus avec une synthèse adaptative basé sur la modélisation HNM. Nous avons obtenus des résultats comparables démontrant ainsi la qualité de notre synthèse adaptative.
|
9 |
Métodos de representación y verificación del locutor con independencia del texto / Méthodes de représentation et de vérification du locuteur indépendant du texte / Methods of utterances representation in text-independent speaker verificationHernandez Sierra, Gabriel 15 December 2014 (has links)
La reconnaissance automatique du locuteur indépendante du texte est une méthode récente dans le domaine des systèmes biométriques. Le développement de la reconnaissance du locuteur se reflète tout autant dans la participation croissante aux compétitions internationales et dans les progrès en termes de performance relevés dans ces campagnes. Cependant la précision des méthodes reste limitée par la quantité d'information discriminante du locuteur présente dans les représentations informatiques des énoncés vocaux. Cette thèse présente une étude sur ces représentations. Elle identifie deux faiblesses principales. Tout d’abord, les représentations usuelles ignorent les paramètres temporels de la voix pourtant connus pour leur pouvoir discriminant. Par ailleurs, ces représentations reposent sur le paradigme de l’apprentissage statistique et diminuent l’importance d’événements rares dans une population de locuteurs, mais fréquents dans un locuteur donné.Pour répondre à ces verrous, cette thèse propose une nouvelle représentation des énoncés. Celle-ci projette chaque vecteur acoustique dans un large espace binaire intrinsèquement discriminant du locuteur. Une mesure de similitude associée à une représentation globale (vecteurs cumulatifs) est également proposée. L’approche proposée permet ainsi à la fois de représenter des événements rares mais pertinents et de travailler sur des informations temporelles. Cette approche permet de tirer parti des solutions de compensation de la variabilité « session », qui provient de l’ensemble des facteurs indésirables, exploitées dans les approches de type « iVector ». Dans ce domaine, des améliorations aux algorithmes de l’état de l’art ont été proposées.Une solution originale permettant d’exploiter l’information temporelle à l’intérieur de cette représentation binaire a été proposée. La complémentarité des sources d’information a été attestée par un gain en performance relevé grâce à une fusion linéaire des deux types d’information, indépendant et dépendant de la séquence temporelle. / Text-independent automatic speaker recognition is a recent method in biometric area. Its increasing interest is reflected both in the increasing participation in international competitions and in the performance progresses. Moreover, the accuracy of the methods is still limited by the quantity of speaker discriminant information contained in the representations of speech utterances. This thesis presents a study on speech representation for speaker recognition systems. It shows firstly two main weaknesses. First, it fails to take into account the temporal behavior of the voice, which is known to contain speaker discriminant information. Secondly, speech events rare in a large population of speakers although very present for a given speaker are hardly taken into account by these approaches, which is contradictory when the goal is to discriminate among speakers.In order to overpass these limitations, we propose in this thesis a new speech representation for speaker recognition. This method represents each acoustic vector in a a binary space which is intrinsically speaker discriminant. A similarity measure associated with a global representation (cumulative vectors) is also proposed. This new speech utterance representation is able to represent infrequent but discriminant events and to work on temporal information. It allows also to take advantage of existing « session » variability compensation approaches (« session » variability represents all the negative variability factors). In this area, we proposed also several improvements to the usual session compensation algorithms. An original solution to deal with the temporal information inside the binary speech representation was also proposed. Thanks to a linear fusion approach between the two sources of information, we demonstrated the complementary nature of the temporal information versus the classical time independent representations. / El reconocimiento automático del locutor independiente del texto, es un método dereciente incorporación en los sistemas biométricos. El desarrollo y auge del mismo serefleja en las competencias internacionales, pero aun la eficacia de los métodos de reconocimientose encuentra afectada por la cantidad de información discriminatoria dellocutor que esta presente en las representaciones actuales de las expresiones de voz.En esta tesis se realizó un estudio donde se identificaron dos principales debilidadespresentes en las representaciones actuales del locutor. En primer lugar, no se tiene encuenta el comportamiento temporal de la voz, siendo este un rasgo discriminatorio dellocutor y en segundo lugar los eventos pocos frecuentes dentro de una población delocutores pero frecuentes en un locutor dado, apenas son tenidos en cuenta por estosenfoques, lo cual es contradictorio cuando el objetivo es discriminar los locutores. Motivadopor la solución de estos problemas, se confirmó la redundancia de informaciónexistente en las representaciones actuales y la necesidad de emplear nuevas representacionesde las expresiones de voz. Se propuso un nuevo enfoque con el desarrollo de unmétodo para la obtención de un modelo generador capaz de transformar la representación actual del espacio acústico a una representación en un espacio binario, dondese propuso una medida de similitud asociada con una representación global (vectoracumulativo) que contiene tanto los eventos frecuentes como los pocos frecuentes enuna expresión de voz. Para la compensación de la variabilidad de sesión se incorporóen la matriz de dispersión intra-clase, la información común de la población de locutores,lo que implicó la modificación de tres algoritmos de la literatura que mejoraronsu desempeño respecto a la eficacia en el reconocimiento del locutor, tanto utilizandoel nuevo enfoque propuesto como el enfoque actual de referencia. La información temporalexistente en las expresiones de voz fue capturada e incorporada en una nuevarepresentación, mejorando aun más la eficacia del enfoque propuesto. Finalmente sepropuso y evaluó una fusión lineal entre los dos enfoques que demostró la informacióncomplementaria existente entre ellos, obteniéndose los mejores resultados de eficaciaen el reconocimiento del locutor.
|
10 |
Reconnaissance automatique du locuteur par des GMM à grande margeJourani, Reda 06 September 2012 (has links) (PDF)
Depuis plusieurs dizaines d'années, la reconnaissance automatique du locuteur (RAL) fait l'objet de travaux de recherche entrepris par de nombreuses équipes dans le monde. La majorité des systèmes actuels sont basés sur l'utilisation des Modèles de Mélange de lois Gaussiennes (GMM) et/ou des modèles discriminants SVM, i.e., les machines à vecteurs de support. Nos travaux ont pour objectif général la proposition d'utiliser de nouveaux modèles GMM à grande marge pour la RAL qui soient une alternative aux modèles GMM génératifs classiques et à l'approche discriminante état de l'art GMM-SVM. Nous appelons ces modèles LM-dGMM pour Large Margin diagonal GMM. Nos modèles reposent sur une récente technique discriminante pour la séparation multi-classes, qui a été appliquée en reconnaissance de la parole. Exploitant les propriétés des systèmes GMM utilisés en RAL, nous présentons dans cette thèse des variantes d'algorithmes d'apprentissage discriminant des GMM minimisant une fonction de perte à grande marge. Des tests effectués sur les tâches de reconnaissance du locuteur de la campagne d'évaluation NIST-SRE 2006 démontrent l'intérêt de ces modèles en reconnaissance.
|
Page generated in 0.1271 seconds