• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 456
  • 217
  • 57
  • 21
  • 11
  • 8
  • 7
  • 6
  • 6
  • 4
  • 4
  • 3
  • 3
  • 1
  • 1
  • Tagged with
  • 839
  • 242
  • 127
  • 123
  • 114
  • 97
  • 85
  • 80
  • 76
  • 68
  • 66
  • 62
  • 58
  • 54
  • 52
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
301

Perception audiovisuelle de la parole chez le sourd postlingual implanté cochléaire et le sujet normo-entendant : étude longitudinale psychophysique et neurofonctionnelle

Rouger, Julien 29 November 2007 (has links) (PDF)
Nos travaux ont consisté à étudier les mécanismes perceptifs et neuronaux impliqués lors de la perception audiovisuelle de la parole chez des patients sourds postlinguaux implantés cochléaires et des sujets contrôles normo-entendants. Dans ce but nous avons testé les performances audiovisuelles des patients implantés au cours de suivis longitudinaux en compor-temental et en tomographie par émission de positrons, ainsi qu'au travers d'un paradigme de parole audio-visuelle incongruente (McGurk). Pour comparaison nous avons systématiquement testé des sujets contrôles dans les mêmes conditions. Nous avons également testé ces derniers en condition de lecture labiale puis en utilisant des dégradations de la parole auditive et audiovisuelle par du bruit blanc et par une simulation acoustique d'implant cochléaire. L'ensemble de ces études concorde pour indiquer, à la suite de l'implantation cochléaire, une réorganisation rapide des réseaux corticaux multi-sensoriels impliqués dans l'intégration audiovisuelle de la parole, aboutissant à une combinaison optimale des indices perceptifs audiovisuels.
302

Le cadre de la parole et le cadre du signe : un rendez-vous développemental

Ducey Kaufmann, Virginie 26 January 2007 (has links) (PDF)
Notre hypothèse de travail est qu'il existerait un rendez-vous développemental entre ce que nous nommons le cadre de la parole et le cadre du signe. Tandis que le cadre de la parole (Speech Frame) s'établit sous la forme du babillage canonique, vers 7 mois, le cadre du signe (Sign Frame) se manifeste tout d'abord sous la forme du pointage dit impératif vers 9 mois, avant de donner lieu au pointage dit déclaratif. Ce dernier apparaît avec les premiers mots, tandis que le cadre de la parole permet à ce moment-là de coproduire (coarticuler) voyelle et consonne (Sussman et al. 1999). Les places respectives des ingrédients de ce rendez-vous développemental autour du premier mot restent encore à explorer.<br />Dans la présente contribution, nous avons voulu tester l'existence d'un rapport harmonique entre cadre de la parole et cadre du signe. Pour cela, il nous a fallu tout d'abord obtenir la distribution des fréquences de babillage, puis celle des durées des pointers. Nos résultats sur 6 sujets, suivis sur 12 mois, montrent qu'avec un mode de babillage à 3Hz et des strokes de pointers de 600-700 ms (1.5Hz), nous pouvons rendre compte du gabarit (template) des premiers mots. En effet, ces mots «prosodiques» pouvant varier d'une à deux «syllabes», il est nécessaire de faire appel à la notion de pied (foot) comme une unité de contrôle métrique ancrée dans le pointer. Ceci rendra compte des observations courantes dans la littérature à condition qu'au lieu de compter seulement des syllabes/mot, on mesure le pas des cycles mandibulaires entrant dans le stroke des pointers.
303

Constitution d'une base de références phonétiques pour la reconnaissance de mots isolés pour un système multi-locuteurs

Delia, Christine 28 September 1984 (has links) (PDF)
Système de reconnaissance de parole dont le principe a été propose par la société Texas Instrument France. Le procédé d'analyse est indépendant du locuteur. Les autres caractéristiques du système sont la reconnaissance de mots isolés parmi un vocabulaire donné, ces mots sont représentes sous forme phonétique et l'apprentissage du système réalisé pour l'ensemble des mots d'une langue donnée.
304

Reconnaissance automatique de la parole non native

Tien Ping, Tan 03 July 2008 (has links) (PDF)
Les technologies de reconnaissance automatique de la parole sont désormais intégrées dans de nombreux systèmes. La performance des systèmes de reconnaissance vocale pour les locuteurs non natifs continue cependant à souffrir de taux d'erreur élevés, en raison de la différence entre la parole non native et les modèles entraînés. La réalisation d'enregistrements en grande quantité de parole non native est souvent difficile et peu réaliste pour représenter toutes les origines des locuteurs. <br />Dans cette thèse, nous proposons des approches pour adapter les modèles acoustiques et de prononciation sous différentes conditions de ressource pour les locuteurs non natifs. Un travail préliminaire sur l'identification d'accent a également proposé.<br />Ce travail de thèse repose sur le concept de modélisation acoustique translingue qui permet de représenter les locuteurs non natifs dans un espace multilingue sans utiliser (ou en utilisant très peu) de parole non native. Une approche hybride d'interpolation et de fusion est proposée pour l'adaptation des modèles en langue cible en utilisant une collection de modèles acoustiques multilingues. L'approche proposée est également utile pour la modélisation du contexte de prononciation. Si, en revanche, des corpus multilingues sont disponibles, des méthodes d'interpolation peuvent être utilisées pour l'adaptation à la parole non native. Deux d'entre elles sont proposées pour une adaptation supervisée et peuvent être employées avec seulement quelques phrases non natives.<br />En ce qui concerne la modélisation de la prononciation, deux approches existantes (l'une fondée sur la modification du dictionnaire de prononciation, l'autre fondée sur la définition d'un score de prononciation utilisé dans une phase de re-scoring) sont revisitées dans cette thèse et adaptées pour fonctionner sur une quantité de données limitée. Une nouvelle approche de groupement de locuteurs selon leurs habitudes de prononciation, est également présentée : nous l'appelons « analyse de prononciation latente ». Cette approche se révèle également utile pour améliorer le modèle de prononciation pour la reconnaissance automatique de la parole non native.<br />Enfin, une méthode d'identification d'accent est proposée. Elle nécessite une petite quantité de parole non native pour créer les modèles d'accents. Ceci est rendu possible en utilisant la capacité de généralisation des arbres de décision et en utilisant des ressources multilingues pour augmenter la performance du modèle d'accent.
305

Prise en compte de critères acoustiques pour la synthèse de la parole

Rouibia, Soufiane 27 September 2006 (has links) (PDF)
Cette thèse s'inscrit dans le domaine de la synthèse vocale à partir du texte et traite plus articulièrement de la synthèse par corpus (SPC). Cette approche basée sur la concaténation de segments acoustiques contenus dans de grandes bases de données s'est peu à peu instaurée comme un standard. En effet, moyennant la sélection d'unités adaptées au contexte de synthèse, elle permet d'aboutir à un signal de parole dont le naturel peut être assez bien préservé. La qualité de la synthèse obtenue par la méthode par concaténation est étroitement liée d'une part au corpus de synthèse et d'autre part à l'algorithme de sélection des unités. Malgré le saut notable de qualité qu'a permis d'atteindre cette technologie, la SPC n'est pas capable de garantir une parole dont la qualité soit à peu près constante sur l'ensemble d'un énoncé. Ceci est en grande partie dû au manque de contrôle acoustique des systèmes de SPC actuels. L'objectif de cette thèse est donc d'introduire des mécanismes permettant un meilleur contrôle acoustique lors de la synthèse.<br /> <br />La méthode proposée consiste à effectuer une sélection sur la base d'une cible purement acoustique. Cette cible est déduite de modèles acoustiques - plus précisément des modèles de sénones - estimés lors d'une phase d'apprentissage. Dans un premier temps, nous proposons un algorithme de sélection basé uniquement sur cette cible acoustique. Puis la méthode de sélection est modifiée de manière à mieux contrôler l'information de fréquence fondamentale. Le module de sélection proposé est également combiné à un module de pré-sélection des unités, ce qui conduit à une diminution sensible de la complexité algorithmique sans dégradation perceptible des résultats. Des tests d'écoutes formels révèlent que la méthode proposée permet de réduire significativement les discontinuités acoustiques lors de la concaténation. La méthode proposée est également appliquée à la réduction de corpus acoustiques et conduit à une réduction de l'ordre de 60% de la base acoustique sans dégradation de la qualité de la parole produite.
306

Conversion de voix pour la synthèse de la parole

EN-NAJJARY, Taoufik 08 April 2005 (has links) (PDF)
Cette thèse s'inscrit dans le cadre des travaux de recherche entrepris par la division R&D de France Telecom dans le domaine de la synthèse de la parole à partir du texte. Elle concerne plus particulièrement le domaine de la conversion de voix, technologie visant à transformer le signal de parole d'un locuteur de référence dit locuteur source, de telle façon qu'il semble, à l'écoute, avoir été prononcé par un autre locuteur cible, identifié au préalable, dit locuteur cible. Le but de cette thèse est donc la diversification de voix de synthèse via la conception et le développement d'un système de conversion de voix de haute qualité. Les approches étudiées dans cette thèse se basent sur des techniques de classification par GMM (Gaussian Mixture Model) et une modélisation du signal de parole par HNM (Harmonic plus Noise Model). Dans un premier temps, l'influence de la paramétrisation spectrale sur la performance de conversion de voix par GMM est analysée. Puis, la dépendance entre l'enveloppe spectrale et la fréquence fondamentale est mise en évidence. Deux méthodes de conversion exploitant cette dépendance sont alors proposées et évaluées favorablement par rapport à l'état de l'art existant. Les problèmes liés à la mise en oeuvre de la conversion de voix sont également abordés. Le premier problème est la complexité élevée du processus de conversion par rapport au processus de synthèse lui-même (entre 1,5 et 2 fois le coût de calcul de la synthèse elle-même). Pour cela, une technique de conversion a été développée et conduit à une réduction de la complexité d'un facteur compris entre 45 et 130. Le deuxième problème concerne la mise en oeuvre de la conversion de voix lorsque les corpus d'apprentissage source et cible sont différents. Une méthodologie a ainsi été proposée rendant possible l'apprentissage de la fonction de transformation à partir d'enregistrements quelconques.
307

L'accès au lexique dans la perception audiovisuelle et visuelle de la parole

Fort, Mathilde 05 December 2011 (has links) (PDF)
En situation de perception audiovisuelle de la parole (i.e., lorsque deux interlocuteurs communiquent face à face) et lorsque le signal acoustique est bruité, l'intelligibilité des sons produits par un locuteur est augmentée lorsque son visage en mouvement est visible. L'objectif des travaux présentés ici est de déterminer si cette capacité à " lire sur les lèvres " nous est utile seulement pour augmenter l'intelligibilité de certains sons de parole (i.e., niveau de traitement pré-lexical) ou également pour accéder au sens des mots (i.e., niveau de traitement lexical). Chez l'adulte, nos résultats indiquent que l'information visuelle participe à l'activation des représentations lexicales en présence d'une information auditive bruitée (Etude 1 et 2). Voir le geste articulatoire correspondant à la première syllabe d'un mot constitue une information suffisante pour contacter les représentations lexicales, en l'absence de toute information auditive (Etude 3 et 4). Les résultats obtenus chez l'enfant suggèrent néanmoins que jusque l'âge de 10 ans, l'information visuelle serait uniquement décodée à un niveau pré-lexical (Etude 5).
308

Construction et stratégie d'exploitation des réseaux de confusion en lien avec le contexte applicatif de la compréhension de la parole

Minescu, Bogdan 11 December 2008 (has links) (PDF)
Cette thèse s'intéresse aux réseaux de confusion comme représentation compacte et structurée des hypothèses multiples produites par un moteur de reconnaissance de parole et transmises à un module de post-traitement applicatif. Les réseaux de confusion (CN pour Confusion Networks) sont générés à partir des graphes de mots et structurent l'information sous la forme d'une séquence de classes contenant des hypothèses de mots en concurrence. Le cas d'usage étudié dans ces travaux est celui des hypothèses de reconnaissance transmises à un module de compréhension de la parole dans le cadre d'une application de dialogue déployée par France Telecom. Deux problématiques inhérentes à ce contexte applicatif sont soulevées. De façon générale, un système de dialogue doit non seulement reconnaître un énoncé prononcé par un utilisateur, mais aussi l'interpréter afin de déduire sons sens. Du point de vue de l'utilisateur, les performances perçues sont plus proches de celles de la chaîne complète de compréhension que de celles de la reconnaissance vocale seule. Ce sont ces performances que nous cherchons à optimiser. Le cas plus particulier d'une application déployée implique de pouvoir traiter des données réelles et donc très variées. Un énoncé peut être plus ou moins bruité, dans le domaine ou hors-domaine, couvert par le modèle sémantique de l'application ou non, etc. Étant donnée cette grande variabilité, nous posons la question de savoir si le fait d'appliquer les mêmes traitements sur l'ensemble des données, comme c'est le cas dans les approches classiques, est une solution adaptée. Avec cette double perspective, cette thèse s'attache à la fois à enrichir l'algorithme de construction des CNs dans le but d'optimiser globalement le processus de compréhension et à proposer une stratégie adéquate d'utilisation des réseaux de confusion dans le contexte d'une application réelle. Après une analyse des propriétés de deux approches de construction des CNs sur un corpus de données réelles, l'algorithme retenu est celui du "pivot". Nous en proposons une version modifiée et adaptée au contexte applicatif en introduisant notamment un traitement différencié des mots du graphe qui privilégie les mots porteurs de sens. En réponse à la grande variabilité des énoncés à traiter dans une application déployée, nous proposons une stratégie de décision à plusieurs niveaux qui vise à mieux prendre en compte les spécificités des différents types d'énoncés. Nous montrons notamment qu'il est préférable de n'exploiter la richesse des sorties multiples que sur les énoncés réellement porteurs de sens. Cette stratégie permet à la fois d'optimiser les temps de calcul et d'améliorer globalement les performances du système
309

Transcription automatique de langues peu dotées

Pellegrini, Thomas 11 April 2008 (has links) (PDF)
Les technologies liées à la parole, et en particulier la reconnaissance de la parole, suscitent un grand intérêt pour un nombre croissant de langues. La très grande majorité des langues du monde ne possèdent pas de grands corpus de données nécessaires à l'élaboration des systèmes de reconnaissance à l'état de l'art, fondés sur des paradigmes probabilistes pour la plupart. Les travaux menés au cours de cette thèse ont consisté, dans un premier temps, à identifier les difficultés rencontrées lors de l'élaboration d'un système pour une langue peu dotée. Nous avons travaillé principalement sur le problème des forts taux de mots hors-vocabulaire dus au manque de textes, qui est à nos yeux le problème le plus important pour ces langues. Nous défendons l'idée que l'utilisation de sous-unités lexicales correctement sélectionnées qui peuvent être plus petites que les mots, peut amener des gains significatifs de performances. Nous avons utilisé et modifié un algorithme probabiliste qui propose des frontières de morphe, en introduisant des propriétés qui caractérisent la confusion acoustico-phonétique éventuelle entre les unités lexicales de reconnaissance. Les expériences de reconnaissance ont été menées sur deux langues différentes : l'amharique et le turc, et des gains modestes mais significatifs ont été obtenus, autour de 5% relatifs, avec des réductions relatives de taux d'OOV comprises entre 30% et 50%.
310

Estimation de fréquences fondamentales multiples en vue de la séparation de signaux de parole mélangés dans un même canal

Signol, François 14 December 2009 (has links) (PDF)
Cette thèse propose un algorithme d'estimation de F0 multiples (AEP) pour la parole superposée. Il s'appuie sur deux familles de peignes spectraux nommées Peignes à Dents Négatives (PDN) et Peignes à Dents Manquantes (PDM). Le produit scalaire entre un spectre d'amplitude et un peigne spectral produit une fonction de pitch qui quanti fie la force de la structure harmonique d'une fréquence donnée. Les fonctions de pitch contiennent des pics parasites provoquant des erreurs d'estimation de F0. La combinaison des fonctions de pitch de chaque PDN et PDM permet d'atténuer ces pics parasites. Cette combinaison est nommée principe de Peigne à Suppression Harmonique (PSH). Deux implémentations du principe de PSH sont décrites dont une est évaluée de manière comparative à d'autres algorithmes existant dans les situations monopitch et bipitch. Quatre méthodologies sont proposées. Les performances obtenues sont largement à la hauteur de l'état de l'art (10% d'erreurs grossières en bipitch). Cette évaluation a permis de mettre en évidence l'influence critique de la décision voisé/non-voisé sur les taux d'erreurs.

Page generated in 0.0894 seconds