Spelling suggestions: "subject:"parole."" "subject:"carole.""
301 |
Conversion de voix pour la synthèse de la paroleEN-NAJJARY, Taoufik 08 April 2005 (has links) (PDF)
Cette thèse s'inscrit dans le cadre des travaux de recherche entrepris par la division R&D de France Telecom dans le domaine de la synthèse de la parole à partir du texte. Elle concerne plus particulièrement le domaine de la conversion de voix, technologie visant à transformer le signal de parole d'un locuteur de référence dit locuteur source, de telle façon qu'il semble, à l'écoute, avoir été prononcé par un autre locuteur cible, identifié au préalable, dit locuteur cible. Le but de cette thèse est donc la diversification de voix de synthèse via la conception et le développement d'un système de conversion de voix de haute qualité. Les approches étudiées dans cette thèse se basent sur des techniques de classification par GMM (Gaussian Mixture Model) et une modélisation du signal de parole par HNM (Harmonic plus Noise Model). Dans un premier temps, l'influence de la paramétrisation spectrale sur la performance de conversion de voix par GMM est analysée. Puis, la dépendance entre l'enveloppe spectrale et la fréquence fondamentale est mise en évidence. Deux méthodes de conversion exploitant cette dépendance sont alors proposées et évaluées favorablement par rapport à l'état de l'art existant. Les problèmes liés à la mise en oeuvre de la conversion de voix sont également abordés. Le premier problème est la complexité élevée du processus de conversion par rapport au processus de synthèse lui-même (entre 1,5 et 2 fois le coût de calcul de la synthèse elle-même). Pour cela, une technique de conversion a été développée et conduit à une réduction de la complexité d'un facteur compris entre 45 et 130. Le deuxième problème concerne la mise en oeuvre de la conversion de voix lorsque les corpus d'apprentissage source et cible sont différents. Une méthodologie a ainsi été proposée rendant possible l'apprentissage de la fonction de transformation à partir d'enregistrements quelconques.
|
302 |
L'accès au lexique dans la perception audiovisuelle et visuelle de la paroleFort, Mathilde 05 December 2011 (has links) (PDF)
En situation de perception audiovisuelle de la parole (i.e., lorsque deux interlocuteurs communiquent face à face) et lorsque le signal acoustique est bruité, l'intelligibilité des sons produits par un locuteur est augmentée lorsque son visage en mouvement est visible. L'objectif des travaux présentés ici est de déterminer si cette capacité à " lire sur les lèvres " nous est utile seulement pour augmenter l'intelligibilité de certains sons de parole (i.e., niveau de traitement pré-lexical) ou également pour accéder au sens des mots (i.e., niveau de traitement lexical). Chez l'adulte, nos résultats indiquent que l'information visuelle participe à l'activation des représentations lexicales en présence d'une information auditive bruitée (Etude 1 et 2). Voir le geste articulatoire correspondant à la première syllabe d'un mot constitue une information suffisante pour contacter les représentations lexicales, en l'absence de toute information auditive (Etude 3 et 4). Les résultats obtenus chez l'enfant suggèrent néanmoins que jusque l'âge de 10 ans, l'information visuelle serait uniquement décodée à un niveau pré-lexical (Etude 5).
|
303 |
Construction et stratégie d'exploitation des réseaux de confusion en lien avec le contexte applicatif de la compréhension de la paroleMinescu, Bogdan 11 December 2008 (has links) (PDF)
Cette thèse s'intéresse aux réseaux de confusion comme représentation compacte et structurée des hypothèses multiples produites par un moteur de reconnaissance de parole et transmises à un module de post-traitement applicatif. Les réseaux de confusion (CN pour Confusion Networks) sont générés à partir des graphes de mots et structurent l'information sous la forme d'une séquence de classes contenant des hypothèses de mots en concurrence. Le cas d'usage étudié dans ces travaux est celui des hypothèses de reconnaissance transmises à un module de compréhension de la parole dans le cadre d'une application de dialogue déployée par France Telecom. Deux problématiques inhérentes à ce contexte applicatif sont soulevées. De façon générale, un système de dialogue doit non seulement reconnaître un énoncé prononcé par un utilisateur, mais aussi l'interpréter afin de déduire sons sens. Du point de vue de l'utilisateur, les performances perçues sont plus proches de celles de la chaîne complète de compréhension que de celles de la reconnaissance vocale seule. Ce sont ces performances que nous cherchons à optimiser. Le cas plus particulier d'une application déployée implique de pouvoir traiter des données réelles et donc très variées. Un énoncé peut être plus ou moins bruité, dans le domaine ou hors-domaine, couvert par le modèle sémantique de l'application ou non, etc. Étant donnée cette grande variabilité, nous posons la question de savoir si le fait d'appliquer les mêmes traitements sur l'ensemble des données, comme c'est le cas dans les approches classiques, est une solution adaptée. Avec cette double perspective, cette thèse s'attache à la fois à enrichir l'algorithme de construction des CNs dans le but d'optimiser globalement le processus de compréhension et à proposer une stratégie adéquate d'utilisation des réseaux de confusion dans le contexte d'une application réelle. Après une analyse des propriétés de deux approches de construction des CNs sur un corpus de données réelles, l'algorithme retenu est celui du "pivot". Nous en proposons une version modifiée et adaptée au contexte applicatif en introduisant notamment un traitement différencié des mots du graphe qui privilégie les mots porteurs de sens. En réponse à la grande variabilité des énoncés à traiter dans une application déployée, nous proposons une stratégie de décision à plusieurs niveaux qui vise à mieux prendre en compte les spécificités des différents types d'énoncés. Nous montrons notamment qu'il est préférable de n'exploiter la richesse des sorties multiples que sur les énoncés réellement porteurs de sens. Cette stratégie permet à la fois d'optimiser les temps de calcul et d'améliorer globalement les performances du système
|
304 |
Transcription automatique de langues peu dotéesPellegrini, Thomas 11 April 2008 (has links) (PDF)
Les technologies liées à la parole, et en particulier la reconnaissance de la parole, suscitent un grand intérêt pour un nombre croissant de langues. La très grande majorité des langues du monde ne possèdent pas de grands corpus de données nécessaires à l'élaboration des systèmes de reconnaissance à l'état de l'art, fondés sur des paradigmes probabilistes pour la plupart. Les travaux menés au cours de cette thèse ont consisté, dans un premier temps, à identifier les difficultés rencontrées lors de l'élaboration d'un système pour une langue peu dotée. Nous avons travaillé principalement sur le problème des forts taux de mots hors-vocabulaire dus au manque de textes, qui est à nos yeux le problème le plus important pour ces langues. Nous défendons l'idée que l'utilisation de sous-unités lexicales correctement sélectionnées qui peuvent être plus petites que les mots, peut amener des gains significatifs de performances. Nous avons utilisé et modifié un algorithme probabiliste qui propose des frontières de morphe, en introduisant des propriétés qui caractérisent la confusion acoustico-phonétique éventuelle entre les unités lexicales de reconnaissance. Les expériences de reconnaissance ont été menées sur deux langues différentes : l'amharique et le turc, et des gains modestes mais significatifs ont été obtenus, autour de 5% relatifs, avec des réductions relatives de taux d'OOV comprises entre 30% et 50%.
|
305 |
Estimation de fréquences fondamentales multiples en vue de la séparation de signaux de parole mélangés dans un même canalSignol, François 14 December 2009 (has links) (PDF)
Cette thèse propose un algorithme d'estimation de F0 multiples (AEP) pour la parole superposée. Il s'appuie sur deux familles de peignes spectraux nommées Peignes à Dents Négatives (PDN) et Peignes à Dents Manquantes (PDM). Le produit scalaire entre un spectre d'amplitude et un peigne spectral produit une fonction de pitch qui quanti fie la force de la structure harmonique d'une fréquence donnée. Les fonctions de pitch contiennent des pics parasites provoquant des erreurs d'estimation de F0. La combinaison des fonctions de pitch de chaque PDN et PDM permet d'atténuer ces pics parasites. Cette combinaison est nommée principe de Peigne à Suppression Harmonique (PSH). Deux implémentations du principe de PSH sont décrites dont une est évaluée de manière comparative à d'autres algorithmes existant dans les situations monopitch et bipitch. Quatre méthodologies sont proposées. Les performances obtenues sont largement à la hauteur de l'état de l'art (10% d'erreurs grossières en bipitch). Cette évaluation a permis de mettre en évidence l'influence critique de la décision voisé/non-voisé sur les taux d'erreurs.
|
306 |
Dire institutionnel et espaces de langage - le cas de l'Algérie - Essai d'une sémio-didactiqueBerchoud Gourmelin, Marie 26 March 1992 (has links) (PDF)
Ce travail de recherche, composé de deux tomes, analyse d'une part les discours de l'institution dans l'Algérie des années 1980 et en contrepoint écoute la parole de jeunes lycéens (tome 1) ; il corrèle d'autre part les résultats obtenus avec un travail de sémiotique des espaces vécus en Algérie (tome 2). L'analyse des discours institutionnels fait apparaître la confrontation de deux logiques, celle de l'héritage, celle de la modernité, avec un capital symbolique en décomposition et recomposition forcée, et un volontarisme piétinant, cela à travers des thèmes dominants (le temps, l'action) et des thèmes récessifs (le sujet, le miroir). À travers ces thèmes, un manque éclatant apparaît, celui du sujet, ce qui porte à penser qu'il faut remettre en jeu des trans-actions collectives. Ainsi se dévoile l'entreprise politique de création autoritaire d'une parole collective à la fois authentique et neuve, qui éviterait les errances liées à la découverte de la liberté. L'analyse de l'espace en Algérie (le pays, une région, un village), comme celle des textes, montre que perdurent un vieux fonds social et plusieurs modèles entre lesquels le choix ne se fait pas. Ces choix d'espace sont également des choix politiques (d'en haut, et aussi des gens) qui reconduisent un équilibre transactionnel entre fonds ancien et État tout en limitant celui-ci. D'où l'importance des lieux transactionnels pour déployer une parole collective qui ne serait ni forcée ni entravée. Par exemple à travers l'éducation, plus particulièrement l'enseignement et l'apprentissage les langues, d'où la perspective didactique finale, car il s'agit de " rendre la parole aux bases " (Berque, 1978).
|
307 |
Transcription et traitement manuel de la parole spontanée pour sa reconnaissance automatiqueBazillon, Thierry 04 February 2011 (has links) (PDF)
Le projet EPAC est le point de départ de nos travaux de recherche. Nous présentons ce contexte de travail dans notre premier chapitre.Dans un deuxième temps, nous nous intéressons à la tâche de transcription de la parole. Nous en exposerons quelques jalons, ainsi qu'un inventaire des corpus oraux disponibles aujourd'hui. Enfin, nous comparons deux méthodes de transcription : manuelle et assistée. Par la suite, nous réalisons une étude comparative de huit logiciels d'aide à la transcription. Cela afin de démontrer que, suivant les situations, certains sont plus indiqués que d'autres. Le codage des données est l'objet de notre quatrième chapitre. Peut-on facilement échanger des transcriptions? Nous démontrerons que l'interopérabilité est un domaine où beaucoup de travail reste à faire. Enfin, nous terminons par une analyse détaillée de ce que nous appelons la parole spontanée. Par différents angles, définitions et expériences, nous tentons de circonscrire ce que cette appellation recouvre.
|
308 |
Développement du contrôle moteur de la parole : une étude longitudinale d'un enfant francophone âge de 7 à 16 mois, à partir d'un corpus audio-visuelLalevée, Claire 17 December 2010 (has links) (PDF)
La première année de vie est une période cruciale pour le développement de la parole chez l'enfant. Le babillage, étape clé dans ce développement, apparaît vers 6 mois sous une forme quasi-similaire chez tous les enfants du monde quel que soit le langage environnant. Durant cette période, l'enfant ne contrôle pas la nature de ses productions et n'a pas encore acquis les capacités pour produire les unités phonologiques de sa langue maternelle. Avec l'apparition de ses premiers mots autour de 12 mois, c'est-à-dire de productions verbales désignant de façon stable un référent identifiable, l'enfant a parcouru un chemin développemental durant lequel il a acquis de nouvelles capacités motrices, articulatoires et phonologiques. Nous nous sommes intéressées à l'apparition de ces capacités en adoptant une démarche à la croisée des approches scientifiques actuelles de type bottom-up (MacNeilage, 1998) et top-down (Fikkert & al. 2004, Wauquier, 2005, 2006) En effet, il nous semble que les productions de parole ne peuvent pas s'expliquer hors du cadre articulatoire et moteur. Mais il nous paraît pour autant indispensable de prendre en considération les caractéristiques structurelles et les contraintes linguistiques de l'input (Vihman, 1996). Pour nous, l'enfant doit donc s'adapter à sa langue maternelle en fonction de ses capacités motrices et articulatoires qui évolueront avec la croissance et la maturation cognitive, tout en comparant constamment ses productions à sa langue maternelle. Pour évaluer ces propositions théoriques, nous avons élaboré une base de données des productions vocales d'un enfant francophone âgé de 7 à 16 mois à partir d'un corpus audio-visuel. Notre questionnement porte sur la nature des premiers mots. En effet, si le contrôle des oscillations mandibulaires peut bien être considéré comme la structure de base de la parole, l'enfant ne pourra pas produire de syllabe adulte tant qu'il n'aura pas acquis trois contrôles supplémentaires à celui de la mandibule : (i) le contrôle du vélum qui permet d'obtenir un conduit vocal globalement oral pour produire des séquences consonnes-voyelles distinctes, (ii) le contrôle de la coordination oro-laryngéee qui permet d'obtenir la distinction voisée/non voisée, et (iii) le contrôle du rythme mandibulaire qui va permettre à l'enfant d'adapter ses productions au patron prosodique de sa langue maternelle.
|
309 |
Représentations du discours dans La Trilogie de Naguib MahfouzLéda, Mansour 24 June 2010 (has links) (PDF)
Comment lire La Trilogie du Caire de Naguib Mahfouz ? Au-delà d'une lecture réaliste et comparative, et dépassant le fait proprement traductif, notre recherche est fondée sur une analyse linguistique du texte littéraire, qui vise moins à appliquer des modèles et des schémas qu'à mettre en avant la singularité du corpus. Le discours comme fait linguistique descriptible constitue donc notre objet d'étude. Pourquoi les personnages parlent-ils, et autant ? Quel est l'intérêt de l'acte de parler dans un monde diégétique caractérisé par la prudence de dire, d'autant que les personnages sont représentés comme soumis et obéissants ? Les formes de « discours rapporté » rendent compte d'une construction textuelle du personnage parlant ; le discours direct singularise les personnages, mais il constitue aussi la forme privilégiée d'une parole intérieure et intime. Ainsi, le discours fait place aux personnages jusqu'à l'émergence des formes verbales, exprimant une résistance à l'interlocuteur. Ces différents rapports se localisent dans la réplique ; néanmoins, le narrateur se concentre moins sur un aspect structurel interactionnel de l'échange que sur le rapport des personnages au discours des autres. Le discours représente ainsi une technique mobilisée au service du programme narratif : les personnages de La Trilogie se caractérisent par une obéissance qui se sait, puisque les signes d'une résistance y sont présents.
|
310 |
Informations morpho-syntaxiques et adaptation thématique pour améliorer la reconnaissance de la paroleHuet, Stéphane 11 December 2007 (has links) (PDF)
Une des voies pour améliorer les performances des systèmes de reconnaissance automatique de la parole (RAP) consiste à employer davantage de connaissances linguistiques. Nous nous plaçons dans ce cadre en axant nos travaux sur deux aspects : les informations morpho-syntaxiques et l'adaptation thématique. Dans une première partie, nous proposons une nouvelle prise en compte des parties du discours en post-traitement du décodage de la parole. Nous étiquetons pour ce faire des listes d'hypothèses à l'aide d'un analyseur morpho-syntaxique développé pour tenir compte des spé- cificités des transcriptions. Nous réordonnons ces listes en modifiant le score global employé par un système de RAP pour reconnaître un groupe de souffle, de manière à inclure les informations morpho-syntaxiques. Une diminution significative du taux d'erreur de mots est obtenue lors d'expériences menées sur des émissions d'information francophones (corpus Ester). Nous établissons en outre l'intérêt des informations morpho-syntaxiques pour améliorer des mesures de confiance. Dans une seconde partie plus exploratoire, nous nous intéressons à l'adaptation thématique d'un modèle de langage (ML) d'un système de RAP. Nous proposons à cette fin une chaîne de traitements originale qui nous permet de spécialiser de manière ne et non supervisée le ML. Nous découpons tout d'abord une première transcription du document étudié en sections thématiquement homogènes. Pour cela, nous développons un nouveau cadre probabiliste pour prendre en compte dfférentes modalités (cohérence lexicale, indices acoustiques et marqueurs linguistiques) et montrons son intérêt pour améliorer la qualité de la segmentation. Nous construisons ensuite des corpus d'adaptation à partir du Web en utilisant une procédure novatrice. Nous modifions enfin le ML avec ces corpus spécifiques et montrons que, sur des sections thématiques sélectionnées manuellement, cette méthode permet d'améliorer significativement la modélisation du ML, même si le gain constaté au niveau de la qualité de la transcription est léger.
|
Page generated in 0.0395 seconds