Global ETD Search

1	Segmentation automatique de parole en phones. Correction d'étiquetage par l'introduction de mesures de confiance Nefti, Samir 16 December 2004 (has links) (PDF) Un système de synthèse de parole par concaténation d'unités acoustiques utilise un dictionnaire de ces unités, construit à partir d'un corpus de parole mono-locuteur segmentée en éléments acoustiques, généralement phonétiques. Pour atteindre une qualité de parole synthétique suffisante, ce dictionnaire doit être richement fourni, et par conséquent nécessite un corpus de plusieurs heures de parole.<br />La segmentation manuelle d'un tel corpus de parole est fastidieuse, d'où l'intérêt de la segmentation automatique. À condition de disposer des transcriptions phonétiques réelles des énoncés, les méthodes automatiques produisent une segmentation de qualité approximativement équivalente à celle d'une segmentation manuelle. Cependant, la transcription manuelle du contenu phonétique du corpus de parole est également fastidieuse.<br />Cette étude concerne la segmentation automatique de parole en phones qui utilise des transcriptions phonétiques automatiquement produites à partir du texte. Elle porte sur la détection et la correction des erreurs d'étiquetage phonétique que contiennent généralement ces transcriptions phonétiques automatiques. Les résultats obtenus dans cette étude sont significativement positifs. Traitement automatique de la parole synthèse automatique de la parole segmentation (Linguistique) tests d'hypothèses (Statistique) reconnaissance automatique de la parole phonétique
2	Production de paraphrases pour les systèmes vocaux humain-machine Chevelu, Jonathan 17 March 2011 (has links) (PDF) Cette thèse s'intéresse au lien entre ce qui est prononcé et le système vocal humaine-machine qui le prononce. Plutôt que de proposer des systèmes capables de tout vocaliser, nous envisageons le message comme une variable qui peut être modifiée. L'élément primordial d'un message est son sens. Il est donc possible de changer les mots utilisés si cela conserve le sens du message et améliore les systèmes vocaux. Cette modification s'appelle " production de paraphrases ". Dans cette thèse, nous proposons une étude de la production statistique de paraphrases pour les systèmes vocaux humain-machine. Pour ce faire, nous présentons la conception d'un système de référence et d'une plateforme d'évaluation en ligne. Nous mettons en lumière les différentes limites de l'approche classique et nous proposons un autre modèle fondé sur l'application de règles de transformation. Nous montrons qu'il est nécessaire de prendre en compte l'utilisation souhaitée des paraphrases lors de leur production et de leurs évaluations, pas uniquement du critère de conservation du sens. Enfin, nous proposons et étudions un nouvel algorithme pour produire des paraphrases, fondé sur l'échantillonnage de Monte- Carlo et l'apprentissage par renforcement. Cet algorithme permet de s'affranchir des contraintes habituelles de l'algorithme de Viterbi et donc de proposer librement de nouveaux modèles pour la paraphrase. langage naturel traitement du (informatique) synthèse automatique de la parole optimisation combinatoire
3	Study of unit selection text-to-speech synthesis algorithms / Étude des algorithmes de sélection d’unités pour la synthèse de la parole à partir du texte Guennec, David 22 September 2016 (has links) La synthèse de la parole par corpus (sélection d'unités) est le sujet principal de cette thèse. Tout d'abord, une analyse approfondie et un diagnostic de l'algorithme de sélection d'unités (algorithme de recherche dans le treillis d'unités) sont présentés. L'importance de l'optimalité de la solution est discutée et une nouvelle mise en œuvre de la sélection basée sur un algorithme A* est présenté. Trois améliorations de la fonction de coût sont également présentées. La première est une nouvelle façon – dans le coût cible – de minimiser les différences spectrales en sélectionnant des séquences d'unités minimisant un coût moyen au lieu d'unités minimisant chacune un coût cible de manière absolue. Ce coût est testé pour une distance sur la durée phonémique mais peut être appliqué à d'autres distances. Notre deuxième proposition est une fonction de coût cible visant à améliorer l'intonation en se basant sur des coefficients extraits à travers une version généralisée du modèle de Fujisaki. Les paramètres de ces fonctions sont utilisés au sein d'un coût cible. Enfin, notre troisième contribution concerne un système de pénalités visant à améliorer le coût de concaténation. Il pénalise les unités en fonction de classes reposant sur une hiérarchie du degré de risque qu'un artefact de concaténation se produise lors de la concaténation sur un phone de cette classe. Ce système est différent des autres dans la littérature en cela qu'il est tempéré par une fonction floue capable d'adoucir le système de pénalités pour les unités présentant des coûts de concaténation parmi les plus bas de leur distribution. / This PhD thesis focuses on the automatic speech synthesis field, and more specifically on unit selection. A deep analysis and a diagnosis of the unit selection algorithm (lattice search algorithm) is provided. The importance of the solution optimality is discussed and a new unit selection implementation based on a A* algorithm is presented. Three cost function enhancements are also presented. The first one is a new way – in the target cost – to minimize important spectral differences by selecting sequences of candidate units that minimize a mean cost instead of an absolute one. This cost is tested on a phonemic duration distance but can be applied to others. Our second proposition is a target sub-cost addressing intonation that is based on coefficients extracted through a generalized version of Fujisaki's command-response model. This model features gamma functions modeling F0 called atoms. Finally, our third contribution concerns a penalty system that aims at enhancing the concatenation cost. It penalizes units in function of classes defining the risk a concatenation artifact occurs when concatenating on a phone of this class. This system is different to others in the literature in that it is tempered by a fuzzy function that allows to soften penalties for units presenting low concatenation costs. Traitement automatique de la parole Synthèse automatique de la parole Concaténation Synthèse Par Corpus Speech Synthesis Corpus-Based Speech Synthesis Unit Selection Graph Pathfinding Algorithm Target Cost Concatenation Cost

1

Page generated in 0.3393 seconds