Un système de synthèse de parole par concaténation d'unités acoustiques utilise un dictionnaire de ces unités, construit à partir d'un corpus de parole mono-locuteur segmentée en éléments acoustiques, généralement phonétiques. Pour atteindre une qualité de parole synthétique suffisante, ce dictionnaire doit être richement fourni, et par conséquent nécessite un corpus de plusieurs heures de parole.<br />La segmentation manuelle d'un tel corpus de parole est fastidieuse, d'où l'intérêt de la segmentation automatique. À condition de disposer des transcriptions phonétiques réelles des énoncés, les méthodes automatiques produisent une segmentation de qualité approximativement équivalente à celle d'une segmentation manuelle. Cependant, la transcription manuelle du contenu phonétique du corpus de parole est également fastidieuse.<br />Cette étude concerne la segmentation automatique de parole en phones qui utilise des transcriptions phonétiques automatiquement produites à partir du texte. Elle porte sur la détection et la correction des erreurs d'étiquetage phonétique que contiennent généralement ces transcriptions phonétiques automatiques. Les résultats obtenus dans cette étude sont significativement positifs.
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00122091 |
Date | 16 December 2004 |
Creators | Nefti, Samir |
Publisher | Université Rennes 1 |
Source Sets | CCSD theses-EN-ligne, France |
Language | French |
Detected Language | French |
Type | PhD thesis |
Page generated in 0.0021 seconds