Return to search

Segmentation automatique de parole en phones. Correction d'étiquetage par l'introduction de mesures de confiance

Un système de synthèse de parole par concaténation d'unités acoustiques utilise un dictionnaire de ces unités, construit à partir d'un corpus de parole mono-locuteur segmentée en éléments acoustiques, généralement phonétiques. Pour atteindre une qualité de parole synthétique suffisante, ce dictionnaire doit être richement fourni, et par conséquent nécessite un corpus de plusieurs heures de parole.<br />La segmentation manuelle d'un tel corpus de parole est fastidieuse, d'où l'intérêt de la segmentation automatique. À condition de disposer des transcriptions phonétiques réelles des énoncés, les méthodes automatiques produisent une segmentation de qualité approximativement équivalente à celle d'une segmentation manuelle. Cependant, la transcription manuelle du contenu phonétique du corpus de parole est également fastidieuse.<br />Cette étude concerne la segmentation automatique de parole en phones qui utilise des transcriptions phonétiques automatiquement produites à partir du texte. Elle porte sur la détection et la correction des erreurs d'étiquetage phonétique que contiennent généralement ces transcriptions phonétiques automatiques. Les résultats obtenus dans cette étude sont significativement positifs.

Identiferoai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00122091
Date16 December 2004
CreatorsNefti, Samir
PublisherUniversité Rennes 1
Source SetsCCSD theses-EN-ligne, France
LanguageFrench
Detected LanguageFrench
TypePhD thesis

Page generated in 0.0023 seconds