Return to search

Diagnostic et évaluation automatique de la qualité vocale à partir d'indicateurs hybride / Automatic speech quality evaluation and diagnostic from hybrid indicators

Les opérateurs de télécommunications ont besoin de superviser en temps réel la qualité vocale des services qu'ils proposent. La qualité vocale peut être évaluée par tests subjectifs auprès d'utilisateurs; mais ces méthodes sont très coûteuses et peu adaptées à la supervision. Des modèles objectifs sont ainsi proposés afin de prédire la qualité vocale à moindre coût. Cette thèse propose un modèle de diagnostic et d’évaluation utilisant les informations disponibles au point de mesure : le modèle DESQHI (Diagnostic and Speech Quality using Hybrid Indicators). Il se distingue des modèles existants par deux caractéristiques principales. La première concerne la structure du cœur du modèle. Il est montré que la qualité vocale peut être représentée comme un phénomène multidimensionnel faisant intervenir trois dimensions perceptives correspondant à bruyance, codage de la parole et continuité. Cette structure permet de diagnostiquer la qualité vocale en identifiant les principales causes perceptives de sa dégradation. La deuxième caractéristique concerne le type d’indicateur utilisé pour représenter ces dimensions perceptives, à savoir l’utilisation d’indicateurs basés sur le signal et paramétriques. Les indicateurs basés sur le signal utilisent les informations numériques pour représenter les caractéristiques du signal (par exemple le rapport signal sur bruit qui donne une estimation du niveau sonore du bruit de fond). Les indicateurs paramétriques sont issus des statistiques du réseau (par exemple le pourcentage de pertes de paquets qui fournit une indication sur le niveau de discontinuité du signal de parole). L’utilisation d’indicateurs hybrides utilisant à la fois les informations du signal numérique et les statistiques du réseau permet d’améliorer les performances globales de la prédiction de la qualité vocale, comparativement aux modèles uniquement basés sur le signal (p. ex. modèle P.563) et aux modèles utilisant les indicateurs paramétriques (p. ex. modèle E). / With increasing development of new technologies (RTC, RNIS, GSM, VoIP), tele-communication services are becoming more and more diversified. To this end, telecommunication operators need to supervise in real-time the speech quality of the services they offer. Speech quality is usually evaluated from subjective experiments.. Nevertheless, such experiments are time consuming and do not allow any supervisory control. So, accurate objective models are useful to estimate the speech quality.This thesis proposes a non-intrusive model for diagnosing and evaluating speech quality using information available at the measurement point: the DESQHI model (Diagnostic and Evaluation of Speech Quality using Hybrid Indicators). It differs from existing models in terms in two main characteristics. The first one concerns the structure of the model. It is shown that speech quality can be represented as a multidimensional phenomenon incorporating three perceptual dimensions related to noisiness, speech codec and continuity. This multidimensional structure allows for a diagnostic of speech quality based on identifying the principal features affecting speech qual-ity. The second characteristic concerns the nature of indicators (signal-based and parametric) used to represent the three perceptual dimensions. Signal-based indicators use numeric information to represent the characteristics of the signal, for example, the loudness of the speech signal. Parametric indicators are obtained from the network statistics, for example, the percentage of packet loss, which gives information about the level of the discontinuity in the speech signal. This work proposes hybrid indicators (using both signal-based and parametric metrics). It is shown that they are better speech quality predictors than existing models, either parametric only (e.g. ITU-T Recommendation G.107, also known as the E-model) or signal-based only (e.g. ITU-T Recommendation P.563 model).

Identiferoai:union.ndltd.org:theses.fr/2011ISAL0053
Date07 June 2011
CreatorsLeman, Adrien
ContributorsLyon, INSA, Parizet, Etienne
Source SetsDépôt national des thèses électroniques françaises
LanguageFrench
Detected LanguageFrench
TypeElectronic Thesis or Dissertation, Text

Page generated in 0.0024 seconds