La compression de tous les types de signaux audio (parole et audio) constitue un vaste domaine de recherche, car il tente de répondre à de nombreuses et différentes demandes provenant de l’industrie. Actuellement, l’industrie de la téléphonie mobile possède de nombreuses requêtes au niveau de la compression de signaux audio à faible débit (sous les 32 kbit/s). Dans cette plage de débit, deux modèles sont nécessaires pour compresser tous les types de signaux audio : les codecs temporels s’utilisent pour la compression des signaux de parole et les codecs fréquentiels (par transformée) plus généraux s’utilisent pour la compression des signaux audio tels que la musique. Les téléphones intelligents et les tablettes numériques représentent des exemples d’appareils qui doivent intégrer deux codecs différents. Idéalement, ces appareils devraient intégrer un codec unique qui compresse tous les types de signaux audio.
Cependant, l’unique moyen actuel d’obtenir un «codec universel» consiste en un «codec hybride universel». Les codecs hybrides universels intègrent au moins deux modèles de codage et un classificateur, qui sélectionne le modèle à exécuter selon le signal à traiter. Ces codecs ne représentent donc pas véritablement des codecs unifiés. De plus, avec l’utilisation d’un classificateur, les codecs hybrides introduisent également la possibilité d’erreurs de classification durant l’analyse. Ces codecs hybrides ont également tendance à être plus complexes puisqu’ils doivent gérer les différents modèles de codage. Après plus de trente ans de recherche, il existe toujours une distinction entre les approches utilisées pour la compression des signaux de parole et celles utilisées pour les signaux audio. Les codecs temporels se basent sur un modèle de production de la parole tandis que les codecs fréquentiels utilisent un modèle de perception auditive pour les signaux audio. Cette thèse propose des contributions dans l’élaboration d’un modèle de codage audio universel et véritablement unifié. Ces contributions se présentent dans cette thèse par un modèle d’analyse-synthèse de type harmonique-plus-bruit pour les signaux de parole qui fonctionne entièrement dans le domaine fréquentiel. Cette thèse démontre qu’il est possible d’obtenir un signal de parole de qualité perceptuelle transparente sans nécessairement suivre l’évolution de la forme d’onde du signal original. De plus, cette thèse propose également une version quantifiée du modèle d’analyse-synthèse et démontre qu’il est possible d’obtenir un signal de synthèse de bonne qualité pour des débits autour de 24 kbit/s et de 30 kbit/s. Lors des tests subjectifs MOS, le modèle se situe dans la même catégorie de qualité que la norme G.722.2 (AMR-WB) de l’institut UIT pour un débit autour de 24 kbit/s. Le modèle possède l’avantage de fonctionner entièrement dans le domaine fréquentiel et démontre ainsi les possibilités d’un codec réellement universel puisque traditionnellement le domaine des fréquences était réservé aux signaux audio autres que les signaux de parole.
Identifer | oai:union.ndltd.org:usherbrooke.ca/oai:savoirs.usherbrooke.ca:11143/8148 |
Date | January 2015 |
Creators | Vilaysouk, Vilayphone |
Contributors | Lefebvre, Roch |
Publisher | Université de Sherbrooke |
Source Sets | Université de Sherbrooke |
Language | French |
Detected Language | French |
Type | Thèse |
Rights | © Vilayphone Vilaysouk, Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.5 Canada, http://creativecommons.org/licenses/by-nc-nd/2.5/ca/ |
Page generated in 0.0015 seconds