11 |
Amélioration de codecs audio standardisés avec maintien de l'interopérabilitéLapierre, Jimmy January 2016 (has links)
Résumé : L’audio numérique s’est déployé de façon phénoménale au cours des dernières décennies, notamment grâce à l’établissement de standards internationaux. En revanche, l’imposition de normes introduit forcément une certaine rigidité qui peut constituer un frein à l’amélioration des technologies déjà déployées et pousser vers une multiplication de nouveaux standards.
Cette thèse établit que les codecs existants peuvent être davantage valorisés en améliorant leur qualité ou leur débit, même à l’intérieur du cadre rigide posé par les standards établis. Trois volets sont étudiés, soit le rehaussement à l’encodeur, au décodeur et au niveau du train binaire. Dans tous les cas, la compatibilité est préservée avec les éléments existants. Ainsi, il est démontré que le signal audio peut être amélioré au décodeur sans transmettre de nouvelles informations, qu’un encodeur peut produire un signal amélioré sans ajout au décodeur et qu’un train binaire peut être mieux optimisé pour une nouvelle application.
En particulier, cette thèse démontre que même un standard déployé depuis plusieurs décennies comme le G.711 a le potentiel d’être significativement amélioré à postériori, servant même de cœur à un nouveau standard de codage par couches qui devait préserver cette compatibilité. Ensuite, les travaux menés mettent en lumière que la qualité subjective et même objective d’un décodeur AAC (Advanced Audio Coding) peut être améliorée sans l’ajout d’information supplémentaire de la part de l’encodeur. Ces résultats ouvrent la voie à davantage de recherches sur les traitements qui exploitent une connaissance des limites des modèles de codage employés. Enfin, cette thèse établit que le train binaire à débit fixe de l’AMR WB+ (Extended Adaptive Multi-Rate Wideband) peut être compressé davantage pour le cas des applications à débit variable. Cela démontre qu’il est profitable d’adapter un codec au contexte dans lequel il est employé. / Abstract : Digital audio applications have grown exponentially during the last decades, in good part
because of the establishment of international standards. However, imposing such norms
necessarily introduces hurdles that can impede the improvement of technologies that have
already been deployed, potentially leading to a proliferation of new standards.
This thesis shows that existent coders can be better exploited by improving their quality
or their bitrate, even within the rigid constraints posed by established standards. Three
aspects are studied, being the enhancement of the encoder, the decoder and the bit stream.
In every case, the compatibility with the other elements of the existent coder is maintained.
Thus, it is shown that the audio signal can be improved at the decoder without transmitting
new information, that an encoder can produce an improved signal without modifying its
decoder, and that a bit stream can be optimized for a new application.
In particular, this thesis shows that even a standard like G.711, which has been deployed
for decades, has the potential to be significantly improved after the fact. This contribution
has even served as the core for a new standard embedded coder that had to maintain that
compatibility. It is also shown that the subjective and objective audio quality of the AAC
(Advanced Audio Coding) decoder can be improved, without adding any extra information
from the encoder, by better exploiting the knowledge of the coder model’s limitations.
Finally, it is shown that the fixed rate bit stream of the AMR-WB+ (Extended Adaptive
Multi-Rate Wideband) can be compressed more efficiently when considering a variable bit
rate scenario, showing the need to adapt a coder to its use case.
|
12 |
Reverse audio engineering for active listening and other applications / Rétroingénierie du son pour l’écoute active et autres applicationsGorlow, Stasnislaw 16 December 2013 (has links)
Ce travail s’intéresse au problème de la rétroingénierie du son pour l’écoute active. Le format considéré correspond au CD audio. Le contenu musical est vu comme le résultat d’un enchaînement de la composition, l’enregistrement, le mixage et le mastering. L’inversion des deux dernières étapes constitue le fond du problème présent. Le signal audio est traité comme un mélange post-non-linéaire. Ainsi, le mélange est « décompressé » avant d'être « décomposé » en pistes audio. Le problème est abordé dans un contexte informé : l’inversion est accompagnée d'une information qui est spécifique à la production du contenu. De cette manière, la qualité de l’inversion est significativement améliorée. L’information est réduite de taille en se servant des méthodes de quantification, codage, et des faits sur la psychoacoustique. Les méthodes proposées s’appliquent en temps réel et montrent une complexité basse. Les résultats obtenus améliorent l’état de l’art et contribuent aux nouvelles connaissances. / This work deals with the problem of reverse audio engineering for active listening. The format under consideration corresponds to the audio CD. The musical content is viewed as the result of a concatenation of the composition, the recording, the mixing, and the mastering. The inversion of the two latter stages constitutes the core of the problem at hand. The audio signal is treated as a post-nonlinear mixture. Thus, the mixture is “decompressed” before being “decomposed” into audio tracks. The problem is tackled in an informed context: The inversion is accompanied by information which is specific to the content production. In this manner, the quality of the inversion is significantly improved. The information is reduced in size by the use of quantification and coding methods, and some facts on psychoacoustics. The proposed methods are applicable in real time and have a low complexity. The obtained results advance the state of the art and contribute new insights.
|
13 |
Approche informée pour l'analyse du son et de la musiqueFourer, Dominique 11 December 2013 (has links) (PDF)
En traitement du signal audio, l'analyse est une étape essentielle permettant de comprendre et d'interagir avec les signaux existants. En effet, la qualité des signaux obtenus par transformation ou par synthèse des paramètres estimés dépend de la précision des estimateurs utilisés. Cependant, des limitations théoriques existent et démontrent que la qualité maximale pouvant être atteinte avec une approche classique peut s'avérer insuffisante dans les applications les plus exigeantes (e.g. écoute active de la musique). Le travail présenté dans cette thèse revisite certains problèmes d'analyse usuels tels que l'analyse spectrale, la transcription automatique et la séparation de sources en utilisant une approche dite "informée". Cette nouvelle approche exploite la configuration des studios de musique actuels qui maîtrisent la chaîne de traitement avant l'étape de création du mélange. Dans les solutions proposées, de l'information complémentaire minimale calculée est transmise en même temps que le signal de mélange afin de permettre certaines transformations sur celui-ci tout en garantissant le niveau de qualité. Lorsqu'une compatibilité avec les formats audio existants est nécessaire, cette information est cachée à l'intérieur du mélange lui-même de manière inaudible grâce au tatouage audionumérique. Ce travail de thèse présente de nombreux aspects théoriques et pratiques dans lesquels nous montrons que la combinaison d'un estimateur avec de l'information complémentaire permet d'améliorer les performances des approches usuelles telles que l'estimation non informée ou le codage pur.
|
Page generated in 0.0488 seconds