Return to search

Codage audio stéréo avancé / Advanced stereo audio coding

Depuis une dizaine d’années, des techniques de codage joint, exploitant les relations et les redondances entre canaux audios, ont été développées afin de réduire davantage la quantité d’information nécessaire à la représentation des signaux multicanaux. Dans cette thèse, nous étudions plus particulièrement le codage des signaux audio stéréo en l’absence d’informations à priori sur la nature des sources en présences, leur nombre et la manière dont elles sont spatialisées. Cette situation correspond à l’immense majorité des enregistrements commerciaux dans l’industrie de la musique et du multimédia de manière générale. Nous étudions des approches paramétrique et signal de la problématique de codage de ces sources, où les deux sont souvent mêlées. Dans ce contexte, trois types d’approches sont utilisés. L’approche paramétrique spatiale consiste à réduire le nombre de canaux audio de la source à coder et à recréer le nombre de canaux d’origine à partir des canaux réduits et de paramètres spatiaux, extraits des canaux d’origine. L’approche signal conserve le nombre de canaux d’origine, mais encode des canaux construits à partir de ces derniers et présentant moins de redondances. Enfin, l’approche mixte introduite dans MPEG USAC utilise un signal audio et un signal résiduel, issu d’une prédiction, et dont les paramètres sont codés conjointement. Dans cette thèse, nous analysons tout d’abord les caractéristiques d’un signal stéréo issu d’un enregistrement commercial et les techniques de production associées. Cette étude nous mène à une réflexion sur les rapports entre les modèles paramétriques d’émetteur, obtenus en analysant les techniques de production des enregistrements commerciaux, et les modèles de récepteur qui sont au coeur du codage spatial paramétrique. A partir de cette mise en perspective nous présentons et étudions les trois approches évoquées plus haut. Pour l’approche purement paramétrique, nous montrons l’impossibilité d’arriver à la transparence pour la majorité des sources audios, nous menons une réflexion sur les représentations paramétriques et proposons des techniques afin de réduire le débit de leurs paramètres et d’améliorer la qualité audio. Ces améliorations passent par une meilleur segmentation du signal audio, basée sur les transitoires, sur des caractéristiques perceptives de certains indices spatiaux et sur une meilleur estimation des indices spatiaux. L’approche mixte étant récemment standardisée dans MPEG USAC, nous l’étudions en détail, puis nous proposons une nouvelle technique de codage qui exploite au mieux l’allocation du résidu aux bandes fréquentielles, lorsque celui-ci n’est pas utilisé sur l’ensemble de la bande passante du signal. Enfin, nous concluons en évoquant l’avenir du codage audio spatial généraliste et mettons l’accent sur l’importance de développer des techniques de classification et de segmentation audio pour optimiser le rapport qualité/débit. / During the last ten years, technics for joint coding exploiting relations and redundancies between channels have been developped in order to further reduce the amount of information needed to represent multichannel audio signals.In this document, we focus on the coding of stereo audio signals where prior informations on the nature of sources in presence, their number or the manner they are spatialized is unknown. Such signals are actually the most representative in commercial records of music industry and in multimedia entertainment in general. To address the coding problematic of these signals, we study parametric and signal approaches, where both of them are often mixed.In this context, three types of approaches are used. The spatial parametric approach reduce the number of audio channels of the signal to encode and recreate the original number of channels from reduced channels and spatial parameters extracted from original channels. The signal approach keep the original number of channels, but encode mono signals, built from the combination of the original ones and containing less redundancies. Finally, the hybrid approach introduced in the MPEG USAC standard keep the two channels of a stereo signal, but one is a mono downmix and the other is a residual signal, resulting from a prediction on the downmix, where prediction parameters are encoded as side information.In this document, we first analyse the characteristics of a stereo audio signal coming from a commercial recording and the associated production techniques. This study lead us to consider the relations between the emitter parametric models, elaborated from our analysis of commercial recording production techniques, and the receiver models which are the basis of spatial parametric coding. In the light of these considerations, we present and study the three approaches mentioned earlier. For the parametric approach, we show that transparency cannot be achieved for most of the stereo audio signals, we have a reflection on parametric representations and we propose techniques to improve the audio quality and further reduce the bitrate of their parameters. These improvements are obtained by applying a better segmentation on the signal, based on the significant transient, by exploiting perceptive characteristics of some spatial cues and by adapting the estimation of spatial cues. As the hybrid approach has been recently standardized in MPEG USAC, we propose a full review of it, then we develop a new coding technique to optimize the allocation of the residual bands when the residual is not used on the whole bandwidth of the signal to encode. In the conclusion, we discuss about the future of the general spatial audio coding and we show the importance of developping new technics of segmentation and classification for audio signals to further adapt the coding to the content of the signal.

Identiferoai:union.ndltd.org:theses.fr/2015PA066712
Date03 June 2015
CreatorsCapobianco, Julien
ContributorsParis 6, Daudet, Laurent, Philippe, Pierrick
Source SetsDépôt national des thèses électroniques françaises
LanguageFrench
Detected LanguageFrench
TypeElectronic Thesis or Dissertation, Text

Page generated in 0.0024 seconds