Spelling suggestions: "subject:"audio coding"" "subject:"audio boding""
31 |
Reverse audio engineering for active listening and other applications / Rétroingénierie du son pour l’écoute active et autres applicationsGorlow, Stasnislaw 16 December 2013 (has links)
Ce travail s’intéresse au problème de la rétroingénierie du son pour l’écoute active. Le format considéré correspond au CD audio. Le contenu musical est vu comme le résultat d’un enchaînement de la composition, l’enregistrement, le mixage et le mastering. L’inversion des deux dernières étapes constitue le fond du problème présent. Le signal audio est traité comme un mélange post-non-linéaire. Ainsi, le mélange est « décompressé » avant d'être « décomposé » en pistes audio. Le problème est abordé dans un contexte informé : l’inversion est accompagnée d'une information qui est spécifique à la production du contenu. De cette manière, la qualité de l’inversion est significativement améliorée. L’information est réduite de taille en se servant des méthodes de quantification, codage, et des faits sur la psychoacoustique. Les méthodes proposées s’appliquent en temps réel et montrent une complexité basse. Les résultats obtenus améliorent l’état de l’art et contribuent aux nouvelles connaissances. / This work deals with the problem of reverse audio engineering for active listening. The format under consideration corresponds to the audio CD. The musical content is viewed as the result of a concatenation of the composition, the recording, the mixing, and the mastering. The inversion of the two latter stages constitutes the core of the problem at hand. The audio signal is treated as a post-nonlinear mixture. Thus, the mixture is “decompressed” before being “decomposed” into audio tracks. The problem is tackled in an informed context: The inversion is accompanied by information which is specific to the content production. In this manner, the quality of the inversion is significantly improved. The information is reduced in size by the use of quantification and coding methods, and some facts on psychoacoustics. The proposed methods are applicable in real time and have a low complexity. The obtained results advance the state of the art and contribute new insights.
|
32 |
Μοντελοποίηση και επεξεργασία ηχητικών δεδομένων για αναπαραγωγή σε χώρους με αντήχηση / Modeling and processing audio signals for sound reproduction in reverberant roomsΖαρούχας, Θωμάς 27 December 2010 (has links)
H διδακτορική διατριβή μελετά ζητήματα που αφορούν την ενσωμάτωση υπολογιστικών μοντέλων ακοής για την μοντελοποίηση και επεξεργασία ηχητικών σηματών για την βέλτιστη αναπαραγωγή τους σε χώρους με αντήχηση καθώς και την κωδικοποίηση ηχητικών δεδομένων. Το κύριο μέρος της διατριβής επικεντρώθηκε στην μοντελοποίηση των αντιληπτικά σημαντικών αλλοιώσεων λόγω αντήχησης, με την βοήθεια κατάλληλα οριζόμενων μόνο-ωτικών και διαφορικών ενδο-καναλικών παραμέτρων και την απεικόνιση τους με τη βοήθεια χρονο-συχνοτικών 2Δ αναπαραστάσεων. Ο λεπτομερής εντοπισμός των αλλοιώσεων στα ηχητικά σήματα μέσω του προτεινόμενου Δείκτη Επικάλυψης λόγω Αντήχησης (ΔΕΑ) διαμόρφωσε κατάλληλη μεθοδολογία ανάλυσης-σύνθεσης, για την καταστολή της αντήχησης σε συγκεκριμένες χρονο-συχνοτικές περιοχές. Το κύριο πλεονέκτημα της προτεινόμενης, εξαρτώμενης του σήματος, μεθοδολογίας είναι ότι επιτυγχάνεται η καταστολή των, με σχετική καθυστέρηση, παραμορφώσεων λόγω αντήχησης σε μια μεγαλύτερη κλίμακα, δεδομένου ότι μόνο οι αντιληπτικά σημαντικές περιοχές του σήματος επηρεάζονται από την επεξεργασία. Επιπλέον, αναζητήθηκε η δυνατότητα ανάλυσης των ηχητικών δεδομένων με βάση τις εσωτερικές τους αναπαραστάσεις (όπως δηλαδή τις παρέχει το υπολογιστικό μοντέλο ακοής) με εφαρμογή στην περιοχή της κωδικοποίησης σημάτων. Ο προτεινόμενος μη-ομοιόμορφος κβαντιστής πραγματοποιεί τη διαδικασία της κβάντισης χρονο-συχνοτικά με κατάλληλη οδήγηση από το υπολογιστικό μοντέλο ακοής, εξασφαλίζοντας καλύτερη υποκειμενική ηχητική ποιότητα, σε σχέση με ένα ομοιόμορφο PCM κβαντιστή. Χρησιμοποιώντας τη βασική λειτουργία του μη-ομοιόμορφου κβαντιστή, υλοποιήθηκε ενά κριτήριο αξιολόγησης ηχητικών δεδομένων, όπου σε αντίθεση με καθιερώμενα κριτήρια (όπως το Noise to Mask Ration, NMR) επιτελεί τις λειτουργίες του στο πεδίο χρόνου-συχνότητας και παρέχει τη δυνατότητα εντοπισμού της υποκειμενικά σημαντικής παραμόρφωσης με βάση την χρονική εξέλιξη του σήματος. / The dissertation studies issues concerning the integration of computational auditory models for modeling and processing of audio signals for optimal reproduction in reverberant spaces as well as topics related to audio coding. Based on the theoretical framework analysis that was established, the necessity of a signal-dependent approach was underlined for modeling the perceptually-relevant effects of reverberation. The main part of the dissertation thesis was focused on describing the perceptually-relevant alterations due to reverberation, based on appropriate defined monaural and differential inter-channel parameters and also their representation with well-defined time-frequency 2D maps. The detailed localization of alterations due to reverberation in the acoustic signals via the proposed Reverberation Masking Index (RMI) introduced an analysis-synthesis methodology for the compensation of reverberation in perceptually-significant time-frequency regions incorporating also, well-established digital signal processing techniques. The main advantage of the proposed signal-dependent methodology is that the suppression of reverberant tails can be achieved on a larger scale under practical conditions, since only perceptually significant regions of the signal are affected after processing. Additionally, the proposed framework complements the more traditional system-dependent inverse filtering methods, enabling novel and efficient signal processing schemes to evolve for room dereverberation applications. The thesis examines also the feasibility of the acoustic signal analysis based on the internal representations provided by the computational auditory model, applicable in the area of audio coding. The proposed non-uniform quantizer operates in the time-frequency domain, where a novel quantization process is driven by the computational auditory model, thus enabling an overall better perceptual quality with respect to uniform PCM quantizer. Considering the fundamental operation of the novel non-uniform quantizer, a criterion for audio quality evaluation was proposed, where contrary to well-established criteria (i.e., Noise to Mask Ratio, NMR) its potential structure performs in the time-frequency domain and provides the detailed localization of perceptually-important distortions based on the input signal’s evolution.
|
Page generated in 0.0409 seconds