H διδακτορική διατριβή μελετά ζητήματα που αφορούν την ενσωμάτωση υπολογιστικών μοντέλων ακοής για την μοντελοποίηση και επεξεργασία ηχητικών σηματών για την βέλτιστη αναπαραγωγή τους σε χώρους με αντήχηση καθώς και την κωδικοποίηση ηχητικών δεδομένων. Το κύριο μέρος της διατριβής επικεντρώθηκε στην μοντελοποίηση των αντιληπτικά σημαντικών αλλοιώσεων λόγω αντήχησης, με την βοήθεια κατάλληλα οριζόμενων μόνο-ωτικών και διαφορικών ενδο-καναλικών παραμέτρων και την απεικόνιση τους με τη βοήθεια χρονο-συχνοτικών 2Δ αναπαραστάσεων. Ο λεπτομερής εντοπισμός των αλλοιώσεων στα ηχητικά σήματα μέσω του προτεινόμενου Δείκτη Επικάλυψης λόγω Αντήχησης (ΔΕΑ) διαμόρφωσε κατάλληλη μεθοδολογία ανάλυσης-σύνθεσης, για την καταστολή της αντήχησης σε συγκεκριμένες χρονο-συχνοτικές περιοχές. Το κύριο πλεονέκτημα της προτεινόμενης, εξαρτώμενης του σήματος, μεθοδολογίας είναι ότι επιτυγχάνεται η καταστολή των, με σχετική καθυστέρηση, παραμορφώσεων λόγω αντήχησης σε μια μεγαλύτερη κλίμακα, δεδομένου ότι μόνο οι αντιληπτικά σημαντικές περιοχές του σήματος επηρεάζονται από την επεξεργασία. Επιπλέον, αναζητήθηκε η δυνατότητα ανάλυσης των ηχητικών δεδομένων με βάση τις εσωτερικές τους αναπαραστάσεις (όπως δηλαδή τις παρέχει το υπολογιστικό μοντέλο ακοής) με εφαρμογή στην περιοχή της κωδικοποίησης σημάτων. Ο προτεινόμενος μη-ομοιόμορφος κβαντιστής πραγματοποιεί τη διαδικασία της κβάντισης χρονο-συχνοτικά με κατάλληλη οδήγηση από το υπολογιστικό μοντέλο ακοής, εξασφαλίζοντας καλύτερη υποκειμενική ηχητική ποιότητα, σε σχέση με ένα ομοιόμορφο PCM κβαντιστή. Χρησιμοποιώντας τη βασική λειτουργία του μη-ομοιόμορφου κβαντιστή, υλοποιήθηκε ενά κριτήριο αξιολόγησης ηχητικών δεδομένων, όπου σε αντίθεση με καθιερώμενα κριτήρια (όπως το Noise to Mask Ration, NMR) επιτελεί τις λειτουργίες του στο πεδίο χρόνου-συχνότητας και παρέχει τη δυνατότητα εντοπισμού της υποκειμενικά σημαντικής παραμόρφωσης με βάση την χρονική εξέλιξη του σήματος. / The dissertation studies issues concerning the integration of computational auditory models for modeling and processing of audio signals for optimal reproduction in reverberant spaces as well as topics related to audio coding. Based on the theoretical framework analysis that was established, the necessity of a signal-dependent approach was underlined for modeling the perceptually-relevant effects of reverberation. The main part of the dissertation thesis was focused on describing the perceptually-relevant alterations due to reverberation, based on appropriate defined monaural and differential inter-channel parameters and also their representation with well-defined time-frequency 2D maps. The detailed localization of alterations due to reverberation in the acoustic signals via the proposed Reverberation Masking Index (RMI) introduced an analysis-synthesis methodology for the compensation of reverberation in perceptually-significant time-frequency regions incorporating also, well-established digital signal processing techniques. The main advantage of the proposed signal-dependent methodology is that the suppression of reverberant tails can be achieved on a larger scale under practical conditions, since only perceptually significant regions of the signal are affected after processing. Additionally, the proposed framework complements the more traditional system-dependent inverse filtering methods, enabling novel and efficient signal processing schemes to evolve for room dereverberation applications. The thesis examines also the feasibility of the acoustic signal analysis based on the internal representations provided by the computational auditory model, applicable in the area of audio coding. The proposed non-uniform quantizer operates in the time-frequency domain, where a novel quantization process is driven by the computational auditory model, thus enabling an overall better perceptual quality with respect to uniform PCM quantizer. Considering the fundamental operation of the novel non-uniform quantizer, a criterion for audio quality evaluation was proposed, where contrary to well-established criteria (i.e., Noise to Mask Ratio, NMR) its potential structure performs in the time-frequency domain and provides the detailed localization of perceptually-important distortions based on the input signal’s evolution.
Identifer | oai:union.ndltd.org:upatras.gr/oai:nemertes:10889/3968 |
Date | 27 December 2010 |
Creators | Ζαρούχας, Θωμάς |
Contributors | Μουρτζόπουλος, Ιωάννης, Zarouchas, Thomas, Μουρτζόπουλος, Ιωάννης, Φακωτάκης, Νικόλαος, Στουραΐτης, Αθανάσιος, Δερματάς, Ευάγγελος, Μπερμπερίδης, Κωνσταντίνος, Σκαρλάτος, Δημήτριος, Ψαράκης, Εμμανουήλ |
Source Sets | University of Patras |
Language | gr |
Detected Language | Greek |
Type | Thesis |
Rights | 0 |
Relation | Η ΒΚΠ διαθέτει αντίτυπο της διατριβής σε έντυπη μορφή στο βιβλιοστάσιο διδακτορικών διατριβών που βρίσκεται στο ισόγειο του κτιρίου της. |
Page generated in 0.0121 seconds