Ψηφιακή επεξεργασία και αυτόματη κατηγοριοποίηση περιβαλλοντικών ήχωνΝταλαμπίρας, Σταύρος 20 September 2010 (has links)
Στο κεφάλαιο 1 παρουσιάζεται μία γενική επισκόπηση της αυτόματης αναγνώρισης
γενικευμένων ακουστικών γεγονότων. Επιπλέον συζητάμε τις εφαρμογές της τεχνολογίας αναγνώρισης ακουστικού σήματος και δίνουμε μία σύντομη περιγραφή του state of the art. Τέλος, αναφέρουμε τη συνεισφορά της διατριβής.
Στο κεφάλαιο 2 εισάγουμε τον αναγνώστη στο χώρο της επεξεργασίας ακουστικών
σημάτων που δε περιλαμβάνουν ομιλία. Παρουσιάζονται οι σύγχρονες προσεγγίσεις
όσον αφορά στις μεθοδολογίες εξαγωγής χαρακτηριστικών και αναγνώρισης προτύπων.
Στο κεφάλαιο 3 προτείνεται ένα καινοτόμο σύστημα αναγνώρισης ήχων ειδικά
σχεδιασμένο για το χώρο των ηχητικών γεγονότων αστικού περιβάλλοντος και αναλύεται
ο σχεδιασμός της αντίστοιχης βάσης δεδομένων. Δημιουργήθηκε μία ιεραρχική
πιθανοτική δομή μαζί με δύο ομάδες ακουστικών παραμέτρων που οδηγούν σε υψηλή
ακρίβεια αναγνώρισης.
Στο κεφάλαιο 4 ερευνάται η χρήση της τεχνικής πολλαπλών αναλύσεων όπως
εφαρμόζεται στο πρόβλημα της διάκρισης ομιλίας/μουσικής. Στη συνέχεια η τεχνική
αυτή χρησιμοποιήθηκε για τη δημιουργία ενός συστήματος το οποίο συνδυάζει
χαρακτηριστικά από διαφορετικά πεδία με στόχο την αποδοτική ανάλυση online
ραδιοφωνικών σημάτων.
Στο κεφάλαιο 5 προτείνεται ένα σύστημα το οποίο εντοπίζει μη-τυπικές καταστάσεις σε
περιβάλλον σταθμού μετρό με στόχο να βοηθήσει το εξουσιοδοτημένο προσωπικό στην
συνεχή επίβλεψη του χώρου.
Στο κεφάλαιο 6 προτείνεται ένα προσαρμοζόμενο σύστημα για ακουστική
παρακολούθηση εν δυνάμει καταστροφικών καταστάσεων ικανό να λειτουργεί κάτω
από διαφορετικά περιβάλλοντα. Δείχνουμε ότι το σύστημα επιτυγχάνει υψηλή απόδοση
και μπορεί να προσαρμόζεται αυτόνομα σε ετερογενείς ακουστικές συνθήκες.
Στο κεφάλαιο 7 ερευνάται η χρήση της μεθόδου ανίχνευσης καινοτομίας για ακουστική
επόπτευση κλειστών και ανοιχτών χώρων. Ηχογραφήθηκε μία βάση δεδομένων
πραγματικού κόσμου και προτείνονται τρεις πιθανοτικές τεχνικές.
Στο κεφάλαιο 8 παρουσιάζεται μία καινοτόμα μεθοδολογία για αναγνώριση
γενικευμένου ακουστικού σήματος που οδηγεί σε υψηλή ακρίβεια αναγνώρισης. Εκμεταλλευόμαστε τα πλεονεκτήματα της χρονικής συγχώνευσης χαρακτηριστικών σε
συνδυασμό με μία παραγωγική τεχνική κατηγοριοποίησης. / The dissertation is outlined as followed:
In chapter 1 we present a general overview of the task of automatic recognition of sound
events. Additionally we discuss the applications of the generalized audio signal
recognition technology and we give a brief description of the state of the art. Finally we mention the contribution of the thesis.
In chapter 2 we introduce the reader to the area of non speech audio processing. We
provide the current trend in the feature extraction methodologies as well as the pattern recognition techniques.
In chapter 3 we analyze a novel sound recognition system especially designed for
addressing the domain of urban environmental sound events. A hierarchical probabilistic
structure was constructed along with a combined set of sound parameters which lead to high accuracy.
chapter 4 is divided in the following two parts: a) we explore the usage of
multiresolution analysis as regards the speech/music discrimination problem and b) the previously acquired knowledge was used to build a system which combined features of
different domains towards efficient analysis of online radio signals.
In chapter 5 we exhaustively experiment on a new application of the sound recognition
technology, space monitoring based on the acoustic modality. We propose a system
which detects atypical situations under a metro station environment towards assisting the authorized personnel in the space monitoring task.
In chapter 6 we propose an adaptive framework for acoustic surveillance of potentially hazardous situations under environments of different acoustic properties. We show that the system achieves high performance and has the ability to adapt to heterogeneous environments in an unsupervised way.
In chapter 7 we investigate the usage of the novelty detection method to the task of
acoustic monitoring of indoor and outdoor spaces. A database with real-world data was
recorded and three probabilistic techniques are proposed.
In chapter 8 we present a novel methodology for generalized sound recognition that
leads to high recognition accuracy. The merits of temporal feature integration as well as multi domain descriptors are exploited in combination with a state of the art generative classification technique.
Μοντελοποίηση και επεξεργασία ηχητικών δεδομένων για αναπαραγωγή σε χώρους με αντήχηση / Modeling and processing audio signals for sound reproduction in reverberant roomsΖαρούχας, Θωμάς 27 December 2010 (has links)
H διδακτορική διατριβή μελετά ζητήματα που αφορούν την ενσωμάτωση υπολογιστικών μοντέλων ακοής για την μοντελοποίηση και επεξεργασία ηχητικών σηματών για την βέλτιστη αναπαραγωγή τους σε χώρους με αντήχηση καθώς και την κωδικοποίηση ηχητικών δεδομένων. Το κύριο μέρος της διατριβής επικεντρώθηκε στην μοντελοποίηση των αντιληπτικά σημαντικών αλλοιώσεων λόγω αντήχησης, με την βοήθεια κατάλληλα οριζόμενων μόνο-ωτικών και διαφορικών ενδο-καναλικών παραμέτρων και την απεικόνιση τους με τη βοήθεια χρονο-συχνοτικών 2Δ αναπαραστάσεων. Ο λεπτομερής εντοπισμός των αλλοιώσεων στα ηχητικά σήματα μέσω του προτεινόμενου Δείκτη Επικάλυψης λόγω Αντήχησης (ΔΕΑ) διαμόρφωσε κατάλληλη μεθοδολογία ανάλυσης-σύνθεσης, για την καταστολή της αντήχησης σε συγκεκριμένες χρονο-συχνοτικές περιοχές. Το κύριο πλεονέκτημα της προτεινόμενης, εξαρτώμενης του σήματος, μεθοδολογίας είναι ότι επιτυγχάνεται η καταστολή των, με σχετική καθυστέρηση, παραμορφώσεων λόγω αντήχησης σε μια μεγαλύτερη κλίμακα, δεδομένου ότι μόνο οι αντιληπτικά σημαντικές περιοχές του σήματος επηρεάζονται από την επεξεργασία. Επιπλέον, αναζητήθηκε η δυνατότητα ανάλυσης των ηχητικών δεδομένων με βάση τις εσωτερικές τους αναπαραστάσεις (όπως δηλαδή τις παρέχει το υπολογιστικό μοντέλο ακοής) με εφαρμογή στην περιοχή της κωδικοποίησης σημάτων. Ο προτεινόμενος μη-ομοιόμορφος κβαντιστής πραγματοποιεί τη διαδικασία της κβάντισης χρονο-συχνοτικά με κατάλληλη οδήγηση από το υπολογιστικό μοντέλο ακοής, εξασφαλίζοντας καλύτερη υποκειμενική ηχητική ποιότητα, σε σχέση με ένα ομοιόμορφο PCM κβαντιστή. Χρησιμοποιώντας τη βασική λειτουργία του μη-ομοιόμορφου κβαντιστή, υλοποιήθηκε ενά κριτήριο αξιολόγησης ηχητικών δεδομένων, όπου σε αντίθεση με καθιερώμενα κριτήρια (όπως το Noise to Mask Ration, NMR) επιτελεί τις λειτουργίες του στο πεδίο χρόνου-συχνότητας και παρέχει τη δυνατότητα εντοπισμού της υποκειμενικά σημαντικής παραμόρφωσης με βάση την χρονική εξέλιξη του σήματος. / The dissertation studies issues concerning the integration of computational auditory models for modeling and processing of audio signals for optimal reproduction in reverberant spaces as well as topics related to audio coding. Based on the theoretical framework analysis that was established, the necessity of a signal-dependent approach was underlined for modeling the perceptually-relevant effects of reverberation. The main part of the dissertation thesis was focused on describing the perceptually-relevant alterations due to reverberation, based on appropriate defined monaural and differential inter-channel parameters and also their representation with well-defined time-frequency 2D maps. The detailed localization of alterations due to reverberation in the acoustic signals via the proposed Reverberation Masking Index (RMI) introduced an analysis-synthesis methodology for the compensation of reverberation in perceptually-significant time-frequency regions incorporating also, well-established digital signal processing techniques. The main advantage of the proposed signal-dependent methodology is that the suppression of reverberant tails can be achieved on a larger scale under practical conditions, since only perceptually significant regions of the signal are affected after processing. Additionally, the proposed framework complements the more traditional system-dependent inverse filtering methods, enabling novel and efficient signal processing schemes to evolve for room dereverberation applications. The thesis examines also the feasibility of the acoustic signal analysis based on the internal representations provided by the computational auditory model, applicable in the area of audio coding. The proposed non-uniform quantizer operates in the time-frequency domain, where a novel quantization process is driven by the computational auditory model, thus enabling an overall better perceptual quality with respect to uniform PCM quantizer. Considering the fundamental operation of the novel non-uniform quantizer, a criterion for audio quality evaluation was proposed, where contrary to well-established criteria (i.e., Noise to Mask Ratio, NMR) its potential structure performs in the time-frequency domain and provides the detailed localization of perceptually-important distortions based on the input signal’s evolution.
Generalized Analytic Signal Construction and Modulation AnalysisVenkitaraman, Arun January 2013 (has links) (PDF)
This thesis deals with generalizations of the analytic signal (AS) construction proposed by Gabor. Functional extensions of the fractional Hilbert Transform (FrHT) are proposed using which families of analytic signals are obtained. The construction is further applied in the design of a secure communication scheme. A demodulation scheme is developed based on the generalized AS, motivated by perceptual experiments in binaural hearing. Demodulation is achieved using a signal and its arbitrary phase-shifted version which, in turn translated to demodulation using a pair of flat-top bandpass filters that form an FrHT parir.
A new family of wavelets based on the popular Gammatone auditory model is proposed and is shown to lead to a good characterization of singularities/transients in a signal. Allied problems of computing smooth amplitude, phase, and frequency modulations from the AS. Construction of FrHT pair of wavelets, and temporal envelope fit of transient audio signals are also addressed.
