The main focus of this thesis is to analyse signals (signal-dependent analysis) and room responses (system-dependent analysis) from a statistical point of view, attempt to determine the underlying statistical relationships between the reverberant signals and the room responses and propose relevant statistical models. Based on such a statistical framework, this thesis aims to propose novel methodologies for the extraction of room acoustical information and parameters from reverberant signals. Schroeder's theory is experimentally evaluated for various Room Transfer Functions (RTFs) measured in many source/receiver positions in various enclosures and several related aspects are discussed. Using a statistical approach, the effects of reverberant energy on the histograms and statistical measures are discussed and models describing the relationship of statistical measures between the reverberant signal and the RTFs are extracted. Then, the statistical properties of Binaural Room Transfer Functions (BRTFs) and binaural cues are examined. The well-known property of the spectral standard deviation of the magnitude of RTFs, that is its convergence to 5.6 dB for diffuse fields, is examined for the case of BRTFs, using a similar approach and a generic model for the relationship of the spectral standard deviation of RTFs and BRTFs.
This thesis is also concerned with the distance estimation problem from a perceptual and computational point of view. Two novel methods for the estimation of the source/receiver distance using speech signals are proposed. The first method is able to detect the distance between the speaker and the microphone in a room environment using single-channel signals. The distance-dependent variation of several temporal and spectral statistical features of single-channel signals is studied and a novel sound source distance detector, based on these features is developed. The second method estimates distance from binaural speech signals (two-channel signals). This method does not require a priori knowledge of the room impulse response, the reverberation time or any other acoustical parameter and relies on a set of novel features extracted from the reverberant binaural signals. For this method, a novel distance estimation feature is introduced exploiting the standard deviation of the difference of the magnitude spectra of the left and right binaural signals (termed here as Binaural Spectral Magnitude Difference Standard Deviation (BSMD STD)). Moreover, an extended and novel set of additional features based on the statistical properties of binaural cues (ILDs, ITDs, ICs) is extracted from an auditory front-end which models the peripheral processing of the human auditory system. Both methods rely on novel distance-dependent features, related to statistical parameters of speech signals.
Finally, a novel method for the estimation of the direct-to-reverberant-ratio (DRR) from dual-channel microphone recordings without having knowledge of the source signal is presented. / Η παρούσα διατριβή ασχολείται με τη μελέτη και ανάλυση των στατιστικών χαρακτηριστικών ηχητικών σημάτων και των ακουστικών αποκρίσεων χώρου, έχοντας ως πρωταρχικό σκοπό να προτείνει σχέσεις που περιγράφουν τη συσχέτιση των στατιστικών χαρακτηριστικών των σημάτων με αντήχηση με τις ακουστικές αποκρίσεις χώρων. Βάσει ενός τέτοιου θεωρητικού πλαισίου, η διατριβή αυτή αποσκοπεί στο να προτείνει νέες μεθοδολογίες για την εξαγωγή πληροφορίας που σχετίζεται με τα ακουστικά χαρακτηριστικά των χώρων, κάνοντας χρήση ηχογραφημένων ηχητικών σημάτων (π.χ. σήματα ομιλίας) στους εκάστοτε κλειστούς χώρους. Το θεωρητικό υπόβαθρο αυτής της διατριβής βασίζεται σε υπάρχοντα θεωρητικά μοντέλα για το ηχητικό πεδίο μέσα σε ένα κλειστό χώρο, όπως, για παράδειγμα, το στατιστικό μοντέλο του Schroeder. Το μοντέλο του Schroeder επιβεβαιώνεται πειραματικά για ακουστικές αποκρίσεις που έχουν μετρηθεί σε διάφορες θέσεις, μέσα σε κλειστούς χώρους, οι οποίοι διαφέρουν στα ακουστικά χαρακτηριστικά τους. Βάσει στατιστικής ανάλυσης, εξάγονται στατιστικά μοντέλα, τα οποία περιγράφουν την επίδραση της αντήχησης στα ηχητικά σήματα, όταν αυτά αναπαραχθούν μέσα σε ένα κλειστό χώρο. Στη συνέχεια, λαμβάνοντας υπόψη αντιληπτικά μοντέλα ακοής, τα οποία προϋποθέτουν την ύπαρξη δυο ηχητικών σημάτων (δυο αυτιά, αμφιωτική ακοή) σε αυτή τη διατριβή, μελετώνται κάποιες παράμετροι οι οποίες εξάγονται από αμφιωτικές ακουστικές αποκρίσεις χώρου. Η ιδιότητα της φασματικής τυπικής απόκλισης συναρτήσεων μεταφοράς χώρων να συγκλίνει στην τιμή των 5.6~dB για διάχυτα ηχητικά πεδία, επεκτείνεται στην περίπτωση των αμφιωτικών αποκρίσεων χώρου και προτείνεται ένα γενικευμένο μοντέλο που συσχετίζει τη φασματική τυπική απόκλιση μονοφωνικών και αμφιωτικών συναρτήσεων μεταφοράς χώρου.
Η διατριβή αυτή, επίσης, ασχολείται με το πρόβλημα της εκτίμησης της απόστασης μεταξύ πηγής και δέκτη. Προτείνονται δυο νέες μέθοδοι για την εκτίμηση της απόστασης μεταξύ πηγής και δέκτη, κάνοντας χρήση ηχητικών σημάτων ομιλίας. Η προτεινόμενη μέθοδος βασίζεται σε μια σειρά από στατιστικές παραμέτρους των οποίων οι τιμές μεταβάλλονται είτε στο πεδίο του χρόνου είτε στο πεδίο της συχνότητας. Η δεύτερη προτεινόμενη μέθοδος αφορά, επίσης, στην εκτίμηση της απόστασης πηγής/δέκτη, αλλά από αμφιωτικά σήματα. Η μέθοδος αυτή δεν προαπαιτεί γνώση της ακουστικής απόκρισης του χώρου, του χρόνου αντήχησης ή άλλης ακουστικής παραμέτρου και βασίζεται σε μια σειρά από νέες παραμέτρους, οι οποίες μπορούν να υπολογισθούν από τα αμφιωτικά σήματα με αντήχηση. Οι παράμετροι συνδυάζονται με δυο διαφορετικές τεχνικές αναγνώρισης προτύπων των οποίων τα μειονεκτήματα και πλεονεκτήματα συζητώνται. Στα πλαίσια αυτής της μεθόδου, προτείνεται μια νέα παράμετρος, η οποία βασίζεται στη διαφορά της φασματικής τυπικής απόκλισης του αριστερού και του δεξιού αμφιωτικού ηχητικού σήματος, η οποία αποδεικνύεται ότι σχετίζεται με τα στατιστικά της αντίστοιχης μονοφωνικής ακουστικής απόκρισης. Τέλος, προτείνεται μια σειρά από παραμέτρους οι οποίες βασίζονται στα στατιστικά χαρακτηριστικά αμφιωτικών παραμέτρων και σχετίζονται με το αντιληπτικό μοντέλο της ανθρώπινης ακοής.
Τέλος, προτείνεται μια νέα μέθοδος για την εκτίμηση της στάθμης λόγου κατευθείαν προς ανακλώμενου ήχου από στερεοφωνικά σήματα.
Identifer | oai:union.ndltd.org:upatras.gr/oai:nemertes:10889/7516 |
Date | 16 May 2014 |
Creators | Γεωργαντή, Ελευθερία |
Contributors | Moυρτζόπουλος, Ιωάννης, Georganti, Eleftheria, Δερματάς, Ευάγγελος, Φακωτάκης, Νικόλαος, Μπερμπερίδης, Κωνσταντίνος, Σκαρλάτος, Δημήτριος, Μουστάκας, Κωνσταντίνος, Ψαράκης, Εμμανουήλ |
Source Sets | University of Patras |
Language | English |
Detected Language | Greek |
Type | Thesis |
Rights | 0 |
Relation | Η ΒΚΠ διαθέτει αντίτυπο της διατριβής σε έντυπη μορφή στο βιβλιοστάσιο διδακτορικών διατριβών που βρίσκεται στο ισόγειο του κτιρίου της. |
Page generated in 0.0031 seconds