Global ETD Search

1	Αναγνώριση ομιλητή / Speaker recognition Ganchev, Todor 25 June 2007 (has links) Η παρούσα διατριβή πραγματεύεται την αναγνώριση ομιλητή σε πραγματικές συνθήκες. Τα κύρια σημεία της εργασίας είναι: (1) αξιολόγηση διαφόρων προσεγγίσεων εξαγωγής χαρακτηριστικών παραμέτρων ομιλίας, (2) μείωση της ισχύος της περιβαλλοντικής επίδρασης στην απόδοση της αναγνώρισης ομιλητή, και (3) μελέτη τεχνικών κατηγοριοποίησης, εναλλακτικών προς τις υπάρχουσες. Συγκεκριμένα, στο (1), προτείνεται μια νέα δομή εξαγωγής παραμέτρων ομιλίας βασισμένη σε πακέτα κυματομορφών, κατάλληλα σχεδιασμένη για αναγνώριση ομιλητή. Εξάγεται με ένα αντικειμενικό τρόπο σε σχέση με την απόδοση αναγνώρισης ομιλητή, σε αντίθεση με την MFCC προσέγγιση, που βασίζεται στην προσέγγιση της αντίληψης της ανθρώπινης ακοής. Έπειτα, στο (2), δίνεται μια δομή για την εξαγωγή παραμέτρων βασισμένη στα MFCC, ανεκτική στο θόρυβο, για την βελτίωση της απόδοσης της αναγνώρισης ομιλητή σε πραγματικό περιβάλλον. Συνοπτικά, μια τεχνική μείωσης του θορύβου βασισμένη σε μοντέλο προσαρμοσμένη στο πρόβλημα της επιβεβαίωσης ομιλητή ενσωματώνεται απευθείας στη δομή υπολογισμού των MFCC. Αυτή η προσέγγιση επέδειξε σημαντικό πλεονέκτημα σε πραγματικό και ταχέως μεταβαλλόμενο περιβάλλον. Τέλος, στο (3), εισάγονται δύο νέοι κατηγοριοποιητές που αναφέρονται ως Locally Recurrent Probabilistic Neural Network (LR PNN), και Generalized Locally Recurrent Probabilistic Neural Network (GLR PNN). Είναι υβρίδια μεταξύ των Recurrent Neural Network (RNN) και Probabilistic Neural Network (PNN) και συνδυάζουν τα πλεονεκτήματα των γεννετικών και διαφορικών προσσεγγίσεων κατηγοριοποίησης. Επιπλέον, τα νέα αυτά νευρωνικά δίκτυα είναι ευαίσθητα σε παροδικές και ειδικές συσχετίσεις μεταξύ διαδοχικών εισόδων, και έτσι, είναι κατάλληλα για να αξιοποιήσουν την συσχέτιση παραμέτρων ομιλίας μεταξύ πλαισίων ομιλίας. Κατά την εξαγωγή των πειραμάτων, διαφάνηκε ότι οι αρχιτεκτονικές LR PNN και GLR PNN παρέχουν καλύτερη απόδοση, σε σχέση με τα αυθεντικά PNN. / This dissertation dials with speaker recognition in real-world conditions. The main accent falls on: (1) evaluation of various speech feature extraction approaches, (2) reduction of the impact of environmental interferences on the speaker recognition performance, and (3) studying alternative to the present state-of-the-art classification techniques. Specifically, within (1), a novel wavelet packet-based speech features extraction scheme fine-tuned for speaker recognition is proposed. It is derived in an objective manner with respect to the speaker recognition performance, in contrast to the state-of-the-art MFCC scheme, which is based on approximation of human auditory perception. Next, within (2), an advanced noise-robust feature extraction scheme based on MFCC is offered for improving the speaker recognition performance in real-world environments. In brief, a model-based noise reduction technique adapted for the specifics of the speaker verification task is incorporated directly into the MFCC computation scheme. This approach demonstrated significant advantage in real-world fast-varying environments. Finally, within (3), two novel classifiers referred to as Locally Recurrent Probabilistic Neural Network (LR PNN), and Generalized Locally Recurrent Probabilistic Neural Network (GLR PNN) are introduced. They are hybrids between Recurrent Neural Network (RNN) and Probabilistic Neural Network (PNN) and combine the virtues of the generative and discriminative classification approaches. Moreover, these novel neural networks are sensitive to temporal and special correlations among consecutive inputs, and therefore, are capable to exploit the inter-frame correlations among speech features derived for successive speech frames. In the experimentations, it was demonstrated that the LR PNN and GLR PNN architectures provide benefit in terms of performance, when compared to the original PNN. Αναγνώριση ομιλητή Επιβεβαίωση ομιλητή Παράμετροι ομιλίας Πακέτα κυματομορφών Καταστολή θορύβου 006.454 Speaker recognition Speaker verification Hybrid classifiers Probabilistic neural networks Recurrent neural networks Speech features Wavelet packets Noise suppression
2	Μέθοδοι επεξεργασίας ηχητικών σημάτων για καταστολή παρεμβολών σε διατάξεις πολλαπλών μικροφώνων / Blind signal processing methods for microphone leakage suppression in multichannel audio applications Κοκκίνης, Ηλίας 01 October 2012 (has links) H παρούσα διατριβή εξετάζει το πρόβλημα της διαρροής μικροφώνου, δηλαδή την αλληλεπίδραση και παρεμβολή μεταξύ ταυτόχρονα ενεργών ηχητικών πηγών σε πολυκαναλικές ηχητικές διατάξεις. Παρ' όλο που είναι ένα πολύ συχνό φαινόμενο με το οποίο οι μηχανικοί ήχου έρχονται αντιμέτωποι καθημερινά, δεν έχουν προταθεί μέθοδοι επεξεργασίας σήματος για την επίλυση του προβλήματος. Εδώ, το πρόβλημα διατυπώνεται για πρώτη φορά στο πλαίσιο της επεξεργασίας σήματος. Αρχικά, διατυπώνεται στο πλαίσιο του τυφλού διαχωρισμού πηγών (blind source separation) και αναλύονται οι περιορισμοί αυτής της προσέγγισης. Στην συνέχεια, το πρόβλημα επαναδιατυπώνεται σαν πρόβλημα σήματος υπό θόρυβο στα πλαίσια της καταστολής θορύβου. Ένα πρωτότυπο γενικευμένο πλαίσιο καταστολής διαρροής μικροφώνου εξάγεται βασιζόμενο σε ένα φίλτρο Wiener με πολυκαναλικό όρο θορύβο, καθώς και την ευρέως χρησιμοποιούμενη τεχνική «κοντινού μικροφώνου». Το ακουστικό σύστημα που μοντελοποιεί την διαδικασία μίξης και αλληλεπίδρασης των πηγών αναλύεται και γίνεται διαχωρισμός των σχετικών κρουστικών αποκρίσεων χώρου (room impulse responses) σε απ' ευθείας ακουστικά μονοπάτια και ακουστικά μονοπάτια διαρροής. Οι ιδιότητες του απ' ευθείας ακουστικού μονο- πατιού, δηλαδή της απόκρισης «κοντινού μικροφώνου» αναλύονται για πρώτη φορά από την προσέγγιση της επεξεργασίας σήματος και της ακουστικής κλειστών χώρων για πρώτη φορά. Οι ιδιότητες του ακουστικού μονοπατιού διαρροής αναλύονται επίσης για πρώτη φορά με την χρήση ακουστικών παραμέτρων. Έχοντας καθορίσει τις βασικές ιδιότητες του ακουστικού συστήματος, μια μέθοδος για την καταστολή διαρροής μικροφώνου αναπτύσσεται για μια διάταξη δύο καναλιών, βασισμένη σε ένα φίλτρο Wiener και μια άμεση εκτίμηση των σχετικών πυκνοτήτων φασματικής ενέργεiας (power spectral density). Η απόδοση της μεθόδου για ηχογραφήσεις σε πραγματικούς χώρους είναι πολύ ικανοποιητική και με βάση αυτά τα αποτελέσματα, η μέθοδος επεκτείνεται για περισσότερες από δύο πηγές και μικρόφωνα σε αυθαίρετες διατάξεις. Η ολοκληρωμένη μέθοδος είναι τυφλή και αυτόματη, καθώς δεν απαιτεί την επέμβαση του χρήση. Δεν κάνει χρήση πρότερης γνώσης ούτε απαιτεί εκπαίδευση και είναι υπολογιστικά απλή. Προτείνεται επίσης μια πρωτότυπη μέθοδος ανίχνευσης χρονικών διαστημάτων όπου μόνο μια πηγή είναι ενεργή (χρονικά διαστήματα «σόλο»), η οποία επιτρέπει την εκτίμηση συντελεστών στάθμισης οι οποίοι αντιστοιχούν στην σχετική μείωση της ηχητικής στάθμης που υφίσταται κάθε ηχητική πηγή καθώς το σήμα διαδίδεται προς τα μικρόφωνα. Αυτή η μέθοδος σε συνδυασμό με μια νεά, πρωτότυπη τεχνική εκτίμησης των πυκνοτήτων φασματικής ενέργεαις, η οποία βασίζεται στην αναγνώριση των κυρίαρχων διακριτών συχνοτήτων, επιτρέπει την εκτίμηση όλων των σχετικών ποσοτήτων σε μια πολυκαναλική ηχητική διάταξη. Από αυτές υπολογίζεται ένα πολυκαναλικό φίλτρο Wiener για κάθε σήμα μικροφώνου, το οποίο δίνει την εκτίμηση του αντίστοιχου σήματος πηγής. / This thesis examines the problem of microphone leakage, that is the interference between simultaneously active sound sources in multichannel audio applications. Despite being a common problem with which sound engineers are confronted every day, almost no signal processing methods have been proposed to address this issue. In this work, the problem is formulated for the first time in a signal processing framework. First, it formulated inside the blind source separation (BSS) context and the limitations of related methods are analysed and reported. Since, BSS methods seem to be inappropriate for this specific problem, it is reformulated as a signal in noise problem inside the well-known noise suppression framework. Based on the widely adopted close-microphone technique a novel, generalized framework for leakage suppression is derived based on a multichannel Wiener filter. The acoustic system that models the mixing process is analysed and the related room impulse responses are discerned in direct and leakage acoustic paths. The properties of the direct acoustic path, that is the close-microphone response are investigated for the first time, from a signal processing point of view as well as a room acoustics perspective. The properties of the leakage acoustic path are also analysed for the first time using room acoustic parameters. After key properties of the acoustic paths have been identified, a method for the suppression of microphone leakage in a two channel audio setup is developed based on aWiener filter and a crude approximation of the related power spectral densities (PSDs). The performance of this method for actual recordings in real reverberant environments is more than adequate and based on these results, the method is extended for more than two sources and microphones in arbitrary arrangements. The complete method is blind and automatic, since it does not require any user input. It does not assume any prior knowledge or require training and is computationally efficient. A novel solo detection method has been developed that allows the estimation of weighting coefficients that correspond to the relative attenuation experienced by sound sources as they travel to each microphone. Combined with a new and advanced PSD estimation method based on the identification of dominant frequency bins, the related PSDs in a multichannel audio application can be identified. From these an appropriate multichannel Wiener filter for each microphone signal can be calculated, which will provide the estimated source signal at its output. Διαρροή μικροφώνου Καταστολή θορύβου Ανίχνευση σόλο 621.382 24 Microphone leakage Noise suppression Close-microphone technique Early reflection density Solo detection Power spectral density estimation

Search results

Αναγνώριση ομιλητή / Speaker recognition

Μέθοδοι επεξεργασίας ηχητικών σημάτων για καταστολή παρεμβολών σε διατάξεις πολλαπλών μικροφώνων / Blind signal processing methods for microphone leakage suppression in multichannel audio applications