Spelling suggestions: "subject:"wavelet packets"" "subject:"wavelet jackets""
1 |
Estudio de Técnicas de Selección de Bancos de Filtros Inducidos por Wavelet Packets para Extracción de Características en Reconocimiento de VozPavez Carvelli, Eduardo Hernán January 2011 (has links)
En procesamiento de señales y reconocimiento de voz, uno de los principales tópicos es la extracción de características. Dada una señal digitalizada esta se transforma a una más compacta de acuerdo a algún criterio dependiente del problema. Por ejemplo, la voz es extremadamente redundante, y contiene información de múltiples fuentes como identidad del locutor, estado emocional y secuencia fonética. En reconocimiento de voz, se desea extraer características que preserven la discriminabilidad entre unidades acústicas pero tengan menor dimensión que la señal original.
En esta memoria se estudiarán metodologías de extracción de características para reconocimiento de voz utilizando criterios de discriminabilidad entre unidades fonéticas. Como punto de partida se considerará la técnica de extracción de características MFCC utilizada en los reconocedores estándar y con ellas se entrenará un reconocedor con el software HTK para la base de datos TIMIT.
Los MFCC se implementan con bancos de filtros; usando esa motivación y aprovechando la gran colección de formas de representar señales que permite la transformada Wavelet Packet (WP), se propuso un método de selección de bancos de filtros WP considerando discriminación entre unidades acústicas. La memoria se centrará en aplicar esta metodología y las soluciones que esta entrega para proponer una alternativa a los MFCCs. La forma de evaluar los rendimientos de los distintos métodos será mediante el porcentaje de reconocimiento fonético en un subconjunto de test de TIMIT.
La parte teórica del trabajo consiste en estudiar propiedades y formas de aplicar los WP, y como se construyen los sistemas de reconocimiento fonético. En la práctica, en implementar la transformada WP y los WPCC en C++, implementar reconocedores fonéticos en el software HTK, y unir todos estos bloques usando el lenguaje PERL, para correr experimentos en distintos escenarios.
El aporte de este trabajo son las características Wavelet Packet Cepstral Coefficients (WPCC), se estipulan criterios concretos de diseño para los bancos de filtros WP, con el objetivo de obtener la mayor información para discriminar fonemas. Los WP obtenidos tienen alta selectividad en frecuencia y una estructura que privilegia la resolución en bajas frecuencias principalmente el rango [200Hz-1000Hz] del espectro acústico.
|
2 |
Design and Analysis of Multicarrier Multicode Wavelet Packets Based CDMA Communication Systems with Multiuser DetectionAkho-Zahieh, Maryam Mahmoud 05 October 2006 (has links)
No description available.
|
3 |
Applications of Multiwavelets to Image CompressionMartin, Michael B. 16 November 1999 (has links)
Methods for digital image compression have been the subject of much study over the past decade. Advances in wavelet transforms and quantization methods have produced algorithms capable of surpassing the existing image compression standards like the Joint Photographic Experts Group (JPEG) algorithm. For best performance in image compression, wavelet transforms require filters that combine a number of desirable properties, such as orthogonality and symmetry.
However, the design possibilities for wavelets are limited because they cannot simultaneously possess all of these desirable properties. The relatively new field of multiwavelets shows promise in removing some of the limitations of wavelets. Multiwavelets offer more design options and hence can combine all desirable transform features. The few previously published results of multiwavelet-based image compression have mostly fallen short of the performance enjoyed by the current wavelet algorithms.
This thesis presents new multiwavelet transform methods and measurements that verify the potential benefits of multiwavelets. Using a zerotree quantization scheme modified to better match the unique decomposition properties of multiwavelets, it is shown that the latest multiwavelet filters can give performance equal to, or in many cases superior to, the current wavelet filters. The performance of multiwavelet packets is also explored for the first time and is shown to be competitive to that of wavelet packets in some cases. The wavelet and multiwavelet filter banks are tested on a much wider range of images than in the usual literature, providing a better analysis of the benefits and drawbacks of each.
NOTE: (03/2007) An updated copy of this ETD was added after there were patron reports of problems with the file. / Master of Science
|
4 |
Speech Encryption Using Wavelet PacketsBopardikar, Ajit S 02 1900 (has links)
The aim of speech scrambling algorithms is to transform clear speech into an unintelligible signal so that it is difficult to decrypt it in the absence of the key.
Most of the existing speech scrambling algorithms tend to retain considerable residual intelligibility in the scrambled speech and are easy to break. Typically, a speech scrambling algorithm involves permutation of speech segments in time, frequency or time-frequency domain or permutation of transform coefficients of each speech block. The time-frequency algorithms have given very low residual intelligibility and have attracted much attention.
We first study the uniform filter bank based time-frequency scrambling algorithm with respect to the block length and number of channels. We use objective distance measures to estimate the departure of the scrambled speech from the clear speech. Simulations indicate that the distance measures increase as we increase the block length and the number of channels. This algorithm derives its security only from the time-frequency segment permutation and it has been estimated that the effective number of permutations which give a low residual intelligibility is much less than the total number of possible permutations.
In order to increase the effective number of permutations, we propose a time-frequency scrambling algorithm based on wavelet packets. By using different wavelet packet filter banks at the analysis and synthesis end, we add an extra level of security since the eavesdropper has to choose the correct analysis filter bank, correctly rearrange the time-frequency segments, and choose the correct synthesis bank to get back the original speech signal. Simulations performed with this algorithm give distance measures comparable to those obtained for the uniform filter bank based algorithm.
Finally, we introduce the 2-channel perfect reconstruction circular convolution filter bank and give a simple method for its design. The filters designed using this method satisfy the paraunitary properties on a discrete equispaced set of points in the frequency domain.
|
5 |
Αναγνώριση ομιλητή και ομιλίας με χρήση κυματιδίωνΣιαφαρίκας, Μιχαήλ 06 September 2010 (has links)
Σκοπός της παρούσας διατριβής είναι η εκμετάλλευση των κυματιδίων με σκοπό την βελτίωση της απόδοσης συστημάτων αναγνώρισης ομιλητή και ομιλίας. Στα πλαίσια αυτά, εισάγονται τέσσερις νέοι τρόποι παραμετροποίησης του σήματος ομιλίας:
(1) Η πρώτη μέθοδος προσαρμόζει την ανάλυση συχνότητας των πακέτων κυματιδίων για την προσέγγιση της ψυχοακουστικής επίδρασης των κρίσιμων ζωνών του ακουστικού συστήματος ενσωματώνοντας τις τελευταίες εξελίξεις για τον υπολογισμό τους.
(2) Η δεύτερη μέθοδος εισάγει μια επέκταση του μετασχηματισμού πακέτων κυματιδίων, τον επικαλυπτόμενο μετασχηματισμό πακέτων κυματιδίων, ο οποίος χρησιμοποιείται για να δοθεί έμφαση στις περιοχές αλλαγής των κρίσιμων ζωνών από μια μικρότερη σε μια μεγαλύτερη τιμή.
(3) Η τρίτη μέθοδος αξιολογεί τη συνεισφορά μη επικαλυπτόμενων ζωνών συχνοτήτων στην αναγνώριση ομιλητή και κατασκευάζεται ανάλογα ένας μετασχηματισμός πακέτων κυματιδίων ο οποίος προσαρμόζει την συχνοτική του ανάλυση σύμφωνα με την απόδοση κάθε μίας από τις ζώνες.
(4) Η τέταρτη μέθοδος επιλέγει τη βέλτιστη βάση από το σύνολο των μετασχηματισμών που είναι διαθέσιμοι με τα πακέτα κυματιδίων με εφαρμογή την αναγνώριση ομιλητή και κριτήριο το μέτρο EER.
Οι παραπάνω τέσσερις τρόποι παραμετροποίησης του σήματος ομιλίας αξιολογήθηκαν με το σύστημα αναγνώρισης ομιλητή WCL-1 του εργαστηρίου ενσύρματης τηλεπικοινωνίας του Πανεπιστημίου Πατρών στις βάσεις δεδομένων POLYCOST και NIST και αποδείχθηκε η ανωτερότητά τους τόσο σε σχέση με προηγούμενες μεθόδους των κυματιδίων όσο και σε σχέση με ευρέως χρησιμοποιούμενες παραμέτρους ομιλίας, όπως οι παράμετροι cepstral με βάση την κλίμακα mel (MFCC).
Επιπλέον, στη διατριβή αναλύονται οι ιδιότητες των σημαντικότερων συναρτήσεων κυματιδίων, επιλέγεται η βέλτιστη για την αναπαράσταση του σήματος ομιλίας και πιστοποιείται στην πράξη αυτή η επιλογή.
Τέλος, οι δύο πρώτες από τις προαναφερόμενες μεθόδους παραμετροποίησης τροποποιήθηκαν και επεκτάθηκαν κατάλληλα για την εφαρμογή στην αναγνώριση ομιλίας όπου αξιολογήθηκαν και διαπιστώθηκε η υπεροχή τους έναντι παραδοσιακών και ευρέως διαδεδομένων μεθόδων παραμετροποίησης του σήματος ομιλίας που στηρίζονται στον μετασχηματισμό Fourier.
Το κύριο συμπέρασμα που προέκυψε από τη παρούσα διδακτορική διατριβή είναι ότι τα κυματίδια και συγκεκριμένα τα πακέτα κυματιδίων είναι δυνατόν να χρησιμοποιηθούν με επιτυχία στη βελτίωση της απόδοσης συστημάτων αναγνώρισης ομιλητή και ομιλίας. / The main goal of the present thesis is the exploitation of wavelets for the optimization of speaker and speech recognition systems performance.
In this context, four new speech parameterization methods are introduced:
(1) The first method adapts the frequency resolution of wavelet packet transform to the critical bandwidth of auditory filters incorporating the recent advances for their estimation.
(2) The second method introduces a generalization of wavelet packet transform, named overlapping wavelet packet transform, which emphasizes those frequency sub-bands that critical bandwidth changes from a finer to a coarser value.
(3) The third method evaluates the contribution of each one of eight non-overlapping frequency sub-bands, that the Nyquist interval is divided, to the speaker recognition task and a wavelet packet transform is constructed which adapts its frequency resolution according to the performance of each sub-band.
(4) The fourth method introduces a new technique for seeking and selecting the best basis among all wavelet packet transforms available in the speaker recognition task taking as criterion the EER.
The aforementioned four speech signal parameterizations were evaluated on the speaker verification system WCL-1 of Wire Communications Laboratory, University of Patras, utilizing the speaker recognition corpora POLYCOST and NIST and their superiority was proven over previous wavelet-based parameterizations as well as the widely used Mel Frequency Cepstral Coefficients (MFCC). Among the four proposed methods, it was proven that the second parameterization technique exhibited the best performance.
Furthermore, the most important wavelet properties are thoroughly analyzed, the optimal is selected for the representation of the speech signal and this choice is experimentally verified.
Finally, the first two parameterization methods were further modified and extended appropriately for application on the speech recognition task where their superiority was proven over traditionally and widely used speech parameterization techniques based on Fourier transform.
The main conclusion that resulted in the present doctoral thesis is that wavelets and specifically wavelet packet transforms can be used successfully for the tasks of speaker and speech recognition.
|
6 |
Αναγνώριση ομιλητή / Speaker recognitionGanchev, Todor 25 June 2007 (has links)
Η παρούσα διατριβή πραγματεύεται την αναγνώριση ομιλητή σε πραγματικές συνθήκες. Τα κύρια σημεία της εργασίας είναι: (1) αξιολόγηση διαφόρων προσεγγίσεων εξαγωγής χαρακτηριστικών παραμέτρων ομιλίας, (2) μείωση της ισχύος της περιβαλλοντικής επίδρασης στην απόδοση της αναγνώρισης ομιλητή, και (3) μελέτη τεχνικών κατηγοριοποίησης, εναλλακτικών προς τις υπάρχουσες. Συγκεκριμένα, στο (1), προτείνεται μια νέα δομή εξαγωγής παραμέτρων ομιλίας βασισμένη σε πακέτα κυματομορφών, κατάλληλα σχεδιασμένη για αναγνώριση ομιλητή. Εξάγεται με ένα αντικειμενικό τρόπο σε σχέση με την απόδοση αναγνώρισης ομιλητή, σε αντίθεση με την MFCC προσέγγιση, που βασίζεται στην προσέγγιση της αντίληψης της ανθρώπινης ακοής. Έπειτα, στο (2), δίνεται μια δομή για την εξαγωγή παραμέτρων βασισμένη στα MFCC, ανεκτική στο θόρυβο, για την βελτίωση της απόδοσης της αναγνώρισης ομιλητή σε πραγματικό περιβάλλον. Συνοπτικά, μια τεχνική μείωσης του θορύβου βασισμένη σε μοντέλο προσαρμοσμένη στο πρόβλημα της επιβεβαίωσης ομιλητή ενσωματώνεται απευθείας στη δομή υπολογισμού των MFCC. Αυτή η προσέγγιση επέδειξε σημαντικό πλεονέκτημα σε πραγματικό και ταχέως μεταβαλλόμενο περιβάλλον. Τέλος, στο (3), εισάγονται δύο νέοι κατηγοριοποιητές που αναφέρονται ως Locally Recurrent Probabilistic Neural Network (LR PNN), και Generalized Locally Recurrent Probabilistic Neural Network (GLR PNN). Είναι υβρίδια μεταξύ των Recurrent Neural Network (RNN) και Probabilistic Neural Network (PNN) και συνδυάζουν τα πλεονεκτήματα των γεννετικών και διαφορικών προσσεγγίσεων κατηγοριοποίησης. Επιπλέον, τα νέα αυτά νευρωνικά δίκτυα είναι ευαίσθητα σε παροδικές και ειδικές συσχετίσεις μεταξύ διαδοχικών εισόδων, και έτσι, είναι κατάλληλα για να αξιοποιήσουν την συσχέτιση παραμέτρων ομιλίας μεταξύ πλαισίων ομιλίας. Κατά την εξαγωγή των πειραμάτων, διαφάνηκε ότι οι αρχιτεκτονικές LR PNN και GLR PNN παρέχουν καλύτερη απόδοση, σε σχέση με τα αυθεντικά PNN. / This dissertation dials with speaker recognition in real-world conditions. The main accent falls on: (1) evaluation of various speech feature extraction approaches, (2) reduction of the impact of environmental interferences on the speaker recognition performance, and (3) studying alternative to the present state-of-the-art classification techniques. Specifically, within (1), a novel wavelet packet-based speech features extraction scheme fine-tuned for speaker recognition is proposed. It is derived in an objective manner with respect to the speaker recognition performance, in contrast to the state-of-the-art MFCC scheme, which is based on approximation of human auditory perception. Next, within (2), an advanced noise-robust feature extraction scheme based on MFCC is offered for improving the speaker recognition performance in real-world environments. In brief, a model-based noise reduction technique adapted for the specifics of the speaker verification task is incorporated directly into the MFCC computation scheme. This approach demonstrated significant advantage in real-world fast-varying environments. Finally, within (3), two novel classifiers referred to as Locally Recurrent Probabilistic Neural Network (LR PNN), and Generalized Locally Recurrent Probabilistic Neural Network (GLR PNN) are introduced. They are hybrids between Recurrent Neural Network (RNN) and Probabilistic Neural Network (PNN) and combine the virtues of the generative and discriminative classification approaches. Moreover, these novel neural networks are sensitive to temporal and special correlations among consecutive inputs, and therefore, are capable to exploit the inter-frame correlations among speech features derived for successive speech frames. In the experimentations, it was demonstrated that the LR PNN and GLR PNN architectures provide benefit in terms of performance, when compared to the original PNN.
|
Page generated in 0.3181 seconds