Global ETD Search

1	Αναγνώριση ομιλητή και ομιλίας με χρήση κυματιδίων Σιαφαρίκας, Μιχαήλ 06 September 2010 (has links) Σκοπός της παρούσας διατριβής είναι η εκμετάλλευση των κυματιδίων με σκοπό την βελτίωση της απόδοσης συστημάτων αναγνώρισης ομιλητή και ομιλίας. Στα πλαίσια αυτά, εισάγονται τέσσερις νέοι τρόποι παραμετροποίησης του σήματος ομιλίας: (1) Η πρώτη μέθοδος προσαρμόζει την ανάλυση συχνότητας των πακέτων κυματιδίων για την προσέγγιση της ψυχοακουστικής επίδρασης των κρίσιμων ζωνών του ακουστικού συστήματος ενσωματώνοντας τις τελευταίες εξελίξεις για τον υπολογισμό τους. (2) Η δεύτερη μέθοδος εισάγει μια επέκταση του μετασχηματισμού πακέτων κυματιδίων, τον επικαλυπτόμενο μετασχηματισμό πακέτων κυματιδίων, ο οποίος χρησιμοποιείται για να δοθεί έμφαση στις περιοχές αλλαγής των κρίσιμων ζωνών από μια μικρότερη σε μια μεγαλύτερη τιμή. (3) Η τρίτη μέθοδος αξιολογεί τη συνεισφορά μη επικαλυπτόμενων ζωνών συχνοτήτων στην αναγνώριση ομιλητή και κατασκευάζεται ανάλογα ένας μετασχηματισμός πακέτων κυματιδίων ο οποίος προσαρμόζει την συχνοτική του ανάλυση σύμφωνα με την απόδοση κάθε μίας από τις ζώνες. (4) Η τέταρτη μέθοδος επιλέγει τη βέλτιστη βάση από το σύνολο των μετασχηματισμών που είναι διαθέσιμοι με τα πακέτα κυματιδίων με εφαρμογή την αναγνώριση ομιλητή και κριτήριο το μέτρο EER. Οι παραπάνω τέσσερις τρόποι παραμετροποίησης του σήματος ομιλίας αξιολογήθηκαν με το σύστημα αναγνώρισης ομιλητή WCL-1 του εργαστηρίου ενσύρματης τηλεπικοινωνίας του Πανεπιστημίου Πατρών στις βάσεις δεδομένων POLYCOST και NIST και αποδείχθηκε η ανωτερότητά τους τόσο σε σχέση με προηγούμενες μεθόδους των κυματιδίων όσο και σε σχέση με ευρέως χρησιμοποιούμενες παραμέτρους ομιλίας, όπως οι παράμετροι cepstral με βάση την κλίμακα mel (MFCC). Επιπλέον, στη διατριβή αναλύονται οι ιδιότητες των σημαντικότερων συναρτήσεων κυματιδίων, επιλέγεται η βέλτιστη για την αναπαράσταση του σήματος ομιλίας και πιστοποιείται στην πράξη αυτή η επιλογή. Τέλος, οι δύο πρώτες από τις προαναφερόμενες μεθόδους παραμετροποίησης τροποποιήθηκαν και επεκτάθηκαν κατάλληλα για την εφαρμογή στην αναγνώριση ομιλίας όπου αξιολογήθηκαν και διαπιστώθηκε η υπεροχή τους έναντι παραδοσιακών και ευρέως διαδεδομένων μεθόδων παραμετροποίησης του σήματος ομιλίας που στηρίζονται στον μετασχηματισμό Fourier. Το κύριο συμπέρασμα που προέκυψε από τη παρούσα διδακτορική διατριβή είναι ότι τα κυματίδια και συγκεκριμένα τα πακέτα κυματιδίων είναι δυνατόν να χρησιμοποιηθούν με επιτυχία στη βελτίωση της απόδοσης συστημάτων αναγνώρισης ομιλητή και ομιλίας. / The main goal of the present thesis is the exploitation of wavelets for the optimization of speaker and speech recognition systems performance. In this context, four new speech parameterization methods are introduced: (1) The first method adapts the frequency resolution of wavelet packet transform to the critical bandwidth of auditory filters incorporating the recent advances for their estimation. (2) The second method introduces a generalization of wavelet packet transform, named overlapping wavelet packet transform, which emphasizes those frequency sub-bands that critical bandwidth changes from a finer to a coarser value. (3) The third method evaluates the contribution of each one of eight non-overlapping frequency sub-bands, that the Nyquist interval is divided, to the speaker recognition task and a wavelet packet transform is constructed which adapts its frequency resolution according to the performance of each sub-band. (4) The fourth method introduces a new technique for seeking and selecting the best basis among all wavelet packet transforms available in the speaker recognition task taking as criterion the EER. The aforementioned four speech signal parameterizations were evaluated on the speaker verification system WCL-1 of Wire Communications Laboratory, University of Patras, utilizing the speaker recognition corpora POLYCOST and NIST and their superiority was proven over previous wavelet-based parameterizations as well as the widely used Mel Frequency Cepstral Coefficients (MFCC). Among the four proposed methods, it was proven that the second parameterization technique exhibited the best performance. Furthermore, the most important wavelet properties are thoroughly analyzed, the optimal is selected for the representation of the speech signal and this choice is experimentally verified. Finally, the first two parameterization methods were further modified and extended appropriately for application on the speech recognition task where their superiority was proven over traditionally and widely used speech parameterization techniques based on Fourier transform. The main conclusion that resulted in the present doctoral thesis is that wavelets and specifically wavelet packet transforms can be used successfully for the tasks of speaker and speech recognition. Αναγνώριση ομιλητή Επιβεβαίωση ομιλητή Αναγνώριση ομιλίας Κυματίδια Πακέτα κυματιδίων Παράμετροι ομιλίας 006.454 Speaker recognition Speaker verification Speech recognition Wavelets Wavelet packets Speech features Critical bands
2	Анализа мел-фреквенцијских кепстралних коефицијената као обележја коришћених при аутоматском препознавању говорника / Analiza mel-frekvencijskih kepstralnih koeficijenata kao obeležja korišćenih pri automatskom prepoznavanju govornika / Analysis of mel-frequency cepstral coefficients as features used for automatic speaker recognition Jokić Ivan 24 October 2014 (has links) <p>Рад је окренут ка анализи мел-фреквенцијских кепстралних коефицијената као обележја говорника која се користе при аутоматском препознавању говорника. Испитан је утицај промене облика чујних критичних опсега као и модификације енергије у њима на тачност препознавања говорника. Такође испитане су и неке трансформације ради умањења временске променљивости модела истих говорника.</p> / <p>Rad je okrenut ka analizi mel-frekvencijskih kepstralnih koeficijenata kao obeležja govornika koja se koriste pri automatskom prepoznavanju govornika. Ispitan je uticaj promene oblika čujnih kritičnih opsega kao i modifikacije energije u njima na tačnost prepoznavanja govornika. Takođe ispitane su i neke transformacije radi umanjenja vremenske promenljivosti modela istih govornika.</p> / <p>The work is oriented towards the analysis of mel-frequency cepstral<br />coefficients as speaker features used in automatic speaker recognition. The<br />influence of the shape of auditory critical bands as well as the proposed<br />energy modification inside them is tested. Also, some transformations for<br />reducing of time variability of models of the same speakers are proposed.</p>

Search results

Αναγνώριση ομιλητή και ομιλίας με χρήση κυματιδίων