1 |
Αναγνώριση συνεχούς ομιλίας σε περιβάλλον θορύβου με χρήση πολλών μικροφώνωνΝόκας, Γεώργιος Ν. 19 July 2010 (has links)
- / -
|
2 |
Ανάπτυξη συστήματος ασύρματου ελέγχου ρομπότ με ομιλίαΠαρταουρίδης, Χαράλαμπος 07 June 2013 (has links)
Στην παρούσα διπλωματική εργασία παρουσιάζεται η ανάπτυξη συστήματος ασύρματου ελέγχου, του ρομπότ Amigobot. Το σύστημα ελέγχεται μέσω ομιλίας και χρησιμοποιείται το ανοικτό λογισμικό Olympus. / In this diplomatic work we develop a system for wireless control of the robot Amigobot. The system is controlled through speech and we use the open source software Olympus.
|
3 |
Αναγνώριση φύλου μέσω ομιλίαςΒασιλόπουλος, Χρήστος 20 October 2010 (has links)
Η παρούσα διπλωματική εργασία αναφέρεται σε ένα αυτόματο σύστημα αναγνώρισης με χρήση της ομιλίας, και πιο συγκεκριμένα σε ένα σύστημα αναγνώρισης φύλου μέσω ομιλίας. Αναλύεται η δομή του, περιγράφεται η λειτουργία του και δίνονται οι λεπτομέρειες κάθε τμήματος του. Αρχικά, η εργασία επικεντρώνεται στην προεπεξεργασία του σήματος ομιλίας και στην εξαγωγή των κατάλληλων παραμέτρων, οι οποίες θα μπορέσουν να χαρακτηρίσουν κάθε φύλο. Στη συνέχεια, περιγράφεται η διαδικασία ταξινόμησης του συστήματος, οι αλγόριθμοι που χρησιμοποιούνται και στο τέλος παρουσιάζονται τα ποσοστά επιτυχίας. Τα αποτελέσματα υποδεικνύουν και το βέλτιστο σύνολο παραμέτρων ομιλίας για αξιόπιστη αναγνώριση φύλου. / The purpose of this diploma thesis is the study of a gender recognition system based on speech. More specifically the system’s structure is analyzed, its functions are described and details regarding every single part are given. We focus on the preprocessing of the speech signal and the definition of the appropriate parameters that characterize every gender. Moreover, the methods, which are used for classification during the experimental setup, are described and be presented with their results. These results also suggest the optimized speech parameters appropriate for reliable gender recognition.
|
4 |
Μοντελοποίηση και ψηφιακή επεξεργασία προσωδιακών φαινομένων της ελληνικής γλώσσας με εφαρμογή στην σύνθεση ομιλίας / Modeling and signal processing of greek language prosodic events with application to speech synthesisΖέρβας, Παναγιώτης 04 February 2008 (has links)
Αντικείμενο της παρούσης διδακτορικής διατριβής αποτελεί η μελέτη και μοντελοποίηση των φαινομένων επιτονισμού της Ελληνικής γλώσσας με εφαρμογές στην σύνθεση ομιλίας. Στα πλαίσια της διατριβής αυτής αναπτύχθηκαν πόροι ομιλίας και εργαλεία για την επεξεργασία και μελέτη προσωδιακών παραγόντων οι οποίοι επηρεάζουν την πληροφορία που μεταφέρεται μέσω του προφορικού λόγου. Για την διαχείρηση και επεξεργασία των παραπάνω πόρων υλοποιήθηκε πλατφόρμα μετατροπής κειμένου σε ομιλία βασισμένη στην συνένωση δομικών μονάδων ομιλίας. Για την μελέτη και την δημιουργία των μοντέλων μηχανικής μάθησης χρησιμοποιήθηκε η γλωσσολογική αναπαράσταση GRToBI των φαινομένων επιτονισμού. / In this thesis we cope with the task of studying and modeling prosodic phenomena encountered in Greek language with applications to the task of speech synthesis from tex. Thus, spoken corpora with various levels of morphosyntactical and linguistic representation as well as tools for their processing, we constructed. For the task of coding the emerged prosodic phenomena of our recorded utterences we have utilized the GRToBI annotation of speech.
|
5 |
Αυτόματος τεμαχισμός ψηφιακών σημάτων ομιλίας και εφαρμογή στη σύνθεση ομιλίας, αναγνώριση ομιλίας και αναγνώριση γλώσσας / Automatic segmentation of digital speech signals and application to speech synthesis, speech recognition and language recognitionΜπόρας, Ιωσήφ 19 October 2009 (has links)
Η παρούσα διατριβή εισάγει μεθόδους για τον αυτόματο τεμαχισμό σημάτων ομιλίας. Συγκεκριμένα παρουσιάζονται τέσσερις νέες μέθοδοι για τον αυτόματο τεμαχισμό σημάτων ομιλίας, τόσο για γλωσσολογικά περιορισμένα όσο και μη προβλήματα. Η πρώτη μέθοδος κάνει χρήση των σημείων του σήματος που αντιστοιχούν στα ανοίγματα των φωνητικών χορδών κατά την διάρκεια της ομιλίας για να εξάγει όρια ψευδό-φωνημάτων με χρήση του αλγορίθμου δυναμικής παραμόρφωσης χρόνου. Η δεύτερη τεχνική εισάγει μια καινοτόμα υβριδική μέθοδο εκπαίδευσης κρυμμένων μοντέλων Μαρκώφ, η οποία τα καθιστά πιο αποτελεσματικά στον τεμαχισμό της ομιλίας. Η τρίτη μέθοδος χρησιμοποιεί αλγορίθμους μαθηματικής παλινδρόμησης για τον συνδυασμό ανεξαρτήτων μηχανών τεμαχισμού ομιλίας. Η τέταρτη μέθοδος εισάγει μια επέκταση του αλγορίθμου Βιτέρμπι με χρήση πολλαπλών παραμετρικών τεχνικών για τον τεμαχισμό της ομιλίας. Τέλος, οι προτεινόμενες μέθοδοι τεμαχισμού χρησιμοποιούνται για την βελτίωση συστημάτων στο πρόβλημα της σύνθεσης ομιλίας, αναγνώρισης ομιλίας και αναγνώρισης γλώσσας. / The present dissertation introduces methods for the automatic segmentation of speech signals. In detail, four new segmentation methods are presented both in for the cases of linguistically constrained or not segmentation. The first method uses pitchmark points to extract pseudo-phonetic boundaries using dynamic time warping algorithm. The second technique introduces a new hybrid method for the training of hidden Markov models, which makes them more effective in the speech segmentation task. The third method uses regression algorithms for the fusion of independent segmentation engines. The fourth method is an extension of the Viterbi algorithm using multiple speech parameterization techniques for segmentation. Finally, the proposed methods are used to improve systems in the task of speech synthesis, speech recognition and language recognition.
|
6 |
Αναγνώριση συναισθημάτων από ομιλία με χρήση τεχνικών ψηφιακής επεξεργασίας σήματος και μηχανικής μάθησης / Emotion recognition from speech using digital signal processing and machine learning techniquesΚωστούλας, Θεόδωρος 28 February 2013 (has links)
Η παρούσα διδακτορική διατριβή πραγματεύεται προβλήματα που αφορούν το χώρο της τεχνολογίας ομιλίας, με στόχο τη αναγνώριση συναισθημάτων από ομιλία με χρήση τεχνικών ψηφιακής επεξεργασίας σήματος και μηχανικής μάθησης. Πιο αναλυτικά, στα πλαίσια της διατριβής προτάθηκαν και μελετήθηκαν καινοτόμες μέθοδοι σε μια σειρά από εφαρμογές που αξιοποιούν σύστημα αναγνώρισης συναισθηματικών καταστάσεων από ομιλία. Ο βασικός στόχος των μεθόδων ήταν η αντιμετώπιση των προκλήσεων που παρουσιάζονται όταν ένα σύστημα αναγνώρισης συναισθηματικών καταστάσεων καλείται να λειτουργήσει σε πραγματικές συνθήκες, με αυθόρμητες αντιδράσεις, ανεξαρτήτως ομιλητή.
Πιο συγκεκριμένα, στα πλαίσια της διατριβής, αξιολογήθηκε η συμπεριφορά ενός συστήματος αναγνώρισης συναισθημάτων σε προσποιητή ομιλία και σε διαφορετικές συνθήκες θορύβου, και συγκρίθηκε η απόδοση του συστήματος με την υποκειμενική αξιολόγηση των ακροατών. Επιπλέον, περιγράφηκε ο σχεδιασμός και η υλοποίηση βάση δεδομένων συναισθηματικής ομιλίας, όπως αυτή προκύπτει από την αλληλεπίδραση μη-έμπειρων χρηστών με ένα διαλογικό σύστημα και προτάθηκε ένα σύστημα το οποίο εντοπίζει αρνητικές συναισθηματικές καταστάσεις, στο ανεξάρτητου ομιλητή πρόβλημα, με χρήση μοντέλου Γκαουσιανών κατανομών. Η προτεινόμενη αρχιτεκτονική συνδυάζει παραμέτρους ομιλίας χαμηλού και υψηλού επιπέδου και εφαρμόζεται στα πραγματικά δεδομένα. Επίσης, αξιολογήθηκε και υλοποιήθηκε η πρακτική εφαρμογή ενός συστήματος αναγνώρισης συναισθημάτων βασισμένου σε οικουμενικό μοντέλο Γκαουσιανών κατανομών σε διαφορετικούς τύπους δεδομένων πραγματικής ζωής. Ακόμα, παρουσιάστηκε μια πρωτότυπη αρχιτεκτονική κατηγοριοποίησης για αναγνώριση συνυπαρχόντων συναισθημάτων από ομιλία προερχόμενη από αλληλεπίδραση σε πραγματικά περιβάλλοντα. Σε αντίθεση με γνωστές προσεγγίσεις, η προτεινόμενη αρχιτεκτονική μοντελοποιεί τις συνυπάρχουσες συναισθηματικές καταστάσεις μέσω της κατασκευής μιας πολυσταδιακής αρχιτεκτονικής κατηγοριοποίησης. Τα πειραματικά αποτελέσματα που διενεργήθηκαν υποδεικνύουν ότι η προτεινόμενη αρχιτεκτονική είναι πλεονεκτική για τις συναισθηματικές καταστάσεις που είναι πιο διαχωρίσιμες, γεγονός που οδηγεί σε βελτίωση της συνολικής απόδοσης του συστήματος. / In this doctoral dissertation a number of novel approaches were proposed and evaluated in different applications that utilize emotion awareness. The major target of the proposed methods was facing the difficulties existing, when an emotion recognition system is asked to operate in real-life conditions, where human speech is characterized by spontaneous and genuine formulations.
In detail, within the present dissertation, the performance of an emotion recognition system was evaluated, initially, in acted speech, under different noise conditions, and this performance was compared to the one of human listeners. Further, the design and implementation of a real world emotional speech corpus is described, as this results from the interaction of naive users with a smart home dialogue system. Moreover, a system which utilizes low and high level descriptors was suggested. The suggested architecture leads to significantly better performance in some working points of the integrated system in the dialogue system. Furthermore, we propose a novel multistage classification scheme for affect recognition from real-life speech. In contrast with conventional approaches for affect/emotion recognition from speech, the proposed scheme models co-occurring affective states by constructing a multistage classification scheme. The empirical experiments performed indicate that the proposed classification scheme offers an advantage for those classes that are more separable, which contributes for improving the overall performance of the affect recognition system.
|
7 |
Υλοποίηση βαθμίδας ΨΕΣ (Ψηφιακής Επεξεργασίας Σήματος) συστήματος σύνθεσης ομιλίας με βάση τον αλγόριθμο ΗΝΜ. / HNM-based DSP (Digital Signal Processing) module implementation of a TTS systemΒασιλόπουλος, Ιωάννης 16 May 2007 (has links)
Ένα TTS (Τext-To-Speech) σύστημα μετατρέπει ένα οποιοδήποτε κείμενο στην αντιστοιχούσα ομιλία, η οποία έχει φυσικά χαρακτηριστικά. Το ΤΤS αποτελείται από δύο βαθμίδες, τη βαθμίδα Επεξεργασίας Φυσικής Γλώσσας (ΕΦΓ) και τη βαθμίδα Ψηφιακής Επεξεργασίας Σήματος (ΨΕΣ). Η βαθμίδα ΕΦΓ είναι υπεύθυνη για την σωστή ανάλυση του κειμένου εισόδου σε φωνήματα και το καθορισμό των επιθυμητών προσωδιακών χαρακτηριστικών, όπως το pitch, η διάρκεια και η ένταση του κάθε φωνήματος. Η βαθμίδα ΨΕΣ αναλαμβάνει να συνθέσει την ομιλία με τα επιθυμητά προσωδιακά χαρακτηρίστηκα, τα οποία έδωσε η βαθμίδα ΕΦΓ. Ένας τρόπος για να επιτευχθεί αυτό είναι με χρήση αλγορίθμων ανάλυσης και σύνθεσης ομιλίας, όπως ο αλγόριθμος HNM (Harmonic plus Noise Model).Ο ΗΝΜ μοντελοποιεί το σήμα ομιλίας ως άθροισμα δύο τμημάτων, ενός τμήματος με αρμονικά χαρακτηριστικά και ενός τμήματος με χαρακτηριστικά θορύβου. Χρησιμοποιώντας αυτό το μοντέλο γίνεται η ανάλυση και η σύνθεση του σήματος ομιλίας με ή χωρίς προσωδιακές μεταβολές. / A TTS (Text-To-Speech) System is used to convert any given text to its corresponding speech with natural characteristics. A TTS consists of two modules, the Natural Language Processing (NLP) module and the Digital Signal Processing (DSP) module. The NLP module analyses the input text and supplies the DSP module with the appropriate phonemes and prosodic modifications, with concern to pitch, duration and volume of each phoneme. Then the DSP module synthesizes speech with the target prosody, using speech analysis-synthesis algorithms such as HNM. HNM (Harmonic plus Noise Model) algorithm models speech signal as the sum two parts, the harmonic part and the noise part. Speech analysis and speech synthesis with or without modifications, is achieved using the harmonic and the noise part
|
8 |
Αναγνώριση ομιλητή και ομιλίας με χρήση κυματιδίωνΣιαφαρίκας, Μιχαήλ 06 September 2010 (has links)
Σκοπός της παρούσας διατριβής είναι η εκμετάλλευση των κυματιδίων με σκοπό την βελτίωση της απόδοσης συστημάτων αναγνώρισης ομιλητή και ομιλίας. Στα πλαίσια αυτά, εισάγονται τέσσερις νέοι τρόποι παραμετροποίησης του σήματος ομιλίας:
(1) Η πρώτη μέθοδος προσαρμόζει την ανάλυση συχνότητας των πακέτων κυματιδίων για την προσέγγιση της ψυχοακουστικής επίδρασης των κρίσιμων ζωνών του ακουστικού συστήματος ενσωματώνοντας τις τελευταίες εξελίξεις για τον υπολογισμό τους.
(2) Η δεύτερη μέθοδος εισάγει μια επέκταση του μετασχηματισμού πακέτων κυματιδίων, τον επικαλυπτόμενο μετασχηματισμό πακέτων κυματιδίων, ο οποίος χρησιμοποιείται για να δοθεί έμφαση στις περιοχές αλλαγής των κρίσιμων ζωνών από μια μικρότερη σε μια μεγαλύτερη τιμή.
(3) Η τρίτη μέθοδος αξιολογεί τη συνεισφορά μη επικαλυπτόμενων ζωνών συχνοτήτων στην αναγνώριση ομιλητή και κατασκευάζεται ανάλογα ένας μετασχηματισμός πακέτων κυματιδίων ο οποίος προσαρμόζει την συχνοτική του ανάλυση σύμφωνα με την απόδοση κάθε μίας από τις ζώνες.
(4) Η τέταρτη μέθοδος επιλέγει τη βέλτιστη βάση από το σύνολο των μετασχηματισμών που είναι διαθέσιμοι με τα πακέτα κυματιδίων με εφαρμογή την αναγνώριση ομιλητή και κριτήριο το μέτρο EER.
Οι παραπάνω τέσσερις τρόποι παραμετροποίησης του σήματος ομιλίας αξιολογήθηκαν με το σύστημα αναγνώρισης ομιλητή WCL-1 του εργαστηρίου ενσύρματης τηλεπικοινωνίας του Πανεπιστημίου Πατρών στις βάσεις δεδομένων POLYCOST και NIST και αποδείχθηκε η ανωτερότητά τους τόσο σε σχέση με προηγούμενες μεθόδους των κυματιδίων όσο και σε σχέση με ευρέως χρησιμοποιούμενες παραμέτρους ομιλίας, όπως οι παράμετροι cepstral με βάση την κλίμακα mel (MFCC).
Επιπλέον, στη διατριβή αναλύονται οι ιδιότητες των σημαντικότερων συναρτήσεων κυματιδίων, επιλέγεται η βέλτιστη για την αναπαράσταση του σήματος ομιλίας και πιστοποιείται στην πράξη αυτή η επιλογή.
Τέλος, οι δύο πρώτες από τις προαναφερόμενες μεθόδους παραμετροποίησης τροποποιήθηκαν και επεκτάθηκαν κατάλληλα για την εφαρμογή στην αναγνώριση ομιλίας όπου αξιολογήθηκαν και διαπιστώθηκε η υπεροχή τους έναντι παραδοσιακών και ευρέως διαδεδομένων μεθόδων παραμετροποίησης του σήματος ομιλίας που στηρίζονται στον μετασχηματισμό Fourier.
Το κύριο συμπέρασμα που προέκυψε από τη παρούσα διδακτορική διατριβή είναι ότι τα κυματίδια και συγκεκριμένα τα πακέτα κυματιδίων είναι δυνατόν να χρησιμοποιηθούν με επιτυχία στη βελτίωση της απόδοσης συστημάτων αναγνώρισης ομιλητή και ομιλίας. / The main goal of the present thesis is the exploitation of wavelets for the optimization of speaker and speech recognition systems performance.
In this context, four new speech parameterization methods are introduced:
(1) The first method adapts the frequency resolution of wavelet packet transform to the critical bandwidth of auditory filters incorporating the recent advances for their estimation.
(2) The second method introduces a generalization of wavelet packet transform, named overlapping wavelet packet transform, which emphasizes those frequency sub-bands that critical bandwidth changes from a finer to a coarser value.
(3) The third method evaluates the contribution of each one of eight non-overlapping frequency sub-bands, that the Nyquist interval is divided, to the speaker recognition task and a wavelet packet transform is constructed which adapts its frequency resolution according to the performance of each sub-band.
(4) The fourth method introduces a new technique for seeking and selecting the best basis among all wavelet packet transforms available in the speaker recognition task taking as criterion the EER.
The aforementioned four speech signal parameterizations were evaluated on the speaker verification system WCL-1 of Wire Communications Laboratory, University of Patras, utilizing the speaker recognition corpora POLYCOST and NIST and their superiority was proven over previous wavelet-based parameterizations as well as the widely used Mel Frequency Cepstral Coefficients (MFCC). Among the four proposed methods, it was proven that the second parameterization technique exhibited the best performance.
Furthermore, the most important wavelet properties are thoroughly analyzed, the optimal is selected for the representation of the speech signal and this choice is experimentally verified.
Finally, the first two parameterization methods were further modified and extended appropriately for application on the speech recognition task where their superiority was proven over traditionally and widely used speech parameterization techniques based on Fourier transform.
The main conclusion that resulted in the present doctoral thesis is that wavelets and specifically wavelet packet transforms can be used successfully for the tasks of speaker and speech recognition.
|
9 |
Τεμαχιοποίηση ομιλίας σε φωνητικές ομάδες για αναγνώριση και σύνθεση ομιλίαςΜπουρνά, Βασιλική 21 January 2009 (has links)
H διαρκώς αυξανόμενη ανάπτυξη εφαρμογών όπως τα συστήματα μετατροπής κειμένου σε ομιλία (TTS systems) ή τα συστήματα αυτόματης αναγώρισης ομιλίας (ASR systems) κάνουν επιτακτική την ανάγκη της μελέτης χαρακτηριστικών της ομιλίας που δεν περιορίζονται σε συντακτικούς ή λεξιλογικούς κανόνες, αλλά σηματοδοτούνται από διαφορετικές διαδικασίες, όπως είναι η προσωδία. Τα προσωδιακά χαρακτηριστικά της ομιλίας είναι αυτά που πέρα από το λεξιλογικό περιεχόμενο των προτάσεων, επισημαίνουν άλλα σημαντικά στοιχεία που αφορούν στην εστίαση και την έμφαση, εισάγωντας με αυτό τον τρόπο ένα δευτερεύον υποκείμενο κανάλι στην επικοινωνία. Επιπλεόν, συνδέονται σε μεγάλο βαθμό με την έκφραση συναισθήματος στην ομιλία. Γι'αυτό το λόγο είναι σημαντικό το να διερευνηθούν τα χαρακτηριστικά αυτά, τόσο στην ουδέτερη ομιλία, όσο και στις περιπτώσεις ομιλίας σε ορισμένες συναισθηματικές καταστάσεις.
Στην παρούσα διπλωματική εργασία γίνεται τεμαχιοποίηση μιας συναισθηματικής ομιλίας, σε επίπεδο φωνημάτων και επιτονική επισημείωση των προσωδιακών γεγονότων που λαμβάνουν χώρα σε επίπεδο συλλαβών, προκειμένου να εξαχθούν οι παράμετροι εκείνες που θα μας επιτρέψουν να μελετήσουμε τα προσωδιακά χαρακτηριστικά παρουσία συναισθηματικής κατάστασης, σε σύγκριση με την ουδέτερη ομιλία.
Στη συνέχεια πραγματοποιείται επεξεργασία των δεδομένων και μελέτη των προσωδιακών χαρακτηριστικών, μέσω σύγκρισης των χαρακτηριστικών που παρατηρούνται απο συναίσθημα σε συναίσθημα και μέσω της κατασκευής μοντέλων πρόβλεψης της διάρκειας των φωνημάτων και από αυτές τις διαδικασίες προκύπτουν και παρουσιάζονται κάποια συμπεράσματα σχετικά με την προσωδιακή πτυχή της συναισθηματικής ομιλίας. / The continuously rising development of applications such as Text-to-Speech systems (TTS systems) or Automatic Speech Recognition systems (ASR systems), make imperative the investigation of characteristics of speech which are not limited within the syntactic οr lexical rules, but are signaled by different processes, such as prosody. The prosodic features of speech are those which, beyond the lexical content of utterances, point out other important elements concerning the focus and the accent, implying in that way a secondary subjacent channel of communication. Moreover, they are connected to a great extent with the expression of emotion in speech. Thus, it is important to investigate these features, in neutral speech as well as in cases of speech under emotional conditions.
In this thesis, took place the segmentation of a database of emotional speech in phonemic level and the intonational annotation of the prosodic events that occur in the syllabic level, in order to extract the parameters that allow us to study the prosodic features in the presence of emotional state compared to the neutral speech.
Following, the extracted data were processed and the prosodic features were studied, through comparing the characteristics that are observed in the different emotional conditions and by building duration prediction models of phonemes and the conclusions drawn through these processes are presented, with regard to the prosodic aspect of emotional speech.
|
10 |
Αυτόματος εντοπισμός ομιλίαςΘεοδώρου, Θεόδωρος 22 January 2009 (has links)
Στόχος της εργασίας είναι η υλοποίηση του αλγορίθμου του αυτόματου εντοπισμού ομιλίας βάση το πρότυπο ETSI.
Η εργασία αυτή οργανώνεται σε 4 κεφάλαια τα οποία περιλαμβάνουν την εισαγωγή στο σήμα ομιλίας, το πρότυπο ETSI, την πειραματική διαδικασία και τα συμπεράσματα.
Το πρώτο κεφάλαιο περιλαμβάνει τα βασικά χαρακτηριστικά της ομιλίας και ανάλυση των συχνοτήτων συντονισμών και της συχνότητας ταλάντωσης, την έννοια του Mel και την θεωρητική λογική του αυτόματου και προσαρμοστικού αλγόριθμου.
Το δεύτερο κεφάλαιο περιλαμβάνει την διαδικασία επεξεργασίας ομιλίας με front-end αλγόριθμο βασισμένο σε τεχνικές εξαγωγής παραμέτρων Mel και Cepstral, την μείωση θορύβου βασισμένη στο Wiener φίλτρο, η επεξεργασία του σήματος, η κατηγοριοποίηση μεταξύ ηχηρής και άηχης ομιλίας.
Το τρίτο και τέταρτο κεφάλαιο περιλαμβάνουν τα αποτελέσματα από την πειραματική εφαρμογή του συστήματος και τα συμπεράσματα από την σύγκριση με άλλους αλγορίθμους εντοπισμού ομιλίας. / The goal of this project is the implementation of the voice activity detection algorithm based on the ETSI standard.
This project is separate in 4 chapters including: initial themes for speech, ETSI standard, the experimental procedure and the results.
In the first chapter are the basics about speech, formants, pitch, Mel and the theoretic logic of automatic and robust voice activity detection algorithms.
In the second chapter are the procedures of speech processing based in front-end algorithm, Mel and Cepstral procedures, noise reduction based on Wiener filter, signal processing, and the classification of voiced and unvoiced speech.
The last chapters are the results of the experimental procedure and the results of the compare with other system voice activity detection.
|
Page generated in 0.0713 seconds