11 |
Αυτόματη αναγνώριση συλλαβών με χρήση υβριδικών μοντέλων MARKOV & νευρωνικών δικτύωνΣυρίγος, Ιωάννης X. 05 July 2010 (has links)
- / -
|
12 |
Προσομοίωση συνθηκών κίνησης δικτύου και εφαρμογή σε υπηρεσίες VoIPΚούκου, Κωνσταντίνα 20 July 2012 (has links)
Το VoIP (Voice Over IP) αναφέρεται στη μετάδοση και τη σηματοδοσία επικοινωνιών φωνής π.χ τηλεφωνικές κλήσεις πάνω από IP δίκτυα όπως είναι το διαδίκτυο.
Σκοπός της παρούσας διπλωματικής ήταν η μελέτη της παρεχόμενης ποιότητας ομιλίας VoIP τηλεφωνικών συσκευών (Sitel,Polycom) κάτω από σενάρια διαφορετικών συνθηκών κίνησης στο δίκτυο.
Αρχικά παρουσιάζονται οι εφαρμογές του voip και στη συνέχεια αναλύονται η λειτουργία, η αρχιτεκτονική και τα πρωτόκολλα της τεχνολογίας αυτής.
Ακολούθως περιγράφεται η πειραματική διάταξη που απαιτήθηκε για να συγκεντρωθούν οι μετρήσεις από τις συσκευές και στη συνέχεια οι γραφικές αναπαραστάσεις των μετρήσεων αυτών που αφορούν της παρεχόμενη ποιότητα ομιλίας. Γίνεται ανάλυση των γραφικών και σύγκριση με ανάλογες της βιβλιογραφίας. / The VoIP technology refers to the transmission of voice samples over the Internet Protocol. The aim of the thesis is to investigate the QoS of a VoIP call under various networks circumstances when various impairments occur. The devices that we put under test belong to Sitel and Polycom company.
|
13 |
Μελέτη γλωσσολογικών μοντέλων για αναγνώριση συναισθημάτων ομιλητήΑποστολόπουλος, Γεώργιος 07 June 2010 (has links)
Με τη συνεχώς αυξανόμενη παρουσία αυτόματων συστημάτων στην καθημερινότητά μας, εισέρχεται και το βάρος της αλληλεπίδρασης με αυτά τα συστήματα εξαιτίας της έλλειψης συναισθηματικής νοημοσύνης από την πλευρά των μηχανών [1]. Η συναισθηματική πληροφορία που μεταδίδεται μέσω της ανθρώπινης ομιλίας αποτελεί σημαντικό παράγοντα στις ανθρώπινες επικοινωνίες και αλληλεπιδράσεις. Όταν οι άνθρωποι αλληλεπιδρούν με μηχανές ή υπολογιστικά συστήματα υπάρχει ένα κενό μεταξύ της πληροφορίας που μεταδίδεται και αυτής που γίνεται αντιληπτή. Η εργασία αυτή επικεντρώνεται στον τρόπο με τον οποίο ένα υπολογιστικό σύστημα μπορεί να αντιληφθεί την συναισθηματική πληροφορία που υποβόσκει στην ανθρώπινη ομιλία χρησιμοποιώντας την πληροφορία που βρίσκεται στα διάφορα γλωσσολογικά μοντέλα. Γίνεται μελέτη ενός συστήματος αναγνώρισης της συναισθηματικής κατάστασης του ομιλητή, και πιο συγκεκριμένα επικεντρωνόμαστε στην επεξεργασία ομιλίας και την εξαγωγή των κατάλληλων παραμέτρων, οι οποίες θα μπορέσουν να χαρακτηρίσουν μονοσήμαντα κάθε συναισθηματική κατάσταση. Κάνουμε επεξεργασία οπτικοακουστικού υλικού χρησιμοποιώντας διάφορα εργαλεία λογισμικού με σκοπό να αντλήσουμε αξιόπιστη γλωσσολογική πληροφορία, η οποία να είναι αντιπροσωπευτική των διαφόρων συναισθημάτων που εξετάζουμε. Συνδυάζοντας τη γλωσσολογική με την ακουστική πληροφορία καταλήγουμε σε ένα ολοκληρωμένο μοντέλο αναγνώρισης συναισθημάτων. Τα αποτελέσματά μας υποδεικνύουν το ποσοστό κατά το οποίο τα εξαγόμενα γλωσσολογικά μοντέλα μπορούν να μας προσφέρουν αξιόπιστη αναγνώριση συναισθημάτων ενός ομιλητή. / Along with the constantly increasing presence of automatic systems in our everyday lives, there comes the problem of interaction with thesse sytems because of the lack of artificial intelligence from the systems themselves. Emotion information transcripted through human language is an important factor of human interactions and conversations. When people interact with computer systems though, there is a gap between the information sent and the information perceived. This diploma thesis focuses on the way a computer system can perceive the information of emotions that underlies in human speech, by using the information found in linguistic models. We study a recognition system for the emotional state of the speaker himself and specifically we focus on the speech recognition and its parameters, which could uniquely identify every emotional state. We edit some video samples using the appropriate software in order to draw credible linguistic information, which is representative of the examined emotions. By combining the linguistic information with the aural information, we can reach a state where we can have a complete speech recognition system. The results of our work present the percentage at which these models can provide acceptable emotional recognition of a speaker.
|
14 |
Τεχνικές προσανατολισμένης λήψης για μη στάσιμα ακουστικά σήματα : συγκριτική πειραματική αξιολόγηση σε πραγματικές συνθήκεςΠλατυπόδη, Μαρία 27 April 2015 (has links)
Οι τεχνικές προσανατολισμένης λήψης έχουν μελετηθεί εκτενώς τις τελευταίες δεκαετίες, καθώς βρίσκουν εφαρμογή σε διάφορους τομείς. Ωστόσο, για σήματα ευρείας ζώνης το πρόβλημα αυτό δεν έχει διερευνηθεί διεξοδικά. Σκοπός αυτής της εργασίας είναι να αναδείξει τις δυνατότητες και τους εγγενής περιορισμούς των τεχνικών προσανατολισμένης λήψης. Στα πρώτα κεφάλαια παρουσιάζονται οι θεμελιώδεις έννοιες της επεξεργασίας σημάτων σε διατάξεις μικροφώνων και οι πιο ευρέως χρησιμοποιούμενες τεχνικές προσανατολισμένης λήψης. Στο τελευταίο κεφάλαιο πραγματοποιούνται εξοικειώσεις πραγματικών ακουστικών συνθηκών σύμφωνα με το πρότυπο ETSI EG 202 396. Το μη-ανηχοϊκό μοντέλο υιοθετείται και πραγματικά ακουστικά σήματα λαμβάνονται από γραμμικές διατάξεις μικροφώνων. Ακόμη, η τεχνική ημίτονου εκθετικής σάρωσης χρησιμοποιείται για την εκτίμηση της κρουστικής απόκρισης των Ν-ακουστικών καναλιών. Τέλος, το μοντέλο 3-QUEST χρησιμοποιείται για την μέτρηση της ποιότητας ομιλίας σε θορυβώδη περιβάλλοντα. / Beamforming techniques have been studied extensively due to its applications in various areas. However, most of the efforts have been focused on the narrowband case. For wideband signals, this problem has not been thoroughly investigated. This thesis aims is to highlight potentials and the limitations of the conventional beamforming techniques. In the first chapters, the fundamental array processing theory and the most widely used beamforming techniques are presented. In the last chapter, different real-world acoustic scenarios are simulated according to ETSI EG 202 396-3 standard. In the simulations, the reverberant model is assumed and real audio signals are captured by a linear microphone array. The coefficients of the spatial filter are computed with the MVDR criterion. Moreover, acoustic impulse responses measurements are presented and performed for the construction of the steering vector. The speech quality in presence of background noise is measured by the 3-QUEST model.
|
15 |
Ανάπτυξη δοκιμασίας ομιλητικής ακοομετρίας για τον έλεγχο κεντρικής ακουστικής οδού σε παιδιά πρωτοβάθμιας εκπαίδευσης με μαθησιακές διαταραχέςΤρίμμης, Νικόλαος 07 July 2009 (has links)
Ο σκοπός αυτής της μελέτης ήταν η ανάπτυξη μιας «ομιλητικής δοκιμασίας χαμηλού πλεονασμού» για την αξιολόγηση της κεντρικής ακουστικής επεξεργασίας σε παιδιά πρωτοβάθμιας εκπαίδευσης τα οποία παρουσιάζουν μαθησιακές δυσκολίες. Η ανάγκη επιβεβαίωσης της ακεραιότητας του περιφερικού ακουστικού συστήματος πριν την εφαρμογή της κεντρικής δοκιμασίας, οδήγησε στην ανάπτυξη δύο ακόμη δοκιμασιών ομιλητικής ακοομετρίας. Η πρώτη ήταν για τη μέτρηση του «ουδού αναγνώρισης ομιλίας» και η δεύτερη για το «σκορ αναγνώρισης ομιλίας». Σαράντα λέξεις επιλέχθηκαν ως το τελικό υλικό της πρώτης δοκιμασίας και δύο φωνημικά ισόρροπες λίστες των πενήντα λέξεων για τη δεύτερη δοκιμασία. Από τη στατιστική ανάλυση για τη συσχέτιση του ποσοστού αναγνώρισης ομιλίας ανάμεσα στις 2 λίστες, δεν προέκυψε στατιστικά σημαντική διαφορά σε καμία στάθμη παρουσίασης του σήματος ομιλίας. Για την δοκιμασία της κεντρικής ακουστικής επεξεργασίας, οι δύο φωνημικά ισόρροπες λίστες τροποποιήθηκαν ψηφιακά χρησιμοποιώντας φίλτρο χαμηλής διέλευσης συχνοτήτων με συχνότητες αποκοπής στα 250, 500, 750, 1000, 1250, 1500, 1750 και 2000 Hz με ρυθμό αποκοπής φίλτρου 18 dB/οκτάβα. Οι λίστες λέξεων διέλευσης χαμηλών συχνοτήτων που προέκυψαν εφαρμόστηκαν σε 180 παιδιά σχολικής ηλικίας σε στάθμη 40 dBSL αναφορικά με τον ουδό αναγνώρισης ομιλίας του κάθε παιδιού. Αρχικά μετρήθηκε ο ουδός αναγνώρισης ομιλίας του κάθε παιδιού. Για τη μέτρηση του σκορ αναγνώρισης ομιλίας παρουσιάστηκε μία λίστα σε ένταση 40 dBSL και η άλλη λίστα σε 80 dBSL. Ο ουδός αναγνώρισης ομιλίας κάθε παιδιού ήταν +6 dBHL από το μέσο όρο ουδών ακοής του, και κανένα παιδί δεν παρουσίασε σκορ αναγνώρισης ομιλίας μικρότερο από 92%. Επίσης, κανένα παιδί δεν παρουσίασε σημαντική μείωση στο σκορ αναγνώρισης ομιλίας του, στην ένταση των 80 dBSL. Ενενήντα παιδιά (52 αγόρια και 38 κορίτσια, ΜΟ=8.93, ΤΑ=1.68) χωρίς μαθησιακή διαταραχή αποτέλεσαν την πρώτη ομάδα και τα υπόλοιπα 90 (48 αγόρια και 42 κορίτσια, ΜΟ=9.04, ΤΑ=1.59) με μαθησιακή διαταραχή. Η στατιστική ανάλυση από την σύγκριση του ποσοστιαίου μέσου αριθμού λέξεων, που αναγνωρίστηκαν από τα παιδιά με μαθησιακή διαταραχή και παιδιά χωρίς μαθησιακή διαταραχή, προέκυψε στατιστικά πάρα πολύ σημαντική για τις περισσότερες συχνότητες αποκοπής φίλτρου με τη μέγιστη διαφορά να προκύπτει για το φίλτρο αποκοπής συχνοτήτων των 1000 Hz. Τα ίδια αποτελέσματα προέκυψαν και από τη σύγκριση μεταξύ των υποομάδων. Συμπερασματικά, αυτή η μελέτη κατέληξε στην ανάπτυξη τριών ομιλητικών δοκιμασιών. / The aim of this study was the development of a monaural low-redundancy speech test for assessment of the “auditory closure” process in school aged children that present learning disability and characteristics of a central auditory processing disorder. The need to determine the integrity of the peripheral hearing mechanism before testing for central auditory function, served for the development of two additional speech audiometry tests for children, due to their absence in Modern Greek language. The first was for the speech recognition threshold (SRT) and the second for the word recognition score (WRS) test. Four criteria were utilized for the development of SRT materials and eight for the WRS test. Forty trisyllabic words with thresholds within one standard deviation of the mean SRT and mean rate of growth in intelligibility were selected for the final SRT material. For the WRS test, two phonemically balanced fifty-word lists were developed. Statistical analysis between the two lists revealed no statistical significant differences on all presentation levels. In order to develop the behavioral test of CAPD, the two WRS lists were digitally modified utilizing low-pass filter with cutoff frequencies of 250, 500, 750, 1000, 1250, 1500, 1750 και 2000 and rejection rate of 18dB/octave. Initially, the SRT was determined for every child. For WRS testing, one list was presented at 40 dBSL and the second at 80 dBSL to rule out 8th nerve pathology. The SRT was within +6 dBHL from the pure tone average and no child presented WRS less than 92%. Additionally, no child presented significant reduction of WRS at 80 dBSL. The low-pass filtered lists were tested on 180 school aged children at 40 dBSL. Ninety children (52 boys and 38 girls, Μ=8.93, SD=1.68) without learning disability and 90 children (52 boys and 38 girls, Μ=9.04, SD=1.59) with learning disability and CAPD behavior characteristics were served as the subjects of the two groups. Statistical analysis of the mean WRSs between the two groups and subgroups revealed a signicant difference for most cutoff frequencies with the highest difference for the 1000 Hz filter. In conclusion, this study resulted in the production of three speech audiometry tests for school aged children. These tests serve a variety of clinical functions.
|
16 |
Κατασκευή συστήματος ταυτόχρονης αναγνώρισης ομιλίαςΧαντζιάρα, Μαρία 08 January 2013 (has links)
Σκοπός της παρούσας διπλωματικής εργασίας είναι η δημιουργία ενός συστήματος μίξης ηχητικών σημάτων και προσπάθεια διαχωρισμού τους με βάση τις μεθόδους τυφλού διαχωρισμού σημάτων. Έχοντας ως δεδομένα τα αρχικά σήματα των πηγών γίνεται προσπάθεια, αρχικά μέσω της εφαρμογής της μεθόδου Ανάλυσης Ανεξάρτητων Συνιστωσών (ICA) για την περίπτωση της στιγμιαίας μίξης και στη συνέχεια μέσω της χρήσης αλγορίθμων που στηρίζονται στο μοντέλο παράλληλου παράγοντα (PARAFAC) για την περίπτωση της συνελικτικής μίξης, να προσδιοριστούν τα σήματα των πηγών από τα σήματα μίξης. Επιπλέον, τροποποιώντας τις παραμέτρους του συστήματος που μελετάμε σε κάθε περίπτωση, προσπαθούμε να πετύχουμε τη βέλτιστη απόδοση του διαχωρισμού. / The subject of this diploma thesis is the creation of a mixing system of speech signals and the attempt of their separation using the methods of blind source separation (BSS). Considering the original source signals known, we attempt, firstly by using independent component analysis for instantaneous mixtures and then by using PARAFAC model for convolutive mixtures, to extract the original source signals from the mixing signals. Moreover, by modifying the parameters of the system we make an effort to achieve the best performance of the separation.
|
17 |
Αναγνώριση ομιλητή / Speaker recognitionGanchev, Todor 25 June 2007 (has links)
Η παρούσα διατριβή πραγματεύεται την αναγνώριση ομιλητή σε πραγματικές συνθήκες. Τα κύρια σημεία της εργασίας είναι: (1) αξιολόγηση διαφόρων προσεγγίσεων εξαγωγής χαρακτηριστικών παραμέτρων ομιλίας, (2) μείωση της ισχύος της περιβαλλοντικής επίδρασης στην απόδοση της αναγνώρισης ομιλητή, και (3) μελέτη τεχνικών κατηγοριοποίησης, εναλλακτικών προς τις υπάρχουσες. Συγκεκριμένα, στο (1), προτείνεται μια νέα δομή εξαγωγής παραμέτρων ομιλίας βασισμένη σε πακέτα κυματομορφών, κατάλληλα σχεδιασμένη για αναγνώριση ομιλητή. Εξάγεται με ένα αντικειμενικό τρόπο σε σχέση με την απόδοση αναγνώρισης ομιλητή, σε αντίθεση με την MFCC προσέγγιση, που βασίζεται στην προσέγγιση της αντίληψης της ανθρώπινης ακοής. Έπειτα, στο (2), δίνεται μια δομή για την εξαγωγή παραμέτρων βασισμένη στα MFCC, ανεκτική στο θόρυβο, για την βελτίωση της απόδοσης της αναγνώρισης ομιλητή σε πραγματικό περιβάλλον. Συνοπτικά, μια τεχνική μείωσης του θορύβου βασισμένη σε μοντέλο προσαρμοσμένη στο πρόβλημα της επιβεβαίωσης ομιλητή ενσωματώνεται απευθείας στη δομή υπολογισμού των MFCC. Αυτή η προσέγγιση επέδειξε σημαντικό πλεονέκτημα σε πραγματικό και ταχέως μεταβαλλόμενο περιβάλλον. Τέλος, στο (3), εισάγονται δύο νέοι κατηγοριοποιητές που αναφέρονται ως Locally Recurrent Probabilistic Neural Network (LR PNN), και Generalized Locally Recurrent Probabilistic Neural Network (GLR PNN). Είναι υβρίδια μεταξύ των Recurrent Neural Network (RNN) και Probabilistic Neural Network (PNN) και συνδυάζουν τα πλεονεκτήματα των γεννετικών και διαφορικών προσσεγγίσεων κατηγοριοποίησης. Επιπλέον, τα νέα αυτά νευρωνικά δίκτυα είναι ευαίσθητα σε παροδικές και ειδικές συσχετίσεις μεταξύ διαδοχικών εισόδων, και έτσι, είναι κατάλληλα για να αξιοποιήσουν την συσχέτιση παραμέτρων ομιλίας μεταξύ πλαισίων ομιλίας. Κατά την εξαγωγή των πειραμάτων, διαφάνηκε ότι οι αρχιτεκτονικές LR PNN και GLR PNN παρέχουν καλύτερη απόδοση, σε σχέση με τα αυθεντικά PNN. / This dissertation dials with speaker recognition in real-world conditions. The main accent falls on: (1) evaluation of various speech feature extraction approaches, (2) reduction of the impact of environmental interferences on the speaker recognition performance, and (3) studying alternative to the present state-of-the-art classification techniques. Specifically, within (1), a novel wavelet packet-based speech features extraction scheme fine-tuned for speaker recognition is proposed. It is derived in an objective manner with respect to the speaker recognition performance, in contrast to the state-of-the-art MFCC scheme, which is based on approximation of human auditory perception. Next, within (2), an advanced noise-robust feature extraction scheme based on MFCC is offered for improving the speaker recognition performance in real-world environments. In brief, a model-based noise reduction technique adapted for the specifics of the speaker verification task is incorporated directly into the MFCC computation scheme. This approach demonstrated significant advantage in real-world fast-varying environments. Finally, within (3), two novel classifiers referred to as Locally Recurrent Probabilistic Neural Network (LR PNN), and Generalized Locally Recurrent Probabilistic Neural Network (GLR PNN) are introduced. They are hybrids between Recurrent Neural Network (RNN) and Probabilistic Neural Network (PNN) and combine the virtues of the generative and discriminative classification approaches. Moreover, these novel neural networks are sensitive to temporal and special correlations among consecutive inputs, and therefore, are capable to exploit the inter-frame correlations among speech features derived for successive speech frames. In the experimentations, it was demonstrated that the LR PNN and GLR PNN architectures provide benefit in terms of performance, when compared to the original PNN.
|
18 |
Prosody modelling using machine learning techniques for neutral and emotional speech synthesis / Μοντελοποίηση προσωδίας με χρήση τεχνικών μηχανικής μάθησης στα πλαίσια ουδέτερης και συναισθηματικής συνθετικής ομιλίαςΛαζαρίδης, Αλέξανδρος 11 August 2011 (has links)
In this doctoral dissertation three proposed approaches were evaluated using two databases of different languages, one American-English and one Greek. The proposed approaches were compared to the state-of-the-art models in the phone duration modelling task.
The SVR model outperformed all the other individual models evaluated in this dissertation. Their ability to outperform all the other models is mainly based on their advantage of coping in a better way with high-dimensionality feature spaces in respect to the other models used in phone duration modelling, which makes them appropriate even for the case when the amount of the training data would be small respectively to the number of the feature set used.
The proposed fusion scheme, taking advantage of the observation that different prediction algorithms perform better in different conditions, when implemented with SVR (SVR-fusion), contributed to the improvement of the phone duration prediction accuracy over that of the best individual model (SVR). Furthermore the SVR-fusion model managed to reduce the outliers in respect to the best individual model (SVR).
Moreover, the proposed two-stage scheme using individual phone duration models as feature constructors in the first stage and feature vector extension (FVE) in the second stage, implemented with SVR (SVR-FVE), improved the prediction accuracy over the best individual predictor (SVR), and the SVR-fusion scheme and moreover managed to reduce the outliers in respect to the other two proposed schemes (SVR and SVR-fusion). The SVR two-stage scheme confirms in this way their advantage over all the other algorithms of coping well with high-dimensionality feature sets. The improved accuracy of phone duration modelling contributes to a better control of the prosody, and thus quality of synthetic speech.
Furthermore, the first proposed method (SVR) was also evaluated on the phone duration modelling task in emotional speech, outperforming all the state-of-the-art models in all the emotional categories.
Finally, perceptual tests were performed evaluating the impact of the proposed phone duration models to synthetic speech. The perceptual test for both the databases confirmed the results of objective tests showing the improvement achieved by the proposed models in the naturalness of synthesized speech. / Η παρούσα διδακτορική διατριβή πραγματεύεται προβλήματα που αφορούν στο χώρο της τεχνολογίας ομιλίας, με στόχο την μοντελοποίηση προσωδίας με χρήση τεχνικών μηχανικής μάθησης στα πλαίσια ουδέτερης και συναισθηματικής συνθετικής ομιλίας. Μελετήθηκαν τρεις καινοτόμες μέθοδοι μοντελοποίησης προσωδίας, οι οποίες αξιολογήθηκαν με αντικειμενικά τεστ και με υποκειμενικά τεστ ποιότητας ομιλίας για την συνεισφορά τους στην βελτίωση της ποιότητα της συνθετικής ομιλίας:
Η πρώτη τεχνική μοντελοποίησης διάρκειας φωνημάτων, βασίζεται στην μοντελοποίηση με χρήση Μηχανών Υποστήριξης Διανυσμάτων (Support Vector Regression – SVR). Η μέθοδος αυτή δεν έχει χρησιμοποιηθεί έως σήμερα στην πρόβλεψη διάρκειας φωνημάτων. Η μέθοδος αυτή συγκρίθηκε και ξεπέρασε σε απόδοση όλες τις μεθόδους της επικρατούσας τεχνολογίας (state-of-the-art) στη μοντελοποίηση της διάρκειας φωνημάτων.
Η δεύτερη τεχνική, βασίζεται στην μοντελοποίηση διάρκειας φωνημάτων με συνδυαστικό μοντέλο πολλαπλών προβλέψεων. Συγκεκριμένα, οι προβλέψεις διάρκειας φωνημάτων από ένα σύνολο ανεξάρτητων μοντέλων πρόβλεψης διάρκειας φωνημάτων χρησιμοποιούνται ως είσοδος σε ένα μοντέλο μηχανικής μάθησης, το οποίο συνδυάζει τις εξόδους από τα ανεξάρτητα μοντέλα πρόβλεψης και επιτυγχάνει μοντελοποίηση της διάρκειας φωνημάτων με μεγαλύτερη ακρίβεια, μειώνοντας επιπλέον και τα μεγάλα σφάλματα (outliers), δηλαδή τα σφάλματα που βρίσκονται μακριά από το μέσο όρο των σφαλμάτων.
Η τρίτη τεχνική, είναι μια μέθοδος μοντελοποίησης διάρκειας φωνημάτων δύο σταδίων με κατασκευή νέων χαρακτηριστικών και επέκταση του διανύσματος χαρακτηριστικών. Συγκεκριμένα, στο πρώτο στάδιο, ένα σύνολο ανεξάρτητων μοντέλων πρόβλεψης διάρκειας φωνημάτων που χρησιμοποιούνται ως παραγωγοί νέων χαρακτηριστικών εμπλουτίζουν το διάνυσμα χαρακτηριστικών. Στο δεύτερο στάδιο, το εμπλουτισμένο διάνυσμα χρησιμοποιείται για να εκπαιδευτεί ένα μοντέλο πρόβλεψης διάρκειας φωνημάτων το οποίο επιτυγχάνει υψηλότερη απόδοση σε σχέση με όλες τις προηγούμενες μεθόδους, και μειώνει τα μεγάλα σφάλματα.
Επιπλέον εφαρμόστηκε η πρώτη μέθοδος σε συναισθηματική ομιλία. Το προτεινόμενο SVR μοντέλο επιτυγχάνει την υψηλότερη απόδοση συγκρινόμενο με όλα τα state-of-the-art μοντέλα.
Τέλος, πραγματοποιήθηκαν υποκειμενικά τεστ ποιότητας ομιλίας ώστε να αξιολογηθεί η συνεισφορά των τριών προτεινόμενων μεθόδων στη βελτίωση της ποιότητας της συνθετικής ομιλίας. Τα τεστ αυτά επιβεβαίωσαν την αξία των προτεινόμενων μεθόδων και τη συνεισφορά τους στη βελτίωση της ποιότητας στην συνθετική ομιλία.
|
19 |
Signal processing methods for enhancing speech and music signals in reverberant environments / Μέθοδοι ανάλυσης και ψηφιακής επεξεργασίας για την βελτίωση σημάτων ομιλίας και μουσικής σε χώρους με αντήχησηΤσιλφίδης, Αλέξανδρος 06 October 2011 (has links)
This thesis presents novel signal processing algorithms for speech and music dereverberation. The proposed algorithms focus on blind single-channel suppression of late reverberation; however binaural and semi-blind methods have also been introduced. Late reverberation is a particularly harmful distortion, since it significantly decreases the perceived quality of the reverberant signals but also degrades the performance of Automatic Speech Recognition (ASR) systems and other speech and music processing algorithms. Hence, the proposed deverberation methods can be either used as standalone enhancing techniques or implemented as preprocessing schemes prior to ASR or other applied systems.
The main dereverberation method proposed here is a blind dereverberation technique based on perceptual reverberation modeling has been developed. This technique employs a computational auditory masking model and locates the signal regions where late reverberation is audible, i.e. where it is unmasked from the clean signal components. Following a selective signal processing approach, only such signal regions are further processed through sub-band gain filtering. The above technique has been evaluated for both speech and music signals and for a wide range of reverberation conditions. In all cases it was found to minimize the processing artifacts and to produce perceptually superior clean signal estimations than any other tested technique. Moreover, extensive ASR tests have shown that it significantly improves the recognition performance, especially in highly reverberant environments. / Η διατριβή αποτελείται από εννιά κεφάλαια, δύο παραρτήματα καθώς και την σχετική βιβλιογραφία. Είναι γραμμένη στα αγγλικά ενώ περιλαμβάνει και ελληνική περίληψη. Στην παρούσα διατριβή, αναπτύσσονται μεθόδοι ψηφιακής επεξεργασίας σήματος για την αφαίρεση αντήχησης από σήματα ομιλίας και μουσικής. Οι προτεινόμενοι αλγόριθμοι καλύπτουν ένα μεγάλο εύρος εφαρμογών αρχικά εστιάζοντας στην τυφλή (“blind”) αφαίρεση για μονοκαναλικά σήματα. Στοχεύοντας σε πιο ειδικά σενάρια χρήσης προτείνονται επίσης αμφιωτικοί αλγόριθμοι αλλά και τεχνικές που προϋποθέτουν την πραγματοποίηση κάποιας ακουστικής μέτρησης. Οι αλγόριθμοι επικεντρώνουν στην αφαίρεση της καθυστερημένης αντήχησης που είναι ιδιαίτερα επιβλαβής για την ποιότητα σημάτων ομιλίας και μουσικής και μειώνει την καταληπτότητα της ομιλίας. Επίσης, επειδή αλλοιώνει σημαντικά τα στατιστικά των σημάτων, μειώνει σημαντικά την απόδοση συστημάτων αυτόματης αναγνώρισης ομιλίας καθώς και άλλων αλγορίθμων ψηφιακής επεξεργασίας ομιλίας και μουσικής. Έτσι οι προτεινόμενοι αλγόριθμοι μπορούν είτε να χρησιμοποιηθούν σαν αυτόνομες τεχνικές βελτίωσης της ποιότητας των ακουστικών σημάτων είτε να ενσωματωθούν σαν στάδια προ-επεξεργασίας σε άλλες εφαρμογές.
Η κύρια μέθοδος αφαίρεσης αντήχησης που προτείνεται στην διατριβή, είναι βασισμένη στην αντιληπτική μοντελοποίηση και χρησιμοποιεί ένα σύγχρονο ψυχοακουστικό μοντέλο. Με βάση αυτό το μοντέλο γίνεται μία εκτίμηση των σημείων του σήματος που η αντήχηση είναι ακουστή δηλαδή που δεν επικαλύπτεται από το ισχυρότερο σε ένταση καθαρό από αντήχηση σήμα. Η συγκεκριμένη εκτίμηση οδηγεί σε μία επιλεκτική επεξεργασία σήματος όπου η αφαίρεση πραγματοποιείται σε αυτά και μόνο τα σημεία, μέσω πρωτότυπων υβριδικών συναρτήσεων κέρδους που βασίζονται σε δείκτες αντικειμενικής και υποκειμενικής αλλοίωσης. Εκτεταμένα αντικειμενικά και υποκειμενικά πειράματα δείχνουν ότι η προτεινόμενη τεχνική δίνει βέλτιστες ποιοτικά ανηχωικές εκτιμήσεις ανεξάρτητα από το μέγεθος του χώρου.
|
20 |
Ενίσχυση σημάτων μουσικής υπό το περιβάλλον θορύβουΠαπανικολάου, Παναγιώτης 20 October 2010 (has links)
Στην παρούσα εργασία επιχειρείται η εφαρμογή αλγορίθμων αποθορυβοποίησης σε σήματα
μουσικής και η εξαγωγή συμπερασμάτων σχετικά με την απόδοση αυτών ανά μουσικό είδος. Η
κύρια επιδίωξη είναι να αποσαφηνιστούν τα βασικά προβλήματα της ενίσχυσης ήχων και να
παρουσιαστούν οι διάφοροι αλγόριθμοι που έχουν αναπτυχθεί για την επίλυση των προβλημάτων αυτών. Αρχικά γίνεται μία σύντομη εισαγωγή στις βασικές έννοιες πάνω στις οποίες δομείται η τεχνολογία ενίσχυσης ομιλίας. Στην συνέχεια εξετάζονται και αναλύονται αντιπροσωπευτικοί
αλγόριθμοι από κάθε κατηγορία τεχνικών αποθορυβοποίησης, την κατηγορία φασματικής
αφαίρεσης, την κατηγορία στατιστικών μοντέλων και αυτήν του υποχώρου. Για να μπορέσουμε να
αξιολογήσουμε την απόδοση των παραπάνω αλγορίθμων χρησιμοποιούμε αντικειμενικές μετρήσεις
ποιότητας, τα αποτελέσματα των οποίων μας δίνουν την δυνατότητα να συγκρίνουμε την απόδοση
του κάθε αλγορίθμου. Με την χρήση τεσσάρων διαφορετικών μεθόδων αντικειμενικών μετρήσεων
διεξάγουμε τα πειράματα εξάγοντας μια σειρά ενδεικτικών τιμών που μας δίνουν την ευχέρεια να
συγκρίνουμε είτε τυχόν διαφοροποιήσεις στην απόδοση των αλγορίθμων της ίδιας κατηγορίας είτε
διαφοροποιήσεις στο σύνολο των αλγορίθμων. Από την σύγκριση αυτή γίνεται εξαγωγή χρήσιμων
συμπερασμάτων σχετικά με τον προσδιορισμό των παραμέτρων κάθε αλγορίθμου αλλά και με την καταλληλότητα του κάθε αλγορίθμου για συγκεκριμένες συνθήκες θορύβου και για συγκεκριμένο μουσικό είδος. / This thesis attempts to apply Noise Reduction algorithms to signals of music and draw conclusions concerning the performance of each algorithm for every musical genre. The main aims are to clarify the basic problems of sound enhancement and present the various algorithms
developed for solving these problems. After a brief introduction to basic concepts on sound enhancement we examine and analyze various algorithms that have been proposed at times in the literature for speech enhancement. These algorithms can be divided into three main classes: spectral
subtractive algorithms, statistical-model-based algorithms and subspace algorithms. In order to
evaluate the performance of the above algorithms we use objective measures of quality, the results of which give us the opportunity to compare the performance of each algorithm. By using four different methods of objective measures to conduct the experiments we draw a set of values that
facilitate us to make within-class algorithm comparisons and across-class algorithm comparisons. From these comparisons we can draw conclusions on the determination of parameters for each algorithm and the appropriateness of algorithms for specific noise conditions and music genre.
|
Page generated in 0.1158 seconds