Global ETD Search

1	Αναγνώριση συνεχούς ομιλίας σε περιβάλλον θορύβου με χρήση πολλών μικροφώνων Νόκας, Γεώργιος Ν. 19 July 2010 (has links) - / - 006.454 Automatic speech recognition
2	Αναγνώριση φύλου μέσω ομιλίας Βασιλόπουλος, Χρήστος 20 October 2010 (has links) Η παρούσα διπλωματική εργασία αναφέρεται σε ένα αυτόματο σύστημα αναγνώρισης με χρήση της ομιλίας, και πιο συγκεκριμένα σε ένα σύστημα αναγνώρισης φύλου μέσω ομιλίας. Αναλύεται η δομή του, περιγράφεται η λειτουργία του και δίνονται οι λεπτομέρειες κάθε τμήματος του. Αρχικά, η εργασία επικεντρώνεται στην προεπεξεργασία του σήματος ομιλίας και στην εξαγωγή των κατάλληλων παραμέτρων, οι οποίες θα μπορέσουν να χαρακτηρίσουν κάθε φύλο. Στη συνέχεια, περιγράφεται η διαδικασία ταξινόμησης του συστήματος, οι αλγόριθμοι που χρησιμοποιούνται και στο τέλος παρουσιάζονται τα ποσοστά επιτυχίας. Τα αποτελέσματα υποδεικνύουν και το βέλτιστο σύνολο παραμέτρων ομιλίας για αξιόπιστη αναγνώριση φύλου. / The purpose of this diploma thesis is the study of a gender recognition system based on speech. More specifically the system’s structure is analyzed, its functions are described and details regarding every single part are given. We focus on the preprocessing of the speech signal and the definition of the appropriate parameters that characterize every gender. Moreover, the methods, which are used for classification during the experimental setup, are described and be presented with their results. These results also suggest the optimized speech parameters appropriate for reliable gender recognition. Αναγνώριση φύλου Αναγνώριση ομιλίας 006.45 Gender recognition Speech recognition
3	Αυτόματη αναγνώριση συλλαβών με χρήση υβριδικών μοντέλων MARKOV & νευρωνικών δικτύων Συρίγος, Ιωάννης X. 05 July 2010 (has links) - / - 006.3 Neural networks Automatic speech recognition
4	Ανάπτυξη συστήματος ασύρματου ελέγχου ρομπότ με ομιλία Παρταουρίδης, Χαράλαμπος 07 June 2013 (has links) Στην παρούσα διπλωματική εργασία παρουσιάζεται η ανάπτυξη συστήματος ασύρματου ελέγχου, του ρομπότ Amigobot. Το σύστημα ελέγχεται μέσω ομιλίας και χρησιμοποιείται το ανοικτό λογισμικό Olympus. / In this diplomatic work we develop a system for wireless control of the robot Amigobot. The system is controlled through speech and we use the open source software Olympus. Αναγνώριση ομιλίας Ρομπότ Συστήματα ομιλίας 629.895 Speech recognition Robots Amigobot Olympus Ravenclaw
5	Μελέτη γλωσσολογικών μοντέλων για αναγνώριση συναισθημάτων ομιλητή Αποστολόπουλος, Γεώργιος 07 June 2010 (has links) Με τη συνεχώς αυξανόμενη παρουσία αυτόματων συστημάτων στην καθημερινότητά μας, εισέρχεται και το βάρος της αλληλεπίδρασης με αυτά τα συστήματα εξαιτίας της έλλειψης συναισθηματικής νοημοσύνης από την πλευρά των μηχανών [1]. Η συναισθηματική πληροφορία που μεταδίδεται μέσω της ανθρώπινης ομιλίας αποτελεί σημαντικό παράγοντα στις ανθρώπινες επικοινωνίες και αλληλεπιδράσεις. Όταν οι άνθρωποι αλληλεπιδρούν με μηχανές ή υπολογιστικά συστήματα υπάρχει ένα κενό μεταξύ της πληροφορίας που μεταδίδεται και αυτής που γίνεται αντιληπτή. Η εργασία αυτή επικεντρώνεται στον τρόπο με τον οποίο ένα υπολογιστικό σύστημα μπορεί να αντιληφθεί την συναισθηματική πληροφορία που υποβόσκει στην ανθρώπινη ομιλία χρησιμοποιώντας την πληροφορία που βρίσκεται στα διάφορα γλωσσολογικά μοντέλα. Γίνεται μελέτη ενός συστήματος αναγνώρισης της συναισθηματικής κατάστασης του ομιλητή, και πιο συγκεκριμένα επικεντρωνόμαστε στην επεξεργασία ομιλίας και την εξαγωγή των κατάλληλων παραμέτρων, οι οποίες θα μπορέσουν να χαρακτηρίσουν μονοσήμαντα κάθε συναισθηματική κατάσταση. Κάνουμε επεξεργασία οπτικοακουστικού υλικού χρησιμοποιώντας διάφορα εργαλεία λογισμικού με σκοπό να αντλήσουμε αξιόπιστη γλωσσολογική πληροφορία, η οποία να είναι αντιπροσωπευτική των διαφόρων συναισθημάτων που εξετάζουμε. Συνδυάζοντας τη γλωσσολογική με την ακουστική πληροφορία καταλήγουμε σε ένα ολοκληρωμένο μοντέλο αναγνώρισης συναισθημάτων. Τα αποτελέσματά μας υποδεικνύουν το ποσοστό κατά το οποίο τα εξαγόμενα γλωσσολογικά μοντέλα μπορούν να μας προσφέρουν αξιόπιστη αναγνώριση συναισθημάτων ενός ομιλητή. / Along with the constantly increasing presence of automatic systems in our everyday lives, there comes the problem of interaction with thesse sytems because of the lack of artificial intelligence from the systems themselves. Emotion information transcripted through human language is an important factor of human interactions and conversations. When people interact with computer systems though, there is a gap between the information sent and the information perceived. This diploma thesis focuses on the way a computer system can perceive the information of emotions that underlies in human speech, by using the information found in linguistic models. We study a recognition system for the emotional state of the speaker himself and specifically we focus on the speech recognition and its parameters, which could uniquely identify every emotional state. We edit some video samples using the appropriate software in order to draw credible linguistic information, which is representative of the examined emotions. By combining the linguistic information with the aural information, we can reach a state where we can have a complete speech recognition system. The results of our work present the percentage at which these models can provide acceptable emotional recognition of a speaker. Γλωσσολογικά μοντέλα Συναισθήματα Δίκτυα πεποίθησης Αναγνώριση ομιλίας 006.454 Emotion recognition Linguistics Emotions Belief networks Speech recognition
6	Αναγνώριση ομιλητή και ομιλίας με χρήση κυματιδίων Σιαφαρίκας, Μιχαήλ 06 September 2010 (has links) Σκοπός της παρούσας διατριβής είναι η εκμετάλλευση των κυματιδίων με σκοπό την βελτίωση της απόδοσης συστημάτων αναγνώρισης ομιλητή και ομιλίας. Στα πλαίσια αυτά, εισάγονται τέσσερις νέοι τρόποι παραμετροποίησης του σήματος ομιλίας: (1) Η πρώτη μέθοδος προσαρμόζει την ανάλυση συχνότητας των πακέτων κυματιδίων για την προσέγγιση της ψυχοακουστικής επίδρασης των κρίσιμων ζωνών του ακουστικού συστήματος ενσωματώνοντας τις τελευταίες εξελίξεις για τον υπολογισμό τους. (2) Η δεύτερη μέθοδος εισάγει μια επέκταση του μετασχηματισμού πακέτων κυματιδίων, τον επικαλυπτόμενο μετασχηματισμό πακέτων κυματιδίων, ο οποίος χρησιμοποιείται για να δοθεί έμφαση στις περιοχές αλλαγής των κρίσιμων ζωνών από μια μικρότερη σε μια μεγαλύτερη τιμή. (3) Η τρίτη μέθοδος αξιολογεί τη συνεισφορά μη επικαλυπτόμενων ζωνών συχνοτήτων στην αναγνώριση ομιλητή και κατασκευάζεται ανάλογα ένας μετασχηματισμός πακέτων κυματιδίων ο οποίος προσαρμόζει την συχνοτική του ανάλυση σύμφωνα με την απόδοση κάθε μίας από τις ζώνες. (4) Η τέταρτη μέθοδος επιλέγει τη βέλτιστη βάση από το σύνολο των μετασχηματισμών που είναι διαθέσιμοι με τα πακέτα κυματιδίων με εφαρμογή την αναγνώριση ομιλητή και κριτήριο το μέτρο EER. Οι παραπάνω τέσσερις τρόποι παραμετροποίησης του σήματος ομιλίας αξιολογήθηκαν με το σύστημα αναγνώρισης ομιλητή WCL-1 του εργαστηρίου ενσύρματης τηλεπικοινωνίας του Πανεπιστημίου Πατρών στις βάσεις δεδομένων POLYCOST και NIST και αποδείχθηκε η ανωτερότητά τους τόσο σε σχέση με προηγούμενες μεθόδους των κυματιδίων όσο και σε σχέση με ευρέως χρησιμοποιούμενες παραμέτρους ομιλίας, όπως οι παράμετροι cepstral με βάση την κλίμακα mel (MFCC). Επιπλέον, στη διατριβή αναλύονται οι ιδιότητες των σημαντικότερων συναρτήσεων κυματιδίων, επιλέγεται η βέλτιστη για την αναπαράσταση του σήματος ομιλίας και πιστοποιείται στην πράξη αυτή η επιλογή. Τέλος, οι δύο πρώτες από τις προαναφερόμενες μεθόδους παραμετροποίησης τροποποιήθηκαν και επεκτάθηκαν κατάλληλα για την εφαρμογή στην αναγνώριση ομιλίας όπου αξιολογήθηκαν και διαπιστώθηκε η υπεροχή τους έναντι παραδοσιακών και ευρέως διαδεδομένων μεθόδων παραμετροποίησης του σήματος ομιλίας που στηρίζονται στον μετασχηματισμό Fourier. Το κύριο συμπέρασμα που προέκυψε από τη παρούσα διδακτορική διατριβή είναι ότι τα κυματίδια και συγκεκριμένα τα πακέτα κυματιδίων είναι δυνατόν να χρησιμοποιηθούν με επιτυχία στη βελτίωση της απόδοσης συστημάτων αναγνώρισης ομιλητή και ομιλίας. / The main goal of the present thesis is the exploitation of wavelets for the optimization of speaker and speech recognition systems performance. In this context, four new speech parameterization methods are introduced: (1) The first method adapts the frequency resolution of wavelet packet transform to the critical bandwidth of auditory filters incorporating the recent advances for their estimation. (2) The second method introduces a generalization of wavelet packet transform, named overlapping wavelet packet transform, which emphasizes those frequency sub-bands that critical bandwidth changes from a finer to a coarser value. (3) The third method evaluates the contribution of each one of eight non-overlapping frequency sub-bands, that the Nyquist interval is divided, to the speaker recognition task and a wavelet packet transform is constructed which adapts its frequency resolution according to the performance of each sub-band. (4) The fourth method introduces a new technique for seeking and selecting the best basis among all wavelet packet transforms available in the speaker recognition task taking as criterion the EER. The aforementioned four speech signal parameterizations were evaluated on the speaker verification system WCL-1 of Wire Communications Laboratory, University of Patras, utilizing the speaker recognition corpora POLYCOST and NIST and their superiority was proven over previous wavelet-based parameterizations as well as the widely used Mel Frequency Cepstral Coefficients (MFCC). Among the four proposed methods, it was proven that the second parameterization technique exhibited the best performance. Furthermore, the most important wavelet properties are thoroughly analyzed, the optimal is selected for the representation of the speech signal and this choice is experimentally verified. Finally, the first two parameterization methods were further modified and extended appropriately for application on the speech recognition task where their superiority was proven over traditionally and widely used speech parameterization techniques based on Fourier transform. The main conclusion that resulted in the present doctoral thesis is that wavelets and specifically wavelet packet transforms can be used successfully for the tasks of speaker and speech recognition. Αναγνώριση ομιλητή Επιβεβαίωση ομιλητή Αναγνώριση ομιλίας Κυματίδια Πακέτα κυματιδίων Παράμετροι ομιλίας 006.454 Speaker recognition Speaker verification Speech recognition Wavelets Wavelet packets Speech features Critical bands
7	Κατασκευή συστήματος ταυτόχρονης αναγνώρισης ομιλίας Χαντζιάρα, Μαρία 08 January 2013 (has links) Σκοπός της παρούσας διπλωματικής εργασίας είναι η δημιουργία ενός συστήματος μίξης ηχητικών σημάτων και προσπάθεια διαχωρισμού τους με βάση τις μεθόδους τυφλού διαχωρισμού σημάτων. Έχοντας ως δεδομένα τα αρχικά σήματα των πηγών γίνεται προσπάθεια, αρχικά μέσω της εφαρμογής της μεθόδου Ανάλυσης Ανεξάρτητων Συνιστωσών (ICA) για την περίπτωση της στιγμιαίας μίξης και στη συνέχεια μέσω της χρήσης αλγορίθμων που στηρίζονται στο μοντέλο παράλληλου παράγοντα (PARAFAC) για την περίπτωση της συνελικτικής μίξης, να προσδιοριστούν τα σήματα των πηγών από τα σήματα μίξης. Επιπλέον, τροποποιώντας τις παραμέτρους του συστήματος που μελετάμε σε κάθε περίπτωση, προσπαθούμε να πετύχουμε τη βέλτιστη απόδοση του διαχωρισμού. / The subject of this diploma thesis is the creation of a mixing system of speech signals and the attempt of their separation using the methods of blind source separation (BSS). Considering the original source signals known, we attempt, firstly by using independent component analysis for instantaneous mixtures and then by using PARAFAC model for convolutive mixtures, to extract the original source signals from the mixing signals. Moreover, by modifying the parameters of the system we make an effort to achieve the best performance of the separation. Αναγνώριση ομιλίας Στιγμιαία μίξη Συνελικτική μίξη 006.454 Independent component analysis (ICA) Speech recognition Instantaneous mixing Convolutive mixing Blind source separation
8	Αυτόματος τεμαχισμός ψηφιακών σημάτων ομιλίας και εφαρμογή στη σύνθεση ομιλίας, αναγνώριση ομιλίας και αναγνώριση γλώσσας / Automatic segmentation of digital speech signals and application to speech synthesis, speech recognition and language recognition Μπόρας, Ιωσήφ 19 October 2009 (has links) Η παρούσα διατριβή εισάγει μεθόδους για τον αυτόματο τεμαχισμό σημάτων ομιλίας. Συγκεκριμένα παρουσιάζονται τέσσερις νέες μέθοδοι για τον αυτόματο τεμαχισμό σημάτων ομιλίας, τόσο για γλωσσολογικά περιορισμένα όσο και μη προβλήματα. Η πρώτη μέθοδος κάνει χρήση των σημείων του σήματος που αντιστοιχούν στα ανοίγματα των φωνητικών χορδών κατά την διάρκεια της ομιλίας για να εξάγει όρια ψευδό-φωνημάτων με χρήση του αλγορίθμου δυναμικής παραμόρφωσης χρόνου. Η δεύτερη τεχνική εισάγει μια καινοτόμα υβριδική μέθοδο εκπαίδευσης κρυμμένων μοντέλων Μαρκώφ, η οποία τα καθιστά πιο αποτελεσματικά στον τεμαχισμό της ομιλίας. Η τρίτη μέθοδος χρησιμοποιεί αλγορίθμους μαθηματικής παλινδρόμησης για τον συνδυασμό ανεξαρτήτων μηχανών τεμαχισμού ομιλίας. Η τέταρτη μέθοδος εισάγει μια επέκταση του αλγορίθμου Βιτέρμπι με χρήση πολλαπλών παραμετρικών τεχνικών για τον τεμαχισμό της ομιλίας. Τέλος, οι προτεινόμενες μέθοδοι τεμαχισμού χρησιμοποιούνται για την βελτίωση συστημάτων στο πρόβλημα της σύνθεσης ομιλίας, αναγνώρισης ομιλίας και αναγνώρισης γλώσσας. / The present dissertation introduces methods for the automatic segmentation of speech signals. In detail, four new segmentation methods are presented both in for the cases of linguistically constrained or not segmentation. The first method uses pitchmark points to extract pseudo-phonetic boundaries using dynamic time warping algorithm. The second technique introduces a new hybrid method for the training of hidden Markov models, which makes them more effective in the speech segmentation task. The third method uses regression algorithms for the fusion of independent segmentation engines. The fourth method is an extension of the Viterbi algorithm using multiple speech parameterization techniques for segmentation. Finally, the proposed methods are used to improve systems in the task of speech synthesis, speech recognition and language recognition. Τεμαχισμός ομιλίας Αναγνώριση ομιλίας Σύνθεση ομιλίας Αναγνώριση γλώσσας Αλγόριθμος Βιτέρμπι 006.454 Speech segmentation Hidden Markov models Speech recognition Speech synthesis Language recognition Viterbi algorithm Regression Dynamic time warping
9	Signal processing methods for enhancing speech and music signals in reverberant environments / Μέθοδοι ανάλυσης και ψηφιακής επεξεργασίας για την βελτίωση σημάτων ομιλίας και μουσικής σε χώρους με αντήχηση Τσιλφίδης, Αλέξανδρος 06 October 2011 (has links) This thesis presents novel signal processing algorithms for speech and music dereverberation. The proposed algorithms focus on blind single-channel suppression of late reverberation; however binaural and semi-blind methods have also been introduced. Late reverberation is a particularly harmful distortion, since it significantly decreases the perceived quality of the reverberant signals but also degrades the performance of Automatic Speech Recognition (ASR) systems and other speech and music processing algorithms. Hence, the proposed deverberation methods can be either used as standalone enhancing techniques or implemented as preprocessing schemes prior to ASR or other applied systems. The main dereverberation method proposed here is a blind dereverberation technique based on perceptual reverberation modeling has been developed. This technique employs a computational auditory masking model and locates the signal regions where late reverberation is audible, i.e. where it is unmasked from the clean signal components. Following a selective signal processing approach, only such signal regions are further processed through sub-band gain filtering. The above technique has been evaluated for both speech and music signals and for a wide range of reverberation conditions. In all cases it was found to minimize the processing artifacts and to produce perceptually superior clean signal estimations than any other tested technique. Moreover, extensive ASR tests have shown that it significantly improves the recognition performance, especially in highly reverberant environments. / Η διατριβή αποτελείται από εννιά κεφάλαια, δύο παραρτήματα καθώς και την σχετική βιβλιογραφία. Είναι γραμμένη στα αγγλικά ενώ περιλαμβάνει και ελληνική περίληψη. Στην παρούσα διατριβή, αναπτύσσονται μεθόδοι ψηφιακής επεξεργασίας σήματος για την αφαίρεση αντήχησης από σήματα ομιλίας και μουσικής. Οι προτεινόμενοι αλγόριθμοι καλύπτουν ένα μεγάλο εύρος εφαρμογών αρχικά εστιάζοντας στην τυφλή (“blind”) αφαίρεση για μονοκαναλικά σήματα. Στοχεύοντας σε πιο ειδικά σενάρια χρήσης προτείνονται επίσης αμφιωτικοί αλγόριθμοι αλλά και τεχνικές που προϋποθέτουν την πραγματοποίηση κάποιας ακουστικής μέτρησης. Οι αλγόριθμοι επικεντρώνουν στην αφαίρεση της καθυστερημένης αντήχησης που είναι ιδιαίτερα επιβλαβής για την ποιότητα σημάτων ομιλίας και μουσικής και μειώνει την καταληπτότητα της ομιλίας. Επίσης, επειδή αλλοιώνει σημαντικά τα στατιστικά των σημάτων, μειώνει σημαντικά την απόδοση συστημάτων αυτόματης αναγνώρισης ομιλίας καθώς και άλλων αλγορίθμων ψηφιακής επεξεργασίας ομιλίας και μουσικής. Έτσι οι προτεινόμενοι αλγόριθμοι μπορούν είτε να χρησιμοποιηθούν σαν αυτόνομες τεχνικές βελτίωσης της ποιότητας των ακουστικών σημάτων είτε να ενσωματωθούν σαν στάδια προ-επεξεργασίας σε άλλες εφαρμογές. Η κύρια μέθοδος αφαίρεσης αντήχησης που προτείνεται στην διατριβή, είναι βασισμένη στην αντιληπτική μοντελοποίηση και χρησιμοποιεί ένα σύγχρονο ψυχοακουστικό μοντέλο. Με βάση αυτό το μοντέλο γίνεται μία εκτίμηση των σημείων του σήματος που η αντήχηση είναι ακουστή δηλαδή που δεν επικαλύπτεται από το ισχυρότερο σε ένταση καθαρό από αντήχηση σήμα. Η συγκεκριμένη εκτίμηση οδηγεί σε μία επιλεκτική επεξεργασία σήματος όπου η αφαίρεση πραγματοποιείται σε αυτά και μόνο τα σημεία, μέσω πρωτότυπων υβριδικών συναρτήσεων κέρδους που βασίζονται σε δείκτες αντικειμενικής και υποκειμενικής αλλοίωσης. Εκτεταμένα αντικειμενικά και υποκειμενικά πειράματα δείχνουν ότι η προτεινόμενη τεχνική δίνει βέλτιστες ποιοτικά ανηχωικές εκτιμήσεις ανεξάρτητα από το μέγεθος του χώρου. Digital signal processing Room accoustics Psychoacoustics Dereverberation Noise suppression Automatic speech recognition Speech processing Music processing 621.382 24 Ακουστική χώρων Ψυχοακουστική Αφαίρεση αντήχησης Επεξεργασία μουσικής

Search results