Με τη συνεχώς αυξανόμενη παρουσία αυτόματων συστημάτων στην καθημερινότητά μας, εισέρχεται και το βάρος της αλληλεπίδρασης με αυτά τα συστήματα εξαιτίας της έλλειψης συναισθηματικής νοημοσύνης από την πλευρά των μηχανών [1]. Η συναισθηματική πληροφορία που μεταδίδεται μέσω της ανθρώπινης ομιλίας αποτελεί σημαντικό παράγοντα στις ανθρώπινες επικοινωνίες και αλληλεπιδράσεις. Όταν οι άνθρωποι αλληλεπιδρούν με μηχανές ή υπολογιστικά συστήματα υπάρχει ένα κενό μεταξύ της πληροφορίας που μεταδίδεται και αυτής που γίνεται αντιληπτή. Η εργασία αυτή επικεντρώνεται στον τρόπο με τον οποίο ένα υπολογιστικό σύστημα μπορεί να αντιληφθεί την συναισθηματική πληροφορία που υποβόσκει στην ανθρώπινη ομιλία χρησιμοποιώντας την πληροφορία που βρίσκεται στα διάφορα γλωσσολογικά μοντέλα. Γίνεται μελέτη ενός συστήματος αναγνώρισης της συναισθηματικής κατάστασης του ομιλητή, και πιο συγκεκριμένα επικεντρωνόμαστε στην επεξεργασία ομιλίας και την εξαγωγή των κατάλληλων παραμέτρων, οι οποίες θα μπορέσουν να χαρακτηρίσουν μονοσήμαντα κάθε συναισθηματική κατάσταση. Κάνουμε επεξεργασία οπτικοακουστικού υλικού χρησιμοποιώντας διάφορα εργαλεία λογισμικού με σκοπό να αντλήσουμε αξιόπιστη γλωσσολογική πληροφορία, η οποία να είναι αντιπροσωπευτική των διαφόρων συναισθημάτων που εξετάζουμε. Συνδυάζοντας τη γλωσσολογική με την ακουστική πληροφορία καταλήγουμε σε ένα ολοκληρωμένο μοντέλο αναγνώρισης συναισθημάτων. Τα αποτελέσματά μας υποδεικνύουν το ποσοστό κατά το οποίο τα εξαγόμενα γλωσσολογικά μοντέλα μπορούν να μας προσφέρουν αξιόπιστη αναγνώριση συναισθημάτων ενός ομιλητή. / Along with the constantly increasing presence of automatic systems in our everyday lives, there comes the problem of interaction with thesse sytems because of the lack of artificial intelligence from the systems themselves. Emotion information transcripted through human language is an important factor of human interactions and conversations. When people interact with computer systems though, there is a gap between the information sent and the information perceived. This diploma thesis focuses on the way a computer system can perceive the information of emotions that underlies in human speech, by using the information found in linguistic models. We study a recognition system for the emotional state of the speaker himself and specifically we focus on the speech recognition and its parameters, which could uniquely identify every emotional state. We edit some video samples using the appropriate software in order to draw credible linguistic information, which is representative of the examined emotions. By combining the linguistic information with the aural information, we can reach a state where we can have a complete speech recognition system. The results of our work present the percentage at which these models can provide acceptable emotional recognition of a speaker.
Identifer | oai:union.ndltd.org:upatras.gr/oai:nemertes:10889/3139 |
Date | 07 June 2010 |
Creators | Αποστολόπουλος, Γεώργιος |
Contributors | Φακωτάκης, Νικόλαος, Apostolopoulos, Georgios, Φακωτάκης, Νικόλαος |
Source Sets | University of Patras |
Language | gr |
Detected Language | Greek |
Type | Thesis |
Rights | 0 |
Page generated in 0.0126 seconds