Η αναγνώριση και κατηγοριοποίηση ονομάτων οντοτήτων είναι μία ιδιαίτερα χρήσιμη υπό-εργασία σε πολλές εφαρμογές επεξεργασίας φυσικής γλώσσας. Σε αυτήν την εργασία παρουσιάζεται μία προσπάθεια αναγνώρισης και κατηγοριοποίησης ονομάτων προσώπων, ημερομηνιών, περιοχών(πόλεων, χωρών) και οργανισμών(π.χ. Δημόσια Επιχείρηση Ηλεκτρισμού) χρησιμοποιώντας μια νέα μέθοδο επιβλεπόμενης μάθησης για ταξινόμηση δεδομένων, τα «Τυχαία Δάση». Η μέθοδος κατηγοριοποίησης αυτή, χρησιμοποιεί ένα σύνολο δέντρων απόφασης, όπου το κάθε ένα «ψηφίζει» μια κατηγορία. Η τελική και οριστική κατηγοριοποίηση γίνεται με το «τυχαίο δάσος» να διαλέγει την κατηγορία με τις περισσότερες ψήφους.
Σε μια συλλογή ελληνικών κειμένων, εφαρμόστηκαν τεχνικές επεξεργασίας κειμένων για διαχωρισμό και κατηγοριοποίηση των λέξεων, όπου το αποτέλεσμα που προέκυψε ήταν ένα σύνολο χαρακτηριστικών για κάθε λέξη. Το σύνολο των χαρακτηριστικών χωρίστηκε σε ένα «σύνολο εκπαίδευσης» και ένα «σύνολο ελέγχου». Το «σύνολο εκπαίδευσης» χρησιμοποιήθηκε για την εκπαίδευση του «τυχαίου δάσους». Το τελευταίο, θα χρησιμοποιηθεί για την αναγνώριση της κατηγορίας στην οποία ανήκει μια λέξη. Το Τυχαίο Δάσος που αναπτύχθηκε, ελέγχθηκε με βάση το «σύνολο ελέγχου» και προέκυψαν ικανοποιητικά αποτελέσματα, πιο συγκεκριμένα για την κατάταξη ημερομηνιών και οργανισμών η απόδοση ήταν 96% ενώ η ακρίβειά του ήταν 93%. Επιπλέον, για το πρόβλημα που διερευνάται, συγκρίθηκαν τα αποτελέσματα της χρήσης Μηχανών Διανυσμάτων Υποστήριξης και Νευρωνικών Δικτύων με αυτά των Τυχαίων Δασών. / Name entity recognition and categorization is a very important subtask in several natural language processing applications. In this master thesis, we present an attempt to recognize and categorize person names, temporal expressions(i.e. dates), areas (cities/countries), organizations (e.g. Public Electric Company) by using a new supervised learning method for classification, Random Forests. This classification method, uses a group of decision trees where each tree, votes for one classification category. The Random Forest results to the classification category with the most votes.
In a Greek corpus (collection of texts), text processing techniques were applied such as stemming and tokenization. The result obtained was a set of features for each word. The set of features was divided to a “train dataset” and a “test dataset”. The “train dataset” was used in order to train the Random Forest. The latter will classify each word to one of the four categories mentioned before. The Random Forest, was tested against the “test dataset” and the results were very satisfactory, in particular the performance for classifying dates and organizations was 96%, in addition classification accuracy was 93%. Furthermore, for the problem examined, the results of using Support Vector Machines and Neural Networks, where compared with the ones of Random Forests.
Identifer | oai:union.ndltd.org:upatras.gr/oai:nemertes:10889/5760 |
Date | 08 January 2013 |
Creators | Ζαγγανά, Ελένη |
Contributors | Λυκοθανάσης, Σπυρίδων, Zangana, Eleni, Λυκοθανάσης, Σπυρίδων, Χριστοδουλάκης, Δημήτριος, Γεωργόπουλος, Ευστράτιος |
Source Sets | University of Patras |
Language | gr |
Detected Language | Greek |
Type | Thesis |
Rights | 0 |
Relation | Η ΒΚΠ διαθέτει αντίτυπο της διατριβής σε έντυπη μορφή στο βιβλιοστάσιο διδακτορικών διατριβών που βρίσκεται στο ισόγειο του κτιρίου της. |
Page generated in 0.0026 seconds