Spelling suggestions: "subject:"ονόματα"" "subject:"ονόματι""
1 |
Σχεδιασμός και ανάπτυξη πρότυπου συστήματος μορφολογικής ανάλυσης ονομάτων της Αρχαίας Ελληνικής γλώσσας / Design and development of a model system of morphological parsing of the nouns of the Ancient Greek languageΣώρρα, Μαρία 13 January 2015 (has links)
Η Επεξεργασία Φυσικής Γλώσσας (Natural Language Processing, NLP) είναι το επιστημονικό πεδίο που συνδυάζει τη γλωσσολογική γνώση με αυτή της επιστήμης των υπολογιστών. Παρέχει την δυνατότητα επεξεργασίας φυσικών γλωσσών με υπολογιστικά μοντέλα και βοηθά τους χρήστες να πραγματοποιούν πλήθος εργασιών. Η ραγδαία ανάπτυξη του παγκόσμιου ιστού και η αύξηση των χρηστών οδηγεί στην ανάγκη για εξέλιξη της γλωσσικής τεχνολογίας (Language Technology). Μια φυσική γλώσσα που παρουσιάζει ιδιαίτερο και παγκόσμιο ενδιαφέρον είναι η Αρχαία Ελληνική, η οποία ως αντικείμενο μελέτης και έρευνας προσβλέπει κυρίως στην απόκτηση των γλωσσικών και πολιτιστικών γνώσεων που αποδεδειγμένα έδωσαν τις βάσεις του σημερινού πολιτισμού. Το ενδιαφέρον γύρω από την Αρχαία Ελληνική εντοπίζεται όχι μόνο σε γλωσσολογικό επίπεδο, αλλά και σε λογοτεχνικό, φιλοσοφικό και εκπαιδευτικό που αφορά την εκμάθηση και τη διδασκαλία. Οι έως τώρα προσεγγίσεις είναι αποτέλεσμα κλασσικών ερευνητικών μεθόδων, θεωρητικών και εμπειρικών από ειδικούς, που στερούνται αυτοματοποίησης. Η οποιαδήποτε προσπάθεια υπολογιστικής επεξεργασίας της Αρχαίας Ελληνικής θα πρέπει να ξεπεράσει ζητήματα που τυχόν θα προκύψουν από την ίδια την πολύπλοκη φύση της γλώσσας, τη γραφή, τη δομή, το λεξιλόγιο και την ετυμολογία της.
Η διπλωματική αυτή εργασία αποτελεί μια πρώτη προσπάθεια ανάπτυξης ενός συστήματος μορφολογικής ανάλυσης των ονομάτων της Αρχαίας Ελληνικής. Οι λόγοι επιλογής των ονομάτων είναι ότι αποτελούν μικρό μέρος της γλώσσας , λίγες οι εξαιρέσεις στους κανόνες κλίσης, δεν παρατηρείται αλλομορφία και τέλος η μεγάλη συχνότητα εμφάνισής τους σε Αρχαία Ελληνικά κείμενα. Ο Μορφολογικός Αναλυτής μπορεί να αποτελέσει την υποδομή για περαιτέρω έρευνα στην προσπάθεια κατασκευής ενός πλήρους συστήματος που θα περιλαμβάνει όλα τα μέρη του λόγου και όλα τα επίπεδα ανάλυσης.
Μορφολογική ανάλυση (Morphological Parsing) ονομάζεται το πρόβλημα της αναγνώρισης ότι μια λέξη αποσυντίθεται σε μορφήματα και η δημιουργία μια δομημένης αναπαράστασης γι' αυτό το γεγονός. Η διαδικασία της μορφολογικής ανάλυσης προϋποθέτει την αναγνώριση των λέξεων/φράσεων (προ-επεξεργασία δεδομένων) και ακολουθεί η διαδικασία παροχής πληροφοριών για τις λέξεις, δηλαδή η κατασκευή του Μορφολογικού Αναλυτή. Μια προσέγγιση για την κατασκευή του είναι η χρήση λεξικού και των κατάλληλων γραμματικών κανόνων. Με άλλα λόγια, σχεδιάστηκε και δημιουργήθηκε ένα λογισμικό το οποίο έχει ενσωματώσει τους απαραίτητους κανόνες γραμματικής, δέχεται ως όρισμα τον πρώτο τύπου ενός ονόματος και εξάγει πληροφορίες για την κατηγορία κλίσης του αλλά και τους υπόλοιπους τύπους κλίσης του. Δημιουργήθηκε δηλαδή μια βασική εφαρμογή η οποία μπορεί στην συνέχεια να εξελιχθεί και για άλλα μέρη του λόγου με στόχο την όσο το δυνατόν πλήρη δυνατότητα ψηφιακής επεξεργασίας της συγκεκριμένης γλώσσας.
Το πρώτο στάδιο εργασιών που περιλαμβάνει η διπλωματική εργασία ήταν η μελέτη της σχετικής βιβλιογραφίας, όσον αφορά την Γλωσσική τεχνολογία, καθώς και των κανόνων γραμματικής για τα Αρχαία Ελληνικά ονόματα. Ακολούθησε η ανάπτυξη του λογισμικού που περιλαμβάνει όχι μόνο τους κανόνες κλίσης αλλά και τους αντίστοιχους κανόνες τονισμού των ονομάτων του ήδη πολύπλοκου πολυτονικού συστήματος της Αρχαία Ελληνικής γλώσσας. Επόμενο στάδιο εργασιών ήταν η συλλογή μεγάλου όγκου δεδομένων από κείμενα της Αρχαίας Ελληνικής. Στην συνέχεια, πραγματοποιήθηκε η αυτόματη εξόρυξη πλήθους κειμένων που περιέχονται στον ιστότοπο της ψηφιακής βιβλιοθήκης Perseus. Τελικό στάδιο ήταν η δημιουργία ενός interface που στόχο έχει ένα πιο φιλικό προς τον χρήστη μορφολογικό αναλυτή. / The Natural Language Processing (NLP) is a scientific field that combines linguistic knowledge with the computer science. It enables the process of natural languages with computational models and helps the users to perform numerous tasks. The rapid growth of the Web and the increasing number of users leads to the need for the development of the Language Technology. A natural language of particular and global interest is the Ancient Greek language, which as a subject of study and research is primarily aimed at the acquirement of language and cultural knowledge, provided the foundations of modern culture. The interest in Ancient Greek language is not only found in linguistic level but also in literary, philosophical and educational , both teaching and learning. The approaches, so far, are the result of classical research methods , theoretical and empirical, which lack automation. Any attempt of computational process of the Ancient Greek should overcome issues that could arise from the complex nature of the language itself, the writing, the structure, the vocabulary and the etymology.
The M.Sc. thesis is a first attempt to develop a system of morphological parsing of the names (nouns) of the Ancient Greek language. The reason why names are chosen is that they constitute a small part of the language , there are few exceptions to the grammatical (inclination) rules , there is no allomorphism and their high frequency of occurrence in the ancient Greek documents. The morphological parser could be considered as the infrastructure for further research so as to develop a complete system that would include all the parts of speech and all the levels of analysis according to the Language Technology.Morphological parsing is called the problem of the recognition that a word is decomposed into morphemes and the creation of a structured representation of the development of this event. The procedure of the Morphological parsing implies the recognition of the words/ phrases (data pre-processing) providing information about the words , namely the development of the morphological parser. One possible approach to the development of the morphological parser could be the use of dictionary and the appropriate grammatical rules . In other words, there has been designed and created a software which has integrated the necessary grammatical rules , accepting as input the first type of the noun and prints information about the deviation (category and types). There has been created a basic application which could be developed for the rest parts of speech in order to achieve a full digital processing of the particular language.The first stage of the task , included in the thesis, was the study of relevant literature regarding the Language Technology and the grammatical rules of the ancient Greek names. The next step, was the software development that does not only include the deviation rules but also the rules of the polytonic system of the ancient Greek. Subsequently , the collection of the data from ancient Greek documents followed. Then , an automatical extraction of a great number of documents from the website of Perseus digital library was conducted. Finally, an effort to develop an interface was made in order the morphological parser to become user friendly.
|
Page generated in 0.0179 seconds