Spelling suggestions: "subject:"επεξεργασία φυσική"" "subject:"επεξεργασία φυσικών""
1 |
Σχεδιασμός, κατασκευή και αξιολόγηση ελληνικού γραμματικού διορθωτήΓάκης, Παναγιώτης 07 May 2015 (has links)
Στόχος της παρούσας διδακτορικής διατριβής είναι ο σχεδιασμός και η υλοποίηση ενός ηλεκτρονικού εύχρηστου εργαλείου (γραμματικού διορθωτή) που θα προβαίνει στη μορφολογική και συντακτική ανάλυση φράσεων, προτάσεων και λέξεων με σκοπό τη διόρθωση γραμματικών και υφολογικών λαθών. Βάση για την αντιμετώπιση όλων αυτών των ζητημάτων συνιστούν οι ρυθμίσεις της Γραμματικής (αναπροσαρμογή της Μικρής Νεοελληνικής Γραμματικής του Μανόλη Τριανταφυλλίδη), η οποία αποτελεί την επίσημη, από το 1976, γραμματική κωδικοποίηση της νεοελληνικής γλώσσας. (Κατά την εκπόνηση της διατριβής δεν έχουν ληφθεί υπόψη οι -ελάχιστες- διαφορές της νέας σχολικής γραμματικής Ε΄ και Στ΄ Δημοτικού).
Με δεδομένη την απουσία ενός τέτοιου εργαλείου για τα ελληνικά, η ανάπτυξη του προϊόντος θα βασίζεται καταρχήν στη λεπτομερή καταγραφή, ανάλυση και τυποποίηση των λαθών του γραπτού λόγου και στη συνέχεια στην επιλογή του λογισμικού εκείνου που θα περιγράφει φορμαλιστικά τα γραμματικά λάθη. Η διατριβή παρουσιάζει στατιστικά στοιχεία που αφορούν τη σχέση των λαθών με το φύλο ή με το κειμενικό είδος των κειμένων στα οποία και συναντούνται όπως επίσης και την αναγνώρισή τους από μαθητές.
Στην παρούσα έρευνα παρουσιάζεται ο φορμαλισμός υλοποίησης που χρησιμοποιήθηκε (Mnemosyne) και παρουσιάζονται οι ιδιαιτερότητες της ελληνικής γλώσσας που δυσχεραίνουν την υπολογιστική επεξεργασία της. Ο φορμαλισμός αυτός έχει ήδη χρησιμοποιηθεί για αναγνώριση πολυλεκτικών όρων καθώς και για την υλοποίηση ηλεκτρονικών εργαλείων (γραμματικών) με στόχο την αυτόματη εξαγωγή πληροφορίας. Με αυτό τον τρόπο όλοι οι χρήστες της γλώσσας (και όχι μόνο αυτοί που έχουν την ελληνική ως μητρική γλώσσα) μπορούν να κατανοήσουν καλύτερα όχι μόνον τη λειτουργία των διαφόρων μερών του συστήματος της γλώσσας αλλά και τον τρόπο με τον οποίο λειτουργούν οι μηχανισμοί λειτουργίας του γλωσσικού συστήματος κατά τη γλωσσική ανάλυση .
14
Οι βασικές περιοχές γραμματικών λαθών όπου θα παρεμβαίνει ο γραμματικός διορθωτής θα είναι:
1) θέματα τονισμού και στίξης,
2) τελικό -ν,
3) υφολογικά ζητήματα (ρηματικοί τύποι σε περιπτώσεις διπλοτυπίας, κλιτικοί τύποι),
4) ζητήματα καθιερωμένης γραφής λέξεων ή φράσεων της νέας ελληνικής γλώσσας (στερεότυπες φράσεις, λόγιοι τύποι),
5) ζητήματα κλίσης (λανθασμένοι κλιτικοί τύποι ονομάτων ή ρημάτων είτε λόγω άγνοιας είτε λόγω σύγχυσης),
6) ζητήματα λεξιλογίου (περιπτώσεις εννοιολογικής σύγχυσης, ελληνικές αποδόσεις ξένων λέξεων, πλεονασμός, χρήση εσφαλμένης φράσης ή λέξης),
7) ζητήματα ορθογραφικής σύγχυσης (ομόηχες λέξεις),
8) ζητήματα συμφωνίας (θέματα ασυμφωνίας στοιχείων της ονοματικής ή της ρηματικής φράσης),
9) ζητήματα σύνταξης (σύνταξη ρημάτων) και
10) περιπτώσεις λαθών που απαιτούν πιο εξειδικευμένη διαχείριση ορθογραφικής διόρθωσης.
Βάση για την υλοποίηση του λεξικού αποτελεί το ηλεκτρονικό μορφολογικό λεξικό Neurolingo Lexicon1, ένα λεξικό χτισμένο σε ένα μοντέλο 5 επιπέδων με τουλάχιστον 90.000 λήμματα που παράγουν 1.200.000 κλιτικούς τύπους. Οι τύποι αυτοί φέρουν πληροφορία: α) ορθογραφική (ορθή γραφή του κλιτικού τύπου), β) μορφηματική (το είδος των μορφημάτων: πρόθημα, θέμα, επίθημα, κατάληξη, που απαρτίζουν τον κλιτικό τύπο), γ) μορφοσυντακτική (μέρος του λόγου, γένος, πτώση, πρόσωπο κτλ.), δ) υφολογική (τα υφολογικά χαρακτηριστικά του τύπου: προφορικό, λόγιο κτλ.) και ε) ορολογική (επιπλέον πληροφορία για το αν ο τύπος αποτελεί μέρος ειδικού λεξιλογίου). Το λεξικό αυτό αποτελεί και τον θεμέλιο λίθο για την υποστήριξη του γραμματικού διορθωτή (Grammar Checker). Η αξία και ο ρόλος του μορφολογικού λεξικού για την υποστήριξη ενός γραμματικού
διορθωτή είναι αυτονόητη, καθώς η μορφολογία είναι το πρώτο επίπεδο γλώσσας που εξετάζεται και το συντακτικό επίπεδο βασίζεται και εξαρτάται από τη μορφολογία των λέξεων.
Μείζον πρόβλημα αποτέλεσε η λεξική ασάφεια, προϊόν της πλούσιας μορφολογίας της ελληνικής γλώσσας. Με δεδομένο αυτό το πρόβλημα σχεδιάστηκε ο σχολιαστής (tagger) με αμιγώς γλωσσολογικά κριτήρια για τις περιπτώσεις εκείνες όπου η λεξική ασάφεια αποτελούσε εμπόδιο στην αποτύπωση λαθών στη χρήση της ελληνικής γλώσσας.
Στον γραμματικό διορθωτή δόθηκαν προς διόρθωση κείμενα που είχαν διορθωθεί από άνθρωπο. Σε ένα πολύ μεγάλο ποσοστό ο διορθωτής προσεγγίζει τη διόρθωση του ανθρώπου με μόνη διαφοροποίηση εκείνα τα λάθη που αφορούν τη συνοχή του κειμένου και κατ’ επέκταση όλα τα νοηματικά λάθη. / The aim of this thesis is to design and then to implement a useful and friendly electronic tool (grammar checker) which will carry out the morphological and syntactic analysis of sentences, phrases and words in order to correct syntactic, grammatical and stylistic errors. Our foundation so as to deal with all these issues, is the settings of Grammar (adaptation of Little Modern Grammar of Manolis Triantafyllidis), which is the formalconstituted codified grammar of Modern Greek, since 1976. (In the presentation of this thesis it has not been taken into account the -minimum- differences that appear in the new Greek grammar book of the fifth and sixth grade of the elementary school).
Bearing in mind that there is a total absence of such a tool in Greek language, the development of the product is based on the detailed record, on the analysis and on the formulation of the errors of writing speech. Additionally, for its development the right software is chosen in order to describe the grammatical errors. In this thesis the statistics demonstrate the link between the errors and the students’ gender or between the errors and the textual type in which these errors appear. Finnally, through the statistics, the link among the errors and their recognition by the students is presented .
This research presents the formalism used (the Mnemosyne) and also the particularities of the Greek language that hinder the computational processing. The formalism has already been used to identify multi-word terms and to phrase grammars, aiming to the automatic information extraction. In this way, all speakers (native or not) will be able to understand better not only the function of various parts of the system of the Greek language but also the way the mechanisms of linguistic analysis operate in the conquest and more broadly in the linguistic realization.
The main areas of the grammatical errors with which the grammar checker will interfere, are:
1) Punctuation problems,
2) Final -n,
3) Stylistic issues (verb forms in cases of duplicates, inflectional types),
4) Standardization issues (stereotyped phrases, words of literary origin),
5) Inclination issues (incorrect declension of names or verbs either through ignorance or because of confusion)
6) Vocabulary issues (cases of conceptual confusion, Greek translation of foreign words, redundancy and use of incorrect word or phrase),
7) Orthographic confusion issues (homonymous words),
8) Agreement issues (cases of elements of nominal or verbal phrase disagreement),
9) Syntax issues (verbs) and
10) Cases of errors that require more specialized management of the spelling correction.
The basis for the implementation is the electronic morphological lexicon (Neurolingo Lexicon), a 5-level lexicon which consists of, at least 90,000 entries that produce ~1,200,000 inflection types. These types carry information: a) spelling (write spelling of inflectional type), b) morpheme information (type of morphemes: prefix, theme, suffix, ending), c) morphosyntactic information (part of speech, gender, case, person, etc.), d) stylistic information (the stylistic characteristics of the type: oral, archaic, etc.) and e) terminology (additional information about whether the word form is part of a special vocabulary).This electronic lexicon is the foundation that supports the grammar checker. The value and the key role of the morphological lexicon in supporting the Greek grammar checker is obvious, since the first level in which the language is examined is the morphology level and since the structural level is not only based but also depends on the morphology of the words.
A major problem in processing the natural language was the lexical ambiguity, a product of the highly morphology of the Greek language. Given that the major problem of modern Greek is the lexical ambiguity we designe the Greek tagger grounded on linguistic criteria for those cases where the lexical ambiguity impede the imprint of the errors in Greek language.
The texts that were given for correction to the grammar checker were also corrected by a person. In a very large percentage the grammar checker approximates in accuracy the human-corrector. Only when the grammar checker had to deal with mistakes concerning the coherence of the text or with meaning errors, the humman corrector was the only accurate corrector.
|
2 |
Μελέτη και έλεγχος του Python Natural Language Toolkit στην ελληνική γλώσσαΣταυλιώτης, Λεωνίδας 14 May 2012 (has links)
Στην παρούσα διπλωματική εργασία παρουσιάζεται ο έλεγχος του εργαλείου NLTK (Natural Language Toolkit) της Python. Συγκεκριμένα, το nltk είναι μια ανοιχτού κώδικα βιβλιοθήκη συναρτήσεων για επεξεργασία φυσικής γλώσσας και ανάπτυξη ανάλογων εφαρμογών. Έχει αναπτυχθεί σε γλώσσα Python με στόχο την ανάλυση και ανάπτυξη εφαρμογών κυρίως για την Αγγλική γλώσσα. Αντικείμενο αυτής της εργασίας είναι η συστηματική μελέτη και ο έλεγχος των συναρτήσεων του nltk για την Ελληνική γλώσσα, καθώς υπάρχουν ενδείξεις ότι σημαντικό μέρος αυτών δουλεύει σωστά. Αρχικά, έγινε η μελέτη για εισαγωγή ελληνικών κειμένων, καθώς και κατάλληλη επεξεργασία αυτών, ώστε να είναι σε επεξεργάσιμη μορφή από το εργαλείο. Έπειτα, ελέγχθησαν όλες οι εντολές και κατηγοριοποιήθηκαν με βάση τη λειτουργία τους. Τέλος, παρατηρώντας τα συγκεντρωτικά αποτελέσματα, εξάγεται το συμπέρασμα ότι οι υποψίες για σωστή λειτουργία μεγάλου αριθμού εντολών επαληθεύονται, καθώς το 87,9 % των εντολών φαίνεται να λειτουργεί σωστά. / This diploma dissertation presents the examination of Python NLTK (Natural Language Toolkit) tool. Particularly, nltk is an open source function library suitable for natural language processing and the development of respective applications. It has been developed into Python language in order to analyse and develop applications mostly for the English language. The present dissertation is concerned with the systematic study and the examination of nltk functions for the Greek language, given that there is evidence of the correct operation of some. At first, research for the input of Greek texts as well as their appropriate processing was conducted as a way of presenting these texts in a processable by the tool form. Thereupon, all functions were tested and categorised in terms of their operation. Finally, the observation of concentrated results leads to the conclusion that the initial hypothesis for the correct operation of a great number of order is confirmed, as 87,9% of the functions appears to be operating correctly.
|
3 |
Ολοκληρωμένο διαδικτυακό σύστημα διαχείρισης και οργάνωσης δομημένων ηλεκτρονικών δημοσιευμάτωνΤσαρούχης, Αθανάσιος 16 June 2011 (has links)
Τα τελευταία χρόνια αυξάνεται διαρκώς ο όγκος και η ποικιλομορφία των εργασιών πραγματοποιούνται με τη χρήση του Διαδικτύου και των πηγών που είναι διαθέσιμες σε αυτό. Ιδιαίτερη σημασία δίνεται στην ικανοποίηση των αναγκών των κοινοτήτων χρηστών, των οποίων οι αριθμοί παρουσιάζουν εκρηκτική αύξηση. Ένα από τα σημαντικότερα είδη πηγών που ικανοποιούν τις ανάγκες των κοινοτήτων του Διαδικτύου είναι οι ψηφιακές βιβλιοθήκες. Οι ψηφιακές βιβλιοθήκες αποτελούν συλλογές από δομημένα ηλεκτρονικά δημοσιεύματα, οι οποίες προσφέρουν στην κοινότητα των χρηστών όπου απευθύνονται εξειδικευμένες υπηρεσίες, που αφορούν στο περιεχόμενο των εγγράφων που περιλαμβάνουν, εξασφαλίζοντας συγκεκριμένο επίπεδο ποιότητας σύμφωνα με κωδικοποιημένες πολιτικές.
Στα πλαίσια της παρούσας διπλωματικής εργασίας πραγματοποιήθηκε ο σχεδιασμός και η υλοποίηση ενός διαδικτυακού εργαλείου για την φορμαλιστική αποθήκευση, παρουσίαση και διαχείριση των δομημένων ηλεκτρονικών δημοσιευμάτων μιας ψηφιακής βιβλιοθήκης. Κατά το σχεδιασμό των υπηρεσιών που παρέχονται μελετήθηκε η δυνατότητα ενσωμάτωσης τεχνικών επεξεργασίας φυσικής γλώσσας, με στόχο την αποτίμηση της συνεισφοράς και της απόδοσης τέτοιων τεχνικών στην αποθήκευση και ανάκτηση δομημένων ηλεκτρονικών δημοσιευμάτων γραμμένα στη Νέα Ελληνική, μια γλώσσα με ιδιαίτερη μορφολογία. / Over the past years the amounts of tasks that are being carried out the web as well as the size of the web data demonstrate a signature growth. The major challenge associated with exploiting this data is how to satisfy the user’s needs into fulfilling tasks. One significant source of web data is scientific digital libraries, which contain structured information sources of research documents and which offer end users specialized search services that ensure good retrieved quality.
In the course of the present study we designed and implemented a web-based data retrieval service that incorporates novel indexing and information modules specialized for the core of Modern Greek. The novelty of our service is that relies on advanced NLP applications in order to improve retrieval performance. The experimental evaluation of our Modern Greek Service reveals that NLP significantly improves retrieval performance compared to baseline information retrieval systems.
|
4 |
Σχεδιασμός και ανάπτυξη πρότυπου συστήματος μορφολογικής ανάλυσης ονομάτων της Αρχαίας Ελληνικής γλώσσας / Design and development of a model system of morphological parsing of the nouns of the Ancient Greek languageΣώρρα, Μαρία 13 January 2015 (has links)
Η Επεξεργασία Φυσικής Γλώσσας (Natural Language Processing, NLP) είναι το επιστημονικό πεδίο που συνδυάζει τη γλωσσολογική γνώση με αυτή της επιστήμης των υπολογιστών. Παρέχει την δυνατότητα επεξεργασίας φυσικών γλωσσών με υπολογιστικά μοντέλα και βοηθά τους χρήστες να πραγματοποιούν πλήθος εργασιών. Η ραγδαία ανάπτυξη του παγκόσμιου ιστού και η αύξηση των χρηστών οδηγεί στην ανάγκη για εξέλιξη της γλωσσικής τεχνολογίας (Language Technology). Μια φυσική γλώσσα που παρουσιάζει ιδιαίτερο και παγκόσμιο ενδιαφέρον είναι η Αρχαία Ελληνική, η οποία ως αντικείμενο μελέτης και έρευνας προσβλέπει κυρίως στην απόκτηση των γλωσσικών και πολιτιστικών γνώσεων που αποδεδειγμένα έδωσαν τις βάσεις του σημερινού πολιτισμού. Το ενδιαφέρον γύρω από την Αρχαία Ελληνική εντοπίζεται όχι μόνο σε γλωσσολογικό επίπεδο, αλλά και σε λογοτεχνικό, φιλοσοφικό και εκπαιδευτικό που αφορά την εκμάθηση και τη διδασκαλία. Οι έως τώρα προσεγγίσεις είναι αποτέλεσμα κλασσικών ερευνητικών μεθόδων, θεωρητικών και εμπειρικών από ειδικούς, που στερούνται αυτοματοποίησης. Η οποιαδήποτε προσπάθεια υπολογιστικής επεξεργασίας της Αρχαίας Ελληνικής θα πρέπει να ξεπεράσει ζητήματα που τυχόν θα προκύψουν από την ίδια την πολύπλοκη φύση της γλώσσας, τη γραφή, τη δομή, το λεξιλόγιο και την ετυμολογία της.
Η διπλωματική αυτή εργασία αποτελεί μια πρώτη προσπάθεια ανάπτυξης ενός συστήματος μορφολογικής ανάλυσης των ονομάτων της Αρχαίας Ελληνικής. Οι λόγοι επιλογής των ονομάτων είναι ότι αποτελούν μικρό μέρος της γλώσσας , λίγες οι εξαιρέσεις στους κανόνες κλίσης, δεν παρατηρείται αλλομορφία και τέλος η μεγάλη συχνότητα εμφάνισής τους σε Αρχαία Ελληνικά κείμενα. Ο Μορφολογικός Αναλυτής μπορεί να αποτελέσει την υποδομή για περαιτέρω έρευνα στην προσπάθεια κατασκευής ενός πλήρους συστήματος που θα περιλαμβάνει όλα τα μέρη του λόγου και όλα τα επίπεδα ανάλυσης.
Μορφολογική ανάλυση (Morphological Parsing) ονομάζεται το πρόβλημα της αναγνώρισης ότι μια λέξη αποσυντίθεται σε μορφήματα και η δημιουργία μια δομημένης αναπαράστασης γι' αυτό το γεγονός. Η διαδικασία της μορφολογικής ανάλυσης προϋποθέτει την αναγνώριση των λέξεων/φράσεων (προ-επεξεργασία δεδομένων) και ακολουθεί η διαδικασία παροχής πληροφοριών για τις λέξεις, δηλαδή η κατασκευή του Μορφολογικού Αναλυτή. Μια προσέγγιση για την κατασκευή του είναι η χρήση λεξικού και των κατάλληλων γραμματικών κανόνων. Με άλλα λόγια, σχεδιάστηκε και δημιουργήθηκε ένα λογισμικό το οποίο έχει ενσωματώσει τους απαραίτητους κανόνες γραμματικής, δέχεται ως όρισμα τον πρώτο τύπου ενός ονόματος και εξάγει πληροφορίες για την κατηγορία κλίσης του αλλά και τους υπόλοιπους τύπους κλίσης του. Δημιουργήθηκε δηλαδή μια βασική εφαρμογή η οποία μπορεί στην συνέχεια να εξελιχθεί και για άλλα μέρη του λόγου με στόχο την όσο το δυνατόν πλήρη δυνατότητα ψηφιακής επεξεργασίας της συγκεκριμένης γλώσσας.
Το πρώτο στάδιο εργασιών που περιλαμβάνει η διπλωματική εργασία ήταν η μελέτη της σχετικής βιβλιογραφίας, όσον αφορά την Γλωσσική τεχνολογία, καθώς και των κανόνων γραμματικής για τα Αρχαία Ελληνικά ονόματα. Ακολούθησε η ανάπτυξη του λογισμικού που περιλαμβάνει όχι μόνο τους κανόνες κλίσης αλλά και τους αντίστοιχους κανόνες τονισμού των ονομάτων του ήδη πολύπλοκου πολυτονικού συστήματος της Αρχαία Ελληνικής γλώσσας. Επόμενο στάδιο εργασιών ήταν η συλλογή μεγάλου όγκου δεδομένων από κείμενα της Αρχαίας Ελληνικής. Στην συνέχεια, πραγματοποιήθηκε η αυτόματη εξόρυξη πλήθους κειμένων που περιέχονται στον ιστότοπο της ψηφιακής βιβλιοθήκης Perseus. Τελικό στάδιο ήταν η δημιουργία ενός interface που στόχο έχει ένα πιο φιλικό προς τον χρήστη μορφολογικό αναλυτή. / The Natural Language Processing (NLP) is a scientific field that combines linguistic knowledge with the computer science. It enables the process of natural languages with computational models and helps the users to perform numerous tasks. The rapid growth of the Web and the increasing number of users leads to the need for the development of the Language Technology. A natural language of particular and global interest is the Ancient Greek language, which as a subject of study and research is primarily aimed at the acquirement of language and cultural knowledge, provided the foundations of modern culture. The interest in Ancient Greek language is not only found in linguistic level but also in literary, philosophical and educational , both teaching and learning. The approaches, so far, are the result of classical research methods , theoretical and empirical, which lack automation. Any attempt of computational process of the Ancient Greek should overcome issues that could arise from the complex nature of the language itself, the writing, the structure, the vocabulary and the etymology.
The M.Sc. thesis is a first attempt to develop a system of morphological parsing of the names (nouns) of the Ancient Greek language. The reason why names are chosen is that they constitute a small part of the language , there are few exceptions to the grammatical (inclination) rules , there is no allomorphism and their high frequency of occurrence in the ancient Greek documents. The morphological parser could be considered as the infrastructure for further research so as to develop a complete system that would include all the parts of speech and all the levels of analysis according to the Language Technology.Morphological parsing is called the problem of the recognition that a word is decomposed into morphemes and the creation of a structured representation of the development of this event. The procedure of the Morphological parsing implies the recognition of the words/ phrases (data pre-processing) providing information about the words , namely the development of the morphological parser. One possible approach to the development of the morphological parser could be the use of dictionary and the appropriate grammatical rules . In other words, there has been designed and created a software which has integrated the necessary grammatical rules , accepting as input the first type of the noun and prints information about the deviation (category and types). There has been created a basic application which could be developed for the rest parts of speech in order to achieve a full digital processing of the particular language.The first stage of the task , included in the thesis, was the study of relevant literature regarding the Language Technology and the grammatical rules of the ancient Greek names. The next step, was the software development that does not only include the deviation rules but also the rules of the polytonic system of the ancient Greek. Subsequently , the collection of the data from ancient Greek documents followed. Then , an automatical extraction of a great number of documents from the website of Perseus digital library was conducted. Finally, an effort to develop an interface was made in order the morphological parser to become user friendly.
|
5 |
Αυτόματη εξαγωγή λεξικής - σημασιολογικής γνώσης από ηλεκτρονικά σώματα κειμένων με χρήση ελαχίστων πόρων / Automatic extraction of lexico - semantic knowledge from electronic text corpora using minimal resourcesΘανόπουλος, Αριστομένης 25 June 2007 (has links)
Το αντικείμενο της διατριβής είναι η μελέτη μεθόδων αυτόματης εξαγωγής των συμφράσεων και των σημασιολογικών ομοιοτήτων των λέξεων από μεγάλα σώματα κειμένων. Υιοθετείται μια προσέγγιση ελάχιστων γλωσσικών πόρων που εξασφαλίζει την απεριόριστη μεταφερσιμότητα των μεθόδων σε φυσικές γλώσσες και θεματικές περιοχές. Για την αξιολόγηση των προτεινόμενων μεθόδων προτείνονται, αξιολογούνται και εφαρμόζονται μεθοδολογίες με βάση πρότυπες βάσεις λεξικής γνώσης (στην Αγγλική), όπως το WordNet. Για την εξαγωγή των συμφράσεων προτείνονται νέα μέτρα εξαγωγής στατιστικά σημαντικών διγράμμων και γενικά ν-γράμμων που αξιολογούνται θετικά. Για την εξαγωγή των λεξικών - σημασιολογικών ομοιοτήτων των λέξεων ακολουθείται καταρχήν η προσέγγιση ομοιότητας περικειμένων λέξεων με παραθυρικές μεθόδους, όπου μελετώνται το πεδίο συμφραζομένων, το φιλτράρισμα των συνεμφανίσεων των λέξεων, τα μέτρα ομοιότητας, όπου εισάγεται ο παράγοντας του αριθμού κοινών παραμέτρων, καθώς και η αντιμετώπιση συστηματικών σφαλμάτων, ενώ προτείνεται η αξιοποίηση των λειτουργικών λέξεων. Επιπλέον, προτείνεται η αξιοποίηση της ομοιότητας περικείμενων εκφράσεων, που απαντάται συχνά σε θεματικώς εστιασμένα κείμενα, με ένα αλγόριθμο βασισμένο στην ετεροσυσχέτιση ακολουθιών λέξεων. Μελετάται η μεθοδολογία αξιοποίησης των παρατακτικών συνδέσεων ενώ προτείνεται μια μέθοδος ενοποίησης ετερογενών σωμάτων γνώσης λεξικών – σημασιολογικών ομοιοτήτων. Τέλος, η εξαχθείσα γνώση μετασχηματίζεται σε σημασιολογικές κλάσεις με μια συμβολική μέθοδο ιεραρχικής ομαδοποίησης και επίσης ενσωματώνεται επιτυχώς σε ένα διαλογικό σύστημα μηχανικής μάθησης όπου ενισχύει την απόδοση της αναγνώρισης του σκοπού του χρήστη συμβάλλοντας στην εκτίμηση του ρόλου των άγνωστων λέξεων. / The research described in this dissertation regards automatic extraction of collocations and lexico-semantic similarities from large text corpora. We follow an approach based on minimal linguistic resources in order to achieve unrestricted portability across languages and thematic domains. In order to evaluate the proposed methods we propose, evaluate and apply methodologies based on English gold standard lexical resources, such as WordNet. For the extraction of collocations we propose and test a few novel measures for the identification of statistically significant bigrams and, generally, n-grams, which exhibit strong performance. For the extraction of lexico-semantic similarities we follow a distributional window-based approach. We study the contextual scope, the filtering of lexical co-occurrences and the performance of similarity measures. We propose the incorporation of the number of common parameters into the latter, the exploitation of functional words and a method for the elimination of systematic errors. Moreover, we propose a novel approach to exploitation of word sequence similarities, common in technical texts, based on cross-correlation of word sequences. We refine an approach for word similarity extraction from coordinations and we propose a method for the amalgamation of lexico-semantic similarity databases extracted via different principles and methods. Finally, the extracted similarity knowledge is transformed in the form of soft hierarchical semantic clusters and it is successfully incorporated into a machine learning based dialogue system, reinforcing the performance of user’s plan recognition by estimating the semantic role of unknown words.
|
6 |
Αυτόματη επιλογή σημασιολογικά συγγενών όρων για την επαναδιατύπωση των ερωτημάτων σε μηχανές αναζήτησης πληροφορίας / Automatic selection of semantic related terms for reformulating a query into a search engineΚοζανίδης, Ελευθέριος 14 September 2007 (has links)
Η βελτίωση ερωτημάτων (Query refinement) είναι η διαδικασία πρότασης εναλλακτικών όρων στους χρήστες των μηχανών αναζήτησης του Διαδικτύου για την διατύπωση της πληροφοριακής τους ανάγκης. Παρόλο που εναλλακτικοί σχηματισμοί ερωτημάτων μπορούν να συνεισφέρουν στην βελτίωση των ανακτηθέντων αποτελεσμάτων, η χρησιμοποίησή τους από χρήστες του Διαδικτύου είναι ιδιαίτερα περιορισμένη καθώς οι όροι των βελτιωμένων ερωτημάτων δεν περιέχουν σχεδόν καθόλου πληροφορία αναφορικά με τον βαθμό ομοιότητάς τους με τους όρους του αρχικού ερωτήματος, ενώ συγχρόνως δεν καταδεικνύουν το βαθμό συσχέτισής τους με τα πληροφοριακά ενδιαφέροντα των χρηστών. Παραδοσιακά, οι εναλλακτικοί σχηματισμοί ερωτημάτων καθορίζονται κατ’ αποκλειστικότητα από τη σημασιολογική σχέση που επιδεικνύουν οι συμπληρωματικοί όροι με τους αρχικούς όρους του ερωτήματος, χωρίς να λαμβάνουν υπόψη τον επιδιωκόμενο στόχο της αναζήτησης που υπολανθάνει πίσω από ένα ερώτημα του χρήστη. Στην παρούσα εργασία θα παρουσιάσουμε μια πρότυπη τεχνική βελτίωσης ερωτημάτων η οποία χρησιμοποιεί μια λεξική οντολογία προκειμένου να εντοπίσει εναλλακτικούς σχηματισμούς ερωτημάτων οι οποίοι αφενός, θα περιγράφουν το αντικείμενο της αναζήτησης του χρήστη και αφετέρου θα σχετίζονται με τα ερωτήματα που υπέβαλε ο χρήστης. Το πιο πρωτοποριακό χαρακτηριστικό της τεχνικής μας είναι η οπτική αναπαράσταση του εναλλακτικού ερωτήματος με την μορφή ενός ιεραρχικά δομημένου γράφου. Η αναπαράσταση αυτή παρέχει σαφείς πληροφορίες για την σημασιολογική σχέση μεταξύ των όρων του βελτιωμένου ερωτήματος και των όρων που χρησιμοποίησε ο χρήστης για να εκφράσει την πληροφοριακή του ανάγκη ενώ παράλληλα παρέχει την δυνατότητα στον χρήστη να επιλέξει ποιοι από τους υποψήφιους όρους θα συμμετέχουν τελικά στην διαδικασία βελτιστοποίησης δημιουργώντας διαδραστικά το νέο ερώτημα. Τα αποτελέσματα των πειραμάτων που διενεργήσαμε για να αξιολογήσουμε την απόδοση της τεχνικής μας, είναι ιδιαίτερα ικανοποιητικά και μας οδηγούν στο συμπέρασμα ότι η μέθοδός μας μπορεί να βοηθήσει σημαντικά στη διευκόλυνση του χρήστη κατά τη διαδικασία επιλογής ερωτημάτων για την ανάκτηση πληροφορίας από τα δεδομένα του Παγκόσμιου Ιστού. / Query refinement is the process of providing Web information seekers with alternative wordings for expressing their information needs. Although alternative query formulations may contribute to the improvement of retrieval results, nevertheless their realization by Web users is intrinsically limited in that alternative query wordings do not convey explicit information about neither their degree nor their type of correlation to the user-issued queries. Moreover, alternative query formulations are determined based on the semantics of the issued query alone and they do not consider anything about the search intentions of the user issuing that query. In this paper, we introduce a novel query refinement technique which uses a lexical ontology for identifying alternative query formulations that are both informative of the user’s interests and related to the user selected queries. The most innovative feature of our technique is the visualization of the alternative query wordings in a graphical representation form, which conveys explicit information about the refined queries correlation to the user issued requests and which allows the user select which terms to participate in the refinement process. Experimental results demonstrate that our method has a significant potential in improving the user search experience.
|
7 |
Αλληλεπιδραστικό σύστημα μετατροπής προτάσεων φυσικής γλώσσας σε κατηγορηματική λογική πρώτης τάξης με αυτόματη εισαγωγή προτάσεων και δημιουργία υποδείξεων για το χρήστηΠερίκος, Ισίδωρος 07 April 2011 (has links)
Η αναπαράσταση γνώσης αποτελεί ένα σημαντικό πεδίο της τεχνητής νοημοσύνης. Ενώ η αναπαράσταση γνώσης για τον κόσμο στην καθημερινή ζωή μας γίνεται σε φυσική γλώσσα, για τα υπολογιστικά συστήματα είναι απαραίτητο να χρησιμοποιηθεί ένας συμβολισμός που να παρέχει ακριβή αναπαράσταση της γνώσης, κάτι που δεν μπορεί να παρέχει η φυσική γλώσσα λόγω της πολυσημαντικότητας των προτάσεων. Μια γλώσσα αναπαράστασης είναι η Κατηγορηματική Λογική Πρώτης Τάξης –ΚΛΠΤ (First Order Logic-FOL).
Η ΚΛΠΤ ως γλώσσα αναπαράσταση γνώσης και αυτομάτου συλλογισμού έχει πολλές πτυχές. Μια από αυτές με την οποία ασχολούμαστε στην παρούσα διπλωματική είναι η μετατροπή φυσικής γλώσσας (ΦΓ) σε Κατηγορηματική Λογική Πρώτης Τάξης (ΚΛΠΤ). Πρόκειται για μια ad-hoc διαδικασία, για την οποία δεν υπάρχει κάποιος συγκεκριμένος αλγόριθμος.
Στα πλαίσια της παρούσας διπλωματικής εργασίας αναπτύχθηκε ένα σύστημα το οποίο μοντελοποιεί την διαδικασία της μετατροπή φυσικής γλώσσας (ΦΓ) σε κατηγορηματική λογική (ΚΛΠΤ) και αυτοματοποιεί την διαδικασία εισαγωγής προτάσεων-παραδειγμάτων για τον χρήστη-διδάσκοντα. Παράλληλα μέσω μιας αλληλεπιδραστικής διεπαφής (User Interface) κατευθύνει τον χρήστη-φοιτητή κατά την διάρκεια της μετατροπής παρέχοντας βοήθειες και υποδείξεις για κάθε πρόταση.
Ο χρήστης-διδάσκοντας μπορεί να εισάγει προτάσεις-παραδείγματα σε ΚΛΠΤ στο σύστημα. Στην συνέχεια κάθε πρόταση ΚΛΠΤ αναλύεται αυτόματα στα βήματα της διαδικασίας και αποθηκεύονται τα κατάλληλα στοιχεία.
Μια άλλη πτυχή της διπλωματικής αποτελεί η υλοποίηση της ημι-αυτοματοποίησης της παραγωγής κατάλληλων υποδείξεων σε όλα βήματα της διαδικασίας για κάθε πρόταση. Για την υλοποίηση αυτή χρειάστηκε να γίνει μια κατηγοριοποίηση των επιπέδων των παρεχόμενων υποδείξεων και μια τυποποίηση των λεκτικών εκφράσεων των αντίστοιχων μηνυμάτων. / Knowledge Representation is a fundamental topic of Artificial Intelligence. In everyday life people use natural language to communicate, however natural language cannot be used for knowledge representation in computer systems. The main reason is that natural language has not clear semantic.
A basic KR language is First-Order Logic (FOL), the main representative of logic-based representation languages, which is part of almost any introductory AI course and textbook. Teaching FOL as a knowledge representation and reasoning language includes many aspects. One of them is the translation of natural language (NL) sentences into FOL formulas, often called logic formalization of NL sentences. It is an ad-hoc process; there is no specific algorithm that can be automated within a computer. This is mainly due to the fact that NL has no clear semantics as FOL does.
During this master thesis, a web-based interactive system has been developed. It’s main aim is to provide a structured process to students and guide them in translating a NL sentence into a FOL one. Also an assistant system has been created to automate the insert of new sentences into the system. The teacher can insert the sentence in natural language and it’s FOL formula. Then the formula is automatically analyzed and the necessary information for the translation is extracted and stored.
Another work done during this master thesis is the implementation of a semi-automatic help generation system. The aim of this system is to recognize the students’ errors and provide them help and guidelines during the stages of the conversion process.
|
8 |
Προδιαγραφές μιας καινοτόμας πλατφόρμας ηλεκτρονικής μάθησης που ενσωματώνει τεχνικές επεξεργασίας φυσικής γλώσσαςΦερφυρή, Ναυσικά 04 September 2013 (has links)
Ζούμε σε μια κοινωνία στην οποία η χρήση της τεχνολογίας έχει εισβάλει δυναμικά στην καθημερινότητα.Η εκπαίδευση δεν θα μπορούσε να μην επηρεαστεί απο τις Νέες Τεχνολογίες.Ήδη,όροι όπως “Ηλεκτρονική Μάθηση” και ”Ασύγχρονη Τηλε-εκπαίδευση” έχουν δημιουργήσει νέα δεδομένα στην κλασική Εκπαίδευση. Με τον όρο ασύγχρονη τηλε-εκπαίδευση εννοούμε μια διαδικασία ανταλλαγής μάθησης μεταξύ εκπαιδευτή - εκπαιδευομένων,που πραγματοποιείται ανεξάρτητα χρόνου και τόπου. Ηλεκτρονική Μάθηση είναι η χρήση των νέων πολυμεσικών τεχνολογιών και του διαδικτύου για τη βελτίωση της ποιότητας της μάθησης,διευκολύνοντας την πρόσβαση σε πηγές πληροφοριών και σε υπηρεσίες καθώς και σε ανταλλαγές και εξ'αποστάσεως συνεργασίες.Ο όρος καλύπτει ένα ευρύ φάσμα εφαρμογών και διαδικασιών,όπως ηλεκτρονικές τάξεις και ψηφιακές συνεργασίες, μάθηση βασιζόμενη στους ηλεκτρονικούς υπολογιστές και στις τεχνολογίες του παγκόσμιου ιστού. Κάποιες απο τις βασικές απαιτήσεις που θα πρέπει να πληρούνται για την δημιουργία μιας πλατφόρμας ηλεκτρονικής μάθησης είναι: Να υποστηρίζει τη δημιουργία βημάτων συζήτησης (discussion forums) και “δωματίων συζήτησης”(chat rooms),να υλοποιεί ηλεκτρονικό ταχυδρομείο,να έχει φιλικό περιβάλλον τόσο για το χρήστη/μαθητή όσο και για το χρήστη/καθηγητή,να υποστηρίζει προσωποποίηση(customization)του περιβάλλοντος ανάλογα με το χρήστη.Επίσης να κρατάει πληροφορίες(δημιουργία profiles)για το χρήστη για να τον “βοηθάει”κατά την πλοήγηση,να υποστηρίζει την εύκολη δημιουργία διαγωνισμάτων(online tests), να υποστηρίζει την παρουσίαση πολυμεσικών υλικών. Ως επεξεργασία φυσικής γλώσσας (NLP) ορίζουμε την υπολογιστική ανάλυση αδόμητων δεδομένων σε κείμενα, με σκοπό την επίτευξη μηχανικής κατανόησης του κειμένου αυτού.Είναι η επεξεργασία προτάσεων που εισάγονται ή διαβάζονται από το σύστημα,το οποίο απαντά επίσης με προτάσεις με τρόπο τέτοιο που να θυμίζει απαντήσεις μορφωμένου ανθρώπου. Βασικό ρόλο παίζει η γραμματική,το συντακτικό,η ανάλυση των εννοιολογικών στοιχείων και γενικά της γνώσης, για να γίνει κατανοητή η ανθρώπινη γλώσσα από τη μηχανή. Οι βασικές τεχνικές επεξεργασίας φυσικού κειμένου βασίζονται στις γενικές γνώσεις σχετικά με τη φυσική γλώσσα.Χρησιμοποιούν ορισμένους απλούς ευρετικούς κανόνες οι οποίοι στηρίζονται στη συντακτική και σημασιολογική προσέγγιση και ανάλυση του κειμένου.Ορισμένες τεχνικές που αφορούν σε όλα τα πεδία εφαρμογής είναι: ο διαμερισμός στα συστατικά στοιχεία του κειμένου (tokenization), η χρήση της διάταξης του κειμένου (structural data mining), η απαλοιφή λέξεων που δεν φέρουν ουσιαστική πληροφορία (elimination of insignificant words),η γραμματική δεικτοδότηση (PoS tagging), η μορφολογική ανάλυση και η συντακτική ανάλυση. Στόχος της παρούσας διπλωματικής είναι να περιγράψει και να αξιολογήσει πως οι τεχνικές επεξεργασίας της φυσικής γλώσσας (NLP), θα μπορούσαν να αξιοποιηθούν για την ενσωμάτωση τους σε πλατφόρμες ηλεκτρονικής μάθησης.Ο μεγάλος όγκος δεδομένων που παρέχεται μέσω μιας ηλεκτρονικής πλατφόρμας μάθησης, θα πρέπει να μπορεί να διαχειριστεί , να διανεμηθεί και να ανακτηθεί σωστά.Κάνοντας χρήση των τεχνικών NLP θα παρουσιαστεί μια καινοτόμα πλατφόρμα ηλεκτρονικής μάθησης,εκμεταλεύοντας τις υψηλού επιπέδου τεχνικές εξατομίκευσης, την δυνατότητα εξαγωγής συμπερασμάτων επεξεργάζοντας την φυσική γλώσσα των χρηστών προσαρμόζοντας το προσφερόμενο εκπαιδευτικό υλικό στις ανάγκες του κάθε χρήστη. / We live in a society in which the use of technology has entered dynamically in our life,the education could not be influenced by new Technologies. Terms such as "e-Learning" and "Asynchronous e-learning" have created new standards in the classical Education.
By the term “asynchronous e-learning” we mean a process of exchange of learning between teacher & student, performed regardless of time and place.
E-learning is the use of new multimedia technologies and the Internet to improve the quality of learning by facilitating access to information resources and services as well as remote exchanges .The term covers a wide range of applications and processes, such electronic classrooms, and digital collaboration, learning based on computers and Web technologies.
Some of the basic requirements that must be met to establish a platform for e-learning are: To support the creation of forums and chat rooms, to deliver email, has friendly environment for both user / student and user / teacher, support personalization depending to the user . Holding information (creating profiles) for the user in order to provide help in the navigation, to support easy creating exams (online tests), to support multimedia presentation materials.
As natural language processing (NLP) define the computational analysis of unstructured data in text, to achieve mechanical understanding of the text. To elaborate proposals that imported or read by the system, which also responds by proposals in a manner that reminds answers of educated man. A key role is played by the grammar, syntax, semantic analysis of data and general knowledge to understand the human language of the machine.
The main natural text processing techniques based on general knowledge about natural language .This techniques use some simple heuristic rules based on syntactic and semantic analysis of the text. Some of the techniques pertaining to all fields of application are: tokenization, structural data mining, elimination of insignificant words, PoS tagging, analyzing the morphological and syntactic analysis.
The aim of this study is to describe and evaluate how the techniques of natural language processing (NLP), could be used for incorporation into e-learning platforms. The large growth of data delivered through an online learning platform, should be able to manage, distributed and retrieved. By the use of NLP techniques will be presented an innovative e-learning platform, using the high level personalization techniques, the ability to extract conclusions digesting the user's natural language by customizing the offered educational materials to the needs of each user .
|
9 |
Αυτόματη μάθηση συντακτικών εξαρτήσεων και ανάπτυξη γραμματικών της ελληνικής γλώσσας / Learning of syntactic dependencies and development of modern Greek grammarsΚερμανίδου, Κάτια Λήδα 25 June 2007 (has links)
Η παρούσα διατριβή έχει ως σκοπό της, πρώτον, την ανάκτηση συντακτικής πληροφορίας (αναγνώριση συμπληρωμάτων ρημάτων, ανάκτηση πλαισίων υποκατηγοριοποίησης (ΠΥ) ρημάτων, αναγνώριση των ορίων και του είδους των προτάσεων) αυτόματα μέσα από ελληνικά και αγγλικά σώματα κειμένων με την χρήση ποικίλων και καινοτόμων τεχνικών μηχανικής μάθησης και, δεύτερον, την θεωρητική περιγραφή της ελληνικής σύνταξης μέσω τυπικών γλωσσολογικών φορμαλισμών, όπως η γραμματική Ενοποίησης και η γραμματική Φραστικής Δομής Οδηγούμενη από τον Κύριο Όρο. Η διατριβή κινήθηκε πάνω στους εξής καινοτόμους άξονες: 1. Η προεπεξεργασία των σωμάτων κειμένων βασίστηκε σε ελάχιστους γλωσσολογικούς πόρους για να είναι δυνατή η μεταφορά των μεθόδων σε γλώσσες φτωχές σε υποδομή. 2. Η αντιμετώπιση του θορύβου που υπεισέρχεται στα δεδομένα εξ αιτίας της χρήσης ελάχιστων πόρων πραγματοποιείται με Μονόπλευρη Δειγματοληψία. Εντοπίζονται αυτόματα παραδείγματα δεδομένων που δεν προσφέρουν στην μάθηση και αφαιρούνται. Τα τελικά δεδομένα είναι πιο καθαρά και η απόδοση της μάθησης βελτιώνεται πολύ. 3. Αποδεικνύεται η χρησιμότητα της εξαχθείσας πληροφορίας. Η χρησιμότητα των συμπληρωμάτων φαίνεται από την αύξηση της απόδοσης της διαδικασίας ανάκτησης ΠΥ με την χρήση τους. Η χρησιμότητα των εξαγόμενων ΠΥ φαίνεται από την αύξηση της απόδοσης ενός ρηχού συντακτικού αναλυτή με την χρήση τους. 4. Οι μέθοδοι εφαρμόζονται και στα Αγγλικά και στα Ελληνικά για να φανεί η μεταφερσιμότητά τους σε διαφορετικές γλώσσες και για να πραγματοποιηθεί μια ενδιαφέρουσα σχετική σύγκριση ανάμεσα στις δύο γλώσσες. Τα αποτελέσματα είναι πολύ ενθαρρυντικά, συγκρίσιμα με, και σε πολλές περιπτώσεις καλύτερα από, προσεγγίσεις που χρησιμοποιούν εξελιγμένα εργαλεία προεπεξεργασίας. / The thesis aims firstly at the acquisition of syntactic information (detection of verb complements, acquisition of verb subcategorization frames (SF), detection of the boundaries and the semantic type of clauses) automatically from Modern Greek and English text corpora with the use of various state-of-the-art and novel machine learning techniques, and, secondly, at the theoretical description of the Greek syntax through formal grammatical theories like Unification Grammar and Head-driven Phrase Structure Grammar. The thesis has been based on the following novel axes: 1. Corpus pre-processing has been limited to the use of minimum linguistic resources to ensure the portability of the presented methodologies to languages that are poorly equipped with resources. 2. Due to the low pre-processing level, a significant amount of noise appears in the data, which is dealt with One-sided Sampling. Examples that do not contribute to the learning process are detected and removed. The final data set is clean and learning performance improves significantly. 3. The importance of the acquired information is proven. The importance of complements is shown by the improvement in the performance of the SF acquisition process after the incorporation of complement information. The importance of the acquired SF lexicon is shown by its incorporation in a shallow syntactic parser and the increase of the performance of the latter. 4. The methods are applied on Modern Greek and on English to show their portability across different languages and to allow for an interesting rough comparison between the two languages. The results are very satisfactory, comparable to, and in some cases better than, approaches utilizing sophisticated resources for pre-processing.
|
Page generated in 0.0418 seconds