Global ETD Search

21	Εφαρμογή τεχνικών εξόρυξης γνώσης στην εκπαίδευση Παπανικολάου, Δονάτος 31 May 2012 (has links) Σε αυτή την Διπλωματική εργασία μελετήσαμε με ποιο τρόπο μπορούν να εφαρμοστούν οι διάφορες τεχνικές Εξόρυξης Γνώσης (Data Mining) στην εκπαίδευση. Αυτός ο επιστημονικός τομέας o οποίος ερευνά και αναπτύσσει τεχνικές προκειμένου να ανακαλύψει γνώση από δεδομένα τα οποία προέρχονται από την εκπαίδευση ονομάζεται Εξόρυξη Γνώσης από Εκπαιδευτικά Δεδομένα (Educational Data Mining –EDM. Στην εργασία αυτή εκτός από την θεωρητική μελέτη των αλγορίθμων και των τεχνικών που διέπουν την εξόρυξη γνώσης από δεδομένα γενικά, έγινε και μια λεπτομερέστερη μελέτη και παρουσίαση της κατηγορίας των αλγορίθμων κατηγοριοποίησης (Classification), διότι αυτοί οι αλγόριθμοι χρησιμοποιήθηκαν στην φάση της υλοποίησης/αξιολόγησης. Στην συνέχεια η εργασία επικεντρώθηκε στον τρόπο με τον οποίο μπορούν να εφαρμοστούν αυτοί οι αλγόριθμοι σε εκπαιδευτικά δεδομένα, τι εφαρμογές έχουμε στην εκπαίδευση, ενώ αναφερόμαστε και σε μια πληθώρα ερευνών που έχουν πραγματοποιηθεί πάνω στο συγκεκριμένο αντικείμενο. Στην συνέχεια διερευνήσαμε την εφαρμογή τεχνικών κατηγοριοποίησης στην πρόγνωση της επίδοσης μαθητών Δευτεροβάθμιας Εκπαίδευσης στα μαθήματα της Γεωγραφίας Α’ και Β’ Γυμνασίου. Συγκεκριμένα υλοποιήσαμε και θα αξιολογήσαμε έξι αλγορίθμους οι οποίοι ανήκουν στην ομάδα των αλγορίθμων κατηγοριοποίησης(Classification) και είναι αντιπροσωπευτικοί των σημαντικότερων τεχνικών κατηγοριοποίησης. Από την οικογένεια των ταξινομητών με χρήση δένδρων απόφασης (Decision Tree Classifiers) υλοποιήσαμε τον J48, από τους αλγορίθμους κανόνων ταξινόμησης (Rule-based Classification ) τον Ripper, από τους αλγόριθμους στατιστικής κατηγοριοποίησης τον Naïve Bayes, από την μέθοδο των Κ πλησιέστερων γειτόνων (KNN) τον 3-ΝΝ, από την κατηγορία των τεχνητών νευρωνικών δικτύων τον Back Propagation και τέλος από τις μηχανές διανυσμάτων υποστήριξης (Support Vector Machines SVM) τον SMO (Sequental Minimal Optimazation). Όλες οι παραπάνω υλοποιήσεις και αξιολογήσεις έγιναν με το ελεύθερο λογισμικού Weka το οποίο είναι υλοποιημένο σε Java και το οποίο προσφέρει μια πληθώρα αλγορίθμων μηχανικής μάθησης για να κάνουμε εξόρυξη γνώσης. / In this work we will study the way the misc data mining techniques can be applied to the misc fields of the education. This new scientific field is commonly named Educational Data Mining. In this study we will study the theoretical analysis of the data mining techniques focussing to the classification techniques as those are the most commonly used for prediction purpose. We also intend to predict student performance in secondary education using data mining techniques. The data we collect are concerned the class of Geography and we apply to them six data mining models with the help of the open source machine learning software Weka. We use supervised machine learning algorithms from the Classification field (Decision Tree Classifiers, Rule-based Classification, Neural Networks, k-Nearest Neighbour Algorithm, Bayesian and Support Vector Machines). After we have evaluate the algorithms we build a java tool, that uses the 3-KNN algorithm, to help us predict the performance of a student at the end of the year. Εξόρυξη γνώσης Μηχανική μάθηση Κατηγοριοποίηση Πρόγνωση Δέντρα απόφασης Νευρωνικά δίκτυα 006.312 Data mining Educational data mining Machine learning Classification Secondary education Prediction Supervised learning methods
22	Prosody modelling using machine learning techniques for neutral and emotional speech synthesis / Μοντελοποίηση προσωδίας με χρήση τεχνικών μηχανικής μάθησης στα πλαίσια ουδέτερης και συναισθηματικής συνθετικής ομιλίας Λαζαρίδης, Αλέξανδρος 11 August 2011 (has links) In this doctoral dissertation three proposed approaches were evaluated using two databases of different languages, one American-English and one Greek. The proposed approaches were compared to the state-of-the-art models in the phone duration modelling task. The SVR model outperformed all the other individual models evaluated in this dissertation. Their ability to outperform all the other models is mainly based on their advantage of coping in a better way with high-dimensionality feature spaces in respect to the other models used in phone duration modelling, which makes them appropriate even for the case when the amount of the training data would be small respectively to the number of the feature set used. The proposed fusion scheme, taking advantage of the observation that different prediction algorithms perform better in different conditions, when implemented with SVR (SVR-fusion), contributed to the improvement of the phone duration prediction accuracy over that of the best individual model (SVR). Furthermore the SVR-fusion model managed to reduce the outliers in respect to the best individual model (SVR). Moreover, the proposed two-stage scheme using individual phone duration models as feature constructors in the first stage and feature vector extension (FVE) in the second stage, implemented with SVR (SVR-FVE), improved the prediction accuracy over the best individual predictor (SVR), and the SVR-fusion scheme and moreover managed to reduce the outliers in respect to the other two proposed schemes (SVR and SVR-fusion). The SVR two-stage scheme confirms in this way their advantage over all the other algorithms of coping well with high-dimensionality feature sets. The improved accuracy of phone duration modelling contributes to a better control of the prosody, and thus quality of synthetic speech. Furthermore, the first proposed method (SVR) was also evaluated on the phone duration modelling task in emotional speech, outperforming all the state-of-the-art models in all the emotional categories. Finally, perceptual tests were performed evaluating the impact of the proposed phone duration models to synthetic speech. The perceptual test for both the databases confirmed the results of objective tests showing the improvement achieved by the proposed models in the naturalness of synthesized speech. / Η παρούσα διδακτορική διατριβή πραγματεύεται προβλήματα που αφορούν στο χώρο της τεχνολογίας ομιλίας, με στόχο την μοντελοποίηση προσωδίας με χρήση τεχνικών μηχανικής μάθησης στα πλαίσια ουδέτερης και συναισθηματικής συνθετικής ομιλίας. Μελετήθηκαν τρεις καινοτόμες μέθοδοι μοντελοποίησης προσωδίας, οι οποίες αξιολογήθηκαν με αντικειμενικά τεστ και με υποκειμενικά τεστ ποιότητας ομιλίας για την συνεισφορά τους στην βελτίωση της ποιότητα της συνθετικής ομιλίας: Η πρώτη τεχνική μοντελοποίησης διάρκειας φωνημάτων, βασίζεται στην μοντελοποίηση με χρήση Μηχανών Υποστήριξης Διανυσμάτων (Support Vector Regression – SVR). Η μέθοδος αυτή δεν έχει χρησιμοποιηθεί έως σήμερα στην πρόβλεψη διάρκειας φωνημάτων. Η μέθοδος αυτή συγκρίθηκε και ξεπέρασε σε απόδοση όλες τις μεθόδους της επικρατούσας τεχνολογίας (state-of-the-art) στη μοντελοποίηση της διάρκειας φωνημάτων. Η δεύτερη τεχνική, βασίζεται στην μοντελοποίηση διάρκειας φωνημάτων με συνδυαστικό μοντέλο πολλαπλών προβλέψεων. Συγκεκριμένα, οι προβλέψεις διάρκειας φωνημάτων από ένα σύνολο ανεξάρτητων μοντέλων πρόβλεψης διάρκειας φωνημάτων χρησιμοποιούνται ως είσοδος σε ένα μοντέλο μηχανικής μάθησης, το οποίο συνδυάζει τις εξόδους από τα ανεξάρτητα μοντέλα πρόβλεψης και επιτυγχάνει μοντελοποίηση της διάρκειας φωνημάτων με μεγαλύτερη ακρίβεια, μειώνοντας επιπλέον και τα μεγάλα σφάλματα (outliers), δηλαδή τα σφάλματα που βρίσκονται μακριά από το μέσο όρο των σφαλμάτων. Η τρίτη τεχνική, είναι μια μέθοδος μοντελοποίησης διάρκειας φωνημάτων δύο σταδίων με κατασκευή νέων χαρακτηριστικών και επέκταση του διανύσματος χαρακτηριστικών. Συγκεκριμένα, στο πρώτο στάδιο, ένα σύνολο ανεξάρτητων μοντέλων πρόβλεψης διάρκειας φωνημάτων που χρησιμοποιούνται ως παραγωγοί νέων χαρακτηριστικών εμπλουτίζουν το διάνυσμα χαρακτηριστικών. Στο δεύτερο στάδιο, το εμπλουτισμένο διάνυσμα χρησιμοποιείται για να εκπαιδευτεί ένα μοντέλο πρόβλεψης διάρκειας φωνημάτων το οποίο επιτυγχάνει υψηλότερη απόδοση σε σχέση με όλες τις προηγούμενες μεθόδους, και μειώνει τα μεγάλα σφάλματα. Επιπλέον εφαρμόστηκε η πρώτη μέθοδος σε συναισθηματική ομιλία. Το προτεινόμενο SVR μοντέλο επιτυγχάνει την υψηλότερη απόδοση συγκρινόμενο με όλα τα state-of-the-art μοντέλα. Τέλος, πραγματοποιήθηκαν υποκειμενικά τεστ ποιότητας ομιλίας ώστε να αξιολογηθεί η συνεισφορά των τριών προτεινόμενων μεθόδων στη βελτίωση της ποιότητας της συνθετικής ομιλίας. Τα τεστ αυτά επιβεβαίωσαν την αξία των προτεινόμενων μεθόδων και τη συνεισφορά τους στη βελτίωση της ποιότητας στην συνθετική ομιλία. Phone duration modelling Prosody modelling Speech synthesis Machine learning Neutral speech Emotional speech 006.31 Σύνθεση ομιλίας Μηχανική μάθηση Ουδέτερη ομιλία
23	Ταξινόμηση μιας κλάσης ηλεκτροεγκεφαλικών σημάτων / One-class classification of EEG data Πιστιόλης, Νικόλαος 04 May 2011 (has links) Στο πρόβλημα της ταξινόμησης μιας κλάσης μία από τις κλάσεις, που ονομάζεται target κλάση, πρέπει να διαχωριστεί από όλα τα άλλα πιθανά αντικείμενα. Αυτά θεωρούνται σαν outliers (ή non-targets). Η ανάγκη για τη λύση ενός τέτοιου προβλήματος προκύπτει σε πολλές πρακτικές εφαρμογές, π.χ. στη μηχανική ανίχνευση λάθους, στην αναγνώριση προσώπου, στην επαλήθευση συγγραφικών δικαιωμάτων, στην αναγνώριση απάτης ή στη ταυτοποίηση ατόμου με βάση βιομετρικά δεδομένα. Στη συγκεκριμένη διπλωματική γίνεται ταξινόμηση μιας κλάσης ηλεκτροεγκεφαλικών σημάτων. Με αυτό τον τρόπο επιτυγχάνεται η ανίχνευση ενός πυραύλου μέσα σε δορυφορικές εικόνες, χρησιμοποιώντας τα ηλεκτροεγκεφαλικά σήματα ενός υποκειμένου το οποίο βλέπει δορυφορικές εικόνες σε μια LCD οθόνη. Για να γίνει η ταξινόμηση δημιουργήθηκε ένα σετ target και ένα σετ outlier αντικειμένων(δεδομένα).Τα target αντικείμενα είναι τα τμήματα από τα αρχικά ηλεκτροεγκεφαλικά σήματα τα οποία συνδέονται με την παρατήρηση πυραύλου μέσα σε μία δορυφορική εικόνα από το υποκείμενο, ενώ τα outlier αντικείμενα είναι άλλα τμήματα(ίδιου μεγέθους με τα target) των αρχικών ηλεκτροεγκεφαλικών σημάτων. Tα αντικείμενα μεταφέρονται σε ένα χώρο χαρακτηριστικών λιγότερων διαστάσεων από τον αρχικό τους χώρο, χρησιμοποιώντας τη γραμμική μέθοδο MCA (Minor Component Analysis). Για τη ταξινόμηση μιας κλάσης των αντικειμένων μελετώνται και χρησιμοποιούνται οι ταξινομητές MST_CD (Minimum Spanning Tree Class Descriptor), k-NNDD (k Nearest Neighbors Data Description) και SVDD (Support Vector Domain Description). Η εκπαίδευση των ταξινομητών αυτών γίνεται με ένα μικρό ποσοστό των target αντικειμένων (αντικείμενα εκπαίδευσης). Υπολογίζεται η απόδοση ταξινόμησης για κάθε έναν από αυτούς χρησιμοποιώντας τα υπόλοιπα target αντικείμενα μαζί με τα outlier αντικείμενα. Τέλος συγκρίνονται οι αποδόσεις και εξάγονται τα συμπεράσματα για τις υψηλές τιμές τους. Στο παράρτημα Α φαίνεται ο εκτελέσιμος στο matlab κώδικας με τον οποίο έγιναν όλα τα παραπάνω. Ο κώδικας γράφτηκε αποκλειστικά για τη συγκεκριμένη διπλωματική εργασία. / In the problem of one-class classification one of the classes, called the target class, has to be distinguished from all other possible objects. These are considered as outliers (or non-targets). The need for solving such a task arises in many practical applications, e.g. in fault detection, face recognition, authorship verification, fraud recognition or person identification based on biometric data. In this thesis a one-class classification of EEG (Electroencephalographic) data is being done. By this way, the detection of an air missile is achieved by using the EEG data of a subject, which is watching satellite images in a LCD monitor. For the classification a set of target and a set of outlier objects (data) were created. The target objects are parts of the original EEG data that are event-related with the detection of an air missile in a satellite image by the subject and the outlier objects are other parts (of the same size with target) of the original EEG data. The objects are mapped in a feature space of fewer dimensions than their original space, by using the linear method MCA (Minor Component Analysis). For the one-class classification of the objects, the classifiers that are studied and used are MST_CD (Minimum Spanning Tree Class Descriptor), k-NNDD (k Nearest Neighbors Data Description) and SVDD (Support Vector Domain Description). For the training of these classifiers a small percentage of target objects (training objects) are used. The performance of the classification is calculated for every classifier by using the rest target objects and the outlier objects. Finally the performances are compared and conclusions for their high values are made. In the appendix A there is the executable code in matlab which does all the above. The code created just for the purposes of this thesis. Αναγνώρηση προτύπων Μηχανική μάθηση 006.3 One class classification Pattern recognition MCA MST_CD k-NNDD SVMDD
24	Δημιουργία ευφυούς συστήματος για αυτόματη σύνθεση μουσικού έργου / Automatic interactive music improvisation based on data mining Χαλκιόπουλος, Κωνσταντίνος 01 November 2010 (has links) Μία από τις βασικές προκλήσεις στο μουσικό αυτοσχεδιασμό είναι ο διαδραστικός αυτοσχεδιασμός μεταξύ ενός ανθρώπου και ενός συστήματος. Στη παρούσα ενότητα παρουσιάζουμε ένα μουσικό διαδραστικό σύστημα (Πολύμνια) ως συνεχιστή της μελωδίας (as melody continuator). Για κάθε μουσικό πρότυπο (pattern) που έχει δοθεί από το χρήστη, το ευφυές σύστημα ανακαλεί ένα όμοιο (similar) γενικό πρότυπο που είναι αποθηκευμένο στη βάση του (database) και το οποίο το αναμορφώνει ανάλογα (reform). Το προτεινόμενο σύστημα κατευθύνει τη μουσική αναπαράσταση και την ομοιότητα του μουσικού προτύπου (musical pattern similarity) στη χρήση της εξόρυξης δεδομένων (data mining). Προτείνουμε ένα σχήμα μουσικής αναπαράστασης το οποίο μπορεί να χρησιμοποιηθεί για ανάλυση εξόρυξης δεδομένων (data mining analysis) η οποία στοχεύει στη μάθηση γενικών προτύπων και για τη συχνότητα και για τη διάρκεια σε συγκεκριμένα είδη μουσικής (music styles). Η εξόρυξη δεδομένων είναι μια αναδυόμενη διαδικασία μηχανικής μάθησης με την εξαγωγή προηγουμένως άγνωστων, αγώγιμων (actionable) πληροφοριών από πολύ μεγάλες επιστημονικές και εμπορικές βάσεις δεδομένων. Η μηχανική μάθηση (machine learning) έχει παίξει έναν κρίσιμο ρόλο στη υπολογιστική μουσική (computer music) σχεδόν από την αρχή της. Πρόσφατα η έρευνα στο πεδίο έχει εστιαστεί στην εξόρυξη μουσικής (music mining). Παρουσιάζουμε επίσης πειραματικά αποτελέσματα για έλεγχο και αξιολόγηση της αποδοτικότητας (efficiency) και της ακρίβειας του προτεινόμενου συστήματος «Πολύμνια». / One of the main challenges in music improvisation is interactive improvisation between a human and a system. In this thesis we present a musical interactive system (called polyhymnia) acting as melody continuator. For each musical pattern given by the user, it recalls a similar general pattern stored in its memory and reforms it. The proposed system addresses music representation and musical pattern similarity using data mining. We propose a scheme for monophonic music representation as traditional data sets suitable for common data mining algorithms and investigate the application of clustering similarity measures to musical pattern similarity. Data Mining is an emerging machine learning process of extracting previously unknown, actionable information from very large scientific and commercial databases. Machine learning has played a crucial role in the computer music almost since its beginning. Recently, research in the field has focused on music mining. We also present experimental results for testing and evaluating the efficiency and accuracy of the proposed system “polyhymnia”. Μουσική αναπαράσταση Εξόρυξη γνώσης Μουσική εξόρυξη Συνεχιστής μελωδίας Πολύμνια 780.285 Musical pattern matching Computer-assisted music analysis Music representation Data mining Music mining Machine learning in computer music Melody continuator Polyhymnia
25	Παραμετροποίηση στοχαστικών μεθόδων εξόρυξης γνώσης από δεδομένα, μετασχηματισμού συμβολοσειρών και τεχνικών συμπερασματικού λογικού προγραμματισμού / Parameterization of stochastic data mining methods, string conversion algorithms and deductive logic programming techniques Λύρας, Δημήτριος 02 February 2011 (has links) Η παρούσα διατριβή πραγματεύεται το αντικείμενο της μάθησης από δύο διαφορετικές οπτικές γωνίες: την επαγωγική και την παραγωγική μάθηση. Αρχικά, παρουσιάζονται παραμετροποιήσεις στοχαστικών μεθόδων εξόρυξης γνώσης από δεδομένα υπό τη μορφή τεσσάρων καινοτόμων εξατομικευμένων μοντέλων στήριξης ασθενών που πάσχουν από διαταραχές άγχους. Τα τρία μοντέλα προσανατολίζονται στην ανεύρεση πιθανών συσχετίσεων μεταξύ των περιβαλλοντικών παραμέτρων των ασθενών και του επιπέδου άγχους που αυτοί παρουσιάζουν, ενώ παράλληλα προτείνεται και η χρήση ενός Μπεϋζιανού μοντέλου πρόβλεψης του επιπέδου άγχους που είναι πιθανό να εμφανίσει κάποιος ασθενής δεδομένων ορισμένων τιμών του περιβαλλοντικού του πλαισίου εφαρμογής. Αναφορικά με το χώρο της εξόρυξης γνώσης από κείμενο και του μετασχηματισμού συμβολοσειρών, προτείνεται η εκπαίδευση μοντέλων δέντρων αποφάσεων για την αυτόματη μεταγραφή Ελληνικού κειμένου στην αντίστοιχη φωνητική του αναπαράσταση, πραγματοποιείται η στοχαστική μοντελοποίηση όλων των πιθανών μεταγραφικών νορμών από ορθογραφημένα Ελληνικά σε Greeklish και τέλος παρουσιάζεται ένας καινοτόμος αλγόριθμος που συνδυάζει δύο γνωστά για την ικανοποιητική τους απόδοση μέτρα σύγκρισης ομοιότητας αλφαριθμητικών προκειμένου να επιτευχθεί η αυτόματη λημματοποίηση του κειμένου εισόδου. Επιπρόσθετα, στα πλαίσια της ανάπτυξης συστημάτων που θα διευκολύνουν την ανάκτηση εγγράφων ή πληροφοριών προτείνεται η συνδυαστική χρήση του προαναφερθέντος αλγορίθμου λημματοποίησης παράλληλα με τη χρήση ενός πιθανοτικού δικτύου Bayes στοχεύοντας στην ανάπτυξη ενός εύρωστου και ανταγωνιστικού ως προς τις επιδόσεις συστήματος ανάκτησης πληροφοριών. Τέλος, παρουσιάζονται οι προτάσεις μας που αφορούν στο χώρο της παραγωγικής μάθησης και του ελέγχου ικανοποιησιμότητας λογικών εκφράσεων. Συγκεκριμένα περιλαμβάνουν: i) την ανάλυση και εκτενή παρουσίαση μιας καινοτόμας μαθηματικής μοντελοποίησης με την ονομασία AnaLog (Analytic Tableaux Logic) η οποία δύναται να εκφράσει τη λογική που διέπει τους αναλυτικούς πίνακες για προτασιακούς τύπους σε κανονική διαζευκτική μορφή. Mέσω του λογισμού Analog επιτυγχάνεται η εύρεση των κλειστών κλάδων του πλήρως ανεπτυγμένου δέντρου Smullyan, χωρίς να είναι απαραίτητος ο αναλυτικός σχεδιασμός του δέντρου, και ii) την παράθεση ενός αναλυτικού αλγορίθμου που μπορεί να αξιοποιήσει τον φορμαλισμό AnaLog σε ένα πλαίσιο αριθμητικής διαστημάτων μέσω του οποίου μπορούμε να αποφανθούμε για την ικανοποιησιμότητα συμβατικών διαζευκτικών προτασιακών εκφράσεων. / The present dissertation deals with the problem of learning from two different perspectives, meaning the inferential and the deductive learning. Initially, we present our suggestions regarding the parameterization of stochastic data mining methods in the form of four treatment supportive services for patients suffering from anxiety disorders. Three of these services focus on the discovery of possible associations between the patients’ contextual data whereas the last one aims at predicting the stress level a patient might suffer from, in a given environmental context. Our proposals with regards to the wider area of text mining and string conversion include: i) the employment of decision-tree based models for the automatic conversion of Greek texts into their equivalent CPA format, ii) the stochastic modeling of all the existing transliteration norms for the Greek to Greeklish conversion in the form of a robust transcriber and iii) a novel algorithm that is able to combine two well-known for their satisfactory performance string distance metric models in order to address the problem of automatic word lemmatization. With regards to the development of systems that would facilitate the automatic information retrieval, we propose the employment of the aforementioned lemmatization algorithm in order to reduce the ambiguity posed by the plethora of morphological variations of the processed language along with the parallel use of probabilistic Bayesian Networks aiming at the development of a robust and competitive modern information retrieval system. Finally, our proposals regarding logical deduction and satisfiability checking include: i) a novel mathematical formalism of the analytic tableaux methodology named AnaLog (after the terms Analytic Tableaux Logic) which allows us to efficiently simulate the structure and the properties of a complete clausal tableau given an input CNF formula. Via the AnaLog calculus it is made possible to calculate all the closed branches of the equivalent complete Smullyan tree without imposing the need to fully construct it, and ii) a practical application of the AnaLog calculus within an interval arithmetic framework which is able to decide upon the satisfiability of propositional formulas in CNF format. This framework, apart from constituting an illustrative demonstration of the application of the AnaLog calculus, it may also be employed as an alternative conventional SAT system. Εξόρυξη δεδομένων Μηχανική μάθηση Ανάκτηση πληροφοριών Αναλυτικοί πίνακες 006.312 Knowledge mining from Data Data mining String conversion Deductive logic programming Text mining Machine learning Information retrieval Boolean satisfiability Analytic tableaux

Page generated in 0.0233 seconds