Global ETD Search

11	Εφαρμογή αλγορίθμων επαγωγικού λογικού προγραμματισμού στη σχεσιακή εξόρυξη δεδομένων Ντάλλα, Μιρέλα 25 February 2010 (has links) Η παρούσα εργασία έχει ως στόχο να παρουσιάσει έναν παράλληλο αλγόριθμο Εξόρυξης δεδομένων που μπορεί να εφαρμοστεί σε μεγάλες βάσεις δεδομένων με χρήση Επαγωγικού Λογικού Προγραμματισμού. Η κεντρική υπόθεση αυτής της εργασίας είναι πως είναι απαραίτητο αλλά και δυνατό να υιοθετηθούν παράλληλοι αλγόριθμοι στη διαδικασία της Εξόρυξης δεδομένων. Αποδεικνύεται ότι ο παραλληλισμός μπορεί να εφαρμοστεί αποδοτικά στον Επαγωγικό Λογικό Προγραμματισμό (Inductive Logic Programming - ILP). Η ολοκληρωμένη αναπαράσταση της γνώσης και η εξαιρετική ενσωμάτωση της υποκείμενης γνώσης του ILP αποδεικνύεται πολύ σημαντική μεταξύ των αλγορίθμων Εξόρυξης δεδομένων. Το Κεφάλαιο 1 αποτελεί μια εισαγωγή στην εξόρυξη δεδομένων. Παρουσιάζονται οι βασικές εργασίες που λαμβάνουν χώρα κατά την εξόρυξη δεδομένων καθώς και μερικοί από τους συνηθισμένους αλγορίθμους εξόρυξης δεδομένων. Στη συνέχεια, γίνεται μια εισαγωγή στη σχεσιακή εξόρυξη δεδομένων και δίνονται τα βασικά χαρακτηριστικά αλγορίθμων σχεσιακής εξόρυξης δεδομένων. Το Κεφάλαιο 2 αυτής της διπλωματικής εργασίας παρουσιάζει τη θεωρία του Eπαγωγικού Λογικού Προγραμματισμού (ΕΠΛ - ILP), μερικές δημοφιλείς μεθόδους ILP καθώς και τον τρόπο με τον οποίο εφαρμόζεται ο ILP για να επιλύσει προβλήματα που συναντώνται σε συστήματα βάσεων δεδομένων Παρουσιάζεται αναλυτικά μια συγκεκριμένη προσέγγιση στον ILP – η Mode Directed Inverse Entailment [60], καθώς αποτελεί τη βάση για την παράλληλη έκδοση της Progol που θα παρουσιαστεί σε επόμενο κεφάλαιο. Το Κεφάλαιο 3 είναι αφιερωμένο στην παρουσίαση διαφόρων συστημάτων ILP και την εφαρμογή τους στην Εξόρυξη δεδομένων. Στη συνέχεια του κεφαλαίου παρουσιάζεται ένας σειριακός αλγόριθμος ILP Εξόρυξης δεδομένων και η ανάλυση κόστους του. Γίνεται μια εισαγωγή στο Bulk Synchronous Parallelism (BSP) [46]. Το Κεφάλαιο 4, είναι μια σύνοψη της παράλληλης Επαγωγικής Λογικής. Στην αρχή αναφέρονται οι βασικές αρχές του παράλληλου επαγωγικού μοντέλου και στη συνέχεια ακολουθεί μια λεπτομερής περιγραφή. Εμφανίζονται τα προβλήματα μιας τέτοιας προσέγγισης και παρουσιάζεται μια ανάλυση κόστους. Τμήμα του Κεφαλαίου 4 είναι αφιερωμένο σε έναν παράλληλο αλγόριθμο ILP που χρησιμοποιεί το μοντέλο BSP. Για να υποστηριχθεί ο παράλληλος αλγόριθμος του Κεφαλαίου 4, το Κεφάλαιο 5 παρουσιάζει μερικά βασικά χαρακτηριστικά ενός παράλληλου συστήματος ILP – της παράλληλης Progol. Το σύστημα αυτό δημιουργήθηκε με βάση το μοντέλο BSP και βασίζεται στην Progol που υλοποιήθηκε (σε γλώσσα C) από το Muggleton. Παρέχονται πολλά παραδείγματα και επεξηγείται το φαινόμενο της υπεργραμμικής επιτάχυνσης (super-linear speedup). Στο Κεφάλαιο 6 έχουν συμπεριληφθεί τα αποτελέσματα των δοκιμών του αλγορίθμου του Κεφαλαίου 4 σε τρεις διαφορετικές περιπτώσεις προβλημάτων, στην ταξινόμηση των ζώων, στην εκμάθηση των κανόνων του σκάκι και στο πρόβλημα τερματισμού σε μια παρτίδα σκάκι. Το Κεφάλαιο 7 συνοψίζει τα αποτελέσματα της μεταπτυχιακής εργασίας. / - Εξόρυξη δεδομένων 005.74 Data mining Intactive logic programming (ILP)
12	Μελέτη και ανάπτυξη μεθόδων μηχανικής μάθησης με εφαρμογή στην πρόβλεψη ατμοσφαιρικής ρύπανσης Καλαπανίδας, Ηλίας 24 June 2010 (has links) - / - Εξόρυξη δεδομένων Μηχανική μάθηση Ατμοσφαιρική ρύπανση 006.3 Data mining Machine learning Air pollution
13	Εφαρμογές αλγορίθμων και έλεγχοι αξιοπιστίας ομαδοποίησης στην αναγνώριση προτύπων και στον καθαρισμό δεδομένων Αντζουλάτος, Γεράσιμος 25 August 2010 (has links) - / - Αλγόριθμοι Πρότυπα Εξόρυξη δεδομένων 005.1 Algorithms Model Data mining
14	Εφαρμογή μεθόδων εξόρυξης δεδομένων σε βαρομετρικούς χάρτες Βαρσάμη, Ευθυμία 27 December 2010 (has links) Η παρούσα Διπλωματική εργασία ασχολείται με τον τομέα της Eξόρυξης Δεδομένων (Data Mining) από Βαρομετρικούς Χάρτες. Οι τεχνικές του Data Mining έχουν εφαρμογές σε πλήθος δεδομένων, όπως αυτά που προκύπτουν κάθε στιγμή από το διαδίκτυο, τις συναλλαγές και άλλες πηγές. Η εφαρμογή των μεθόδων του Data Mining έχει ως σκοπό την εξόρυξη χρήσιμης και εύχρηστης "κρυφής" γνώσης από διαφορετικά μη αξιοποιήσιμες πηγές. Η εργασία είναι διαρθρωμένη σε τρία κεφάλαια. Το πρώτο κεφάλαιο εισάγει τον αναγνώστη στην γλώσσα του Data Mining, αναλύει τους τομείς εφαρμογής του, καθώς και τα είδη των δεδομένων στα οποία είναι εφαρμόσιμο. Έπειτα γίνεται μια εκτενής αναφορά στις τρεις κυριότερες τεχνικές Data Mining, την κατηγοριοποίηση, τους κανόνες συσχέτισης και την ομαδοποίηση. Το δεύτερο κεφάλαιο αναφέρεται στην ομαδοποίηση, που είναι η τεχνική που θα εφαρμοστεί στην παρούσα εργασία. Αναλύονται οι κυριότεροι τύποι δεδομένων καθώς και τα διάφορα είδη αλγορίθμων που εφαρμόζονται. Επιπλέον, παρουσιάζονται οι βασικοί ορισμοί του πεδίου και αναλύεται η σπουδαιότητα λήψης συγκεκριμένων αποφάσεων όπως η επιλογή του αλγορίθμου, του μέτρου ομοιότητας και της αναπαράστασης των δεδομένων. Το τρίτο και τελευταίο κεφάλαιο αναφέρεται στην προτεινόμενη μεθοδολογία. Στην συγκεκριμένη εργασία χρησιμοποιούνται μέθοδοι μη επιβλεπόμενου Data Mining για την επεξεργασία βαρομετρικών δεδομένων τού ευρύτερου Μεσόγειου χώρου, με σκοπό να εντοπιστούν περιοχές κυκλογενέσεων. Έτσι στο κεφάλαιο αυτό αναλύεται το προς εξέταση πρόβλημα, και αναφέρονται οι στόχοι της εργασίας. Γίνεται αναφορά στο χρησιμοποιούμενο λογισμικό (WEKA) και έπειτα αναλύεται διεξοδικά όλη η προτεινόμενη μεθοδολογία και παρουσιάζονται οι χάρτες των αποτελεσμάτων, ενώ γίνεται σύγκριση αυτών με τα πραγματικούς βαρομετρικούς χάρτες. Τέλος, στα συμπεράσματα διαπιστώνεται η πρακτική αξία της μεθόδου και παρουσιάζονται κάποιες προτάσεις για περαιτέρω εξέλιξή της. / The present project deals with Data Mining to Barometric Maps Data. Data Mining techniques apply on several types of data, as those that emerge daily from internet, transactions and many other sources. Data Mining methods aim at finding useful, handy "hidden" knowledge in otherwise non-reclaimable sources. The project is structured in three chapters. The first chapter familiarizes the reader with the Data Mining language, analyzes the fields to which it is applicable and the kind of data that can be used. Afterwards the three most important Data Mining Techniques (Association Rules, Categorization, and Clustering) are deeply analyzed. The second chapter refers to Clustering, the technique in use here. The most important types of algorithms are mentioned and explained. Furthermore there is a brief reference to the most important field definitions and the importance of certain decision making issues (as the algorithm choice) is analyzed The last chapter presents the proposed method in this project. Non – supervised Data Mining methods are used to process barometric data of the wider Mediterranean space in order to detect cyclogenetic regions. So, here, the problem under examination is analyzed and the goals of this project are presented. After a brief reference to the software used (WEKA), the whole proposed methodology is deeply analyzed, the result maps are presented while at the same time are compared to the real maps. Finally, the practical value of this method is noted and are given a few proposals for future work. Εξόρυξη δεδομένων Ομαδοποίηση Βαρομετρικοί χάρτες Κυκλογένεση 005.74 Data mining Clustering Barometric maps Cyclogenesis
15	Χρήση μεθόδων εξόρυξης δεδομένων στη δημιουργία νευρωκανόνων Αγγελόπουλος, Νικόλαος 03 November 2011 (has links) Στην εργασία αυτή παρουσιάζεται μια εναλλακτική διαδικασία διάσπασης ενός μη διαχωρίσιμου συνόλου εκπαίδευσης για την παραγωγή νευρωκανόνων. Η υπάρχουσα διαδικασία παρήγαγε νευρωκανόνες από μη γραμμικά σύνολα διασπώντας τα σε δύο υποσύνολα με βάση την «απόσταση» των προτύπων καταλήγοντας συχνά σε πολλαπλή αναπαράσταση της ίδιας γνώσης. Με την παρούσα εργασία διερευνάται η δυνατότητα της διάσπασης ενός μη διαχωρίσιμου συνόλου σε k υποσύνολα με χρήση μεθόδων συσταδοποίησης. Το k μπορεί είτε να αποτελεί είσοδο της διαδικασίας είτε να υπολογίζεται δυναμικά από ένα συγκεκριμένο εύρος τιμών. Η δεύτερη στρατηγική διάσπασης (δυναμικός k-modes) φαίνεται να έχει τα καλύτερα αποτελέσματα, ενώ η πρώτη (τροποποιημένος k-modes) παρουσιάζει συγκρίσιμα αποτελέσματα με την υπάρχουσα μέθοδο για μικρά k. Και οι δύο στρατηγικές διάσπασης μπορούν να συνδυαστούν με μία μέθοδο εύρεσης εκτόπων που αφαιρεί από το αρχικό σύνολο εκπαίδευσης μεμονωμένα παραδείγματα που αποκλίνουν «περισσότερο» από τα υπόλοιπα. / In this thesis we present an alternative splitting policy of a non separable training set used for the production of neurules. The existing method produced neurules from non linear training sets by “breaking” them into two subsets based on “distance” between patterns often leading to multiple representations of the same knowledge. The present thesis looks into the possibility of splitting a non separable training set into k subsets using clustering methods. The number k can be treated as an input to the process or it can be calculated dynamically from a specific range of values. The second splitting strategy (dynamic k-modes) appears to have the best results, while the first one (modified k-modes) gives similar results to the existing method for small values of k. Moreover, both splitting strategies can be combined with an outlier detection process which removes from the initial training set remote examples that deviate more from the rest, thus improving their performance. Νευρωκανόνες Εξόρυξη δεδομένων Συσταδοποίηση Εύρεση εκτόπων 006.32 Neurules Data mining Clustering Outlier detection
16	Φιλτράρισμα και εξόρυξη δεδομένων σε αντικείμενα πληροφορίας / Filtering and data mining techniques in information objects Αντωνέλλης, Παναγιώτης 06 October 2011 (has links) Καθώς ο κόσμος της πληροφορίας γίνεται κοινός τόπος για όλο και μεγαλύτερο μέρος του πληθυσμου παγκοσμίως, η ανάγκη για αποδοτική διαχείριση μεγάλου όγκου ετερογενών δεδομένων γίνεται επιτακτική. Τα δεδομένα που διακινούνται καθημερινά μέσω του διαδικτύου απαιτούν φιλτράρισμα ώστε στους τελικούς χρήστες να φθάσουν μόνο όσα είναι απαραίτητα, ενώ ταυτόχρονα κρίνεται αναγκαίος ο σχεδιασμός τεχνικών και μεθόδων που θα επιτρέψουν τη βέλτιστη αποθήκευση, διαχείριση, αναζήτηση και ανάκτηση των δεδομένων αυτών, με απώτερο σκοπό την εξόρυξη χρήσιμης πληροφορίας και γνώσης από αυτά. Οι τεχνικές Εξόρυξης Δεδομένων, με την ευρεία εφαρμογή τους σε διαφόρων ειδών δεδομένα, παρουσιάζουν ως μια ιδανική λύση στα προβλήματα που αναφέρθηκαν προηγουμένως. Τα τελευταία χρόνια, αρκετή έρευνα έχει διεξαχθεί στο πως μπορούν να εφαρμοσθούν σε δεδομένα χρήσης του παγκοσμίου ιστού, καθώς και σε XML δεδομένα. Επίσης ενδιαφέρον υπάρχει και κατά την αξιολόγηση λογισμικού όπου η πηγή δεδομένων είναι τα αρχεία πηγαίου κώδικα ενός συστήματος λογισμικού, ώστε να αναγνωρισθούν και να επιλυθούν έγκαιρα τυχόν προβλήματα. Η eXtensible Markup Language (XML) είναι το πρότυπο για αναπαράσταση δεδομένων στον Παγκόσμιο Ιστό. Η ραγδαία αύξηση του όγκου των δεδομένων που αναπαρίστανται σε XML δημιούργησε την ανάγκη αναζήτησης μέσα στην δενδρική δομή ενός ΧΜL εγγράφου για κάποια συγκεκριμένη πληροφορία. Η ανάγκη αυτή ταυτόχρονα με την ανάγκη για γρήγορη πρόσβαση στους κόμβους του ΧΜL δέντρου, οδήγησε σε διάφορα εξειδικευμένα ευρετήρια. Για να μπορέσουν να ανταποκριθούν στη δυναμική αυτή των δεδομένων, τα ευρετήρια πρέπει να έχουν τη δυνατότητα να μεταβάλλονται δυναμικά. Επίσης, λόγω της απαίτησης για αναζήτηση συγκεκριμένης πληροφορίας είναι απαραίτητο το φιλτράρισμα ενός συνόλου XML δεδομένων διαμέσου κάποιων προτύπων και κανόνων ώστε να βρεθούν εκείνα τα δεδομένα που ταιριάζουν με τα αποθηκευμένα πρότυπα και κανόνες. Ταυτόχρονα, η ανάγκη συσταδοποίησης ενός μεγάλου όγκου XML δεδομένων για περαιτέρω επεξεργασία, κάνει απαιτητική την ανάγκη εφαρμογής έξυπνων και αποδοτικών αλγορίθμων και τεχνικών, οι οποίοι θα είναι προσαρμοσμένοι τόσο στην ημι-δομημένη φύση της XML όσο και στο πραγματικό περιεχόμενο το οποίο αναπαριστά. Τέλος, λόγω του μεγάλου όγκου δεδομένων που πρέπει να επεξεργαστούν, η κατανεμημένη διαχείριση σε δίκτυα ομότιμων κόμβων (P2P) γίνεται ολοένα και πιο ελκυστική καθώς προσφέρει πολλά πλεονεκτήματα όπως επιμερισμό του φόρτου εργασίας καθώς και κατανομή του αποθηκευτικού χώρου. Επιπλέον, η ραγδαία εξάπλωση του διαδικτύου οδήγησε και σε μια προσπάθεια αναβάθμισης των υπηρεσιών που παρέχουν οι διάφοροι ιστότοποι, με στόχο την καλύτερη εξυπηρέτηση των χρηστών που τους επισκέπτονται. Η πρόσπαθεια εξατομίκευσης του προβαλλόμενου περιεχομένου προϋποθέτει μια ενδελεχή μελέτη της συμπεριφοράς των χρηστών, όπως αυτή αποτυπώνεται από τα δεδομένα χρήσης (clickstreams) του δικτυακού ιστοτόπου. Η εύρεση κοινών προτύπων συμπεριφοράς μεταξύ των χρηστών μπορεί μόνο να επιτευχθεί με την εφαρμογή κατάλληλων αλγόρίθμων εξόρυξης δεδομένων. Τέλος οι διαστάσεις της εσωτερικής, της εξωτερικής και της ποιότητας στη χρήση ενός προϊόντος λογισμικού αλλάζουν κατά τη διάρκεια ζωής του. Για παράδειγμα η ποιότητα όπως ορίζεται στην αρχή του κύκλου ζωής του λογισμικού δίνει πιο πολλή έμφαση στην εξωτερική και σε αυτή του χρήστη και διαφέρει από την εσωτερική ποιότητα, όπως η ποιότητα της σχεδίασης η οποία είναι εσωτερική και αφορά τους μηχανικούς λογισμικού. Οι τεχνικές εξόρυξης δεδομένων που μπορούν να χρησιμοποιηθούν για την επίτευξη του απαραίτητου επιπέδου ποιότητας, όπως είναι η αξιολόγηση της ποιότητας πρέπει να λαμβάνουν υπόψιν τους τις διαφορετικές αυτές διαστάσεις σε κάθε στάδιο του κύκλου ζωής του προϊόντος. Στα πλαίσια αυτής της διδακτορικής διατριβής η έρευνα επικεντρώθηκε στην αναγνώριση των ιδιαιτέρων προβλημάτων και προκλήσεων που εισάγουν τα XML δεδομένα ώστε να σχεδιαστούν αποδοτικοί αλγόριθμοι φιλταρίσματος, συσταδοποίησης και διαχείρισης XML δεδομένων σε δίκτυα ομότιμων κόμβων. Επιπλέον μελετήθηκε το πρόβλημα της εφαρμογής τεχνικών εξόρυξης δεδομένων σε μετρικές πηγαίου κώδικα ενός συστήματος λογισμικού ώστε να γίνει δυνατή η αξιολόγηση της ποιότητάς τους και η έγκαιρη αναγνώριση τυχόν προβλημάτων. Η έρευνα στον τομέα αυτό επικεντρώθηκε στην σχεδίαση ενός αλγορίθμου συσταδοποίησης για μετρικές πηγαίου κώδικα, ώστε τα συστατικά στοιχεία του πηγαίου κώδικα (πακέτα, κλάσεις, συναρτήσεις) να μπορούν να ομαδοποιηθούν ανάλογα με την ποιότητά τους. Τέλος, μελετήθηκε το πρόβλημα της επεξεργασίας και εξόρυξης γνώσης από δεδομένα χρήσης του παγκοσμίου ιστού ώστε να γίνει εφικτή η παροχή προσωποποιημένων πληροφοριών στον χρήστη. Η έρευνα στον τομέα αυτό επικεντρώθηκε στο πως μπορεί να γίνει αποδοτική συσταδοποίηση των χρηστών με βάση το ιστορικό τους σε ένα δικτυακό τόπο καθώς και στο πως μπορεί να οριστεί μια μετρική ομοιότητας μεταξύ δύο χρηστών κάνοντας χρήση του ιστορικού τους. / The increasing usage of World Wide Web for storing and exchanging information internationally has lead to huge growth of the different types of stored data. The useful information stored in these data is usually hidden and needs special processing to be unveiled. The area of data mining has arisen over the last decade to address this problem. It has become not only an important research area, but also one with large potential in the real world. Data mining has many directives and can handle various types of data. The wide acceptance of XML (eXtensive Markup Language) as the standard for storing and exchanging information through internet, combined with the growth of native XML databases has designated the problem of efficient data mining techniques on semi structured data. Traditional approaches have proven inefficient as they are mainly oriented to well- structured data, like relational databases, while Web data and XML databases are based on semi structured format. The XML language permits the description of new structures, the nesting of structures in arbitrary depth and the optional description of its grammar, which allows the modeling of an XML document as a labeled treed: elements and attributes are mapped to nodes in the tree and direct nesting relationships are mapped to edges in the tree. Together with the problem of searching through a set of XML documents, a new problem has arisen: that of filtering an XML document through a predefined set of patterns and rules. This problem comes from publish/subscribe systems where the users define their interests and preferences and the system undertakes to filter incoming information through the stored user profiles. In addition, data management and processing issues, such as storage, mining and retrieval of the large number of XML documents, have also arisen. Clustering of XML documents improves the process of management and retrieval as it organizes the massive amounts of XML data into groups without prior knowledge. This grouping may boost the process of querying by applying the user queries only to related groups of XML documents as well the process of storing and processing XML documents in peer-to-peer networks. The next part of the thesis deals with mining source code quality metrics to assist the comprehension and the analysis of a software system’s maintainability. Due to the special nature of source code quality metrics (numerical and categorical), traditional data mining techniques can not be applied as it is. This thesis investigates a new clustering algorithm, based on frequent itemset mining, which helps produce general overviews of the system’s various source code entities (packages, classes, methods) or to identify specific parts that need further attention or handling (outliers). The final part of the thesis deals with data mining techniques on web usage data in order to identify common trends and patterns in the user navigational behavior. Clustering is a useful and ubiquitous tool in such a data analysis, allowing the website owners to group their users into different groups based on their interaction with the website, find usability issues related to the website’s content and its structure and obtain knowledge by learning the user preferences and interests. This thesis investigates the application of clustering techniques in web usage data and proposes a new model for analyzing click-stream data in the World Wide Web based on multiple levels of clustering. Εξόρυξη δεδομένων Φιλτράρισμα 006.312 XML Data mining Filtering Information objects
17	Ανάπτυξη ολοκληρωμένου συστήματος εξόρυξης και οπτικοποίησης γνώσης από βιολογικά δεδομένα Γκαντούνα, Βασιλική 25 January 2012 (has links) Στα τέλη του 20ου αιώνα, οι παράλληλες εξελίξεις και η ανάπτυξη καινοτόμων μεθόδων και εργαλείων σε διαφορετικές ερευνητικές περιοχές είχε ως αποτέλεσμα την εμφάνιση των λεγόμενων "αναδυόμενων τεχνολογιών" (emerging technologies). Σε αυτό το πλαίσιο λοιπόν, των αναδυόμενων τεχνολογιών, εμφανίστηκε στο προσκήνιο η επιστήμη της Βιοπληροφορικής (Bioinformatics) η οποία αποτελεί την τομή των επιστημών της βιολογίας και της πληροφορικής. Η ραγδαία ανάπτυξη της τεχνολογίας έχει οδηγήσει στην εκρηκτική αύξηση του ρυθμού παραγωγής βιολογικών δεδομένων, γεγονός που καθιστά επιτακτική την ανάγκη της αποδοτικής και αποτελεσματικής διαχείρισης τους. Για την κάλυψη αυτής ακριβώς της ανάγκης δημιουργήθηκαν οι βιολογικές βάσεις δεδομένων που έχουν σήμερα εξαιρετική δυναμική και περιθώρια εφαρμογών. Οι βασικοί τομείς έρευνας στο πλαίσιο των βιολογικών βάσεων δεδομένων μπορούν να ταξινομηθούν σε τρεις μεγάλες κατηγορίες. Η πρώτη κατηγορία αφορά στην όσο το δυνατόν πιο αποδοτική οργάνωση των βιολογικών δεδομένων ώστε να είναι δυνατή η αποτελεσματική αποθήκευση τους. Αυτός ακριβώς είναι και ο λόγος δημιουργίας των βιολογικών βάσεων δεδομένων. Η δεύτερη κατηγορία αφορά στην ανάπτυξη εργαλείων και μεθόδων που επιτρέπουν την ανάλυση και την επεξεργασία των βιολογικών δεδομένων έτσι ώστε να διευκολυνθεί η διαδικασία ανακάλυψης γνώσης από αυτά. Σε αυτή την κατηγορία, σημαντικό ρόλο παίζουν οι τεχνικές εξόρυξης γνώσης οι οποίες εφαρμόζονται πάνω σε μεγάλες συλλογές βιολογικών δεδομένων και συνήθως οδηγούν στην ανακάλυψη νέων σχέσεων και προτύπων που κρύβονται ανάμεσα στα δεδομένα. Τέλος, η τρίτη κατηγορία αφορά στην ανάπτυξη εργαλείων που διευκολύνουν την διαδικασία της βιολογικής ερμηνείας των αποτελεσμάτων της εξόρυξης. Εδώ, ουσιαστικό ρόλο κατέχουν οι τεχνικές οπτικοποίησης της παραγόμενης γνώσης για την όσο το δυνατόν πιο κατανοητή παρουσίαση των συμπερασμάτων στον άνθρωπο ο οποίος στην συνέχεια θα επιλέξει ποια από αυτά είναι πραγματικά χρήσιμα. Η δημιουργία ενός ολοκληρωμένου συστήματος που θα αποτελεί τον απότοκο της τεχνολογικής σύζευξης των τεχνικών των τριών παραπάνω κατηγοριών σε συνδυασμό με την ανάγκη αξιοποίησης μιας μέχρι πρότινος ανεκμετάλλευτης μεγάλης συλλογής βιολογικών δεδομένων αποτέλεσαν το κίνητρο για την εκπόνηση της παρούσας διπλωματικής εργασίας. Στόχος της εργασίας είναι η ανάπτυξη ενός ολοκληρωμένου συστήματος το οποίο χρησιμοποιώντας την τεχνολογία Microsoft PivotViewer θα απεικονίζει την παραπάνω συλλογή δεδομένων προσφέροντας ένα υψηλό επίπεδο αναπαράστασης και θα καταγράφει τις συχνότητες εμφάνισης των μεταλλάξεων και άλλων γενετικών παραλλαγών ανά πληθυσμιακές ομάδες σε παγκόσμια κλίμακα. Το σύστημα αυτό θα μπορεί να λειτουργήσει ως ένα σύγχρονο εκπαιδευτικό και διαγνωστικό εργαλείο για την πληθυσμιακή μελέτη της παθογένειας και της θεραπείας ασθενειών που οφείλονται σε κάποια γενετική διαταραχή. Ο χρήστης διαμέσου ενός εύχρηστου και φιλικού περιβάλλοντος διεπαφής θα μπορεί να εστιάσει από μια μεγάλη συλλογή δεδομένων σε ένα εξειδικευμένο υποσύνολό της που ενδεχομένως σχετίζεται με μία συγκεκριμένη ασθένεια, μία συγκεκριμένη μελέτη ή έναν συγκεκριμένο πληθυσμό παρατηρώντας έτσι τα δεδομένα αυτά από μια διαφορετική οπτική γωνία που ενδεχομένως να τον βοηθήσει να ανακαλύψει νέα πρότυπα και σχέσεις ανάμεσα τους αξιόλογης βιολογικής σημασίας. / In the late 20th century, parallel advances and the development of innovative methods and tools in different research areas resulted in the appearance of the so-called "emerging technologies". In the framework of emerging technologies, the science of Bioinformatics came to the fore which is the intersection of the sciences of biology and informatics. The rapid growth of technology has led to the explosive increase in the rate of production of biological data, which dictates the need for efficient and effective data management. Biological databases have been created to satisfy exactly this need and they have extremely dynamic and potential applications today. The main research areas in biological databases can be classified into three broad categories. The first category concerns the better organization of the biological data so as to enable efficient storage. This is the reason for the development of the biological databases. The second category concerns the development of tools and methods that allow analysis and processing of biological data to facilitate the process of discovering knowledge from them. In this category, data mining techniques play an important role. They are applied over large collections of biological data and often lead to the discovery of new relationships and patterns that lie between the data. Finally, the third category involves the development of tools that facilitate the process of understanding and visualizing the biological meaning of the data mining results. Here, the visualization techniques have an essential role in presenting the data mining results in a meaningful way to the scientists who will eventually decide which of these results are really useful and reliable. The development of an integrated system which will be the result of the technological coupling of the three above categories in conjunction with the need of utilization a previously unexploited large collection of biological data was the motivation for the elaboration of this thesis. This work aims to develop an integrated system which represents the above collection providing a high level visualization and records the frequencies of causative genetic variations worldwide by utilizing the Microsoft PivotViewer technology. This system can serve as a modern educational and diagnostic tool for the population-based study of the pathogenesis and treatment of diseases caused by a genetic disorder. The user through a user-friendly interface can zoom in from the massive amounts of data to particular disease-specific, study-specific, or population-specific data so that he can begin observing the data from a different perspective that may enable him to discover new patterns and relationships between them of remarkable biological importance. Εξόρυξη δεδομένων 572.802 85 Biological databases Data mining
18	Συμπίεση βάσης δεδομένων σκακιστικών φινάλε με μεθόδους data mining Θάνου, Αναστάσιος 16 April 2013 (has links) Η συγκεκριμένη διπλωματική εργασία διαπραγματεύεται τη συμπίεση των βάσεων του Nalimov με μεθόδους data mining. Είναι βάσεις σκακιστικών φινάλε, οι οποίες παρέχουν πληροφορίες, ανάλογα με την τοποθέτηση των κομματιών για το ποιος νικάει κάθε φορά σε ένα φινάλε τριών ή περισσοτέρων κομματιών συμπεριλαμβανομένων και των δύο βασιλιάδων. Η προσπάθεια γίνεται με το έτοιμο πρόγραμμα Weka, το οποίο διατίθεται δωρεάν στο internet και προσφέρεται για εφαρμογές του data mining. Η συμπίεση προσφέρει ευελιξία στην αποθήκευση, ίσως και κατανόηση από τον άνθρωπο, όπως πάντα γίνεται στο data mining. Αρχικά, μελετήθηκε το φινάλε με βασιλιά και ένα πιόνι εναντίον του μαύρου βασιλιά. Έγινε μελέτη από διάφορες πλευρές και με διαφορετικά χαρακτηριστικά (attributes) που ορίζονται από το χρήστη και αποσκοπούν στην καλή εκπαίδευση ενός ταξινομητή, ο οποίος λέει ποιος νικάει ή αν έχουμε ισοπαλία. Ενδιαφέρουσα ήταν και η προσπάθεια για αύξηση της απόδοσης ώστε να πλησιάσει κατά το δυνατόν το 100% στο συγκεκριμένο φινάλε, άλλοτε με ανάθεση μεγαλύτερης προσπάθειας στον υπολογιστή και άλλοτε καθαρά από τον ανθρώπινο παράγοντα, με διόρθωση λαθών και επανεπισκόπηση των χαρακτηριστικών για τη δημιουργία καταλληλοτέρων δεδομένων. Ακολούθως, μελετήθηκαν τα φινάλε με βασίλισσα ή πύργο αντί για πιόνι και γίνονταν σχόλια σε καίρια σημεία. Τέλος, η μελέτη επεκτάθηκε και σε φινάλε τεσσάρων κομματιών, όπου είχαμε την ευκαιρία να δούμε τα φινάλε KBBK και KRKN, τα οποία παρουσιάζουν ενδιαφέρον, καθώς αυξάνονται οι υπολογιστικές απαιτήσεις. / This diploma dissertation deals with the compression of the Nalimov bases using methods of data mining. They are chess endgame databases, which provide information, depending on the placement of the men, about who wins in an endgame of three or more pieces, including the two kings. The work was made by means of the open-software program Weka, which is available free on the internet and is ideal for applications of data mining. This compression aims to provide flexibility in storage and perhaps understanding by the users, as is always the case in data mining. At first, the endgame with one king and a pawn vs the black king was studied. A study was done from different perspectives and with quite different characteristics (attributes), which are specified by the user and designed in order that a good classifier should be trained, a classifier that should finally say who wins or if it is a tie. Also, something interesting that was done was an attempt to increase efficiency to close as possible to 100% in this endgame, sometimes shifting the whole work to the computer and sometimes mainly by the human factor. Of course, the latter was managed by correcting errors and reconsidering the attributes for creating the most appropriate data possible. Then, we studied the endgames with a queen and then, with a rook instead of a pawn, with comments made at key points. Finally, the study was expanded to endgames with four men, where we had the opportunity to see the endgames KBBK and KRKN, which are interesting as the computational requirements increase. Εξόρυξη δεδομένων Σκακιστικά φινάλε 005.756 5 Data mining Chess endgames Nalimov databases
19	Εξόρυξη χωροχρονικών δεδομένων από τον ανθρώπινο εγκέφαλο και εφαρμογές στην ανίχνευση των επιληπτικών κρίσεων Πίππα, Ευαγγελία 12 October 2013 (has links) Αντικείμενο αυτής της εργασίας είναι η μελέτη τεχνικών για την ανάλυση δεδομένων που προέρχονται από συστήματα απεικόνισης της λειτουργίας του ανθρώπινου εγκεφάλου όπως το ηλεκτροεγκεφαλογράφημα. Σκοπός των τεχνικών ανάλυσης είναι η ανίχνευση συγκεκριμένων μορφών αυτών των σημάτων όπως για παράδειγμα οι επιληπτικές κρίσεις. Μία κρίση είναι μια παρέκκλιση στην ηλεκτρική δραστηριότητα του εγκεφάλου που παράγει αποδιοργανωτικά συμπτώματα για το άτομο και εκδηλώνεται κλινικά από εναλλαγή στη συμπεριφορά, στην κίνηση, στις αισθήσεις και στη συνειδητότητα. Οι κλινικές συμπεριφορές προηγούνται και στη συνέχεια συνοδεύονται από ηλεκτροεγκεφαλογραφικές αλλαγές. Η αυτόματη ανίχνευση των επιληπτικών κρίσεων μπορεί να αντιμετωπιστεί ως ένα πρόβλημα κατηγοριοποίησης των σημάτων σε κρίσεις ή όχι. Η ανίχνευση μπορεί να πραγματοποιηθεί σε δύο βήματα. Αρχικά εξάγονται χαρακτηριστικά που συλλαμβάνουν την μορφή και στη συνέχεια το διάνυσμα των χαρακτηριστικών δίνεται σε έναν εκπαιδευμένο κατηγοριοποιητή. / The subject of this work is the research of analysis techniques on data coming from neuroimaging systems such as Electroencephalogram. The aim of the data analysis techniques is the detection of specific morphologies of these signals such as the epileptic seizures. A seizure is a sudden breakdown of the neuronal activity of the brain that is clinically manifested by an involuntary alteration in behavior, movement, sensation, or consciousness. These clinical behaviors are preceded and then accompanied by electroencephalographic alterations. The automatic detection of epileptic seizures can be faced as a classification problem of the signals into seizures or non seizures. The detection can be carried out in two steps. Firstly, features which capture the morphology of the epileptic seizures are extracted and then the feature vector is given to an appropriately trained classifier. Εξόρυξη δεδομένων Κατηγοριοποίηση 612.802 856 3 Data mining Feature extraction Classification Detection of epileptic seizures
20	Ανάλυση κυβερνητικών ΤΠΕ έργων με τεχνικές εξόρυξης δεδομένων / Analysis of governmental ICT projects using data mining techniques Βικάτος, Παντελεήμων 16 May 2014 (has links) Σκοπός της διπλωματικής εργασίας είναι η λεπτομερής ανάλυση κυβερνητικών επενδύσεων για έργα ΤΠΕ. Ο συνδυασμός της στατιστικής ανάλυσης, της συσχέτισης (correlation) και της ανάλυσης με τεχνικές εξόρυξης δεδομένων δημιούργησε χρήσιμα συμπεράσματα για τα έργα ΤΠΕ. Επίσης, περιγράφεται ένα μοντέλο αξιολόγησης με βάση τις αποκλίσεις από τους αρχικούς στόχους και την εκτίμηση των διαχειριστών των έργων (Project managers). Σημαντικό τμήμα αυτού του μοντέλου αποτελεί η πρόβλεψη της ολίσθησης του κόστους με την χρήση κατηγοριοποίησης. Τέλος η παρουσίαση της απόδοσης των ελληνικών έργων ΤΠΕ γίνεται με το σχεδιασμό ενός βελτιωμένου ταμπλό (dashboard) για την παρακολούθηση και τον έλεγχο για τις ελληνικές επενδύσεις στις ΤΠΕ. / The goal of this master thesis is the detailed analysis of governmental ICT projects. The combination of statistical, correlation and mining analysis extracts useful conclusions for ICT projects. Also a detailed description of an evaluation model is presented for evaluating the performance of ICT project and we introduce an improved ICT dashboard for monitoring and controlling for the Greek ICT investments as well as a classification model for predicting the performance’s slippage. Εξόρυξη δεδομένων Έργα ΤΠΕ Μοντέλο αξιολόγησης 006.312 Data mining ICT projects Evaluation model Classification model

Search results