1 |
Χρήση της OLAP τεχνικής στην οπτικοποίηση κανόνων Data mining / Visualization of Data mining rules using OLAPΓκίζα, Ειρήνη 27 August 2008 (has links)
Η διαδικασία εξόρυξης από δεδομένα [Data Mining] αποτελεί μια συνεχώς αναπτυσσόμενη διαδικασία ανακάλυψης γνώσης μέσω της εξαγωγής μέχρι πρότινος άγνωστης πληροφορίας από μεγάλες εμπορικές και επιστημονικές βάσεις δεδομένων. Η διαδικασία εξόρυξης από δεδομένα εξάγει κανόνες δια μέσου της επεξεργασίας κατηγορικών ή αριθμητικών δεδομένων, από βάσεις πολλών διαστάσεων (> από 4 χαρακτηριστικά). Η ταξινόμηση, η ομαδοποίηση και η συσχέτιση αποτελούν τις πιο γνωστές και πλέον χρησιμοποιούμενες τεχνικές Data Mining. Ωστόσο συνήθως και οι κανόνες που εξάγονται από τα δεδομένα μπορεί να είναι πολλοί και δυσνόητοι στον τελικό χρήστη/ αναλυτή ο οποίος ενδέχεται να μην είναι εξοικειωμένος με τις τεχνικές της Μηχανικής Μάθησης. Προκειμένου να επιλυθεί αυτό το πρόβλημα τα τελευταία έτη έχουν αναπτυχθεί διάφορες τεχνικές οπτικοποίησης (Visualization) τόσο των δεδομένων που χρησιμοποιούνται κατά τη διαδικασία Data Mining (ανεπεξέργαστα δεδομένα) όσο και των κανόνων που εξάγονται από την εφαρμογή της. Όλες οι τεχνικές οπτικοποίησης προσπαθούν να εκμεταλλευτούν την αντιληπτική ικανότητα του χρήστη στην κατανόηση των εξαγόμενων προτύπων. Επιπρόσθετα ο χρήστης τείνει να εμπιστεύεται περισσότερο ένα αποτέλεσμα όταν το κατανοεί πλήρως. Ο σκοπός των τεχνικών οπτικοποίησης συνίσταται ακριβώς σε αυτό. Στη διεθνή βιβλιογραφία έχουν παρουσιαστεί αρκετές μέθοδοι οπτικής παρουσίασης των δεδομένων ενώ τα τελευταία χρόνια η επιστημονική κοινότητα έχει εστιάσει το ενδιαφέρον της και στην οπτικοποίηση των αποτελεσμάτων του Data Mining.
Στόχος της παρούσας διπλωματικής εργασίας είναι πέρα από την παράθεση των τεχνικών οπτικής παρουσίασης των εξαγόμενων κανόνων των διαδικασιών συσχέτισης [association], ταξινόμησης [classification] και [clustering] που έχουν παρουσιαστεί από την επιστημονική κοινότητα την τελευταία εικοσαετία, η παρουσίαση μιας νέας τεχνικής οπτικοποίησης των κανόνων data mining με χρήση της τεχνολογίας On Line Analytical Processing [OLAP]. Σε πιο ειδικό πλαίσιο, η προτεινόμενη τεχνική χρησιμοποιεί το δυσδιάστατο πίνακα που χρησιμοποιούν τα περισσότερα OLAP μοντέλα και την έννοια της ιεραρχίας προκειμένου να οπτικοποιήσει ένα σημαντικό αριθμό κανόνων data mining και από τις τρεις (3) προαναφερόμενες τεχνικές. Επίσης, παρουσιάζονται τα πειραματικά αποτελέσματα της οπτικοποίησης που δείχνουν πώς η προτεινόμενη τεχνική είναι χρήσιμη στην ανάλυση και στην κατανόηση των εξαγόμενων κανόνων. / Data Mining is an emerging knowledge discovery process of extracting previously unknown, actionable information from very large scientific and commercial databases. Usually, a data mining process extracts rules by processing high dimensional categorical and/or numerical data (> 4 attributes). Classification, Clustering and Association constitute for the most well known Data Mining tasks.
However, in the data mining context often the user has to analyze hundreds of extracted rules in order to grasp valuable knowledge. Thus, the analysis of such rules by means of visual tools has evolved rapidly in recent years. Visual data mining attempts to take advantage of humans’ ability to perceive pattern and structure in visual form. The end user trusts more a result if he understand it completely. And this is the purpose of visual techniques. There have been proposed many techniques for visualizing the data in literature, whereas the last years many researchers have focused on the visualization of data mining results (knowledge visualization).
Researchers have developed many tools to visualize data mining rules. However, few of these tools can handle effectively more than some dozens of data mining rules. In this thesis, we propose a new visualization technique of data mining rules based On Line Analytical Processing [OLAP]. More specifically, the proposed technique utilizes the standard two dimensional cross-tabulation table of most OLAP models in order to visualize even a great number of data mining rules from all techniques. We also present experimental results that demonstrate how the proposed technique is useful and helpful for analyzing and understanding extracted data mining rules.
|
Page generated in 0.04 seconds