Η εξέλιξη της τεχνολογίας των υπολογιστών σε συνδυασμό με την πρόοδο της τεχνολογίας των βάσεων δεδομένων έχουν συμβάλει στην ανάπτυξη νέων αποδοτικών και αυτοματοποιημένων τεχνικών για την αποτελεσματική συλλογή, αποθήκευση και διαχείριση των δεδομένων. Ως συνέπεια, ο όγκος των δεδομένων που αποθηκεύονται και είναι ευρέως διαθέσιμα ηλεκτρονικά αυξάνεται ραγδαία και η ανάγκη ανάπτυξης και χρήσης αποδοτικών μεθόδων ανάλυσης για την εξαγωγή χρήσιμης πληροφορίας καθίσταται ολοένα και πιο επιτακτική.
Η εξόρυξη δεδομένων (data mining) ως ένα αναδυόμενο πεδίο διεπιστημονικών εφαρμογών συνδυάζει παραδοσιακές μεθόδους ανάλυσης δεδομένων με εξελιγμένους αλγόριθμους και διαδραματίζει σημαντικό ρόλο στην επεξεργασία μεγάλου όγκου δεδομένων.
Ο όρος οπτικοποίηση δεδομένων (data visualization) αναφέρεται στη μελέτη τεχνικών οπτικής αναπαράστασης δεδομένων χρησιμοποιώντας γραφικά, κίνηση, τρισδιάστατες απεικονίσεις και άλλα πολυμεσικά εργαλεία. Στόχος των τεχνικών οπτικοποίησης είναι παρουσίαση ενός συνόλου δεδομένων με τρόπο σαφή και αποτελεσματικό που να παρέχει τη δυνατότητα εξαγωγής συμπερασμάτων και ανακάλυψης συσχετίσεων που διαφορετικά θα παρέμεναν άγνωστες. Στη διεθνή βιβλιογραφία, έχουν παρουσιαστεί αρκετές τεχνικές οπτικοποίησης δεδομένων, ενώ τα τελευταία χρόνια η επιστημονική κοινότητα έχει εστιάσει το ενδιαφέρον της και στην οπτικοποίηση των αποτελεσμάτων της εξόρυξης δεδομένων.
Στα πλαίσια αυτής της μεταπτυχιακής διπλωματικής εργασίας, προτείνεται μια αποδοτική τεχνική εξόρυξης δεδομένων που βασίζεται σε γνωστές μεθόδους συσταδοποίησης, όπως ο Ιεραρχικός αλγόριθμος και o αλγόριθμος Spherical K-means και είναι κατάλληλη να εφαρμοστεί για την ανάλυση και εξαγωγή χρήσιμης γνώσης σε διαφορετικά σύνολα δεδομένων. Η προτεινόμενη τεχνική εφαρμόστηκε σε δύο διαφορετικούς τύπους δεδομένων: α) κειμενικά δεδομένα (textual data) που προέρχονται από τη βάση δεδομένων του PubMed, β) αριθμητικά δεδομένα (numerical data) από τη βάση δεδομένων της FINDbase. Επιπλέον, παρουσιάζεται μια μελέτη τεχνικών οπτικοποίησης και η ανάπτυξη σύγχρονων εφαρμογών οπτικοποίησης, τόσο για την αποτελεσματική αναπαράσταση των αρχικών δεδομένων μιας συλλογής (πριν από την επεξεργασία τους), όσο και των αποτελεσμάτων που προέκυψαν από την προτεινόμενη τεχνική συσταδοποίησης. / The evolution of computer technology along with advances in database technology have contributed to the development of new efficient and automated techniques for the effective collection, storage and management of data. As a result, the volume of stored and widely available online data is growing rapidly, and the need for effective analytical methods for extracting relevant information is becoming increasingly urgent.
As an emerging field of interdisciplinary applications, data mining combines traditional data analysis methods with sophisticated algorithms and plays an important role in the processing of large volumes of data.
Data visualization refers to the study of the techniques used for the visual representation of data, including graphics, animation, 3D depictions and other multimedia tools. The main goal of data visualization techniques is to present a set of data in a clear and effective way, so that the extraction of conclusions and discovery of correlations that would otherwise remain unknown, are enabled. While several data visualization techniques have been presented in the relative literature, in recent years the scientific community has been focusing on the visualization of the results obtained by the application of data mining techniques.
In the present thesis, we propose an efficient data mining technique that is based on well-known clustering methods, such as the Hierarchical and Spherical K-means ones, and is suitable for the analysis and extraction of useful knowledge from different types of datasets. The proposed technique was applied into two different types of data including: a) textual data from the PubMed database, b) numerical data from the FINDbase database. Furthermore, we present a study of visualization techniques and the development of modern visualization tools for the effective representation of the original dataset (before processing) and the results obtained by the proposed clustering technique.
Identifer | oai:union.ndltd.org:upatras.gr/oai:nemertes:10889/8125 |
Date | 24 November 2014 |
Creators | Ιωάννου, Ζαφειρία-Μαρίνα |
Contributors | Τσακαλίδης, Αθανάσιος, Ioannou, Zafeiria-Marina, Σιούτας, Σπυρίδων, Τζήμας, Ιωάννης, Τσακαλίδης, Αθανάσιος |
Source Sets | University of Patras |
Language | gr |
Detected Language | Greek |
Type | Thesis |
Rights | 6 |
Page generated in 0.0029 seconds