Spelling suggestions: "subject:"συσταδοποίηση"" "subject:"συσταδοποίησης""
1 |
Συσταδοποίηση φασμάτων μάζαςΚομποθρέκας, Αριστοτέλης 11 January 2011 (has links)
Η συσταδοποίηση είναι μία από τις βασικές εργασίες εξόρυξης γνώσης από δεδομένα. Παρουσιάζονται οι κυριότερη αλγόριθμοι συσταδοποίησης και αναλύεται ο αλγόριθμος Xmeans. O Xmeans Επιτρέπει την ομαδοποίηση των δεδομένων χωρίς να χρειάζεται να προσδιοριστεί ακριβώς ο αριθμός των συστάδων. Το Weka είναι ένα λογισμικό μηχανικής μάθησης όπου περιλαμβάνει τον αλγόριθμο X-means. Η φασματομετρία μάζας είναι μία τεχνική για τον προσδιορισμό της σύστασης-φάσματος ενός χημικού δείγματος ή μορίου. Η συσταδοποίηση χρησιμοποιείται στη φασματομετρία μάζας για την ανάδειξη ομάδων όμοιων φασμάτων, όπου έτσι επιτυγχάνεται η καλύτερη κατανόηση του δείγματος αλλά επίσης και της προέλευσης του. Στην εργασία εφαρμόζεται ο αλγόριθμος X-means, μέσω του Weka σε φάσματα μάζας χημικών ουσιών. / The algorithm X-means is used for clustering mass spectra.
|
2 |
Χρήση μεθόδων εξόρυξης δεδομένων στη δημιουργία νευρωκανόνωνΑγγελόπουλος, Νικόλαος 03 November 2011 (has links)
Στην εργασία αυτή παρουσιάζεται μια εναλλακτική διαδικασία διάσπασης ενός μη διαχωρίσιμου συνόλου εκπαίδευσης για την παραγωγή νευρωκανόνων. Η υπάρχουσα διαδικασία παρήγαγε νευρωκανόνες από μη γραμμικά σύνολα διασπώντας τα σε δύο υποσύνολα με βάση την «απόσταση» των προτύπων καταλήγοντας συχνά σε πολλαπλή αναπαράσταση της ίδιας γνώσης. Με την παρούσα εργασία διερευνάται η δυνατότητα της διάσπασης ενός μη διαχωρίσιμου συνόλου σε k υποσύνολα με χρήση μεθόδων συσταδοποίησης. Το k μπορεί είτε να αποτελεί είσοδο της διαδικασίας είτε να υπολογίζεται δυναμικά από ένα συγκεκριμένο εύρος τιμών. Η δεύτερη στρατηγική διάσπασης (δυναμικός k-modes) φαίνεται να έχει τα καλύτερα αποτελέσματα, ενώ η πρώτη (τροποποιημένος k-modes) παρουσιάζει συγκρίσιμα αποτελέσματα με την υπάρχουσα μέθοδο για μικρά k. Και οι δύο στρατηγικές διάσπασης μπορούν να συνδυαστούν με μία μέθοδο εύρεσης εκτόπων που αφαιρεί από το αρχικό σύνολο εκπαίδευσης μεμονωμένα παραδείγματα που αποκλίνουν «περισσότερο» από τα υπόλοιπα. / In this thesis we present an alternative splitting policy of a non separable training set used for the production of neurules. The existing method produced neurules from non linear training sets by “breaking” them into two subsets based on “distance” between patterns often leading to multiple representations of the same knowledge. The present thesis looks into the possibility of splitting a non separable training set into k subsets using clustering methods. The number k can be treated as an input to the process or it can be calculated dynamically from a specific range of values. The second splitting strategy (dynamic k-modes) appears to have the best results, while the first one (modified k-modes) gives similar results to the existing method for small values of k. Moreover, both splitting strategies can be combined with an outlier detection process which removes from the initial training set remote examples that deviate more from the rest, thus improving their performance.
|
3 |
Εξόρυξη πληροφορίας από βιοϊατρική βιβλιογραφία : εφαρμογή στην ανάλυση κειμένων (text mining) από πηγές στον παγκόσμιο ιστόΙωάννου, Ζαφειρία - Μαρίνα 23 January 2012 (has links)
Τα τελευταία χρόνια, υπάρχει ένα αυξανόμενο ενδιαφέρον για την αυτόματη εξόρυξη κειμένων (Text Mining) με βιοϊατρικό περιεχόμενο, λόγω της ραγδαίας αύξησης των δημοσιεύσεων που είναι αποθηκευμένες σε ηλεκτρονική μορφή σε Βάσεις Δεδομένων του Παγκόσμιου Ιστού, όπως το PubMed και το Springerlink.
Το βασικό πρόβλημα που κάνει αυτό τον στόχο περισσότερο προκλητικό και δύσκολο είναι η αδυναμία της επεξεργασίας της διαθέσιμης αυτής πληροφορίας και της εξαγωγής χρήσιμων συνδέσεων και συμπερασμάτων. Κρίνεται, επομένως, επιτακτική η ανάπτυξη νέων εργαλείων που θα διευκολύνουν την εξόρυξη γνώσης από κείμενα βιολογικού περιεχομένου.
Σκοπός της παρούσας διπλωματικής εργασίας είναι αρχικά η παρουσίαση γνωστών μεθόδων εξόρυξης δεδομένων από κείμενα αλλά και η ανάπτυξη ενός εργαλείου για την αποδοτική και αξιόπιστη ανακάλυψη γνώσεων από βιοϊατρική βιβλιογραφία που να βασίζεται σε προηγμένες τεχνικές εξόρυξης γνώσης από κείμενα.
Πιο συγκεκριμένα, η προσπάθειά μας επικεντρώνεται στην ανάπτυξη ενός αποδοτικού αλγόριθμου συσταδοποίησης και τη χρήση αποδοτικών τεχνικών που αξιολογούν τα αποτελέσματα της συσταδοποίησης, έτσι ώστε να παρέχεται βοήθεια στον χρήστη στην προσπάθεια αναζήτησης του για πληροφορία βιολογικού περιεχομένου.
Ο προτεινόμενος αλγόριθμος βασίζεται σε διαφορετικές τεχνικές συσταδοποίησης, όπως ο Ιεραρχικός Αλγόριθμος και ο Spherical K-means Αλγόριθμος και εφαρμόζει μια τελική ταξινόμηση με βάση το Impact Factor των κειμένων που ανακτήθηκαν.
Τα βασικά βήματα που περιλαμβάνει ο αλγόριθμος είναι: η προεπεξεργασία των κειμένων, η αναπαράσταση των κειμένων σε διανυσματική μορφή με χρήση του Διανυσματικού Μοντέλου (Vector Space Model), η εφαρμογή της Λανθάνουσας Σημασιολογικής Δεικτοδότησης (Latent Semantic Indexing), η Ασαφής Συσταδοποίηση (Fuzzy Clustering), ο Ιεραρχικός Αλγόριθμος (Hierarchical Algorithm), o Spherical K-means Αλγόριθμος, η επιλογή της καλύτερης συστάδας και τέλος η ταξινόμηση με βάση το Impact Factor των κειμένων που ανακτήθηκαν.
Η εφαρμογή που υλοποιούμε βασίζεται στον παραπάνω αλγόριθμο και προσφέρει δύο τρόπους αναζήτησης: 1) σε τρέχοντα ερωτήματα του χρήστη, τα οποία αποθηκεύονται στη βάση δεδομένων και επομένως λειτουργεί ως μέσο συμπιεσμένης αποθήκευσης των προηγούμενων ερωτημάτων του χρήστη, 2) αναζήτηση μέσα από μία λίστα προκαθορισμένων Topic βιολογικού περιεχομένου και επομένως παρέχει στο χρήστη μια επιπλέον βοήθεια σε ένα ευρύ φάσμα ερωτημάτων. Επιπλέον, η εφαρμογή εξάγει χρήσιμες συσχετίσεις όρων χρησιμοποιώντας τις τελικές συστάδες. / There is an increasing interest in automatic text mining in biomedical texts due to the increasing number of electronically available publications stored in databases such as PubMed and SpringerLink.
The main problem that makes this goal more challenging and difficult is the inability of processing the available information and extracting useful connections and assumptions. Therefore, there is an urgent need for new text-mining tools to facilitate the process of text mining from biomedical documents.
The goal of the present diploma thesis is to present known methods of text mining, and to develop an application that provides reliable knowledge from biomedical literature based on efficient text mining techniques.
In particular, our attempt is mainly focused on developing an efficient clustering algorithm and using techniques for evaluating the results of clustering, in order to assist the users in their biological information seeking activities.
The proposed algorithm involves different clustering techniques, such as Hierarchical Algorithm, Spherical K-means Algorithm and employs a final ranking according to Impact Factor of retrieved documents.
The basic steps of our algorithm are: preprocessing of text’s content, representation with the vector space model, applying Latent Semantic Indexing (LSI), fuzzy clustering, hierarchical clustering, spherical k-means clustering, selection of the best cluster and ranking of biomedical documents according to their impact factor.
The application that we implement is based on the above algorithm and provides two search methods: 1) search with user’s queries, which are saved in the database and thus playing the role of a compacted storage of his past search activities, 2) search through a list of pre-specified biological Topics, and thus providing the user with an extra assistance in his various queries. Moreover the whole scheme can mine useful associations between terms by exploiting the nature of the formed clusters.
|
4 |
Ανάλυση των χρηματιστηριακών δεδομένων με χρήση των αλγορίθμων εξόρυξηςΜπεγκόμ, Τζαχίντα 10 June 2014 (has links)
Λόγω της έξαρσης της τεχνολογικής ανάπτυξης ο όγκος των πληροφοριών σήμερα είναι τεράστιος και έχει δημιουργήσει την ανάγκη για την ανάλυση και την επεξεργασία των δεδομένων ώστε, μετά την επεξεργασία, να μπορούν να μετατραπούν σε χρήσιμες πληροφορίες και να μας βοηθήσουν στη λήψη αποφάσεων. Οι τεχνικές εξόρυξης δεδομένων σε συνδυασμό με τις στατιστικές μεθόδους αποτελούν σπουδαίο εργαλείο για την ανάκτηση των συγκεκριμένων πληροφοριών. Η χρήση αυτών των πληροφοριών βοηθά στη μελέτη και κατ’επέκταση στην εξαγωγή των συμπερασμάτων για το χαρακτηριστικό που εξετάζεται. Ένας τομέας που παρουσιάζει μεγάλο ερευνητικό ενδιαφέρον, λόγω του όγκου των πληροφοριών που συσσωρεύει καθημερινά, είναι το χρηματιστήριο. Η εξόρυξη γνώσης από τα δεδομένα με σκοπό την όσο το δυνατόν «σωστή» πρόβλεψη μπορεί να αποφέρει πολύ μεγάλο κέρδος και αυτός είναι ένας λόγος για τον οποίο πολλές επιχειρήσεις έχουν επενδύσει στην τεχνολογία των πληροφοριών.Η παρούσα εργασία εδράζεται στο πλαίσιο της γενικής προσπάθειας τεχνικής ανάλυσης χρηματιστηριακών δεδομένων, εστιάζοντας παράλληλα στην ανάλυση με τη χρήση τεχνικών εξόρυξης. Το αντικείμενο της παρούσας διπλωματικής εργασίας είναι η ανάλυση των χρηματιστηριακών δεδομένων (χρονοσειρών) χρησιμοποιώντας τεχνικές εξόρυξης που μπορούν να βοηθήσουν στη λήψη των αποφάσεων. Συγκεκριμένα, στους στόχους της εργασίας περιλαμβάνεται η ομαδοποίηση παρόμοιων μετοχών, η εύρεση της κατηγορίας των μετοχών στην οποία μπορεί να ανήκει μία νέα μετοχή και η πρόβλεψη των μελλοντικών τιμών. Οι μελέτες αυτές εκτός από το χρηματιστήριο, μπορούν να εφαρμοστούν επίσης για την αναγνώριση των προτύπων, τη διαχείριση του χαρτοφυλακίου και τις χρηματοπιστωτικές αγορές. / The rapid development of technology has led to a large increase in the volume of information, creating the need for data analysis and processing. After processing, these data can be transformed into useful information that can help us to make decisions. The data mining techniques combined with the statistical methods are important tools for the recovery of such information. This information helps us to study the features and to extract information about them. The stock market is one of the greatest research areas of interest due to the volume of the information that accumulates daily. Knowledge extraction from data aiming the best possible prediction could yield significant profit, thus making information technology a magnet for corporate investment. This thesis is based on the general effort of technical analysis for stock market data, while focusing on analysis using data mining techniques. The present thesis aims to analyze stock data (time series) by applying data mining techniques which enable decision making. Specifically, the objectives of the work include the grouping of similar stocks, the determination of the class in which a new stock may belong and the prediction of the closing values of the stocks. Apart from the stock market, these studies can also be applied for the pattern recognition, portfolio management and financial markets.
|
5 |
Αποτελεσματικές τεχνικές διαχείρισης δεδομένων στον Παγκόσμιο Ιστό / Efficient techniques for Web data managementΙωάννου, Ζαφειρία-Μαρίνα 24 November 2014 (has links)
Η εξέλιξη της τεχνολογίας των υπολογιστών σε συνδυασμό με την πρόοδο της τεχνολογίας των βάσεων δεδομένων έχουν συμβάλει στην ανάπτυξη νέων αποδοτικών και αυτοματοποιημένων τεχνικών για την αποτελεσματική συλλογή, αποθήκευση και διαχείριση των δεδομένων. Ως συνέπεια, ο όγκος των δεδομένων που αποθηκεύονται και είναι ευρέως διαθέσιμα ηλεκτρονικά αυξάνεται ραγδαία και η ανάγκη ανάπτυξης και χρήσης αποδοτικών μεθόδων ανάλυσης για την εξαγωγή χρήσιμης πληροφορίας καθίσταται ολοένα και πιο επιτακτική.
Η εξόρυξη δεδομένων (data mining) ως ένα αναδυόμενο πεδίο διεπιστημονικών εφαρμογών συνδυάζει παραδοσιακές μεθόδους ανάλυσης δεδομένων με εξελιγμένους αλγόριθμους και διαδραματίζει σημαντικό ρόλο στην επεξεργασία μεγάλου όγκου δεδομένων.
Ο όρος οπτικοποίηση δεδομένων (data visualization) αναφέρεται στη μελέτη τεχνικών οπτικής αναπαράστασης δεδομένων χρησιμοποιώντας γραφικά, κίνηση, τρισδιάστατες απεικονίσεις και άλλα πολυμεσικά εργαλεία. Στόχος των τεχνικών οπτικοποίησης είναι παρουσίαση ενός συνόλου δεδομένων με τρόπο σαφή και αποτελεσματικό που να παρέχει τη δυνατότητα εξαγωγής συμπερασμάτων και ανακάλυψης συσχετίσεων που διαφορετικά θα παρέμεναν άγνωστες. Στη διεθνή βιβλιογραφία, έχουν παρουσιαστεί αρκετές τεχνικές οπτικοποίησης δεδομένων, ενώ τα τελευταία χρόνια η επιστημονική κοινότητα έχει εστιάσει το ενδιαφέρον της και στην οπτικοποίηση των αποτελεσμάτων της εξόρυξης δεδομένων.
Στα πλαίσια αυτής της μεταπτυχιακής διπλωματικής εργασίας, προτείνεται μια αποδοτική τεχνική εξόρυξης δεδομένων που βασίζεται σε γνωστές μεθόδους συσταδοποίησης, όπως ο Ιεραρχικός αλγόριθμος και o αλγόριθμος Spherical K-means και είναι κατάλληλη να εφαρμοστεί για την ανάλυση και εξαγωγή χρήσιμης γνώσης σε διαφορετικά σύνολα δεδομένων. Η προτεινόμενη τεχνική εφαρμόστηκε σε δύο διαφορετικούς τύπους δεδομένων: α) κειμενικά δεδομένα (textual data) που προέρχονται από τη βάση δεδομένων του PubMed, β) αριθμητικά δεδομένα (numerical data) από τη βάση δεδομένων της FINDbase. Επιπλέον, παρουσιάζεται μια μελέτη τεχνικών οπτικοποίησης και η ανάπτυξη σύγχρονων εφαρμογών οπτικοποίησης, τόσο για την αποτελεσματική αναπαράσταση των αρχικών δεδομένων μιας συλλογής (πριν από την επεξεργασία τους), όσο και των αποτελεσμάτων που προέκυψαν από την προτεινόμενη τεχνική συσταδοποίησης. / The evolution of computer technology along with advances in database technology have contributed to the development of new efficient and automated techniques for the effective collection, storage and management of data. As a result, the volume of stored and widely available online data is growing rapidly, and the need for effective analytical methods for extracting relevant information is becoming increasingly urgent.
As an emerging field of interdisciplinary applications, data mining combines traditional data analysis methods with sophisticated algorithms and plays an important role in the processing of large volumes of data.
Data visualization refers to the study of the techniques used for the visual representation of data, including graphics, animation, 3D depictions and other multimedia tools. The main goal of data visualization techniques is to present a set of data in a clear and effective way, so that the extraction of conclusions and discovery of correlations that would otherwise remain unknown, are enabled. While several data visualization techniques have been presented in the relative literature, in recent years the scientific community has been focusing on the visualization of the results obtained by the application of data mining techniques.
In the present thesis, we propose an efficient data mining technique that is based on well-known clustering methods, such as the Hierarchical and Spherical K-means ones, and is suitable for the analysis and extraction of useful knowledge from different types of datasets. The proposed technique was applied into two different types of data including: a) textual data from the PubMed database, b) numerical data from the FINDbase database. Furthermore, we present a study of visualization techniques and the development of modern visualization tools for the effective representation of the original dataset (before processing) and the results obtained by the proposed clustering technique.
|
6 |
Τεχνικές και μηχανισμοί συσταδοποίησης χρηστών και κειμένων για την προσωποποιημένη πρόσβαση περιεχομένου στον Παγκόσμιο ΙστόΤσόγκας, Βασίλειος 16 April 2015 (has links)
Με την πραγματικότητα των υπέρογκων και ολοένα αυξανόμενων πηγών κειμένου στο διαδίκτυο, καθίστανται αναγκαία η ύπαρξη μηχανισμών οι οποίοι βοηθούν τους χρήστες ώστε να λάβουν γρήγορες απαντήσεις στα ερωτήματά τους. Η δημιουργία περιεχομένου, προσωποποιημένου στις ανάγκες των χρηστών, κρίνεται απαραίτητη σύμφωνα με τις επιταγές της συνδυαστικής έκρηξης της πληροφορίας που είναι ορατή σε κάθε ``γωνία'' του διαδικτύου. Ζητούνται άμεσες και αποτελεσματικές λύσεις ώστε να ``τιθασευτεί'' αυτό το χάος πληροφορίας που υπάρχει στον παγκόσμιο ιστό, λύσεις που είναι εφικτές μόνο μέσα από ανάλυση των προβλημάτων και εφαρμογή σύγχρονων μαθηματικών και υπολογιστικών μεθόδων για την αντιμετώπισή τους.
Η παρούσα διδακτορική διατριβή αποσκοπεί στο σχεδιασμό, στην ανάπτυξη και τελικά στην αξιολόγηση μηχανισμών και καινοτόμων αλγορίθμων από τις περιοχές της ανάκτησης πληροφορίας, της επεξεργασίας φυσικής γλώσσας καθώς και της μηχανικής εκμάθησης, οι οποίοι θα παρέχουν ένα υψηλό επίπεδο φιλτραρίσματος της πληροφορίας του διαδικτύου στον τελικό χρήστη. Πιο συγκεκριμένα, στα διάφορα στάδια επεξεργασίας της πληροφορίας αναπτύσσονται τεχνικές και μηχανισμοί που συλλέγουν, δεικτοδοτούν, φιλτράρουν και επιστρέφουν κατάλληλα στους χρήστες κειμενικό περιεχόμενο που πηγάζει από τον παγκόσμιο ιστό. Τεχνικές και μηχανισμοί που σκοπό έχουν την παροχή υπηρεσιών πληροφόρησης πέρα από τα καθιερωμένα πρότυπα της υφιστάμενης κατάστασης του διαδικτύου.
Πυρήνας της διδακτορικής διατριβής είναι η ανάπτυξη ενός μηχανισμού συσταδοποίησης (clustering) τόσο κειμένων, όσο και των χρηστών του διαδικτύου. Στο πλαίσιο αυτό μελετήθηκαν κλασικοί αλγόριθμοι συσταδοποίησης οι οποίοι και αξιολογήθηκαν για την περίπτωση των άρθρων νέων προκειμένου να εκτιμηθεί αν και πόσο αποτελεσματικός είναι ο εκάστοτε αλγόριθμος.
Σε δεύτερη φάση υλοποιήθηκε αλγόριθμος συσταδοποίησης άρθρων νέων που αξιοποιεί μια εξωτερική βάση γνώσης, το WordNet, και είναι προσαρμοσμένος στις απαιτήσεις των άρθρων νέων που πηγάζουν από το διαδίκτυο.
Ένας ακόμη βασικός στόχος της παρούσας εργασίας είναι η μοντελοποίηση των κινήσεων που ακολουθούν κοινοί χρήστες καθώς και η αυτοματοποιημένη αξιολόγηση των συμπεριφορών, με ορατό θετικό αποτέλεσμα την πρόβλεψη των προτιμήσεων που θα εκφράσουν στο μέλλον οι χρήστες. Η μοντελοποίηση των χρηστών έχει άμεση εφαρμογή στις δυνατότητες προσωποποίησης της πληροφορίας με την πρόβλεψη των προτιμήσεων των χρηστών. Ως εκ' τούτου, υλοποιήθηκε αλγόριθμος προσωποποίησης ο οποίος λαμβάνει υπ' όψιν του πληθώρα παραμέτρων που αποκαλύπτουν έμμεσα τις προτιμήσεις των χρηστών. / With the reality of the ever increasing information sources from the internet, both in sizes and indexed content, it becomes necessary to have methodologies that will assist the users in order to get the information they need, exactly the moment they need it. The delivery of content, personalized to the user needs is deemed as a necessity nowadays due to the combinatoric explosion of information visible to every corner of the world wide web. Solutions effective and swift are desperately needed in order to deal with this information overload. These solutions are achievable only via the analysis of the refereed problems, as well as the application of modern mathematics and computational methodologies.
This Ph.d. dissertation aims to the design, development and finally to the evaluation of mechanisms, as well as, novel algorithms from the areas of information retrieval, natural language processing and machine learning. These mechanisms shall provide a high level of filtering capabilities regarding information originating from internet sources and targeted to end users. More precisely, through the various stages of information processing, various techniques are proposed and developed. Techniques that will gather, index, filter and return textual content well suited to the user tastes. These techniques and mechanisms aim to go above and beyond the usual information delivery norms of today, dealing via novel means with several issues that are discussed.
The kernel of this Ph.d. dissertation is the development of a clustering mechanism that will operate both on news articles, as well as, users of the web. Within this context several classical clustering algorithms were studied and evaluated for the case of news articles, allowing as to estimate the level of efficiency of each one within this domain of interest. This left as with a clear choice as to which algorithm should be extended for our work.
As a second phase, we formulated a clustering algorithm that operates on news articles and user profiles making use of the external knowledge base of WordNet. This algorithm is adapted to the requirements of diversity and quick churn of news articles originating from the web.
Another central goal of this Ph.d. dissertation is the modeling of the browsing behavior of system users within the context of our recommendation system, as well as, the automatic evaluation of these behaviors with the obvious desired outcome or predicting the future preferences of users. The user modeling process has direct application upon the personalization capabilities that we can over on information as far as user preferences predictions are concerned. As a result, a personalization algorithm we formulated which takes into consideration a plethora or parameters that indirectly reveal the user preferences.
|
7 |
Σχεδιασμός και ανάπτυξη αλγορίθμου συσταδοποίησης μεγάλης κλίμακας δεδομένωνΓούλας, Χαράλαμπος January 2015 (has links)
Υπό το φάσμα της νέας, ανερχόμενης κοινωνίας της πληροφορίας, η σύγκλιση των υπολογιστών με τις τηλεπικοινωνίες έχει οδηγήσει στην συνεχώς αυξανόμενη παραγωγή και αποθήκευση τεράστιου όγκου δεδομένων σχεδόν για οποιονδήποτε τομέα της ανθρώπινης ενασχόλησης. Αν, λοιπόν, τα δεδομένα αποτελούν τα καταγεγραμμένα γεγονότα της ανθρώπινης ενασχόλησης, οι πληροφορίες αποτελούν τους κανόνες, που τα διέπουν. Και η κοινωνία στηρίζεται και αναζητά διακαώς νέες πληροφορίες. Το μόνο που απομένει, είναι η ανακάλυψη τους.
Ο τομέας, που ασχολείται με την συστηματική ανάλυση των δεδομένων με σκοπό την εξαγωγή χρήσιμης γνώσης ονομάζεται μηχανική μάθηση. Υπό αυτό, λοιπόν, το πρίσμα, η παρούσα διπλωματική πραγματεύεται την μηχανική μάθηση ως μια ελπίδα των επιστημόνων να αποσαφηνίσουν τις δομές που διέπουν τα δεδομένα και να ανακαλύψουν και να κατανοήσουν τους κανόνες, που “κινούν” τον φυσικό κόσμο.
Αρχικά, πραγματοποιείται μια πρώτη περιγραφή της μηχανικής μάθησης ως ένα από τα βασικότερα δομικά στοιχεία της τεχνητής νοημοσύνης, παρουσιάζοντας ταυτόχρονα μια πληθώρα προβλημάτων, στα οποία μπορεί να βρει λύση, ενώ γίνεται και μια σύντομη ιστορική αναδρομή της πορείας και των κομβικών της σημείων.
Ακολούθως, πραγματοποιείται μια όσο το δυνατόν πιο εμπεριστατωμένη περιγραφή, μέσω χρήσης εκτεταμένης βιβλιογραφίας, σχεδιαγραμμάτων και λειτουργικών παραδειγμάτων των βασικότερων κλάδων της, όπως είναι η επιβλεπόμενη μάθηση (δέντρα αποφάσεων, νευρωνικά δίκτυα), η μη-επιβλεπόμενη μάθηση (συσταδοποίηση δεδομένων), καθώς και πιο εξειδικευμένων μορφών της, όπως είναι η ημί-επιβλεπόμενη μηχανική μάθηση και οι γενετικοί αλγόριθμοι.
Επιπρόσθετα, σχεδιάζεται και υλοποιείται ένας νέος πιθανοτικός αλγόριθμος συσταδοποίησης (clustering) δεδομένων, ο οποίος ουσιαστικά αποτελεί ένα υβρίδιο ενός ιεραρχικού αλγορίθμου ομαδοποίησης και ενός αλγορίθμου διαμέρισης. Ο αλγόριθμος δοκιμάστηκε σε ένα πλήθος διαφορετικών συνόλων, πετυχαίνοντας αρκετά ενθαρρυντικά αποτελέσματα, συγκριτικά με άλλους γνωστούς αλγορίθμους, όπως είναι ο k-means και ο single-linkage. Πιο συγκεκριμένα, ο αλγόριθμος κατασκευάζει συστάδες δεδομένων, με μεγαλύτερη ομοιογένεια κατά πλειοψηφία σε σχέση με τους παραπάνω, ενώ το σημαντικότερο πλεονέκτημά του είναι ότι δεν χρειάζεται κάποια αντίστοιχη παράμετρο k για να λειτουργήσει.
Τέλος, γίνονται προτάσεις τόσο για περαιτέρω βελτίωση του παραπάνω αλγορίθμου, όσο και για την ανάπτυξη νέων τεχνικών και μεθόδων, εναρμονισμένων με τις σύγχρονες τάσεις της αγοράς και προσανατολισμένων προς τις απαιτητικές ανάγκες της νέας, αναδυόμενης κοινωνίας της πληροφορίας. / In the spectrum of a new and emerging information society, the convergence of computers and telecommunication has led to a continuously increasing production and storage of huge amounts of data for almost any field of human engagement. So, if the data are recorded facts of human involvement, then information are the rules that govern them. And society depends on and looking earnestly for new information. All that remains is their discovery.
The field of computer science, which deals with the systematic analysis of data in order to extract useful information, is called machine learning. In this light, therefore, this thesis discusses the machine learning as a hope of scientists to elucidate the structures that govern the data and discover and understand the rules that "move" the natural world.
Firstly, a general description of machine learning, as one of the main components of artificial intelligence, is discussed, while presenting a variety of problems that machine learning can find solutions, as well as a brief historical overview of its progress.
Secondly, a more detailed description of machine learning is presented by using extensive literature, diagrams, drawings and working examples of its major research areas, as is the supervised learning (decision trees, neural networks), the unsupervised learning (clustering algorithms) and more specialized forms, as is the semi-supervised machine learning and genetic algorithms.
In addition to the above, it is planned and implemented a new probabilistic clustering algorithm, which is a hybrid of a hierarchical clustering algorithm and a partitioning algorithm. The algorithm was tested on a plurality of different datasets, achieving sufficiently encouraging results, as compared to other known algorithms, such as k-means and single-linkage. More specifically, the algorithm constructs data blocks, with greater homogeneity by majority with respect to the above, while the most important advantage is that it needs no corresponding parameter k to operate.
Finally, suggestions are made in order to further improve the above algorithm, as well as to develop new techniques and methods in keeping with the current market trends, oriented to the demanding needs of this new, emerging information society.
|
8 |
Χρήση ευφυών αλγοριθμικών τεχνικών για επεξεργασία πρωτεϊνικών δεδομένωνΘεοφιλάτος, Κωνσταντίνος 10 June 2014 (has links)
H παρούσα διατριβή εκπονήθηκε στο Εργαστήριο Αναγνώρισης Προτύπων, του Τμήματος Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής του Πανεπιστημίου Πατρών. Αποτελεί μέρος της ευρύτερης ερευνητικής δραστηριότητας του Εργαστηρίου στον τομέα του σχεδιασμού και της εφαρμογής των τεχνολογιών Υπολογιστικής Νοημοσύνης στην ανάλυση βιολογικών δεδομένων. Η διδακτορική αυτή διατριβή χρηματοδοτήθηκε από το πρόγραμμα Ηράκλειτος ΙΙ.
Ο τομέας της πρωτεωμικής είναι ένα σχετικά καινούργιο και γρήγορα αναπτυσσόμενο ερευνητικό πεδίο. Μια από τις μεγαλύτερες προκλήσεις στον τομέα της πρωτεωμικής είναι η αναδόμηση του πλήρους πρωτεϊνικού αλληλεπιδραστικού δικτύου μέσα στα κύτταρα. Εξαιτίας του γεγονότος, ότι οι πρωτεϊνικές αλληλεπιδράσεις παίζουν πολύ σημαντικό ρόλο στις βασικές λειτουργίες ενός κυττάρου, η ανάλυση αυτών των δικτύων μπορεί να αποκαλύψει τον ρόλο αυτών των αλληλεπιδράσεων στις ασθένειες καθώς και τον τρόπο με τον οποίο οι τελευταίες αναπτύσσονται. Παρόλα αυτά, είναι αρκετά δύσκολο να καταγραφούν και να μελετηθούν οι πρωτεϊνικές αλληλεπιδράσεις ενός οργανισμού, καθώς το πρωτέωμα διαφοροποιείται από κύτταρο σε κύτταρο και αλλάζει συνεχώς μέσα από τις βιοχημικές του αλληλεπιδράσεις με το γονιδίωμα και το περιβάλλον. Ένας οργανισμός έχει ριζικά διαφορετική πρωτεϊνική έκφραση στα διάφορα σημεία του σώματός του, σε διαφορετικά στάδια του κύκλου ζωής του και υπό διαφορετικές περιβαλλοντικές συνθήκες. Δημιουργούνται, λοιπόν, δύο πάρα πολύ σημαντικοί τομείς έρευνας, που είναι, πρώτον, η εύρεση των πραγματικών πρωτεϊνικών αλληλεπιδράσεων ενός οργανισμού που θα συνθέσουν το πρωτεϊνικό δίκτυο αλληλεπιδράσεων και, δεύτερον, η περαιτέρω ανάλυση του πρωτεϊνικού δικτύου για εξόρυξη πληροφορίας (εύρεση πρωτεϊνικών συμπλεγμάτων, καθορισμός λειτουργίας πρωτεϊνών κτλ).
Στην παρούσα διδακτορική διατριβή παρουσιάζονται καινοτόμες αλγοριθμικές τεχνικές Υπολογιστικής Νοημοσύνης για την πρόβλεψη πρωτεϊνικών αλληλεπιδράσεων, τον υπολογισμό ενός βαθμού εμπιστοσύνης για κάθε προβλεφθείσα αλληλεπίδραση, την πρόβλεψη πρωτεϊνικών συμπλόκων από δίκτυα πρωτεϊνικών αλληλεπιδράσεων και την πρόβλεψη της λειτουργίας πρωτεϊνών.
Συγκεκριμένα, στο κομμάτι της πρόβλεψης και βαθμολόγησης πρωτεϊνικών αλληλεπιδράσεων αναπτύχθηκε μια πληθώρα καινοτόμων τεχνικών ταξινόμησης. Αυτές κυμαίνονται από υβριδικούς συνδυασμούς μετα-ευρετικών μεθόδων και ταξινομητών μηχανικής μάθησης, μέχρι μεθόδους γενετικού προγραμματισμού και υβριδικές μεθοδολογίες ασαφών συστημάτων. Στο κομμάτι της πρόβλεψης πρωτεϊνικών συμπλόκων υλοποιήθηκαν δύο βασικές καινοτόμες μεθοδολογίες μη επιβλεπόμενης μάθησης, οι οποίες θεωρητικά και πειραματικά ξεπερνούν τα μειονεκτήματα των υπαρχόντων αλγορίθμων. Για τις περισσότερες από αυτές τις υλοποιηθείσες μεθοδολογίες υλοποιήθηκαν φιλικές προς τον χρήστη διεπαφές. Οι περισσότερες από αυτές τις μεθοδολογίες μπορούν να χρησιμοποιηθούν και σε άλλους τομείς. Αυτό πραγματοποιήθηκε με μεγάλη επιτυχία σε προβλήματα βιοπληροφορικής όπως η πρόβλεψη microRNA γονιδίων και mRNA στόχων τους και η μοντελοποίηση - πρόβλεψη οικονομικών χρονοσειρών.
Πειραματικά, η μελέτη αρχικά επικεντρώθηκε στον οργανισμό της ζύμης (Saccharomyces cerevisiae), έτσι ώστε να αξιολογηθούν οι αλγόριθμοι, που υλοποιήθηκαν και να συγκριθούν με τις υπάρχουσες αλγοριθμικές μεθοδολογίες. Στη συνέχεια, δόθηκε ιδιαίτερη έμφαση στις πρωτεΐνες του ανθρώπινου οργανισμού. Συγκεκριμένα, οι καλύτερες αλγοριθμικές τεχνικές για την ανάλυση δεδομένων πρωτεϊνικών αλληλεπιδράσεων εφαρμόστηκαν σε ένα σύνολο δεδομένων που δημιουργήθηκε για τον ανθρώπινο οργανισμό. Αυτό είχε σαν αποτέλεσμα την δημιουργία ενός πλήρους, σταθμισμένου δικτύου πρωτεϊνικών αλληλεπιδράσεων για τον άνθρωπο και την εξαγωγή των πρωτεϊνικών συμπλόκων, που υπάρχουν σε αυτό καθώς και τον λειτουργικό χαρακτηρισμό πολλών αχαρακτήριστων πρωτεϊνών.
Τα αποτελέσματα της ανάλυσης των δεδομένων πρωτεϊνικών αλληλεπιδράσεων για τον άνθρωπο είναι διαθέσιμα μέσω μίας διαδικτυακής βάσης γνώσης HINT-KB (http://hintkb.ceid.upatras.gr), που υλοποιήθηκε στα πλαίσια αυτής της διδακτορικής διατριβής. Σε αυτή την βάση γνώσης ενσωματώνεται, από διάφορες πηγές, ακολουθιακή, δομική και λειτουργική πληροφορία για ένα τεράστιο πλήθος ζευγών πρωτεϊνών του ανθρώπινου οργανισμού. Επίσης, οι χρήστες μπορούν να έχουν προσβαση στις προβλεφθείσες πρωτεϊνικές αλληλεπιδράσεις και στον βαθμό εμπιστοσύνης τους. Τέλος, παρέχονται εργαλεία οπτικοποίησης του δικτύου πρωτεϊνικών αλληλεπιδράσεων, αλλά και εργαλεία ανάκτησης των πρωτεϊνικών συμπλόκων που υπάρχουν σε αυτό και της λειτουργίας πρωτεϊνών και συμπλόκων.
Το προβλήματα με τα οποία καταπιάνεται η παρούσα διδακτορική διατριβή έχουν σημαντικό ερευνητικό ενδιαφέρον, όπως τεκμηριώνεται και από την παρατιθέμενη στη διατριβή εκτενή βιβλιογραφία. Μάλιστα, βασικός στόχος είναι οι παρεχόμενοι αλγόριθμοι και υπολογιστικά εργαλεία να αποτελέσουν ένα οπλοστάσιο στα χέρια των βιοπληροφορικάριων για την επίτευξη της κατανόησης των κυτταρικών λειτουργιών και την χρησιμοποίηση αυτής της γνώσης για γονιδιακή θεραπεία διαφόρων πολύπλοκων πολυπαραγοντικών ασθενειών όπως ο καρκίνος.
Τα σημαντικόταρα επιτεύγματα της παρούσας διατριβής μπορούν να συνοψισθούν στα ακόλουθα σημεία:
• Παροχή ολοκληρωμένης υπολογιστικής διαδικασίας ανάλυσης δεδομένων πρωτεϊνικών αλληλεπιδράσεων
• Σχεδιασμός και υλοποίηση ευφυών τεχνικών πρόβλεψης και βαθμολόγησης πρωτεϊνικών αλληλεπιδράσεων, που θα παρέχουν αποδοτικά και ερμηνεύσιμα μοντέλα πρόβλεψης.
• Σχεδιασμός και υλοποίηση αποδοτικών αλγορίθμων μη επιβλεπόμενης μάθησης για την εξόρυξη πρωτεϊνικών συμπλόκων από δίκτυα πρωτεϊνικών αλληλλεπιδράσεων.
• Δημιουργία μιας βάσης γνώσης που θα παρέχει στην επιστημονική κοινότητα όλα τα ευρήματα της ανάλυσης των δεδομένων πρωτεϊνικών αλληλεπιδράσεων για τον ανθρώπινο οργανισμό. / The present dissertation was conducted in the Pattern Recognition Laboratory, of the Department of Computer Engineering and Informatics at the University of Patras. It is a part of the wide research activity of the Pattern Recognition Laboratory in the domain of designing, implementing and applying Computational Intelligence technologies for the analysis of biological data. The present dissertation was co-financed by the research program Hrakleitos II.
The proteomics domain is a quite new and fast evolving research domain. One of the great challenges in the domain of proteomics is the reconstruction of the complete protein-protein interaction network within the cells. The analysis of these networks is able to uncover the role of protein-protein interactions in diseases as well as their developmental procedure, as protein-protein interactions play very important roles in the basic cellular functions. However, this is very hard to be accomplished as protein-protein interactions and the whole proteome is differentiated among cells and it constantly changes through the biochemical cellular and environment interactions. An organism has radically different protein expression in different tissues, in different phases of his life and under varying environmental conditions. Two very important domains of research are created. First, the identification of the real protein-protein interactions within an organism which will compose its protein interaction network. Second, the analysis of the protein interaction network to extract knowledge (search for protein complexes, uncovering of proteins functionality e.tc.)
In the present dissertation novel algorithmic Computational Intelligent techniques are presented for the prediction of protein-protein interactions, the prediction of a confidence score for each predicted protein-protein interaction, the prediction of protein complexes and the prediction of proteins functionality.
In particular, in the task of predicting and scoring protein-protein interactions, a wide range of novel classification techniques was designed and developed. These techniques range from hybrid combinations of meta-heuristic methods and machine learning classifiers, to genetic programming methods and fuzzy systems. For the task of predicting protein complexes, two novel unsupervised methods were designed and developed which theoretically and experimentally surpassed the limitations of existing methodologies. For most of the designed techniques user friendly interfaces were developed to allow their utilizations by other researchers. Moreover, many of the implemented techniques were successfully applied to other research domaines such as the prediction of microRNAs and their targets and the forecastment of financial time series.
The experimental procedure, initially focused on the well studied organism of Yeast (Saccharomyces cerevisiae) to validate the performance of the proposed algorithms and compare them with existing computational methodologies. Then, it focuses on the analysis of protein-protein interaction data from the Human organism. In specific, the best algorithmic techniques, from the ones proposed in the present dissertation, were applied to a human protein-protein interaction dataset. This resulted to the construction of a weighted protein-protein interaction network of high coverage, to the extraction of human protein complexes and to the functional characterization of Human proteins and complexes.
The results of the analysis of Human protein-protein interaction data are available in the web knowledge base HINT-KB (http://hintkb.ceid.upatras.gr) which was implemented during this dissertation. In this knowledge base, structural, functional and sequential information from various sources were incorporated for every protein pair. Moreover, HINTKB provide access to the predicted and scored protein-protein interactions and to the predicted protein complexes and their functional characterization.
The problems which occupied the present dissertation have very significant research interest as it is proved by the provided wide bibliography. The basic goal is the provided algorithms and tools to contribute in the ultimate goal of systems biology to understand the cellular mechanisms and contribute in the development of genomic therapy of complex diseases such as cancer.
The most important achievements of the present dissertation are summarized in the next points:
• Providing an integrated computational framework for the analysis of protein-protein interaction data.
• Designing and implementing intelligent techniques for predicting and scoring protein-protein interactions in an accurate and interpretable manner.
• Designing and implementing effective unsupervised algorithmic techniques for extracting protein complexes and predicting their functionality.
• Creating a knowledge base which will provide to the scientific community all the findings of the analysis conducted on the Human protein-protein interaction data.
|
9 |
Τεχνικές εξόρυξης δεδομένων και εφαρμογές σε προβλήματα διαχείρισης πληροφορίας και στην αξιολόγηση λογισμικού / Data mining techniques and their applications in data management problems and in software systems evaluationΤσιράκης, Νικόλαος 20 April 2011 (has links)
Τα τελευταία χρόνια όλο και πιο επιτακτική είναι η ανάγκη αξιοποίησης των ψηφιακών δεδομένων τα οποία συλλέγονται και αποθηκεύονται σε διάφορες βάσεις δεδομένων. Το γεγονός αυτό σε συνδυασμό με τη ραγδαία αύξηση του όγκου των δεδομένων αυτών επιβάλλει τη δημιουργία υπολογιστικών μεθόδων με απώτερο σκοπό τη βοήθεια του ανθρώπου στην εξόρυξη της χρήσιμης πληροφορίας και γνώσης από αυτά.
Οι τεχνικές εξόρυξης δεδομένων παρουσιάζουν τα τελευταία χρόνια ιδιαίτερο ενδιαφέρον στις περιπτώσεις όπου η πηγή των δεδομένων είναι οι ροές δεδομένων ή άλλες μορφές όπως τα XML έγγραφα. Σύγχρονα συστήματα και εφαρμογές όπως είναι αυτά των κοινοτήτων πρακτικής έχουν ανάγκη χρήσης τέτοιων τεχνικών εξόρυξης για να βοηθήσουν τα μέλη τους. Τέλος ενδιαφέρον υπάρχει και κατά την αξιολόγηση λογισμικού όπου η πηγή δεδομένων είναι τα αρχεία πηγαίου κώδικα για σκοπούς καλύτερης συντηρησιμότητας τους.
Από τη μια μεριά οι ροές δεδομένων είναι προσωρινά δεδομένα τα οποία περνούν από ένα σύστημα «παρατηρητή» συνεχώς και σε μεγάλο όγκο. Υπάρχουν πολλές εφαρμογές που χειρίζονται δεδομένα σε μορφή ροών, όπως δεδομένα αισθητήρων, ροές κίνησης δικτύων, χρηματιστηριακά δεδομένα και τηλεπικοινωνίες. Αντίθετα με τα στατικά δεδομένα σε βάσεις δεδομένων, οι ροές δεδομένων παρουσιάζουν μεγάλο όγκο και χαρακτηρίζονται από μια συνεχή ροή πληροφορίας που δεν έχει αρχή και τέλος. Αλλάζουν δυναμικά, και απαιτούν γρήγορες αντιδράσεις. Ίσως είναι η μοναδική πηγή γνώσης για εξόρυξη δεδομένων και ανάλυση στην περίπτωση όπου οι ανάγκες μιας εφαρμογής περιορίζονται από τον χρόνο απόκρισης και το χώρο αποθήκευσης. Αυτά τα μοναδικά χαρακτηριστικά κάνουν την ανάλυση των ροών δεδομένων πολύ ενδιαφέρουσα ιδιαίτερα στον Παγκόσμιο Ιστό.
Ένας άλλος τομέας ενδιαφέροντος για τη χρήση νέων τεχνικών εξόρυξης δεδομένων είναι οι κοινότητες πρακτικής. Οι κοινότητες πρακτικής (Communities of Practice) είναι ομάδες ανθρώπων που συμμετέχουν σε μια διαδικασία συλλογικής εκμάθησης. Μοιράζονται ένα ενδιαφέρον ή μια ιδέα που έχουν και αλληλεπιδρούν για να μάθουν καλύτερα για αυτό. Οι κοινότητες αυτές είναι μικρές ή μεγάλες, τοπικές ή παγκόσμιες, face to face ή on line, επίσημα αναγνωρίσιμες, ανεπίσημες ή και αόρατες. Υπάρχουν δηλαδή παντού και σχεδόν όλοι συμμετέχουμε σε δεκάδες από αυτές. Ένα παράδειγμα αυτών είναι τα γνωστά forum συζητήσεων. Σκοπός μας ήταν ο σχεδιασμός νέων αλγορίθμων εξόρυξης δεδομένων από τις κοινότητες πρακτικής με τελικό σκοπό να βρεθούν οι σχέσεις των μελών τους και να γίνει ανάλυση των εξαγόμενων δεδομένων με μετρικές κοινωνικών δικτύων ώστε συνολικά να αποτελέσει μια μεθοδολογία ανάλυσης τέτοιων κοινοτήτων.
Επίσης η eXtensible Markup Language (XML) είναι το πρότυπο για αναπαράσταση δεδομένων στον Παγκόσμιο Ιστό. Η ραγδαία αύξηση του όγκου των δεδομένων που αναπαρίστανται σε XML μορφή δημιούργησε την ανάγκη αναζήτησης μέσα στην δενδρική δομή ενός ΧΜL εγγράφου για κάποια συγκεκριμένη πληροφορία. Η ανάγκη αυτή ταυτόχρονα με την ανάγκη για γρήγορη πρόσβαση στους κόμβους του ΧΜL δέντρου, οδήγησε σε διάφορα εξειδικευμένα ευρετήρια. Για να μπορέσουν να ανταποκριθούν στη δυναμική αυτή των δεδομένων, τα ευρετήρια πρέπει να έχουν τη δυνατότητα να μεταβάλλονται δυναμικά. Ταυτόχρονα λόγο της απαίτησης για αναζήτηση συγκεκριμένης πληροφορίας πρέπει να γίνεται το φιλτράρισμα ενός συνόλου XML δεδομένων διαμέσου κάποιων προτύπων και κανόνων ώστε να βρεθούν εκείνα τα δεδομένα που ταιριάζουν με τα αποθηκευμένα πρότυπα και κανόνες.
Από την άλλη μεριά οι διαστάσεις της εσωτερικής και εξωτερικής ποιότητας στη χρήση ενός προϊόντος λογισμικού αλλάζουν κατά τη διάρκεια ζωής του. Για παράδειγμα η ποιότητα όπως ορίζεται στην αρχή του κύκλου ζωής του λογισμικού δίνει πιο πολύ έμφαση στην εξωτερική ποιότητα και διαφέρει από την εσωτερική, όπως για παράδειγμα στη σχεδίαση η οποία αναφέρεται στην εσωτερική ποιότητα και αφορά τους μηχανικούς λογισμικού. Οι τεχνικές εξόρυξης δεδομένων που μπορούν να χρησιμοποιηθούν για την επίτευξη του απαραίτητου επιπέδου ποιότητας, όπως είναι ο καθορισμός και η αξιολόγηση της ποιότητας πρέπει να λαμβάνουν υπόψη τους τις διαφορετικές αυτές διαστάσεις σε κάθε στάδιο του κύκλου ζωής του προϊόντος.
Στα πλαίσια αυτής της διδακτορικής διατριβής έγινε σε βάθος έρευνα σχετικά με τεχνικές εξόρυξης δεδομένων και εφαρμογές τόσο στο πρόβλημα διαχείρισης πληροφορίας όσο και στο πρόβλημα της αξιολόγησης λογισμικού. / The World Wide Web has gradually transformed into a large data repository consisting of vast amount of data in many different types. These data doubles about every year, but useful information seems to be decreasing. The area of data mining has arisen over the last decade to address this problem. It has become not only an important research area, but also one with large potential in the real world. Data mining has many directives and handles various types of data.
When the related data are for example data streams or XML data then the problems seem to be very crucial and interesting. Also contemporary systems and applications related to communities of practice seek appropriate data mining techniques and algorithms in order to help their members. Finally, great interest has the field of software evaluation when by using data mining in order to facilitate the comprehension and maintainability evaluation of a software system’s source code. Source code artifacts and measurement values can be used as input to data mining algorithms in order to provide insights into a system’s structure or to create groups of artifacts with similar software measurements.
First, data streams are large volumes of data arriving continuously. Data mining techniques have been proposed and studied to help users better understand and analyze the information. Clustering is a useful and ubiquitous tool in data analysis. With the rapid increase in web-traffic and e-commerce, understanding user behavior based on their interaction with a website is becoming more and more important for website owners and clustering in correlation with personalization techniques of this information space has become a necessity. The knowledge obtained by learning the users preferences can help improve web content, find usability issues related to this content and its structure, ensure the security of provided data, analyze the different groups of users that can be derived from the web access logs and extract patterns, profiles and trends. This thesis investigates the application of a new model for clustering and analyzing click-stream data in the World Wide Web with two different approaches.
The next part of the thesis deals with data mining techniques regarding communities of practice. These are groups of people taking part in a collaborative way of learning and exchanging ideas. Systems for supporting argumentative collaboration have become more and more popular in digital world. There are many research attempts regarding collaboration filtering and recommendation systems. Sometimes depending on the system and its needs there are different problems and developers have to deal with special cases in order to provide useful service to users. Data mining can play an important role in the area of collaboration systems that want to provide decision support functionality. Data mining in these systems can be defined as the effort to generate actionable models through automated analysis of their databases. Data mining can only be deployed successfully when it generates insights that are substantially deeper than what a simple view of data can give. This thesis introduces a framework that can be applied to a wide range of software platforms aiming at facilitating collaboration and learning among users. More precisely, an approach that integrates techniques from the Data Mining and Social Network Analysis disciplines is being presented.
The next part of the thesis deals with XML data and ways to handle huge volumes of data that they may hold. Lately data written in a more sophisticated markup language such as XML have made great strides in many domains. Processing and management of XML documents have already become popular research issues with the main problem in this area being the need to optimally index them for storage and retrieval purposes. This thesis first presents a unified clustering algorithm for both homogeneous and heterogeneous XML documents. Then using this algorithm presents an XML P2P system that efficiently distributes a set of clustered XML documents in a P2P network in order to speed-up user queries.
Ultimately, data mining and its ability to handle large amounts of data and uncover hidden patterns has the potential to facilitate the comprehension and maintainability evaluation of a software system. This thesis investigates the applicability and suitability of data mining techniques to facilitate the comprehension and maintainability evaluation of a software system’s source code. What is more, this thesis focuses on the ability of data mining to produce either overviews of a software system (thus supporting a top down approach) or to point out specific parts of this system that require further attention (thus supporting a bottom up approach) potential to facilitate the comprehension and maintainability evaluation of a software system.
|
Page generated in 0.0366 seconds