1 |
Ομάδες ταξινομητών για την αύξηση της ακρίβειας των μεθόδων μηχανικής μάθησης και εξόρυξης γνώσης / Improving the accuracy of machine learning and data mining techniques using ensembles of classifiersΚωτσιαντής, Σωτήρης 24 June 2007 (has links)
Στην περίπτωση της αναζήτησης της βέλτιστης ακρίβειας από ένα σύστημα εξόρυξης γνώσης είναι αδύνατο ένας αλγόριθμος που βασίζεται σε μια και μόνο μέθοδο μηχανικής μάθησης να υπερτερεί σε ακρίβεια μιας ομάδας ταξινομητών. Γι’ αυτό το λόγο θα παρουσιαστούν διάφοροι προτεινόμενοι νέοι τρόποι συνδυασμού των αποφάσεων των αλγορίθμων μάθησης οι οποίοι αναπτύχθηκαν στα πλαίσια της διατριβής. Επίσης, θα παρουσιαστεί ένας προτεινόμενος υβριδικός τρόπος επιλογής των ανεξάρτητων μεταβλητών για τους αλγόριθμους μάθησης. Στη συνέχεια, θα παρουσιαστούν κάποιοι νέοι προτεινόμενοι αλγόριθμοι που αναπτύχθηκαν για την αντιμετώπιση προβλημάτων ειδικής δυσκολίας όπως η μάθηση: α) σε ανομοιογενή δεδομένα, β) σε προβλήματα πραγματικού χρόνου και γ) σε προβλήματα βαθμωτής συνάρτησης στόχου. Τέλος, περιγράφεται η δυνατότητα χρησιμοποίησης των μεθόδων μηχανικής μάθησης για εκπαιδευτικούς σκοπούς, όπως στην πρόβλεψη της επίδοσης των φοιτητών στο Ανοιχτό Πανεπιστήμιο. Στη συνέχεια, θα παρουσιαστεί και ένα εργαλείο υποστήριξης των αποφάσεων που αναπτύχθηκε για αυτό το σκοπό. Η παρουσίαση τελειώνει παραθέτοντας κάποια ανοιχτά επιστημονικά ζητήματα του χώρου. / Ensembles of classifiers is a new direction for the improvement of the classification accuracy. For this reason, we present a number of new proposed methods for combining classifiers. We also introduce a new hybrid method for feature selection that is a very important step of the data mining process. Moreover, we present a number of new algorithms for handling special learning problems such as: a) problems with imbalanced datasets, b) real time problems and c) ordinal classification problems. Furthermore, we have used machine learning techniques for educational applications.
|
2 |
Κυτταροταξινομική μελέτη του γένους Paeonia L. εν ΕλλάδιΤζανουδάκης, Δημήτριος 26 March 2010 (has links)
- / -
|
3 |
Ανάπτυξη μεθόδων και εργαλείων μέτρησης ευχρηστίας : υλοποίηση εργαλείου ταξινόμησης καρτώνΣιώζος, Κώστας 04 October 2011 (has links)
Στόχος της παρούσας διπλωματικής εργασίας είναι η ανάπτυξη ενός διαδικτυακού συστήματος το οποίο παρέχει την δυνατότητα εκτέλεσης πειραμάτων Ταξινόμησης Καρτών καθώς και ανάλυσης των αποτελεσμάτων που προκύπτουν. Αφότου έγινε συστηματική μελέτη της θεωρίας προσδιορίστηκαν οι κύριες αρχές, πάνω στις οποίες βασίστηκε η σχεδίαση και ανάπτυξη του συστήματος. Δόθηκε έμφαση στην ευχρηστία και στον διαδικτυακό χαρακτήρα του συστήματος καθώς και στην δημιουργία περιβάλλοντος υψηλής διαδραστικότητας. Για την επίτευξη του στόχου αξιοποιήθηκαν τεχνολογίες βάσεων δεδομένων και διαδικτύου. Η ευχρηστία του συστήματος είναι απόρροια διαδοχικών αξιολογήσεων από ειδικούς ευχρηστίας αλλά και δοκιμής του σε πραγματικές συνθήκες χρήσης. Το σύστημα αποτελεί ένα χρήσιμο εργαλείο στα χέρια ενός ερευνητή, αποκαλύπτοντας τις εννοιολογικές δομές ή κατηγοριοποιήσεις των ατόμων που εκτελούν το πείραμα, αλλά και ενός σχεδιαστή πληροφοριακών συστημάτων, ώστε να κατανοήσει καλύτερα τους χρήστες στους οποίους απευθύνεται και να βελτιώσει με αυτό τον τρόπο την ευχρηστία και την εμπειρία χρήστη. Τέλος, η λογική της μεταφοράς μιας μεθόδου όπως η Ταξινόμηση Καρτών σε ένα διαδικτυακό σύστημα μπορεί να επεκταθεί και σε άλλες ερευνητικές μεθόδους, απολαμβάνοντας αντίστοιχα οφέλη. / The aim of this thesis is to develop an online system that provides the ability to perform Card Sorting experiments and analysis of Card Sorting results. After a systematic study of theory, the main principles were identified upon which the design and development of the system was based on. Emphasis was placed on achieving a high level of usability and to create an online and highly interactive environment using RIA (Rich Internet Applications). To achieve this goal, database technologies and internet technologies as well as RIA were used. The usability of the system is the result of successive evaluations by experts and usability test in real conditions. The system is a useful tool for a researcher to reveal the conceptual structure or classifications(user mental model) of people participating in a Card Sorting experiment, but also for a designer of information systems to better understand the users to whom the design refers to and thereby to improve the usability and user experience. Finally, the logic of transferring a method such as Card Sorting from the "real world" in an online system can be extended to other research methods, enjoying the benefits of modern computer and internet technologies .
|
4 |
Ανάπτυξη συστήματος επεξεργασίας δεδομένων τηλεπισκόπησης για αυτόματη ανίχνευση και ταξινόμηση περιοχών με περιβαλλοντικές αλλοιώσειςΧριστούλας, Γεώργιος 31 May 2012 (has links)
Η παρούσα διατριβή είχε σαν κύριο στόχο την ανάλυση και επεξεργασία των δεδομένων SAR υπό το πρίσμα του περιεχομένου υφής για την ανίχνευση περιοχών με περιβαλλοντικές αλλοιώσεις όπως είναι οι παράνομες εναποθέσεις απορριμμάτων. Τα δεδομένα που χρησιμοποιήθηκαν προέρχονταν από τον δορυφόρο ENVISAT και το όργανο ASAR του Ευρωπαϊκού Οργανισμού Διαστήματος με διακριτική ικανότητα 12.5m και 30m για τις λειτουργίες μονής και διπλής πολικότητας αντίστοιχα καθώς και από τον δορυφόρο Terra-SAR με διακριτική ικανότητα 3m και HH πολικότητα. Χρησιμοποιήθηκαν κλασσικές τεχνικές ανάλυσης και ταξινόμησης υφής όπως GLCM, Markov Random Fields, Gabor Filters και Neural Networks. Η μελέτη προσανατολίστηκε στην ανάπτυξη νέων μεθόδων ταξινόμησης υφής για αυξημένη αποτελεσματικότητα. Χρησιμοποιήθηκαν δεδομένα πολυφασματικά και SAR. Για τα πολυφασματικά δεδομένα προτάθηκε η χρήση της spectral co-occurrence ως χαρακτηριστικό υφής που χρησιμοποιεί πληροφορία φασματικού περιεχομένου. Για τα δεδομένα SAR αναπτύχθηκε μία νέα μέθοδος ταξινόμησης η οποία βασίζεται σε συνήθεις περιγραφείς υφής (GLCM, Gabor, MRF) οι οποίοι μελετώνται για την ικανότητά τους να διαχωρίζουν ζεύγη μεταξύ τάξεων. Για κάθε ζεύγος τάξεων προκύπτουν χαρακτηριστικά υφής που βασίζονται στις στατιστικές ιδιότητες της cumulative καθώς και της πρώτης και δεύτερης τάξης αυτής. Η μέθοδος leave one out χρησιμοποιείται για τον εντοπισμό των χαρακτηριστικών που μπορούν να διαχωρίσουν τα δείγματα ανά ζεύγη τάξεων στα οποία αντιστοιχίζεται και ένας ξεχωριστός και ανεξάρτητος γραμμικός ταξινομητής. Η τελική ταξινόμηση γίνεται με τη μέθοδο της πλειοψηφίας η οποία εφαρμόζεται στο πρόβλημα των δύο τάξεων και τριών τάξεων αλλά επεκτείνεται και στο πρόβλημα των N-τάξεων δεδομένης της ύπαρξης κατάλληλων χαρακτηριστικών. / Texture characteristics of MERIS data based on the Gray-Level Co-occurrence Matrices (GLCM) are explored as far as their classification capabilities are concerned. Classification is employed in order to reveal four different land cover types, namely: water, forest, field and urban areas. The classification performance for each cover type is studied separately on each spectral band, while the combined performance of the most promising spectral bands is explored. In addition to GLCM, spectral co-occurrence matrices (SCM) formed by measuring the transition from band-to-band are employed for improving classification results. Conventional classifiers and voting techniques are used for the classification stage. Furthermore, the properties of texture characteristics are explored on various types of grayscale or RGB representations of the multispectral data, obtained by means of principal components analysis (PCA), non-negative matrix factorization (NMF) and information theory. Finally, the accuracy of the proposed classification approach is compared with that of the minimum distance classifier.
A simple and effective classification method is furthermore proposed for remote sensed data that is based on a majority voting schema. We propose a feature selection procedure for exhaustive search of occurrence measures resulting from fundamental textural descriptors such as Co-occurrence matrices, Gabor filters and Markov Random Fields. In the proposed method occurrence measures, that are named texture densities, are reduced to the local cumulative function of the texture representation and only those that can linearly separate pairs of classes are used in the classification stage, thus ensuring high classification accuracy and reliability. Experiments performed on SAR data of high resolution and on a Brodatz texture database have given more than 90% classification accuracy with reliability above 95%.
|
5 |
Evaluation of neural networks for characterization in computer aided diagnosis in medical imaging / Αξιολόγηση νευρωνικών δικτύων για το χαρακτηρισμό αλλοιώσεων σε συστήματα υποβοηθούμενης διάγνωσης στην ιατρική απεικόνισηΠολένης, Εμμανουήλ 27 April 2009 (has links)
This thesis is dealing with classifiers in Computer Aided Diagnosis in medical imaging. In particular, it focuses on artificial neural networks and feature selection methods.
The specific goals of the thesis are:
1. Search for optimal topology of a feed-forward neural network (FFNN), dealing with four (4) medical imaging classification problems (Cytology, MRI, CT, and Mammography).
2. Study three (3) feature selection (dimensionality reduction) methods including PCA, stepwise analysis and t-test ranking for the FFNN topology defined in the previous step, for the four (4) medical imaging classification problems at hand.
3. Compare performance of the FFNN scheme to KNN, SVM, PNN and LDA classifiers, dealing with the above mentioned four (4) medical imaging classification problems. 10-fold cross validation estimation of generalization performance (generalization error) of the classification schemes was utilized.
4. Statistical significance of the results was validated utilizing ANOVA and Duncan’s test.
To facilitate experimentation, a user-friendly application was developed (Chapter 3) that allows the user to find the best network topology on feature vectors, selected by various pre-processing techniques, and compared with other classifiers.
The results of this are:
1. There is no statistical evidence that the different topology that is tested have any impact on classification performance of FFNN in any of the classification problem that this thesis is dealt off.
2. The stepwise method of dimensionality reduction (feature selection) is statistically significance better method than the other methods, except in the case of one dataset (Cytology) where there are no statistical significant differences. This is because of the inherent ability of stepwise method to select uncorrelated features unlike the other two methods (the datasets that the stepwise featured better performance had many highly correlated features).
3. There is no statistical significant better classifier in most cases, while neuronal classifier exhibits very good behaviour on all cases. For that reason, the selection of classifier does not seem to affect the classification problems at hand. Furthermore, the choice of classifier could be done based on other criteria than the classification performance, such as, the simplicity and plasticity, features that characterize the FFNN. / Το αντικείμενο αυτής της εργασίας είναι οι ταξινομητές στα συστήματα υποβοηθούμενης διάγνωσης στην ιατρική απεικόνιση. Ειδικότερα, εστιάζει στα τεχνητά νευρωνικά δίκτυα καθώς και σε μεθόδους επιλογής χαρακτηριστικών.
Οι στόχοι αυτής της εργασίας είναι:
1. Η αναζήτηση της βέλτιστης τοπολογίας ενός πρόσω κατευθυντικού νευρωνικού δικτύου, σε τέσσερα (4) προβλήματα ταξινόμησης ιατρικής απεικόνισης (κυτταρολογία, μαγνητική απεικόνιση, αξονική τομογραφία και μαστογραφία).
2. Η μελέτη τριών (3) μεθόδων επιλογής χαρακτηριστικών (μείωσης διαστάσεων) συμπεριλαμβανομένων της ανάλυσης κύριων συνιστωσών, της σταδιακής αναζήτησης και της κατάταξης κατά τ-τέστ για τα τέσσερα (4) προβλήματα ταξινόμησης που είχαμε στη διάθεσή μας.
3. Η σύγκριση της απόδοσης του πρόσω κατευθυντικού νευρωνικού δικτύου (FFNN) με τους KNN, SVM, PNN και LDA ταξινομητές, στα τέσσερα (4) προαναφερθέντα ιατρικά προβλήματα ταξινόμησης. Για την εκτίμηση της απόδοσης γενίκευσης (σφάλμα γενίκευσης) χρησιμοποιήθηκε η 10-πτυχη διασταυρούμενη επικύρωση.
4. Η στατιστική σημαντικότητα των αποτελεσμάτων ελέγχθηκε με τις δοκιμασίες της ανάλυσης της διακύμανσης κατά ένα παράγοντα (ANOVA) και της δοκιμασίας Duncan.
Για την διευκόλυνση του πειραματικού μέρους αναπτύχθηκε μια φιλική στο χρήστη εφαρμογή που επιτρέπει την αναζήτηση της βέλτιστης τοπολογίας του νευρωνικού δικτύου για τα επιλεγμένα χαρακτηριστικά, και τις προεπιλεγμένες τεχνικές προ-επεξεργασίας, ενώ επιτρέπει και την σύγκριση του με άλλους ταξινομητές.
Τα αποτελέσματα του πειραματικού μέρους αυτής της εργασίας είναι:
1. Δεν αποδεικνύεται στατιστικά ότι η τοπολογία του δικτύου έχει κάποια επίδραση στην απόδοση του στα τέσσερα αυτά προβλήματα που μελετήθηκαν.
2. Η μέθοδος σταδιακής αναζήτησης είναι στατιστικά καλύτερη μέθοδος για επιλογή χαρακτηριστικών (τη μείωση των διαστάσεων), εκτός από το ένα πρόβλημα που αφορούσε στην κυτταρολογία όπου δεν αποδείχθηκε στατιστικά σημαντική διαφορά μεταξύ των μεθόδων. Αυτό οφείλεται στο γεγονός ότι η μέθοδος σταδιακής αναζήτησης έχει την «ενδογενή» ικανότητα να επιλέγει χαρακτηριστικά που είναι ανεξάρτητα μεταξύ τους με αποτέλεσμα την αυξημένη διακριτική ικανότητα του τελικού συνόλου (τα προβλήματα που η μέθοδος αυτή επέδειξε καλή συμπεριφορά είχαν χαρακτηριστικά με υψηλό βαθμό συσχέτισης).
3. Δεν αποδεικνύεται στατιστικά καλύτερος ταξινομητής στις περισσότερες περιπτώσεις ενώ ο νευρωνικός ταξινομητής επιδεικνύει πολύ καλή συμπεριφορά σε όλες τις περιπτώσεις. Για το λόγο αυτό, η επιλογή του ταξινομητή δεν φαίνεται να επηρεάζει σε σημαντικό βαθμό την απόδοση του συστήματος στα προβλήματα που έχουν μελετηθεί εδώ. Επιπλέον, η επιλογή του ταξινομητή μπορεί να γίνει με όρους διαφορετικούς από την ταξινομητική ικανότητά τους όπως απλότητα και ευελιξία, χαρακτηριστικά που έχει ο νευρωνικός ταξινομητής.
|
6 |
Η χρήση σημασιολογικών δικτύων για τη διαχείριση του περιεχομένου του παγκόσμιου ιστού / Managing the web content through the use of semantic networksΣτάμου, Σοφία 25 June 2007 (has links)
Η παρούσα διατριβή πραγματεύεται την ενσωμάτωση ενός σημασιολογικού δικτύου λημμάτων σ’ ένα σύνολο εφαρμογών Διαδικτύου για την αποτελεσματική διαχείριση του περιεχομένου του Παγκόσμιου Ιστού. Τα δίκτυα σημασιολογικά συσχετισμένων λημμάτων αποτελούν ένα είδος ηλεκτρονικών λεξικών στα οποία καταγράφεται σημασιολογική πληροφορία για τα λήμματα που περιλαμβάνουν, όπου τα τελευταία αποθηκεύονται σε μια δενδρική δομή δεδομένων. Ο τρόπος δόμησης του περιεχομένου των σημασιολογικών δικτύων παρουσιάζει αρκετές ομοιότητες με την οργάνωση που ακολουθούν οι ιστοσελίδες στον Παγκόσμιο Ιστό, με αποτέλεσμα τα σημασιολογικά δίκτυα να αποτελούν έναν σημασιολογικό πόρο άμεσα αξιοποιήσιμο από ένα πλήθος εφαρμογών Διαδικτύου που καλούνται να διαχειριστούν αποδοτικά το πλήθος των δεδομένων που διακινούνται στον Παγκόσμιο Ιστό. Μετά από επισκόπηση των τεχνικών που παρουσιάζονται στη διεθνή βιβλιογραφία για τη διαχείριση του περιεχομένου του Παγκόσμιου Ιστού, προτείνεται και υλοποιείται ένα πρότυπο μοντέλο διαχείρισης ιστοσελίδων, το οποίο κάνοντας εκτεταμένη χρήση ενός εμπλουτισμένου σημασιολογικού δικτύου λημμάτων, εντοπίζει εννοιολογικές ομοιότητες μεταξύ του περιεχομένου διαφορετικών ιστοσελίδων και με βάση αυτές επιχειρεί και κατορθώνει την αυτοματοποιημένη και αποδοτική δεικτοδότηση, κατηγοριοποίηση και ταξινόμηση του πλήθους των δεδομένων του Παγκόσμιου Ιστού. Για την επίδειξη του μοντέλου διαχείρισης ιστοσελίδων που παρουσιάζεται, υιοθετούμε το μοντέλο πλοήγησης στους θεματικούς καταλόγους του Παγκόσμιου Ιστού και καταδεικνύουμε πειραματικά τη συμβολή των σημασιολογικών δικτύων σε όλα τα στάδια της δημιουργίας θεματικών καταλόγων Διαδικτύου. Συγκεκριμένα, εξετάζεται η συνεισφορά των σημασιολογικών δικτύων: (i) στον ορισμό και εμπλουτισμό των θεματικών κατηγοριών των καταλόγων του Παγκόσμιου Ιστού, (ii) στην επεξεργασία και αποσαφήνιση του περιεχομένου των ιστοσελίδων, (iii) στον αυτόματο εμπλουτισμό των θεματικών κατηγοριών ενός δικτυακού καταλόγου, (iv) στην ταξινόμηση των ιστοσελίδων που έχουν δεικτοδοτηθεί στις αντίστοιχες θεματικές κατηγορίες ενός καταλόγου, (v) στη διαχείριση των περιεχομένων των θεματικών καταλόγων με τρόπο που να διασφαλίζει την παροχή χρήσιμων ιστοσελίδων προς τους χρήστες, και τέλος (vi) στην αναζήτηση πληροφορίας στους θεματικούς καταλόγους του Παγκόσμιου Ιστού. Η επιτυχία του προτεινόμενου μοντέλου επιβεβαιώνεται από τα αποτελέσματα ενός συνόλου πειραματικών εφαρμογών που διενεργήθηκαν στο πλαίσιο της παρούσας διατριβής, όπου καταδεικνύεται η συμβολή των σημασιολογικών δικτύων στην αποτελεσματική διαχείριση των πολυάριθμων και δυναμικά μεταβαλλόμενων ιστοσελίδων του Παγκόσμιου Ιστού. Η σπουδαιότητα του προτεινόμενου μοντέλου διαχείρισης ιστοσελίδων, έγκειται στο ότι, εκτός από αυτόνομο εργαλείο διαχείρισης και οργάνωσης ιστοσελίδων, συνιστά το πρώτο επίπεδο επεξεργασίας σε ευρύτερο πεδίο εφαρμογών, όπως είναι η εξαγωγή περιλήψεων, η εξόρυξη πληροφορίας, η θεματικά προσανατολισμένη προσκομιδή ιστοσελίδων, ο υπολογισμός του ρυθμού μεταβολής των δεδομένων του Παγκόσμιου Ιστού, η ανίχνευση ιστοσελίδων με παραποιημένο περιεχόμενο, κτλ. / This dissertation addresses the incorporation of a semantic network into a set of Web-based applications for the effective management of Web content. Semantic networks are a kind of machine readable dictionaries, which encode semantic information for the lemmas they contain, where the latter are stored in a tree structure. Semantic networks store their contents in a similar way to the organization that Web pages exhibit on the Web graph; a feature that makes semantic networks readily usable by several Web applications that aim at the efficient management of the proliferating and constantly changing Web data. After an overview of the techniques that have been employed for managing the Web content, we propose and implement a novel Web data management model, which relies on an enriched semantic network for locating semantic similarities in the context of distinct Web pages. Based on these similarities, our model attempts and successfully achieves the automatic and effective indexing, categorization and ranking of the numerous pages that are available on the Web. For demonstrating the potential of our Web data management model, we adopt the navigation model in Web thematic directories and we experimentally show the contribution of semantic networks throughout the construction of Web catalogs. More specifically, we study the contribution of semantic networks in: (i) determining and enriching the thematic categories of Web directories, (ii) processing and disambiguating the contents of Web pages, (iii) automatically improving the thematic categories of Web directories, (iv) ordering Web pages that have been assigned in the respective categories of a Web directory, (v) managing the contents of Web directories in a way that ensures the availability of useful Web data to the directories’ users, and (vi) searching for information in the contents of Web directories. The contribution of our model is certified by the experimental results that we obtained from a numerous of testing applications that we run in the framework of our study. Obtained results demonstrate the contribution of semantic networks in the effective management of the dynamically evolving Web content. The practical outcome of the research presented herein, besides offering a fully-fledge infrastructure for the efficient manipulation and organization of the Web data, it can play a key role in the development of numerous applications, such as text summarization, information extraction, topical-focused crawling, measuring the Web’s evolution, spam detection, and so forth.
|
7 |
Ταξινόμηση δορυφορικών εικόνων ASTER σε αστικό περιβάλλον / Classification of ASTER imagery of Athens metropolitan areaΠετροπούλου, Άννα 07 December 2010 (has links)
Σε αυτήν την πτυχιακή εργασία στόχος είναι η αξιολόγηση του θεματικού πληροφοριακού περιεχομένου των δορυφορικών εικόνων ASTER και η ικανότητα τους να αποδώσουν τις καλύψεις γης σε αστικό περιβάλλον. Η περιοχή μελέτης είναι το λεκανοπέδιο Αττικής με συντεταγμένες :
Φ : (38.1428), (38.0399), (37.4878), (37.5899)
Λ : (23.3637), (24.0596), (23.8886), (23.1977)
Πρώτα έγινε η ραδιομετρική διόρθωση των εικόνων ASTER (κανάλια VNIR 1- Πράσινο, 2-Κόκκινο, 3-Υπέρυθρο). Πιο συγκεκριμένα επιλέχτηκε η μη παραμετρική ραδιομετρική διόρθωση που βασίζεται στη μέθοδο των Κυρίων Συνιστωσών και διορθώνει το φαινόμενο της ζωνωποίησης, της διάχυσης κ.α. Η γεωμετρική διόρθωση έγινε με μη παραμετρική μέθοδο που βασίστηκε στον προσδιορισμό φωτοσταθερών και στην μέτρηση τους στο ύπαιθρο με G.P.S. Εφαρμόστηκε διόρθωση με πολυώνυμο 2ου βαθμού. Το μέσο τετραγωνικό σφάλμα ήταν R.M.S. = 16,95μ ( χάρτης 1 : 85.000). Ένα σύστημα γεωταξινόμησης προσδιορίστηκε από την βιβλιογραφία προκειμένου να καθοριστούν οι τάξεις καλύψεως γης σε κλίμακα 1 : 50.000 ~1 : 100.000.
Στη συνέχεια προσδιορίστηκαν οι τάξεις, που αναγνωρίζονται με την εφαρμογή διαφόρων μεθόδων μη επιβλεπόμενης ταξινόμησης. Κατά αυτόν τον τρόπο προσδιορίστηκε το πληροφοριακό περιεχόμενο της εικόνας ASTER. Στη συνέχεια εφαρμόστηκε μεθοδολογία αναγνώρισης των προηγούμενων τάξεων με επιβλεπόμενη ταξινόμηση. Το αποτέλεσμα αξιολογείται με εργασίες υπαίθρου και η ακρίβεια του θεματικού χάρτη που προέκυψε είναι της τάξης τού 75-80%. Οι εικόνες ASTER μπορούν να χρησιμοποιηθούν για την αναθεώρηση πληροφοριακού περιεχομένου χαρτών 1 : 100.000 με βάση το σύστημα γεωταξινόμησης που προτάθηκε. / The aim of this thesis is to evaluate the thematic information content of ASTERVNIR images in urban areas. The methods used are unsupervised and supervised classification techniques. The study area included Athens and a part of Piraeus and is enclosed by the coordinates Latitude: (38.1428), (38.0399), (37.4878), (37.5899) Longitude: (23.3637), (24.0596), (23.8886), (23.1977) The bands 1 (green), 2 (red) and 3 (infrared) of sensor VNIR are radiometrically corrected by non-parametric correction method based on principal components. The aim of the correction technique is to destripe the images and to correct for a atmospheric effects (eg. Path radiance, Rayleigh effect, etc.) Then the images are geometrically corrected by a non-parametric correction technique, that use a polynomial of second order. Ground control points are identified in the images and measured in the field by a hand-held G.P.S. Totally 13 points were used to transform the images resulting to an R.M.S. of 16.95m. (Map scale 1: 85.000) Then a terrain classification system was devised from the bibliography that includes 7 main classes. A set of unsupervised classification techniques were implemented and the thematic classes derived were interpreted by fieldwork and photo-interpretation of the false color composite of the bands 3-Red, 2-Green and 1-Infrared. Finally a new terrain classification system determined from the interpretation of the thematic classes interpreted by the unsupervised classification methods. At the end the supervised classification method of maximum likehood was applied. Training areas were selected on the basis of the final terrain classification system. The resulted thematic map was evaluated by using the K-confficient computed from the corresponding confusion matrix (kappa=0.75). It is concluded that ASTER imagery is suitable for updating the information content of maps 1: 100.000.
|
8 |
Ανάπτυξη ολοκληρωμένου συστήματος για προεπεξεργασία και αναγνώριση προτύπων από δεδομένα πρωτεωμικήςΡαψομανίκη, Μαρία Άννα 02 February 2011 (has links)
Οι ραγδαίες εξελίξεις στη Φασματομετρία Μάζας και η εισαγωγή νέων πειραματικών τεχνικών ιονισμού, όπως οι τεχνικές Matrix-Assisted Laser Desorption Ionization (MALDI) και Surface-Enhanced Laser Desorption Ionization (SELDI) έχει καταστήσει δυνατή τη μελέτη των επιπέδων της πρωτεϊνικής έκφρασης σε σύνθετα μείγματα πρωτεϊνών από διάφορα βιολογικά δείγματα, όπως serum, πλάσμα και ούρα. Τα δεδομένα που προκύπτουν από αυτές τις τεχνολογίες μπορούν να χρησιμοποιηθούν για την αναγνώριση πρωτεϊνικών προτύπων, τα οποία θα μπορούν επιτυχώς να διαχωρίζουν καταστάσεις (π.χ. υγιής – ασθενής) καθώς και για την ανακάλυψη νέων πιθανών βιοδεικτών (biomarkers). Αυτά τα πρότυπα έχουν υψηλή διαγνωστική σημασία, καθώς μπορούν να χρησιμοποιηθούν για έγκαιρη διάγνωση, πρόγνωση, παρακολούθηση της εξέλιξης μιας ασθένειας ή της απόδοσης μιας συγκεκριμένης θεραπείας. Αυτή η στρατηγική έχει ήδη χρησιμοποιηθεί σε διάφορους τύπους καρκίνου, όπως ωοθηκών, μαστού και προστάτη, δίνοντας πολύ ενδιαφέροντα αποτελέσματα.
Παρόλα αυτά, η σύνθετη φύση των πρωτεϊνικών δεδομένων κάνει την ανάλυση τους αρκετά απαιτητική, καθώς τα αρχικά, ακατέργαστα δεδομένα είναι πολύ δύσκολο να επεξεργαστούν. Πιο συγκεκριμένα, τα δεδομένα που ανακτώνται μετά από ένα πείραμα Φασματομετρίας Μάζας περιέχουν κάποιες εκατοντάδες δείγματα (δηλαδή φάσματα μάζας) και σε κάθε δείγμα αντιστοιχούν δεκάδες χιλιάδες χαρακτηριστικά. Επιπρόσθετα με το πρόβλημα των μεγάλων διαστάσεων και ταυτόχρονα λίγων δειγμάτων, κάθε φάσμα περιέχει σημαντικό ποσοστό θορύβου και τεχνουργημάτων, κυρίως εξαιτίας της υψηλής ευαισθησίας του μηχανήματος, της επιμόλυνση του δείγματος αλλά και διαφόρων ηλεκτρικών πηγών θορύβου. Ένα άλλο κοινό πρόβλημα είναι η λάθος βαθμονόμηση (calibration) των φασμάτων, που καθιστά τα δεδομένα αδύνατον να συγκριθούν. Για όλους αυτούς τους λόγους, είναι παραπάνω από προφανές ότι για να καταφέρουμε να εξάγουμε γνώση σχετικά με τις πραγματικές υποκείμενες βιολογικές διαφοροποιήσεις του πρωτεώματος πρέπει να εκτελέσουμε διάφορα βήματα προεπεξεργασίας.
Ο βασικός στόχος της προεπεξεργασίας είναι η δημιουργία ενός πίνακα που θα περιέχει τα σημαντικά χαρακτηριστικά (δηλαδή τις κορυφές) και τις αντίστοιχες τιμές έντασης, ο οποίος θα αναλυθεί περαιτέρω χρησιμοποιώντας μια ποικιλία υπολογιστικών μεθόδων. Για να επιτύχουμε κάτι τέτοιο, πρέπει αρχικά να αφαιρέσουμε το θόρυβο, τα τεχνουργήματα και τη συστηματική απόκλιση χωρίς απώλεια πληροφορίας και έπειτα να ανιχνεύσουμε και να ποσοτικοποιήσουμε ένα σύνολο κορυφών. Η προεπεξεργασία περιλαμβάνει ένα σύνολο βημάτων τα οποία αλληλεπιδρούν μεταξύ τους και έχει δειχθεί ότι αν δεν εφαρμοστεί προσεκτικά θα είναι πολύ δύσκολο να εξαχθούν συμπεράσματα για την υποκείμενη ασθένεια. Η επιλογή του καλύτερου συνδυασμού μεθόδων είναι ιδιαίτερα δύσκολη, καθώς για κάθε βήμα έχουν προταθεί αρκετές εναλλακτικές μέθοδοι. Επιπλέον, είναι δύσκολο να αποτιμηθεί η απόδοση κάθε μεθόδου και να προταθεί μια μοναδική στρατηγική, καθώς για κάθε σύνολο δεδομένων προκύπτει και διαφορετικός συνδυασμός ως πιο κατάλληλος.
Στα πλαίσια της παρούσας διπλωματικής εργασίας δημιουργήθηκε ένα ολοκληρωμένο σύστημα ανάλυσης πρωτεϊνικών δεδομένων, το οποίο ενσωματώνει μια καινούρια μέθοδο προεπεξεργασίας πρωτεϊνικών δεδομένων. Η μέθοδος αυτή αντιμετωπίζει τα προβληματικά χαρακτηριστικά αυτού του τύπου δεδομένων και εκμεταλλεύεται τα πλεονεκτήματα διάφορων γνωστών μεθόδων. Πιο συγκεκριμένα, η στρατηγική που προτείνουμε εστιάζει σε τρία σημαντικά προβλήματα: τη διόρθωση των λαθών της βαθμονόμησης, την ανίχνευση των κορυφών με ευαίσθητο αλλά και σταθερό τρόπο και την ακριβή ποσοτικοποίηση κάθε κορυφής. Η ανίχνευση κορυφής πραγματοποιήθηκε μέσω μιας μεθόδου βασισμένης στη λογική της χρήσης του μέσου φάσματος, όπου πρώτα ανιχνεύουμε τις κορυφές ανά κατηγορία, έπειτα εφαρμόζουμε διάφορα κριτήρια αποκοπής για να βεβαιώσουμε την αναπαραγωγιμότητα τους και μετά τις συνενώνουμε σε ένα σύνολο κορυφών, κοινό για όλες τις κατηγορίες. Αντί να χρησιμοποιούμε συγκεκριμένες θέσεις για κάθε κορυφή, προτείνουμε τη χρήση διαστημάτων κορυφής, έτσι ώστε να βεβαιώσουμε ότι οι μικρές αποκλίσεις δε δημιουργούν σφάλματα στην ποσοτικοποίηση. Για να αποτιμήσουμε τα αποτελέσματα της μεθόδου μας, στα δεδομένα που προέκυψαν μετά την προεπεξεργασία εφαρμόστηκε ένα τελικό βήμα επιλογής χαρακτηριστικών και ταξινόμησης, με χρήση του αλγορίθμου ταξινόμησης Support Vector Machines.
Η προτεινόμενη μέθοδος μας εφαρμόστηκε σε ένα σύνολο MALDI MS δεδομένων, το οποίο μας παρείχε η Ερευνητική Μονάδα Πρωτεωμικής του Ιδρύματος Ιατροβιολογικών Εφαρμογών Ακαδημίας Αθηνών (ΙΙΒΕΑΑ). Το συγκεκριμένο σύνολο δεδομένων περιέχει 200 περίπου δείγματα από ασθενείς με καρκίνο ουροδόχου κύστεως (υψηλού ή χαμηλού βαθμού) ή καλοήθη ασθένεια. Μετά την εφαρμογή της προτεινόμενης μεθόδου, καταλήξαμε σε έναν πίνακα 456 κορυφών και αντίστοιχων εντάσεων. Η εφαρμογή του βήματος της ταξινόμησης πέτυχε πολύ υψηλά ποσοστά ακρίβειας, ευαισθησίας και ειδικότητας. Επιπλέον, αναγνωρίστηκαν 31 στατιστικά σημαντικά χαρακτηριστικά, μερικά από τα οποία δεν ανιχνεύονται από τις υπάρχουσες μεθόδους. / The rapid developments in mass spectrometry (MS) and the introduction of new experimental ionization methods, like matrix-assisted laser desorption ionization (MALDI) and surface-enhanced laser desorption ionization (SELDI), has made it possible to study protein expression levels in complex mixtures of proteins from various biological samples, like serum plasma and urine. The data generated from these technologies can be used to identify proteomic patterns that can successfully separate states (e.g. normal versus disease) and possibly discover novel disease biomarkers. Those patterns have high diagnostic significance, as they can be used for early diagnosis, prognosis, monitoring disease progression or therapeutic response. This strategy has already been used in various types of cancer, like ovarian, breast and prostate cancer, giving interesting results.
However, the complex nature of proteomics data makes their analysis a challenging task, as the initial raw data are very difficult to handle. More specifically, the data retrieved after an MS experiment contain hundreds of samples (i.e. mass spectra), and in each sample correspond tens of thousands of features. In addition to this high dimensionality – small sample size problem, each spectrum contains a great amount of noise and artifacts, mostly due to the high sensitivity of the instrument, sample contamination and electrical noise. Another common problem is the miscalibration of the spectra that makes the data impossible to compare. For all those reasons, it is more than obvious that in order to extract knowledge about the true underlying biological differences in the proteome, various preprocessing steps need to be applied.
The main goal of preprocessing is to come up with a matrix of important features (i.e. peaks) and their corresponding intensity values, which can be further analyzed using a variety of computational methods. To achieve this, one must first remove noise, artifacts and systematic bias without loss of information and then detect and quantify a set of peaks. Preprocessing involves various steps that are highly interrelated and it has been shown that if those steps are not applied carefully, it will be difficult to extract meaningful conclusions about the underlying disease. For each step, a number of methods have been proposed making the decision about the best combination of methods a very challenging task. Furthermore, it is difficult to evaluate the performance of each method and come up with a standard strategy, as for each dataset a different set of methods appear to be more effective.
This thesis presents a new pipeline method for the analysis of proteomics data, which incorporates a new preprocessing method. This proposed method deals with the problematic characteristics of this type of data and exploits the advantages of various existing methods. More specifically, our proposed strategy focuses on three main problems: correcting the miscalibration of the mass spectra, detecting the peaks in a sensitive yet robust manner and extracting the true intensity values that correspond in each peak. For the peak finding step, we used a method based on the mean spectrum approach, where we first find the peaks per category, then apply certain criteria to ensure their reproducibility and then combine them in a single peak list. Instead of working with peak locations, we propose the use of peak intervals, to ensure that the small shifts present in the data do not interfere with the final results. In order to evaluate the results of our method, a final feature extraction and classification step was applied in the preprocessed data, using the Support Vector Machines classification algorithm.
Our proposed pipeline method was applied in a MALDI MS dataset, obtained by the Proteomics Research Unit of the Biomedical Research Foundation. This particular dataset contained approximately 200 samples, concerning patients with bladder cancer (high or low grade) and benign bladder disease. After the application of the proposed preprocessing method we ended up with a matrix of 456 peak bins and corresponding intensities. The application of the classification algorithm achieved extremely high performance in terms of accuracy, sensitivity and specificity. Furthermore, 31 statistically important peaks were identified, some of which are not detected by existing methods.
|
9 |
Χρήση υβριδικών, εξελικτικών αλγορίθμων σε on line προβλήματα ομαδοποίησης / Use of hybrid, evolutionary algorithms for on line clustering problemsΔανελάτος, Ευάγγελος 17 May 2007 (has links)
Υλοποιούμε οχτώ αλγορίθμους που επιλύουν on line προβλήματα ομαδοποίησης. Αναπτύσουμε τρεις νέες μορφές υβριδικών αλγορίθμων. Εφαρμόζουμε όλους τους παραπάνω αλγορίθμους σε τεχνητά δεδομένα και καταγράφουμε την αποτελεσματικότητά τους. Μεταβαίνουμε από την ομαδοποίηση στην ταξινόμηση. Επιλύουμε δύο προβλήματα ταξινόμησης του πραγματικού κόσμου και βλέπουμε πως κυμαίνονται τα ποσοστά επιτυχούς ταξινόμησης. Παραθέτουμε τα συγκριτικά γραφήματα των αποτελεσμάτων όλων των αλγορίθμων. / We implement eight algorithms that solve on line problems of clustering and we develope three new forms of hybrid algorithms. We apply these algorithms in artificial data and we record their effectiveness. Also we go from clustering to classification. Finally we solve two problems of classification from the real world and we appose the comparative graphs of the results of our algorithms.
|
10 |
Χρήση της OLAP τεχνικής στην οπτικοποίηση κανόνων Data mining / Visualization of Data mining rules using OLAPΓκίζα, Ειρήνη 27 August 2008 (has links)
Η διαδικασία εξόρυξης από δεδομένα [Data Mining] αποτελεί μια συνεχώς αναπτυσσόμενη διαδικασία ανακάλυψης γνώσης μέσω της εξαγωγής μέχρι πρότινος άγνωστης πληροφορίας από μεγάλες εμπορικές και επιστημονικές βάσεις δεδομένων. Η διαδικασία εξόρυξης από δεδομένα εξάγει κανόνες δια μέσου της επεξεργασίας κατηγορικών ή αριθμητικών δεδομένων, από βάσεις πολλών διαστάσεων (> από 4 χαρακτηριστικά). Η ταξινόμηση, η ομαδοποίηση και η συσχέτιση αποτελούν τις πιο γνωστές και πλέον χρησιμοποιούμενες τεχνικές Data Mining. Ωστόσο συνήθως και οι κανόνες που εξάγονται από τα δεδομένα μπορεί να είναι πολλοί και δυσνόητοι στον τελικό χρήστη/ αναλυτή ο οποίος ενδέχεται να μην είναι εξοικειωμένος με τις τεχνικές της Μηχανικής Μάθησης. Προκειμένου να επιλυθεί αυτό το πρόβλημα τα τελευταία έτη έχουν αναπτυχθεί διάφορες τεχνικές οπτικοποίησης (Visualization) τόσο των δεδομένων που χρησιμοποιούνται κατά τη διαδικασία Data Mining (ανεπεξέργαστα δεδομένα) όσο και των κανόνων που εξάγονται από την εφαρμογή της. Όλες οι τεχνικές οπτικοποίησης προσπαθούν να εκμεταλλευτούν την αντιληπτική ικανότητα του χρήστη στην κατανόηση των εξαγόμενων προτύπων. Επιπρόσθετα ο χρήστης τείνει να εμπιστεύεται περισσότερο ένα αποτέλεσμα όταν το κατανοεί πλήρως. Ο σκοπός των τεχνικών οπτικοποίησης συνίσταται ακριβώς σε αυτό. Στη διεθνή βιβλιογραφία έχουν παρουσιαστεί αρκετές μέθοδοι οπτικής παρουσίασης των δεδομένων ενώ τα τελευταία χρόνια η επιστημονική κοινότητα έχει εστιάσει το ενδιαφέρον της και στην οπτικοποίηση των αποτελεσμάτων του Data Mining.
Στόχος της παρούσας διπλωματικής εργασίας είναι πέρα από την παράθεση των τεχνικών οπτικής παρουσίασης των εξαγόμενων κανόνων των διαδικασιών συσχέτισης [association], ταξινόμησης [classification] και [clustering] που έχουν παρουσιαστεί από την επιστημονική κοινότητα την τελευταία εικοσαετία, η παρουσίαση μιας νέας τεχνικής οπτικοποίησης των κανόνων data mining με χρήση της τεχνολογίας On Line Analytical Processing [OLAP]. Σε πιο ειδικό πλαίσιο, η προτεινόμενη τεχνική χρησιμοποιεί το δυσδιάστατο πίνακα που χρησιμοποιούν τα περισσότερα OLAP μοντέλα και την έννοια της ιεραρχίας προκειμένου να οπτικοποιήσει ένα σημαντικό αριθμό κανόνων data mining και από τις τρεις (3) προαναφερόμενες τεχνικές. Επίσης, παρουσιάζονται τα πειραματικά αποτελέσματα της οπτικοποίησης που δείχνουν πώς η προτεινόμενη τεχνική είναι χρήσιμη στην ανάλυση και στην κατανόηση των εξαγόμενων κανόνων. / Data Mining is an emerging knowledge discovery process of extracting previously unknown, actionable information from very large scientific and commercial databases. Usually, a data mining process extracts rules by processing high dimensional categorical and/or numerical data (> 4 attributes). Classification, Clustering and Association constitute for the most well known Data Mining tasks.
However, in the data mining context often the user has to analyze hundreds of extracted rules in order to grasp valuable knowledge. Thus, the analysis of such rules by means of visual tools has evolved rapidly in recent years. Visual data mining attempts to take advantage of humans’ ability to perceive pattern and structure in visual form. The end user trusts more a result if he understand it completely. And this is the purpose of visual techniques. There have been proposed many techniques for visualizing the data in literature, whereas the last years many researchers have focused on the visualization of data mining results (knowledge visualization).
Researchers have developed many tools to visualize data mining rules. However, few of these tools can handle effectively more than some dozens of data mining rules. In this thesis, we propose a new visualization technique of data mining rules based On Line Analytical Processing [OLAP]. More specifically, the proposed technique utilizes the standard two dimensional cross-tabulation table of most OLAP models in order to visualize even a great number of data mining rules from all techniques. We also present experimental results that demonstrate how the proposed technique is useful and helpful for analyzing and understanding extracted data mining rules.
|
Page generated in 0.027 seconds