Spelling suggestions: "subject:"εξαγωγή"" "subject:"εξαγωγής""
1 |
Ανάπτυξη διαδικτυακού συστήματος βάσης δεδομένων με λειτουργικότητα ανάκτησης ιατρικών εικόνωνΧατζή, Διονυσία Γεωργία 24 January 2014 (has links)
Στην εργασία μας με τίτλο «Ανάπτυξη διαδικτυακού συστήματος βάσης δεδομένων με λειτουργικότητα ανάκτησης ιατρικών εικόνων» αρχικά παραθέσαμε τις τεχνικές που έχουν αναπτυχθεί από τις αρχές της δημιουργίας του τομέα της ανάκτησης εικόνας μέχρι σήμερα. Παρότι έχουν γίνει πολλές προσπάθειες για την ανάπτυξη μεθόδων οι οποίες θα βασίζονται αποκλειστικά στο περιεχόμενο τους, έως σήμερα οι περισσότερες μηχανές αναζήτησης βασίζονται ακόμη στην ομοιότητα των εικόνων βάσει των μεταδεδομένων που τις περιγράφουν.Στη συνέχεια κάναμε μια μικρή αναφορά σε ιατρικά συστήματα ανάκτησης ιατρικών εικόνων που έχουν δημιουργηθεί μέχρι σήμερα , όπως επίσης και στα αποτελέσματα του διαγωνισμού imageCLEF, ο οποίος διεξάγεται κάθε χρόνο από το 2003. Ο διαγωνισμός έχει δύο σκέλη , την ανάκτηση βάσει περιεχομένου και την ανάκτηση βάσει κειμένου, γι’ αυτό και συμμετέχουν πολλές ομάδες που ασχολούνται με την επεξεργασία φυσικής γλώσσας. Κάθε χρόνο η δυσκολία του διαγωνισμού αυξάνεται θέτοντας νέες προκλήσεις στις συμμετέχουσες ομάδες. Σύμφωνα με τα αποτελέσματα του διαγωνισμού τα καλύτερα αποτελέσματα προκύπτουν από το συνδυασμό μεθόδων και από τις δύο κατηγορίες ανάκτησης.
Το σύστημα που αναπτύξαμε χρησιμοποιεί και τις δυο παραπάνω τεχνικές. Η ανάκτηση βάσει κειμένου πραγματοποιείται χρησιμοποιώντας λέξεις κλειδιά που υπάρχουν ήδη στη βάση. Ενώ για την ανάκτηση βάσει περιεχομένου εξάγουμε δύο χαρακτηριστικά , το ιστόγραμμα χρώματος και το autocorrelogram, τα οποία τα αποθηκεύουμε ως διανύσματα στη βάση και όταν θέλουμε να κάνουμε ένα ερώτημα εξάγουμε τα ίδια χαρακτηριστικά από την εικόνα ερώτημα. Η σύγκριση των δυο διανυσμάτων γίνεται υπολογίζοντας την Ευκλείδεια απόσταση μεταξύ του διανύσματος της εικόνας ερωτήματος και όλων των άλλων εικόνων της βάσης. / In our thesis, titled "Web based database system development with functionality
of medical image retrieval" we present the retrieval techniques which have been
developed until today. Therefore there have been done many e orts on development
of methods which will rely on image content, until today most search engines (eg
Google, Yahoo!) return relevant results by using text based image retrieval.
Thereafter we cited some medical image retrieval systems which have been
developed until today, as well as the results of imageCLEF contest, which is carried
out from 2003 and every year since then. The contest has two parts, text based
image retrieval and content based image retrieval, that' s the reason why many
groups participated in the contest, deal with natural language processing. Every
year the di culty increased and new challenges were posed to the participants.
According to the results of the contest the best systems came from the combination
of the two image retrieval categories.
The system we developed uses the two techniques we mentioned above. Text
based image retrieval is implemented by using keywords which exist in the database.
While for content based image retrieval we extract two characteristics, colour histogram
and autocorrelogram, which are saved as vectors in the database and when
we make a query we extract the same characteristics from the image query. To
compare the images we compute the distances between the image query vector and
and all the other image vectors of the database.
The above methods incorporated into SIDB, which is an online database management
system. The system has been developed using PHP and postgreSQL and
the images which have been used are medical exams from di erent parts of the human
body. The biggest part of which come from the IRMA database, which has been
created at Aachen University and which was used for many years in ImageCLEF
competition.
|
2 |
Ανίχνευση ανθρώπου και παρακολούθηση της κίνησής τουΒλαχοστάθης, Σωτήριος 13 January 2015 (has links)
Η διάδοση της χρήσης των υπολογιστών σε όλο και περισσότερους τομείς της καθημερινής μας ζωής, καθώς και η τεχνολογική εξέλιξη στην επιστήμη των υπολογιστών είχε σαν φυσικό επακόλουθο τη δημιουργία αλγορίθμων που έχουν στόχο την ανίχνευση και την αναγνώριση ανθρώπων με ακρίβεια καθώς και την παρακολούθηση τους.
Τέτοιοι αλγόριθμοι εφαρμόζονται κυρίως σε συστήματα οπτικής επιτήρησης που είναι ζωτικής σημασίας σε διάφορους τομείς της καθημερινότητας.
Αντικείμενο της παρούσας διπλωματικής εργασίας είναι η υλοποίηση ενός συστήματος ανίχνευσης, με τη χρήση του αλγόριθμου Histogram of Oriented Gradient (HOG), ταξινόμησης με χρήση Supported Vector Machines και παρακολούθησης ανθρώπου σε ακολουθία εικόνων, με χρήση αλγορίθμων υπολογιστικής όρασης όπως είναι ο αλγόριθμος φιλτραρίσματος σωματιδίων (Particle Filtering). / The widespread use of computers in more and more areas of our everyday life and the technological development in computer science as a natural consequence was the creation of algorithms that aim to detect and identify people accurately and monitor them. Such algorithms, are applied mainly in visual surveillance systems and is of vital importance in various areas of everyday life. The subject of this thesis is to implement a detection system using the algorithm Histogram of Oriented Gradient (HOG) as well, sort using Supported Vector Machines and the human tracking in image sequence, using computer vision algorithms such as Particle Filtering algorithm.
|
3 |
Ανάπτυξη μεθόδων αναγνώρισης της κατάστασης του χρήστη με τη χρήση συστημάτων αισθητήρων κινητών τηλεφώνωνΠαυλοπούλου, Χριστίνα 26 May 2015 (has links)
Η ανίχνευση καθημερινών φυσικών δραστηριοτήτων είναι πολύ σημαντική σε εφαρμογές όπως η ανάπτυξη αυτοματοποιημένων συστημάτων. Οι αισθητήρες κίνησης προηγουμένως χρησιμοποιούνταν μόνο ως συμπληρωματικές είσοδοι ενώ τώρα χρησιμοποιούνται όλο και πιο συχνά ως η κύρια πηγή δεδομένων για αναγνώριση κάποιας καθημερινής κίνησης. Σε αυτή την εργασία, χρησιμοποιούνται τα επιταχυνσιόμετρα των κινητών τηλεφώνων με σκοπό να αναγνωρισθούν σε πραγματικό χρόνο τέσσερις καθημερινές δραστηριότητες: κάθισμα, περπάτημα, ξάπλωμα, τρέξιμο. Σε αυτή την εργασία, σχεδιάστηκαν 2 νέα υβριδικά πρωτόκολλα που συνδυάζουν δύο άλλες μεθόδους της βιβλιογραφίας με παραμετροποιημένο τρόπο. Στη συνέχεια, τα 2 αυτά πρωτόκολλα υλοποιήθηκαν μέσω της ανάπτυξης Android εφαρμογών. Σύμφωνα με τα αποτελέσματα της αξιολόγησης η οποία έγινε με πραγματικούς χρήστες, οι 2 υβριδικές μέθοδοι επιτυγχάνουν μεγάλη ακρίβεια (έως και 99%), ενώ διατηρούν την κατανάλωση μπαταρίας σε πολύ χαμηλά επίπεδα (μέση κατανάλωση μπαταρίας 874mW). / Detecting daily physical activities is very important in applications such as developing automated comfort scenarios for an individual. Motion smartphone sensors were previously used only as a complementary input whereas now, they are increasingly used as the primary data source for motion recognition. In this work, we use smartphone accelerometers to recognize online four daily human activities: sitting, walking, lying and running. We design two new hybrid protocols combining state of the art methods in a parameterized way. Then, we implement those protocols in the context of Android applications, which we develop. According to our experimental performance evaluation with real users, our hybrid methods achieve very high accuracy (even 99%), while keeping battery dissipation at very satisfactory levels (average energy consumption 874mW).
|
4 |
Αυτόματη αναγνώριση ομιλητή χρησιμοποιώντας μεθόδους ταυτοποίησης κλειστού συνόλου / Automatic speaker recognition using closed-set recognition methodsΚεραμεύς, Ηλίας 03 August 2009 (has links)
Ο στόχος ενός συστήματος αυτόματης αναγνώρισης ομιλητή είναι άρρηκτα συνδεδεμένος με την εξαγωγή, το χαρακτηρισμό και την αναγνώριση πληροφοριών σχετικά με την ταυτότητα ενός ομιλητή. Η αναγνώριση ομιλητή αναφέρεται είτε στην ταυτοποίηση είτε στην επιβεβαίωσή του. Συγκεκριμένα, ανάλογα με τη μορφή της απόφασης που επιστρέφει, ένα σύστημα ταυτοποίησης μπορεί να χαρακτηριστεί ως ανοιχτού συνόλου (open-set) ή ως κλειστού συνόλου (closed-set). Αν ένα σύστημα βασιζόμενο σε ένα άγνωστο δείγμα φωνής αποκρίνεται με μια ντετερμινιστικής μορφής απόφαση, εάν το δείγμα ανήκει σε συγκεκριμένο ή σε άγνωστο ομιλητή, το σύστημα χαρακτηρίζεται ως σύστημα ταυτοποίησης ανοιχτού συνόλου. Από την άλλη πλευρά, στην περίπτωση που το σύστημα επιστρέφει τον πιθανότερο ομιλητή, από αυτούς που ήδη είναι καταχωρημένοι στη βάση, από τον οποίο προέρχεται το δείγμα φωνής το σύστημα χαρακτηρίζεται ως σύστημα κλειστού συνόλου. Η ταυτοποίηση συστήματος κλειστού συνόλου, περαιτέρω μπορεί να χαρακτηριστεί ως εξαρτημένη ή ανεξάρτητη από κείμενο, ανάλογα με το εάν το σύστημα γνωρίζει την εκφερόμενη φράση ή εάν αυτό είναι ικανό να αναγνωρίσει τον ομιλητή από οποιαδήποτε φράση που μπορεί αυτός να εκφέρει. Στην εργασία αυτή εξετάζονται και υλοποιούνται αλγόριθμοι αυτόματης αναγνώρισης ομιλητή που βασίζονται σε κλειστού τύπου και ανεξαρτήτως κειμένου συστήματα ταυτοποίησης. Συγκεκριμένα, υλοποιούνται αλγόριθμοι που βασίζονται στην ιδέα της διανυσματικής κβάντισης, τα στοχαστικά μοντέλα και τα νευρωνικά δίκτυα. / The purpose of system of automatic recognition of speaker is unbreakably connected with the export, the characterization and the recognition of information with regard to the identity of speaker. The recognition of speaker is reported or in the identification or in his confirmation. Concretely, depending on the form of decision that returns, a system of identification can be characterized as open-set or as closed-set. If a system based on an unknown sample of voice is replied with deterministic form decision, if the sample belongs in concrete or in unknown speaker, the system is characterized as system of identification of open set. On the other hand, in the case where the system return the more likely speaker than which emanates the sample of voice, the system is characterized as system of closed set. The identification of system of close set, further can be characterized as made dependent or independent from text, depending on whether the system knows the speaking phrase or if this is capable to recognize the speaker from any phrase that can speak. In this work they are examined and they are implemented algorithms of automatic recognition of speaker that are based in closed type and independent text systems of identification. Concretely, are implemented algorithms that are based in the idea of the Vector Quantization, the stochastic models and the neural networks.
|
5 |
Εξόρυξη χωροχρονικών δεδομένων από τον ανθρώπινο εγκέφαλο και εφαρμογές στην ανίχνευση των επιληπτικών κρίσεωνΠίππα, Ευαγγελία 12 October 2013 (has links)
Αντικείμενο αυτής της εργασίας είναι η μελέτη τεχνικών για την ανάλυση δεδομένων που προέρχονται από συστήματα απεικόνισης της λειτουργίας του ανθρώπινου εγκεφάλου όπως το ηλεκτροεγκεφαλογράφημα. Σκοπός των τεχνικών ανάλυσης είναι η ανίχνευση συγκεκριμένων μορφών αυτών των σημάτων όπως για παράδειγμα οι επιληπτικές κρίσεις. Μία κρίση είναι μια παρέκκλιση στην ηλεκτρική δραστηριότητα του εγκεφάλου που παράγει αποδιοργανωτικά συμπτώματα για το άτομο και εκδηλώνεται κλινικά από εναλλαγή στη συμπεριφορά, στην κίνηση, στις αισθήσεις και στη συνειδητότητα. Οι κλινικές συμπεριφορές προηγούνται και στη συνέχεια συνοδεύονται από ηλεκτροεγκεφαλογραφικές αλλαγές. Η αυτόματη ανίχνευση των επιληπτικών κρίσεων μπορεί να αντιμετωπιστεί ως ένα πρόβλημα κατηγοριοποίησης των σημάτων σε κρίσεις ή όχι. Η ανίχνευση μπορεί να πραγματοποιηθεί σε δύο βήματα. Αρχικά εξάγονται χαρακτηριστικά που συλλαμβάνουν την μορφή και στη συνέχεια το διάνυσμα των χαρακτηριστικών δίνεται σε έναν εκπαιδευμένο κατηγοριοποιητή. / The subject of this work is the research of analysis techniques on data coming from neuroimaging systems such as Electroencephalogram. The aim of the data analysis techniques is the detection of specific morphologies of these signals such as the epileptic seizures. A seizure is a sudden breakdown of the neuronal activity of the brain that is clinically manifested by an involuntary alteration in behavior, movement, sensation, or consciousness. These clinical behaviors are preceded and then accompanied by electroencephalographic alterations. The automatic detection of epileptic seizures can be faced as a classification problem of the signals into seizures or non seizures. The detection can be carried out in two steps. Firstly, features which capture the morphology of the epileptic seizures are extracted and then the feature vector is given to an appropriately trained classifier.
|
6 |
Εξαγωγή γνώσης από αποθήκες υπηρεσιών Παγκόσμιου Ιστού / Knowledge extraction from Web services repositoriesΚιούφτης, Βασίλειος 16 May 2014 (has links)
Με την αυξανόμενη χρήση του Παγκόσμιου Ιστού και των Συστημάτων Προσανατολισμένων στις Υπηρεσίες , οι υπηρεσίες παγκόσμιου ιστού έχουν γίνει μίας ευρέως διαδεδομένη ως προς τη χρήση τεχνολογία. Οι αποθήκες υπηρεσιών παγκόσμιου ιστού αναπτύσσονται με ραγδαίους ρυθμούς , δημιουργώντας την ανάγκη ανάπτυξης προηγμένων εργαλείων για την οργάνωση και δεικτοδότησή τους. Η ομαδοποίηση των υπηρεσιών παγκόσμιου ιστού, οι οποίες συνήθως αναπαρίστανται από έγγραφα Γλώσσας Περιγραφής Υπηρεσιών Παγκόσμιου Ιστού (Web Service Description Language - WSDL) , καθιστά τις μηχανές αναζήτησης υπηρεσιών παγκόσμιου ιστού αλλά και τους χρήστες ικανούς να οργανώνουν και να επεξεργάζονται μεγάλες αποθήκες υπηρεσιών σε ομάδες με παρόμοια λειτουργικότητα και χαρακτηριστικά. Σε αυτή την εργασία προτείνουμε μια νέα τεχνική για την ομαδοποίηση των WSDL εγγράφων. Η προτεινόμενη μέθοδος θεωρεί τις υπηρεσίες παγκόσμιου ιστού ως κατηγορικά δεδομένα όπου κάθε υπηρεσία περιγράφεται από ένα σύνολο τιμών που εξάγονται από το περιεχόμενο και τη δομή του αντίστοιχου αρχείου περιγραφής και ως μέτρο ποιότητας της ομαδοποίησης ορίζεται η αμοιβαία πληροφορία μεταξύ των ομάδων και των τιμών τους. Περιγράφουμε τον τρόπο με τον οποίο οι υπηρεσίες παγκόσμιου ιστού αναπαρίστανται ως κατηγορικά δεδομένα και ομαδοποιούνται, χρησιμοποιώντας τον αλγόριθμο ομαδοποίησης κατηγορικών δεδομένων LIMBO , ελαχιστοποιώντας συγχρόνως την απώλεια πληροφορίας στις τιμές που εξάγονται από τα γνωρίσματα. Κατά την πειραματική αξιολόγηση , η δική μας προσέγγιση υπερέχει σε απόδοση F-Measure τις τεχνικές που χρησιμοποιούν εναλλακτικές μετρικές ομοιότητας και μεθόδους για την ομαδοποίηση WSDL εγγράφων. / With the increasing use of web and Service Oriented Systems, web-services have become a widely adopted technology. Web services repositories are growing fast, creating the need for advanced tools for organizing and indexing them. Clustering web services, usually represented by Web Service Description Language (WSDL) documents, enables the web service search engines and users to organize and process large web service repositories in groups with similar functionality and characteristics. In this paper, we propose a novel technique of clustering WSDL documents. The proposed method considers web services as categorical data and each service is described by a set of values extracted from the content and structure of its description file and as quality measure of clustering is defined the mutual information of the clusters and their values. We describe the way to represent web services as categorical data and how to cluster them by using LIMBO algorithm, minimizing at the same time the information loss in features values. In experimental evaluation, our approach outperforms in terms of F-Measure the approaches which use alternative similarity measures and methods for clustering WSDL documents.
|
7 |
Ανάπτυξη μεθόδων αυτόματης κατηγοριοποίησης κειμένων προσανατολισμένων στο φύλοΑραβαντινού, Χριστίνα 15 May 2015 (has links)
Η εντυπωσιακή εξάπλωση των μέσων κοινωνικής δικτύωσης τα τελευταία χρόνια, θέτει βασικά ζητήματα τα οποία απασχολούν την ερευνητική κοινότητα. Η συγκέντρωση και οργάνωση του τεράστιου όγκου πληροφορίας βάσει θέματος, συγγραφέα, ηλικίας ή και φύλου αποτελούν χαρακτηριστικά παραδείγματα προβλημάτων που πρέπει να αντιμετωπιστούν. Η συσσώρευση παρόμοιας πληροφορίας από τα ψηφιακά ίχνη που αφήνει ο κάθε χρήστης καθώς διατυπώνει τη γνώμη του για διάφορα θέματα ή περιγράφει στιγμιότυπα από τη ζωή του δημιουργεί τάσεις, οι οποίες εξαπλώνονται ταχύτατα μέσω των tweets, των δημοσιευμάτων σε ιστολόγια (blogs) και των αναρτήσεων στο Facebook. Ιδιαίτερο ενδιαφέρον παρουσιάζει το πώς μπορεί όλη αυτή η πληροφορία να κατηγοριοποιηθεί βάσει δημογραφικών χαρακτηριστικών, όπως το φύλο ή η ηλικία. Άμεσες πληροφορίες που παρέχει ο κάθε χρήστης για τον εαυτό του, όπως επίσης και έμμεσες πληροφορίες που μπορούν να προκύψουν από την γλωσσολογική ανάλυση των κειμένων του χρήστη, αποτελούν σημαντικά δεδομένα που μπορούν να χρησιμοποιηθούν για την ανίχνευση του φύλου του συγγραφέα. Πιο συγκεκριμένα, η αναγνώριση του φύλου ενός χρήστη από δεδομένα κειμένου, μπορεί να αναχθεί σε ένα πρόβλημα κατηγοριοποίησης κειμένου. Το κείμενο υφίσταται επεξεργασία και στη συνέχεια, με τη χρήση μηχανικής μάθησης, εντοπίζεται το φύλο. Ειδικότερα, μέσω στατιστικής και γλωσσολογικής ανάλυσης των κειμένων, εξάγονται διάφορα χαρακτηριστικά (π.χ. συχνότητα εμφάνισης λέξεων, μέρη του λόγου, μήκος λέξεων, χαρακτηριστικά που συνδέονται με το περιεχόμενο κ.τ.λ.), τα οποία στη συνέχεια χρησιμοποιούνται για να γίνει η αναγνώριση του φύλου. Στην παρούσα διπλωματική εργασία σκοπός είναι η μελέτη και η ανάπτυξη ενός συστήματος κατηγοριοποίησης κειμένων ιστολογίου και ιστοσελίδων κοινωνικής δικτύωσης, βάσει του φύλου. Εξετάζεται η απόδοση διαφορετικών συνδυασμών χαρακτηριστικών και κατηγοριοποιητών στoν εντοπισμό του φύλου. / The rapid growth of social media in recent years creates important research tasks. The collection and management of the huge information available, based on topic, author, age or gender are some examples of the problems that need to be addressed. The gathering of such information from the digital traces of the users, when they express their opinions on different subjects or they describe moments of their lives, creates trends, which expand through tweets, blog posts and Facebook statuses. An interesting aspect is to classify all the available information, according to demographic characteristics, such as gender or age. The direct clues provided by the users about themselves, along with the indirect information that can come of the linguistic analysis of their texts, are useful elements that can be used for the identification of the authors’ gender. More specifically, the detection of the users’ gender from textual data can be faced as a document classification problem. The document is processed and then, machine learning techniques are applied, in order to detect the gender. The features used for the gender identification can be extracted from statistical and linguistic analysis of the document. In the present thesis, we aim to develop an automatic system for the classification of web blog and social media posts, according to their authors’ gender. We study the performance of different combinations of features and classifiers for the identification of the gender.
|
8 |
Μέθοδοι μαθηματικής μοντελοποίησης της μεταμόσχευσης μαλλιών με την τεχνική fue και βελτιστοποίηση της με χρήση επεξεργασίας εικόναςΖώντος, Γεώργιος 15 January 2014 (has links)
Η τεχνική FUE είναι μια ελάχιστα επεμβατική μέθοδος μεταμόσχευσης μαλλιών η οποία χρησιμοποιείται από πολλούς ιατρούς τα τελευταία 10 χρόνια.
Ο σκοπός της εργασίας αυτής είναι η εφαρμογή μεθόδων μαθηματικής μοντελοποίησης με ώστε να περιγράψει τα κυριότερα τμήματα της μεταμόσχευσης μαλλιών, ποσοτικοποιώντας πολύ σημαντικά θέματα όπως το τραύμα της δότριας ζώνης,το πρόβλημα της ασφαλούς και με ακρίβεια εξαγωγής των τριχοθυλακιων,την άριστη κατανομή και την λεπτομερή εκτίμηση και επίτευξη της πυκνότητας της λήπτριας περιοχής.
Για τους προαναφερθέντες λόγους, ψηφιακές μικροφωτογραφίες από την δότρια και λήπτρια περιοχή αναλύθηκαν με επεξεργασία εικόνας, η οποία βασίστηκε σε ειδικούς μαθηματικούς αλγορίθμους που αναπτύχθηκαν κατά τη διάρκεια αυτής της μελέτης.
Τέλος ένα ολοκληρωμένο πλάνο θεραπείας προτείνεται από τον συγγραφέα για περιπτώσεις μεταμόσχευσης μαλλιών που αντιμετωπίζονται με την τεχνική FUE. / The FUE technique is a minimally invasive hair transplantation method, which has been used by many Doctors over the last 10 years.
The aim of this study is mathematical principles to be applied in order to describe the major steps of the hair transplantation, quantitating very important issues like the trauma in the donor area, the problem of safe and accurate extraction of the follicular units, the optimal distribution and the precise estimation and achievement of the recipient area density.
For the fore mentioned reasons digital micropictures from donor and recipient area were analyzed by using image processing which was based on special mathematical algorithms which were developed during this study.
Finally an integrated treatment planning program is proposed by the Author for hair transplantation cases which are treated by using FUE technique.
|
9 |
Προσωποποιημένη προβολή περιεχομένου του Διαδικτύου με τεχνικές προ-επεξεργασίας, αυτόματης κατηγοριοποίησης και αυτόματης εξαγωγής περίληψηςΠουλόπουλος, Βασίλειος 22 November 2007 (has links)
Σκοπός της Μεταπτυχιακής Εργασίας είναι η επέκταση και αναβάθμιση του μηχανισμού που είχε δημιουργηθεί στα πλαίσια της Διπλωματικής Εργασίας που εκπόνησα με τίτλο «Δημιουργία Πύλης Προσωποποιημένης Πρόσβασης σε Περιεχόμενο του WWW».
Η παραπάνω Διπλωματική εργασία περιλάμβανε τη δημιουργία ενός μηχανισμού που ξεκινούσε με ανάκτηση πληροφορίας από το Διαδίκτυο (HTML σελίδες από news portals), εξαγωγή χρήσιμου κειμένου και προεπεξεργασία της πληροφορίας, αυτόματη κατηγοριοποίηση της πληροφορίας και τέλος παρουσίαση στον τελικό χρήστη με προσωποποίηση με στοιχεία που εντοπίζονταν στις επιλογές του χρήστη.
Στην παραπάνω εργασία εξετάστηκαν διεξοδικά θέματα που είχαν να κάνουν με τον τρόπο προεπεξεργασίας της πληροφορίας καθώς και με τον τρόπο αυτόματης κατηγοριοποίησης ενώ υλοποιήθηκαν αλγόριθμοι προεπεξεργασίας πληροφορίας τεσσάρων σταδίων και αλγόριθμος αυτόματης κατηγοριοποίησης βασισμένος σε πρότυπες κατηγορίες.
Τέλος υλοποιήθηκε portal το οποίο εκμεταλλευόμενο την επεξεργασία που έχει πραγματοποιηθεί στην πληροφορία παρουσιάζει το περιεχόμενο στους χρήστες προσωποποιημένο βάσει των επιλογών που αυτοί πραγματοποιούν.
Σκοπός της μεταπτυχιακής εργασίας είναι η εξέταση περισσοτέρων αλγορίθμων για την πραγματοποίηση της παραπάνω διαδικασίας αλλά και η υλοποίησή τους προκειμένου να γίνει σύγκριση αλγορίθμων και παραγωγή ποιοτικότερου αποτελέσματος.
Πιο συγκεκριμένα αναβαθμίζονται όλα τα στάδια λειτουργίας του μηχανισμού. Έτσι, το στάδιο λήψης πληροφορίας βασίζεται σε έναν απλό crawler λήψης HTML σελίδων από αγγλόφωνα news portals. Η διαδικασία βασίζεται στο γεγονός πως για κάθε σελίδα υπάρχουν RSS feeds. Διαβάζοντας τα τελευταία νέα που προκύπτουν από τις εγγραφές στα RSS feeds μπορούμε να εντοπίσουμε όλα τα URL που περιέχουν HTML σελίδες με τα άρθρα. Οι HTML σελίδες φιλτράρονται προκειμένου από αυτές να γίνει εξαγωγή μόνο του κειμένου και πιο αναλυτικά του χρήσιμου κειμένου ούτως ώστε το κείμενο που εξάγεται να αφορά αποκλειστικά άρθρα. Η τεχνική εξαγωγής χρήσιμου κειμένου βασίζεται στην τεχνική web clipping. Ένας parser, ελέγχει την HTML δομή προκειμένου να εντοπίσει τους κόμβους που περιέχουν μεγάλη ποσότητα κειμένου και βρίσκονται κοντά σε άλλους κόμβους που επίσης περιέχουν μεγάλες ποσότητες κειμένου.
Στα εξαγόμενα άρθρα πραγματοποιείται προεπεξεργασία πέντε σταδίων με σκοπό να προκύψουν οι λέξεις κλειδιά που είναι αντιπροσωπευτικές του άρθρου. Πιο αναλυτικά, αφαιρούνται όλα τα σημεία στίξης, όλοι οι αριθμοί, μετατρέπονται όλα τα γράμματα σε πεζά, αφαιρούνται όλες οι λέξεις που έχουν λιγότερους από 4 χαρακτήρες, αφαιρούνται όλες οι κοινότυπες λέξεις και τέλος εφαρμόζονται αλγόριθμοι εύρεσης της ρίζας μίας λέξεις. Οι λέξεις κλειδιά που απομένουν είναι stemmed το οποίο σημαίνει πως από τις λέξεις διατηρείται μόνο η ρίζα.
Από τις λέξεις κλειδιά ο μηχανισμός οδηγείται σε δύο διαφορετικά στάδια ανάλυσης. Στο πρώτο στάδιο υπάρχει μηχανισμός ο οποίος αναλαμβάνει να δημιουργήσει μία αντιπροσωπευτική περίληψη του κειμένου ενώ στο δεύτερο στάδιο πραγματοποιείται αυτόματη κατηγοριοποίηση του κειμένου βασισμένη σε πρότυπες κατηγορίες που έχουν δημιουργηθεί από επιλεγμένα άρθρα που συλλέγονται καθ’ όλη τη διάρκεια υλοποίησης του μηχανισμού. Η εξαγωγή περίληψης βασίζεται σε ευρεστικούς αλγορίθμους. Πιο συγκεκριμένα προσπαθούμε χρησιμοποιώντας λεξικολογική ανάλυση του κειμένου αλλά και γεγονότα για τις λέξεις του κειμένου αν δημιουργήσουμε βάρη για τις προτάσεις του κειμένου. Οι προτάσεις με τα μεγαλύτερη βάρη μετά το πέρας της διαδικασίας είναι αυτές που επιλέγονται για να διαμορφώσουν την περίληψη. Όπως θα δούμε και στη συνέχεια για κάθε άρθρο υπάρχει μία γενική περίληψη αλλά το σύστημα είναι σε θέση να δημιουργήσει προσωποποιημένες περιλήψεις για κάθε χρήστη. Η διαδικασία κατηγοριοποίησης βασίζεται στη συσχέτιση συνημίτονου συγκριτικά με τις πρότυπες κατηγορίες. Η κατηγοριοποίηση δεν τοποθετεί μία ταμπέλα σε κάθε άρθρο αλλά μας δίνει τα αποτελέσματα συσχέτισης του άρθρου με κάθε κατηγορία.
Ο συνδυασμός των δύο παραπάνω σταδίων δίνει την πληροφορία που εμφανίζεται σε πρώτη φάση στο χρήστη που επισκέπτεται το προσωποποιημένο portal. Η προσωποποίηση στο portal βασίζεται στις επιλογές που κάνουν οι χρήστες, στο χρόνο που παραμένουν σε μία σελίδα αλλά και στις επιλογές που δεν πραγματοποιούν προκειμένου να δημιουργηθεί προφίλ χρήστη και να είναι εφικτό με την πάροδο του χρόνου να παρουσιάζεται στους χρήστες μόνο πληροφορία που μπορεί να τους ενδιαφέρει. / The scope of this MsC thesis is the extension and upgrade of the mechanism that was constructed during my undergraduate studies under my undergraduate thesis entitled “Construction of a Web Portal with Personalized Access to WWW content”.
The aforementioned thesis included the construction of a mechanism that would begin with information retrieval from the WWW and would conclude to representation of information through a portal after applying useful text extraction, text pre-processing and text categorization techniques.
The scope of the MsC thesis is to locate the problematic parts of the system and correct them with better algorithms and also include more modules on the complete mechanism.
More precisely, all the modules are upgraded while more of them are constructed in every aspect of the mechanism. The information retrieval module is based on a simple crawler. The procedure is based on the fact that all the major news portals include RSS feeds. By locating the latest articles that are added to the RSS feeds we are able to locate all the URLs of the HTML pages that include articles. The crawler then visits every simple URL and downloads the HTML page. These pages are filtered by the useful text extraction mechanism in order to extract only the body of the article from the HTML page. This procedure is based on the web-clipping technique. An HTML parser analyzes the DOM model of HTML and locates the nodes (leafs) that include large amounts of text and are close to nodes with large amounts of text. These nodes are considered to include the useful text.
In the extracted useful text we apply a 5 level preprocessing technique in order to extract the keywords of the article. More analytically, we remove the punctuation, the numbers, the words that are smaller than 4 letters, the stopwords and finally we apply a stemming algorithm in order to produce the root of the word.
The keywords are utilized into two different interconnected levels. The first is the categorization subsystem and the second is the summarization subsystem. During the summarization stage the system constructs a summary of the article while the second stage tries to label the article. The labeling is not unique but the categorization applies multi-labeling techniques in order to detect the relation with each of the standard categories of the system. The summarization technique is based on heuristics. More specifically, we try, by utilizing language processing and facts that concern the keywords, to create a score for each of the sentences of the article. The more the score of a sentence, the more the probability of it to be included to the summary which consists of sentences of the text.
The combination of the categorization and summarization provides the information that is shown to our web portal called perssonal. The personalization issue of the portal is based on the selections of the user, on the non-selections of the user, on the time that the user remains on an article, on the time that spends reading similar or identical articles. After a short period of time, the system is able to adopt on the user’s needs and is able to present articles that match the preferences of the user only.
|
10 |
Οργάνωση βάσεων εικόνων βάσει περιγράμματος : εφαρμογή σε φύλλαΦωτοπούλου, Φωτεινή 16 June 2011 (has links)
Το αντικείμενο της μελέτης αυτής είναι η οργάνωση (ταξινόμηση, αναγνώριση, ανάκτηση κλπ.) βάσεων που περιλαμβάνουν εικόνες (φωτογραφίες) φύλλων δένδρων.
Η οργάνωση βασίζεται στο σχήμα των φύλλων και περιλαμβάνει διάφορα στάδια.
Το πρώτο στάδιο είναι η εξαγωγή του περιγράμματος και γίνεται με διαδικασίες επεξεργασίας εικόνας που περιλαμβάνουν τεχνικές ομαδοποίησης και κατάτμησης.
Από το περίγραμμα του φύλλου εξάγονται χαρακτηριστικά που δίνουν την δυνατότητα αξιόπιστης περιγραφής κάθε φύλλου. Μελετήθηκαν στη διατριβή αυτή οι παρακάτω γνωστές μέθοδοι:
Centroid Contour Distance, Angle code (histogram), Chain Code Fourier Descriptors. Προτάθηκαν επίσης και καινούριες μέθοδοι: Pecstrum (pattern spectrum), Multidimension Sequence Similarity Measure (MSSM).
Οι παραπάνω μέθοδοι υλοποιήθηκαν. Παράχθηκε κατάλληλο λογισμικό και εφαρμόσθηκαν σε μία βάση εικόνων φύλλων επιλεγμένη από το διαδίκτυο.
Η αξιολόγηση των μεθόδων έγινε μέσα από έλεγχο της συνολικής ακρίβειας κατηγοριοποίησης (με τον confusion matrix). H μέθοδος MSSM έδωσε τα καλύτερα αποτελέσματα.
Μία οπτική αξιολόγηση έγινε σε αναπαράσταση 2 διαστάσεων (biplot) μέσα απο διαδικασία Multidimensional Scaling. / The objective of this thesis is the leaf images data base organization (i.e classification, recognition, retrieval etc.).
The database organization is based on the leaf shape and is accomplished in a few stages.
The contour recognition and recording consist the first stage and is performed with image processing operations namely clustering and segmentation.
From the leaf contour several features are extracted appropriate for a reliable description of each leaf type. The following well known techniques were studied in this thesis:
Centroid Contour Distance, Angle code (histogram), Chain Code, Fourier Descriptors.
Two new metods were also proposed: Pecstrum (pattern spectrum), Multidimension Sequence Similarity Measure.
In the experimental study appropriate software was produced to realize all the above methods which was applied to the leaf data base downloaded from internet.
The overall evaluation of the methods was done by means of the classification in precision and using the confusion matrix. Best results were produced by the MSSM method.
|
Page generated in 0.041 seconds