• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 21
  • Tagged with
  • 21
  • 15
  • 9
  • 7
  • 7
  • 7
  • 6
  • 5
  • 4
  • 4
  • 4
  • 4
  • 4
  • 4
  • 3
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

Χρήση της OLAP τεχνικής στην οπτικοποίηση κανόνων Data mining / Visualization of Data mining rules using OLAP

Γκίζα, Ειρήνη 27 August 2008 (has links)
Η διαδικασία εξόρυξης από δεδομένα [Data Mining] αποτελεί μια συνεχώς αναπτυσσόμενη διαδικασία ανακάλυψης γνώσης μέσω της εξαγωγής μέχρι πρότινος άγνωστης πληροφορίας από μεγάλες εμπορικές και επιστημονικές βάσεις δεδομένων. Η διαδικασία εξόρυξης από δεδομένα εξάγει κανόνες δια μέσου της επεξεργασίας κατηγορικών ή αριθμητικών δεδομένων, από βάσεις πολλών διαστάσεων (> από 4 χαρακτηριστικά). Η ταξινόμηση, η ομαδοποίηση και η συσχέτιση αποτελούν τις πιο γνωστές και πλέον χρησιμοποιούμενες τεχνικές Data Mining. Ωστόσο συνήθως και οι κανόνες που εξάγονται από τα δεδομένα μπορεί να είναι πολλοί και δυσνόητοι στον τελικό χρήστη/ αναλυτή ο οποίος ενδέχεται να μην είναι εξοικειωμένος με τις τεχνικές της Μηχανικής Μάθησης. Προκειμένου να επιλυθεί αυτό το πρόβλημα τα τελευταία έτη έχουν αναπτυχθεί διάφορες τεχνικές οπτικοποίησης (Visualization) τόσο των δεδομένων που χρησιμοποιούνται κατά τη διαδικασία Data Mining (ανεπεξέργαστα δεδομένα) όσο και των κανόνων που εξάγονται από την εφαρμογή της. Όλες οι τεχνικές οπτικοποίησης προσπαθούν να εκμεταλλευτούν την αντιληπτική ικανότητα του χρήστη στην κατανόηση των εξαγόμενων προτύπων. Επιπρόσθετα ο χρήστης τείνει να εμπιστεύεται περισσότερο ένα αποτέλεσμα όταν το κατανοεί πλήρως. Ο σκοπός των τεχνικών οπτικοποίησης συνίσταται ακριβώς σε αυτό. Στη διεθνή βιβλιογραφία έχουν παρουσιαστεί αρκετές μέθοδοι οπτικής παρουσίασης των δεδομένων ενώ τα τελευταία χρόνια η επιστημονική κοινότητα έχει εστιάσει το ενδιαφέρον της και στην οπτικοποίηση των αποτελεσμάτων του Data Mining. Στόχος της παρούσας διπλωματικής εργασίας είναι πέρα από την παράθεση των τεχνικών οπτικής παρουσίασης των εξαγόμενων κανόνων των διαδικασιών συσχέτισης [association], ταξινόμησης [classification] και [clustering] που έχουν παρουσιαστεί από την επιστημονική κοινότητα την τελευταία εικοσαετία, η παρουσίαση μιας νέας τεχνικής οπτικοποίησης των κανόνων data mining με χρήση της τεχνολογίας On Line Analytical Processing [OLAP]. Σε πιο ειδικό πλαίσιο, η προτεινόμενη τεχνική χρησιμοποιεί το δυσδιάστατο πίνακα που χρησιμοποιούν τα περισσότερα OLAP μοντέλα και την έννοια της ιεραρχίας προκειμένου να οπτικοποιήσει ένα σημαντικό αριθμό κανόνων data mining και από τις τρεις (3) προαναφερόμενες τεχνικές. Επίσης, παρουσιάζονται τα πειραματικά αποτελέσματα της οπτικοποίησης που δείχνουν πώς η προτεινόμενη τεχνική είναι χρήσιμη στην ανάλυση και στην κατανόηση των εξαγόμενων κανόνων. / Data Mining is an emerging knowledge discovery process of extracting previously unknown, actionable information from very large scientific and commercial databases. Usually, a data mining process extracts rules by processing high dimensional categorical and/or numerical data (> 4 attributes). Classification, Clustering and Association constitute for the most well known Data Mining tasks. However, in the data mining context often the user has to analyze hundreds of extracted rules in order to grasp valuable knowledge. Thus, the analysis of such rules by means of visual tools has evolved rapidly in recent years. Visual data mining attempts to take advantage of humans’ ability to perceive pattern and structure in visual form. The end user trusts more a result if he understand it completely. And this is the purpose of visual techniques. There have been proposed many techniques for visualizing the data in literature, whereas the last years many researchers have focused on the visualization of data mining results (knowledge visualization). Researchers have developed many tools to visualize data mining rules. However, few of these tools can handle effectively more than some dozens of data mining rules. In this thesis, we propose a new visualization technique of data mining rules based On Line Analytical Processing [OLAP]. More specifically, the proposed technique utilizes the standard two dimensional cross-tabulation table of most OLAP models in order to visualize even a great number of data mining rules from all techniques. We also present experimental results that demonstrate how the proposed technique is useful and helpful for analyzing and understanding extracted data mining rules.
12

Εφαρμογή παγκόσμιου ιστού για προσωποποιημένες υπηρεσίες διαιτολογίας με την χρήση οντολογιών

Οικονόμου, Φλώρα 11 June 2013 (has links)
Ο παγκόσμιος ιστός αποτελεί μία τεράστια αποθήκη πληροφοριών και αναπτύσσεται με τάχιστους ρυθμούς, ενώ η ανθρώπινη ικανότητα να εντοπίζει, να επεξεργάζεται και να αντιλαμβάνεται τις παρεχόμενες πληροφορίες παραμένει πεπερασμένη. Οι μηχανές αναζήτησης διευκολύνουν την αναζήτηση στον παγκόσμιο ιστό και έχουν γίνει αναπόσπαστο κομμάτι της καθημερινής ζωής των χρηστών του διαδικτύου. Οι χρήστες όμως χαρακτηρίζονται από διαφορετικές ανάγκες, προτιμήσεις, ιδιαιτερότητες και κατά την πλοήγησή τους μπορεί να χάσουν τον στόχο της αναζήτησής τους. Η προσωποποίηση στον παγκόσμιο ιστό, δηλαδή η εξατομίκευση των παρεχόμενων αποτελεσμάτων, αποτελεί μία πολλά υποσχόμενη προσέγγιση για την λύση του πληροφοριακού υπερφόρτου, παρέχοντας κατάλληλα προσαρμοσμένες εμπειρίες πλοήγησης. Στα πλαίσια αυτής της διπλωματικής εργασίας αναπτύχθηκε μία μεθοδολογία για την προσωποποίηση των αποτελεσμάτων μίας μηχανής αναζήτησης ώστε αυτά να ανταποκρίνονται στις προτιμήσεις των χρηστών και στα διαιτολογικά τους χαρακτηριστικά. Η μεθοδολογία αναπτύχθηκε σε δύο μέρη: στο εκτός σύνδεσης τμήμα και στο συνδεδεμένο. Στο πρώτο με την χρησιμοποίηση των αρχείων πρόσβασης μίας μηχανής αναζήτησης και των διαιτολογικών χαρακτηριστικών των χρηστών, έγινε εξαγωγή πληροφορίας για τις προτιμήσεις των τελευταίων. Στην συνέχεια με την χρήση μίας οντολογίας που κατασκευάστηκε για τα πλαίσια της διπλωματικής αυτής εργασίας, έγινε σημασιολογική κατηγοριοποίηση των επιλογών των χρηστών και κατασκευάστηκαν τα προφίλ που τους χαρακτηρίζουν. Έπειτα με την χρήση ενός αλγορίθμου ομαδοποίησης οι χρήστες κατηγοριοποιήθηκαν με βάση τα διαιτολογικά τους χαρακτηριστικά και τις επιλογές τους στην μηχανή αναζήτησης. Στο συνδεδεμένο τμήμα ο αλγόριθμος προσωποποίησης εκμεταλλευόμενος την σημασιολογική αντιστοίχιση των αποτελεσμάτων της μηχανής αναζήτησης και τις ομάδες των χρηστών που δημιουργήθηκαν στο εκτός σύνδεσης τμήμα αναδιοργανώνει τα παρεχόμενα από την μηχανή αναζήτησης αποτελέσματα. Η αναδιοργάνωση γίνεται προωθώντας στις υψηλότερες θέσεις των αποτελεσμάτων της μηχανής αναζήτησης τα αποτελέσματα που ταιριάζουν καλύτερα με τις προτιμήσεις και τα χαρακτηριστικά της ομάδας στην οποία εντάσσεται ο χρήστης. Στο τέλος έγιναν πειράματα και εξακριβώθηκαν τα επιθυμητά αποτελέσματα για την προσωποποίηση σύμφωνα με τις σημασιολογικές ομάδες των χρηστών. / The World Wide Web has become a huge data repository and it keeps growing exponentially, whereas the human capability to find, process and understand the provided content remains constant. Search engines facilitate the search process in the World Wide Web and they have become an integral part of the web users' daily lives. However users who are characterized by different needs, preferences and special characteristics, navigate through large Web structures and may lost their goal of inquiry. Web personalization, i.e. the customization of the search engines’ returned results, is one of the most promising approaches for alleviating information overload providing tailored navigation experiences to Web users. The present dissertation presents the methodology which was implemented in order to personalize a search engine’s results for corresponding users’ preferences and dietary characteristics. This methodology was implemented in two parts: the offline and the online part. The first one uses a search engines’ log files and the dietary characteristics of the users in order to extract information for the latter preferences. Afterwards, with the use of an ontology which was created explicitly for this work, semantic profiling of users’ interests was achieved and their corresponding profiles were formed. Then with the use of a clustering algorithm, users’ categorization was made based on their dietary profiles and their preferences in the search engine. In the online part the methodology re-ranks the search engines’ results, based on the semantic characterization of those results and the users’ clusters which were created at the offline part. Re-ranking is achieved by placing those results which match better the interests and the characteristics of the user’s cluster at the top of the list of the search engines’ returned results. Experimental evaluation of the presented methodology shows that the expected objectives from the semantic users’ clustering in search engines are achievable.
13

Ανάλυση των χρηματιστηριακών δεδομένων με χρήση των αλγορίθμων εξόρυξης

Μπεγκόμ, Τζαχίντα 10 June 2014 (has links)
Λόγω της έξαρσης της τεχνολογικής ανάπτυξης ο όγκος των πληροφοριών σήμερα είναι τεράστιος και έχει δημιουργήσει την ανάγκη για την ανάλυση και την επεξεργασία των δεδομένων ώστε, μετά την επεξεργασία, να μπορούν να μετατραπούν σε χρήσιμες πληροφορίες και να μας βοηθήσουν στη λήψη αποφάσεων. Οι τεχνικές εξόρυξης δεδομένων σε συνδυασμό με τις στατιστικές μεθόδους αποτελούν σπουδαίο εργαλείο για την ανάκτηση των συγκεκριμένων πληροφοριών. Η χρήση αυτών των πληροφοριών βοηθά στη μελέτη και κατ’επέκταση στην εξαγωγή των συμπερασμάτων για το χαρακτηριστικό που εξετάζεται. Ένας τομέας που παρουσιάζει μεγάλο ερευνητικό ενδιαφέρον, λόγω του όγκου των πληροφοριών που συσσωρεύει καθημερινά, είναι το χρηματιστήριο. Η εξόρυξη γνώσης από τα δεδομένα με σκοπό την όσο το δυνατόν «σωστή» πρόβλεψη μπορεί να αποφέρει πολύ μεγάλο κέρδος και αυτός είναι ένας λόγος για τον οποίο πολλές επιχειρήσεις έχουν επενδύσει στην τεχνολογία των πληροφοριών.Η παρούσα εργασία εδράζεται στο πλαίσιο της γενικής προσπάθειας τεχνικής ανάλυσης χρηματιστηριακών δεδομένων, εστιάζοντας παράλληλα στην ανάλυση με τη χρήση τεχνικών εξόρυξης. Το αντικείμενο της παρούσας διπλωματικής εργασίας είναι η ανάλυση των χρηματιστηριακών δεδομένων (χρονοσειρών) χρησιμοποιώντας τεχνικές εξόρυξης που μπορούν να βοηθήσουν στη λήψη των αποφάσεων. Συγκεκριμένα, στους στόχους της εργασίας περιλαμβάνεται η ομαδοποίηση παρόμοιων μετοχών, η εύρεση της κατηγορίας των μετοχών στην οποία μπορεί να ανήκει μία νέα μετοχή και η πρόβλεψη των μελλοντικών τιμών. Οι μελέτες αυτές εκτός από το χρηματιστήριο, μπορούν να εφαρμοστούν επίσης για την αναγνώριση των προτύπων, τη διαχείριση του χαρτοφυλακίου και τις χρηματοπιστωτικές αγορές. / The rapid development of technology has led to a large increase in the volume of information, creating the need for data analysis and processing. After processing, these data can be transformed into useful information that can help us to make decisions. The data mining techniques combined with the statistical methods are important tools for the recovery of such information. This information helps us to study the features and to extract information about them. The stock market is one of the greatest research areas of interest due to the volume of the information that accumulates daily. Knowledge extraction from data aiming the best possible prediction could yield significant profit, thus making information technology a magnet for corporate investment. This thesis is based on the general effort of technical analysis for stock market data, while focusing on analysis using data mining techniques. The present thesis aims to analyze stock data (time series) by applying data mining techniques which enable decision making. Specifically, the objectives of the work include the grouping of similar stocks, the determination of the class in which a new stock may belong and the prediction of the closing values of the stocks. Apart from the stock market, these studies can also be applied for the pattern recognition, portfolio management and financial markets.
14

Μερικές διαφορικές εξισώσεις, αλγεβρική υπολογιστική και μη γραμμικά συστήματα

Δήμας, Στυλιανός 07 July 2009 (has links)
Η κατά συμμετρίες ανάλυση είναι μια σύγχρονή και αποτελεσματική μέθοδος ανάλυσης του μαθηματικού πεδίου των Διαφορικών Εξισώσεων. Στα πλεονεκτήματα της, ο αλγοριθμικός τρόπος με τον οποίο μπορούμε να βρούμε τις συμμετριες ενός συστήματος και η κατακευή λύσεων από αυτές. Όμως, όπως και κάθε άλλη μέθοδος έτσι και αυτή έχει τα μειονεκτήματα της, το μέγεθος και η πολυπλοκότητα των ενδιάμεσων υπολογισμών που απαιτούνται για την εύρεση των συμμετρίων ενός συστήματος αυξάνεται εκθετικά σε σχέση με αυτό. Γεγονός που καθιστά τους υπολογισμούς αυτούς με το χέρι χρονοβόρους και επιρρεπής σε σφάλματα και συνεπώς την ανάγκη για την χρήση αξιόπιστων συμβολικών προγραμμάτων επιτακτική. Για τον σκοπό αυτό αναπτύξαμε το συμβολικό πακέτο Sym για το αλγεβρικό σύστημα Mathematica. Το συμβολικό αυτό πακέτο περιέχει στοιχεία τεχνικής νοημοσύνης και εξιδικευμένες συμβολικές μεθόδους. Στοιχεία που το καθιστούν ένα αποτελεσματικό και ευέλικτο μαθηματικό εργαλείο τόσο στον ερευνητικό τομέα όσο και στην εκπαίδευση. Το παρόν διδακτορικό χωρίζεται σε δύο μέρη, στο πρώτο παρουσιάζουμε τις βασικές έννοιες της κατα συμμετρίες ανάλυσης διαφορικών εξισώσεων και τους λόγους για τους οποίους η χρήση συμβολικών προγραμμάτων βρίσκει πρόσφορο έδαφος. Στο δεύτερο μέρος, παρουσιάζουμε το συμβολικό πακέτο Sym και δύο ερευνητικά αποτελέσματα της χρήσης του. Όσο αναφορά το ίδιο το πακέτο, δίνουμε τα βασικά του χαρακτηριστικά , τον τρόπο λειτουργίας του και τα οφέλη του σε σχέση με τα ήδη υπάρχοντα συμβολικά πακέτα για την εύρεση συμμετριών. Η χρηστικότητα του παρουσιάζεται μέσω δύο ερευνητικών αποτελεσμάτων. Στο πρώτο, εξετάζουμε ενα πρόβλημα από την περιοχή της Γενικής Σχετικότητας, την εύρεση βαρυτικών κυμάτων. Οι συμμετρίες των εξισώσεων πεδίου του Einstein για την μετρική του Bondi καθορίζονται μέσω του Sym και υποβιβάζουμε με αυτές την τάξη του μή γραμμικού συστήματος. Με υποθέσεις εργασίας πάνω στο σύστημα αυτό δίνουμε ειδικές λύσεις οι οποίες είχαν προκύψει παλίοτερα με άλλες μεθόδους. Τέλος, παρουσιάζουμε τις μελλοντικές μας κατευθύνσεις προς την καθορισμό νέων λύσεων με την σωστή φυσική συμπεριφορά που επιβάλει το πρόβλημα. Στο δεύτερο, δίνουμε μια προτότυπη διαδικασία κατηγοριοποίησης διαφορικών εξισώσεων χρησιμοποιώντας τις ένοιες της πλήρους ομάδας συμετρίας και της αξιοσημείωτης κατά Lie διαφορικής εξίσωσης. Με βάση αυτή, επιτυγχάνουμε την συνθέση διαφορικών εξισώσεων κατασκευάζοντας έτσι καινούργιες οικογένεις διαφορικών εξισώσεων περιέχοντες τις αρχικές μας εξισώσεις. / The symmetry analysis is a modern and effective method of mathematical field of differential equations. On its advantages, the algorithmic way for determining the symmetries and constructing solutions. Like any other method it also has its disadvantages; the size and the complexity of the intermediate calculations needed for giving the symmetries is increased exponentially with respect to the equation under investigation. This fact renders the calculations unmanageable by hand and error prone. The need for reliable and fast symbolic tools is apparent. For this reason, we developed a symbolic package called Sym based on the Mathematica program. The package employing artificial intelligent elements and specialized symbolic methods is an effective and versatile mathematical tool ideal for research and education alike. The present thesis consists of two parts; on the first we present the basic notions of the mathematical theory and the reasons that symbolic tools can be utilized. On the second part, we present the symbolic package Sym itself along with two new result employing it. As for the package itself, we give the basic characteristics, its functionality and the benefits using it against the existing programs. Its usefulness is presented through two results. On the first, we study a problem from General Relativity, finding solutions describing gravity waves. The symmetries of the Einstein’s field equations for the radiating Bondi metric are determined from Sym. Using them we reduce the non-linear system. Using specific ansatzes we arrive to specific solutions already found using other methods. Finally, we present our future directions for finding new solutions with the correct physical behavior. On the second, we describe a new procedure for classifying differential equations using the notions of complete symmetry groups and Lie remarkability. Using this procedure we achieved by starting with a set of differential equation to construct a new family that includes the initial set. Future directions include finding a way to link the solutions of the newly constructed family with the solutions of the equations that we use for constructing it.
15

Φασματικές μέθοδοι ανάκτησης πληροφορίας, εργαλεία λογισμικού και εφαρμογές

Ζεϊμπέκης, Δημήτριος 20 October 2009 (has links)
Η διαρκώς αυξανόμενη διαθεσιμότητα ηλεκτρονικών πηγών πληροφόρησης έχει δημιουργήσει νέα δεδομένα και απαιτήσεις στην περιοχή της Ανάκτησης Πληροφορίας. Υπάρχει αδιάκοπη ανάγκη για βελτίωση των υπαρχόντων και σχεδίαση νέων αλγορίθμων, που να επιτυγχάνουν υψηλή απόδοση και αξιοπιστία. Ένα επιπλέον ζητούμενο είναι η κατασκευή λογισμικού περιβάλλοντος που θα διευκολύνει τη χρήση υπαρχόντων αλγορίθμων, την εισαγωγή νέων, το συνδυασμό τους και τη συγκριτική αξιολόγησή τους. Στην παρούσα διδακτορική διατριβή, εστιάζουμε σε μεθόδους ανάκτησης πληροφορίας (με έμφαση στην ανάκτηση κειμένου), που έχουν στον πυρήνα τους τεχνολογίες Γραμμικής Άλγεβρας και πιο συγκεκριμένα σε τεχνικές που αξιοποιούν τα φασματικά χαρακτηριστικά των μητρώων όρων-κειμένων. Υπενθυμίζουμε ότι περίοπτη θέση στην περιοχή της Ανάκτησης Πληροφορίας, όσον αφορά τις τεχνικές της γραμμικής άλγεβρας, κατέχουν οι ιδιάζουσες τιμές και τα ιδιάζοντα διανύσματα των μητρώων. Περιγράφουμε επίσης το σχεδιασμό και την κατασκευή ενός ολοκληρωμένου περιβάλλοντος που διευκολύνει τους χρήστες στην ανάπτυξη, χρήση και αξιολόγηση των αλγορίθμων που στηρίζεται στο εξαιρετικά διαδεδομένο περιβάλλον της MATLAB. Αρχικά, εξετάζουμε τα βασικά προβλήματα στην Ανάκτηση Πληροφορίας, που είναι η ομαδοποίηση, η εξαγωγή σχετικών κειμένων και η κατηγοριοποίηση. Στην πρώτη κατηγορία προβλημάτων, στόχος μας είναι η βελτίωση παραδοσιακών αλγορίθμων όπως οι k-means και PDDP. Στο πλαίσιο αυτό προτείνουμε ένα σύνολο υβριδικών τεχνικών που βασίζονται στους δύο αυτούς αλγορίθμους και αντιμετωπίζουν προβλήματα που σχετίζονται με αυτούς. Ειδικότερα, πετυχαίνουν τη βελτίωση της απόδοσής τους ως προς την ποιότητα των παρεχόμενων αποτελεσμάτων ή ως προς την ταχύτητά τους. Σε σύγκριση με τον k-means, επιτυγχάνουν την αφαίρεση του στοιχείου της τυχαιότητας που τον χαρακτηρίζει, λόγω της γνωστής ευαισθησίας του στις αρχικές συνθήκες. Επιπλέον, προτείνουμε ένα ενιαίο σύνολο αποδοτικών "μεθόδων πυρήνα" (kernel methods) που μπορούν να χρησιμοποιηθούν στην περίπτωση που τα δεδομένα του προβλήματος έχουν μη γραμμικά χαρακτηριστικά. Οι παραπάνω υβριδικές μέθοδοι εφαρμόζονται και στο πρόβλημα της μπλοκ διαγωνιοποίησης στοχαστικών μητρώων που μοντελοποιούν για παράδειγμα χημικές διεργασίες, μέσω μαρκοβιανών αλυσίδων. Τα αρχικά αποτελέσματα που έχουμε, υποδεικνύουν ότι η προσέγγιση αυτή μπορεί να βελτιώσει σημαντικά υπάρχουσες μεθόδους, παρέχοντας ταυτόχρονα προσεγγίσεις του πλήθους των μπλοκ που αντιστοιχούν σε σταθερές καταστάσεις της μαρκοβιανής αλυσίδας. Τέλος, προτείνουμε μια διαφορετική προσέγγιση με τον αλγόριθμο ομαδοποίησης Oriented k-windows ο οποίος, όπως και ο PDDP, χρησιμοποιεί ιδιάζοντα διανύσματα (ισοδύναμα, κύριους άξονες - PCA) με σκοπό την εξαγωγή πληροφορίας αναφορικά με τον κυρίαρχο προσανατολισμό των ομάδων στον Ευκλείδειο χώρο. Στη συνέχεια, παρουσιάζουμε αλγορίθμους ανάκτησης σχετικών κειμένων και αλγορίθμους κατηγοριοποίησης που βασίζονται στη "Λανθάνουσα Σημασιολογική Δεικτοδότηση" (LSI). Πιο συγκεκριμένα, παρουσιάζουμε ένα αλγοριθμικό πλαίσιο που στηρίζεται σε μια "μεθοδολογία αντιπροσώπων", με την οποία προσπαθούμε να προσεγγίσουμε σημασιολογικά μια συλλογή, εξάγοντας υποχώρους του χώρου στηλών του μητρώου όρων-κειμένων που προσεγγίζουν τον βέλτιστο υποχώρο της διάσπασης ιδιαζουσών τιμών. Η μεθοδολογία μας χρησιμοποιεί αλγορίθμους ομαδοποίησης, όπως οι υβριδικές μέθοδοι που αναφέραμε, με σκοπό τη διάσπαση του προβλήματος σε ένα σύνολο όσο γίνεται περισσότερο ανεξάρτητων προβλημάτων που μπορούν να λυθούν περισσότερο αποδοτικά. Μέσα από μια εκτεταμένη πειραματική μελέτη, δείχνουμε ότι η συγκεκριμένη μεθοδολογία μπορεί να βελτιώσει άλλες διαδεδομένες προσεγγίσεις (LSI, LLSF κ.λπ.). Επίσης, επεκτείνουμε και εφαρμόζουμε τη "μεθοδολογία αντιπροσώπων" σε μεθόδους πυρήνα, καθώς επίσης και στο πρόβλημα υπολογισμού μη αρνητικών παραγοντοποίησεων μητρώων (NMF). Δείχνουμε ότι η χρήση της μεθοδολογίας επιφέρει σημαντική μείωση του κόστους σε μνήμη και υπολογισμούς των μεθόδων πυρήνα και βελτίωση της ποιότητας των αποτελεσμάτων της NMF. Η διατριβή στάθηκε αφορμή για την ανάπτυξη ενός ολοκληρωμένου λογισμικού περιβάλλοντος. Πιο συγκεκριμένα, οι νέες μέθοδοι που αναφέραμε, καθώς και άλλες διαδεδομένες τεχνικές έχουν υλοποιηθεί και ενταχθεί στο περιβάλλον Text to Matrix Generator (TMG). Το TMG στηρίζεται κατά κύριο λόγο στη MATLAB ενώ μικρότερα τμήματά του έχουν γραφτεί σε Perl. Το TMG αποτελείται από έξι τμήματα, ενώ είναι εύκολα επεκτάσιμο. Τα τμήματα αυτά παρέχουν μια ευρεία συλλογή μεθόδων ανάκτησης πληροφορίας που αποτελείται από μεθόδους (i) κατασκευής και ανανέωσης μητρώων όρων-κειμένων, (ii) υπολογισμού προσεγγίσεων μειωμένης διάστασης και (iii) μη αρνητικών παραγοντοποιήσεων, (iv) ανάκτησης σχετικών κειμένων, (v) ομαδοποίησης και (vi) κατηγοριοποίησης. Για όλα τα παραπάνω, το εργαλείο παρέχει κατάλληλα προσαρμοσμένες γραφικές διεπαφές που διευκολύνουν το χρήστη. Εναλλακτικά, οι λειτουργίες του μπορούν να κληθούν απευθείας από τη γραμμή εντολών. Το TMG διευκολύνει την ταχεία προτοτυποποίηση αλγορίθμων και διατίθεται ελεύθερα μέσω ιστοσελίδας (http://scgroup.hpclab.ceid.upatras.gr/scgroup/Projects/TMG/). Από αναζητήσεις τεκμηριώνεται ότι έχει υποστηρίξει πολλούς επιστήμονες παγκοσμίως τόσο σε ερευνητικό όσο και σε εκπαιδευτικό επίπεδο. Περιγράφουμε επίσης τις πρόσφατες εργασίες μας για την ανάδειξη του TMG ως υπηρεσίας στον Παγκόσμιο Ιστό. Ειδικότερα, αναπτύσσεται λογισμικό για την απομακρυσμένη χρήση του TMG μέσω ειδικού API και τίθενται οι βάσεις για μελλοντική έρευνα που θα αφορά στην βελτιωμένη επίδοση και στην αποδοτική χρήση του συστήματος. / The amount of digital data is rapidly growing and continuously motivates research innovation in Information Retrieval. Much of the data is text, so there is an ever present need to push the field of Text Mining forward by designing and implementing novel, effective algorithms that attain high performance and reliability. It is also desirable to develop software environments that facilitate not only access to existing methods, but also enable the rapid prototyping, performance evaluation and incorporation of new algorithms for Text Mining. In this research we focus on algorithms that use Linear Algebra and Matrix Analysis tools as computational kernels. We use the term spectral to highlight the fact that our methods rely on the spectral characteristics of the underlying term-document matrices that encode the texts under study. We consolidate our new and existing algorithms in a software environment, called TMG, that we built on top of MATLAB and Perl. First, we consider the basic text mining tasks, namely clustering, ad-hoc retrieval and text classication. In clustering, we focus on a well-known spectral method, called PDDP (Principal Direction Divisive Partitioning) and investigate hybrid methods that combine PDDP and standard workhorses such as k-means. In particular, the proposed methods improve the performance of the aforementioned algorithms, regarding the quality of the attained clustering and/or their speed. Compared with k-means, our algorithms eliminate the non-determinism originating from k-means' initialization phase. We also propose a framework for kernel methods, that can be used in case the data exhibit non-linearities. Our spectral clustering algorithms are applied in sparse matrix reordering, specifically in the block diagonalization of row stochastic matrices. In addition to helping in the intepretation of a recent method for identifying metastable states of Markov chains, they also provide the means to improve their performance. Initial results, demonstrate that the proposed methodology can improve significantly over existing techniques, deriving approximations of the number of blocks corresponding to dinstict stable states of the underlying Markov chain. We also show how to use spectral methods to improve the performance of a density-based clustering approach, called Oriented k-windows. In particular, the algorithm uses information derived from the Principal Component Analysis (PCA), in order to guide a windowing technique, namely k-windows, that could give insights about the data orientation. The next part of the thesis deals with ad-hoc retrieval and classification methods, based on Latent Semantic Indexing (LSI). We propose an algorithmic framework based on a "representatives methodology", in order to approximate a collection semantically, by extracting subspaces of the column space of the term-document matrix, that approximate the optimal subspace derived by the SVD. Our methodology uses clustering techniques, like the aforementioned hybrid methods, in a preprocessing stage. Our objective is to split the problem into a set of independent subproblems that could be solved more efficiently. Results from extensive experimentation indicate that our methodology can improve a state-of-the-art method like LSI. We also apply the representatives methodology to kernel methods and Nonnegative Matrix Factorization (NMF). Extensive numerical experiments indicate that this methodology improves the computational cost and memory requirements of kernel methods and also increases the quality of the nonnegative approximations. We have incorporated all the proposed methods in a software environment, called Text to Matrix Generator (TMG). The first release of TMG was before this Ph.D. was even started. but has since undergone several upgrades and rewrites. TMG currently consists of six easily extensible modules. These modules provide methods for (i) constructing and updating term-document matrices, (ii) computing low rank approximations and (iii) non negative factorizations, and (iv) ad-hoc retrieval, (v) clustering and (vi) classification. TMG is accessible in two primary modes, graphical and command line and is freely downloadable from its webpage (http://scgroup.hpclab.ceid.upatras.gr/scgroup/Projects/TMG/). As our usage logs indicate, TMG is being used worldwide for research and educational uses. We also describe a brief overview of open problems and ongoing work. We describe our first version of "remote TMG", that views TMG as a Web resource and provides remote access mode to it by means of a special API.
16

Προσωποποιημένη προβολή περιεχομένου του Διαδικτύου με τεχνικές προ-επεξεργασίας, αυτόματης κατηγοριοποίησης και αυτόματης εξαγωγής περίληψης

Πουλόπουλος, Βασίλειος 22 November 2007 (has links)
Σκοπός της Μεταπτυχιακής Εργασίας είναι η επέκταση και αναβάθμιση του μηχανισμού που είχε δημιουργηθεί στα πλαίσια της Διπλωματικής Εργασίας που εκπόνησα με τίτλο «Δημιουργία Πύλης Προσωποποιημένης Πρόσβασης σε Περιεχόμενο του WWW». Η παραπάνω Διπλωματική εργασία περιλάμβανε τη δημιουργία ενός μηχανισμού που ξεκινούσε με ανάκτηση πληροφορίας από το Διαδίκτυο (HTML σελίδες από news portals), εξαγωγή χρήσιμου κειμένου και προεπεξεργασία της πληροφορίας, αυτόματη κατηγοριοποίηση της πληροφορίας και τέλος παρουσίαση στον τελικό χρήστη με προσωποποίηση με στοιχεία που εντοπίζονταν στις επιλογές του χρήστη. Στην παραπάνω εργασία εξετάστηκαν διεξοδικά θέματα που είχαν να κάνουν με τον τρόπο προεπεξεργασίας της πληροφορίας καθώς και με τον τρόπο αυτόματης κατηγοριοποίησης ενώ υλοποιήθηκαν αλγόριθμοι προεπεξεργασίας πληροφορίας τεσσάρων σταδίων και αλγόριθμος αυτόματης κατηγοριοποίησης βασισμένος σε πρότυπες κατηγορίες. Τέλος υλοποιήθηκε portal το οποίο εκμεταλλευόμενο την επεξεργασία που έχει πραγματοποιηθεί στην πληροφορία παρουσιάζει το περιεχόμενο στους χρήστες προσωποποιημένο βάσει των επιλογών που αυτοί πραγματοποιούν. Σκοπός της μεταπτυχιακής εργασίας είναι η εξέταση περισσοτέρων αλγορίθμων για την πραγματοποίηση της παραπάνω διαδικασίας αλλά και η υλοποίησή τους προκειμένου να γίνει σύγκριση αλγορίθμων και παραγωγή ποιοτικότερου αποτελέσματος. Πιο συγκεκριμένα αναβαθμίζονται όλα τα στάδια λειτουργίας του μηχανισμού. Έτσι, το στάδιο λήψης πληροφορίας βασίζεται σε έναν απλό crawler λήψης HTML σελίδων από αγγλόφωνα news portals. Η διαδικασία βασίζεται στο γεγονός πως για κάθε σελίδα υπάρχουν RSS feeds. Διαβάζοντας τα τελευταία νέα που προκύπτουν από τις εγγραφές στα RSS feeds μπορούμε να εντοπίσουμε όλα τα URL που περιέχουν HTML σελίδες με τα άρθρα. Οι HTML σελίδες φιλτράρονται προκειμένου από αυτές να γίνει εξαγωγή μόνο του κειμένου και πιο αναλυτικά του χρήσιμου κειμένου ούτως ώστε το κείμενο που εξάγεται να αφορά αποκλειστικά άρθρα. Η τεχνική εξαγωγής χρήσιμου κειμένου βασίζεται στην τεχνική web clipping. Ένας parser, ελέγχει την HTML δομή προκειμένου να εντοπίσει τους κόμβους που περιέχουν μεγάλη ποσότητα κειμένου και βρίσκονται κοντά σε άλλους κόμβους που επίσης περιέχουν μεγάλες ποσότητες κειμένου. Στα εξαγόμενα άρθρα πραγματοποιείται προεπεξεργασία πέντε σταδίων με σκοπό να προκύψουν οι λέξεις κλειδιά που είναι αντιπροσωπευτικές του άρθρου. Πιο αναλυτικά, αφαιρούνται όλα τα σημεία στίξης, όλοι οι αριθμοί, μετατρέπονται όλα τα γράμματα σε πεζά, αφαιρούνται όλες οι λέξεις που έχουν λιγότερους από 4 χαρακτήρες, αφαιρούνται όλες οι κοινότυπες λέξεις και τέλος εφαρμόζονται αλγόριθμοι εύρεσης της ρίζας μίας λέξεις. Οι λέξεις κλειδιά που απομένουν είναι stemmed το οποίο σημαίνει πως από τις λέξεις διατηρείται μόνο η ρίζα. Από τις λέξεις κλειδιά ο μηχανισμός οδηγείται σε δύο διαφορετικά στάδια ανάλυσης. Στο πρώτο στάδιο υπάρχει μηχανισμός ο οποίος αναλαμβάνει να δημιουργήσει μία αντιπροσωπευτική περίληψη του κειμένου ενώ στο δεύτερο στάδιο πραγματοποιείται αυτόματη κατηγοριοποίηση του κειμένου βασισμένη σε πρότυπες κατηγορίες που έχουν δημιουργηθεί από επιλεγμένα άρθρα που συλλέγονται καθ’ όλη τη διάρκεια υλοποίησης του μηχανισμού. Η εξαγωγή περίληψης βασίζεται σε ευρεστικούς αλγορίθμους. Πιο συγκεκριμένα προσπαθούμε χρησιμοποιώντας λεξικολογική ανάλυση του κειμένου αλλά και γεγονότα για τις λέξεις του κειμένου αν δημιουργήσουμε βάρη για τις προτάσεις του κειμένου. Οι προτάσεις με τα μεγαλύτερη βάρη μετά το πέρας της διαδικασίας είναι αυτές που επιλέγονται για να διαμορφώσουν την περίληψη. Όπως θα δούμε και στη συνέχεια για κάθε άρθρο υπάρχει μία γενική περίληψη αλλά το σύστημα είναι σε θέση να δημιουργήσει προσωποποιημένες περιλήψεις για κάθε χρήστη. Η διαδικασία κατηγοριοποίησης βασίζεται στη συσχέτιση συνημίτονου συγκριτικά με τις πρότυπες κατηγορίες. Η κατηγοριοποίηση δεν τοποθετεί μία ταμπέλα σε κάθε άρθρο αλλά μας δίνει τα αποτελέσματα συσχέτισης του άρθρου με κάθε κατηγορία. Ο συνδυασμός των δύο παραπάνω σταδίων δίνει την πληροφορία που εμφανίζεται σε πρώτη φάση στο χρήστη που επισκέπτεται το προσωποποιημένο portal. Η προσωποποίηση στο portal βασίζεται στις επιλογές που κάνουν οι χρήστες, στο χρόνο που παραμένουν σε μία σελίδα αλλά και στις επιλογές που δεν πραγματοποιούν προκειμένου να δημιουργηθεί προφίλ χρήστη και να είναι εφικτό με την πάροδο του χρόνου να παρουσιάζεται στους χρήστες μόνο πληροφορία που μπορεί να τους ενδιαφέρει. / The scope of this MsC thesis is the extension and upgrade of the mechanism that was constructed during my undergraduate studies under my undergraduate thesis entitled “Construction of a Web Portal with Personalized Access to WWW content”. The aforementioned thesis included the construction of a mechanism that would begin with information retrieval from the WWW and would conclude to representation of information through a portal after applying useful text extraction, text pre-processing and text categorization techniques. The scope of the MsC thesis is to locate the problematic parts of the system and correct them with better algorithms and also include more modules on the complete mechanism. More precisely, all the modules are upgraded while more of them are constructed in every aspect of the mechanism. The information retrieval module is based on a simple crawler. The procedure is based on the fact that all the major news portals include RSS feeds. By locating the latest articles that are added to the RSS feeds we are able to locate all the URLs of the HTML pages that include articles. The crawler then visits every simple URL and downloads the HTML page. These pages are filtered by the useful text extraction mechanism in order to extract only the body of the article from the HTML page. This procedure is based on the web-clipping technique. An HTML parser analyzes the DOM model of HTML and locates the nodes (leafs) that include large amounts of text and are close to nodes with large amounts of text. These nodes are considered to include the useful text. In the extracted useful text we apply a 5 level preprocessing technique in order to extract the keywords of the article. More analytically, we remove the punctuation, the numbers, the words that are smaller than 4 letters, the stopwords and finally we apply a stemming algorithm in order to produce the root of the word. The keywords are utilized into two different interconnected levels. The first is the categorization subsystem and the second is the summarization subsystem. During the summarization stage the system constructs a summary of the article while the second stage tries to label the article. The labeling is not unique but the categorization applies multi-labeling techniques in order to detect the relation with each of the standard categories of the system. The summarization technique is based on heuristics. More specifically, we try, by utilizing language processing and facts that concern the keywords, to create a score for each of the sentences of the article. The more the score of a sentence, the more the probability of it to be included to the summary which consists of sentences of the text. The combination of the categorization and summarization provides the information that is shown to our web portal called perssonal. The personalization issue of the portal is based on the selections of the user, on the non-selections of the user, on the time that the user remains on an article, on the time that spends reading similar or identical articles. After a short period of time, the system is able to adopt on the user’s needs and is able to present articles that match the preferences of the user only.
17

Δυνατότητες εκπαιδευτικής αξιοποίησης εκ μέρους της τυπικής εκπαίδευσης του Μουσείου Φυσικής Ιστορίας α΄ γενιάς. Η επίδραση εκπαιδευτικών δραστηριοτήτων που λαμβάνουν χώρα στο Μουσείο Ζωολογίας του Πανεπιστημίου Πατρών στην οικοδόμηση της έννοιας της ταξινόμησης από παιδιά προσχολικής ηλικίας

Γκούσκου, Ειρήνη 02 April 2014 (has links)
Στη παρούσα διατριβή παρουσιάζονται τα αποτελέσματα μιας έρευνας σχετικής με το σχεδιασμό, την εφαρμογή και την αξιολόγηση μιας διδακτικής παρέμβασης σχετικής με την οικοδόμηση της έννοιας της κατηγοριοποίησης των ζώων από παιδιά προσχολικής ηλικίας, στα πλαίσια της τυπικής και της μη τυπικής εκπαίδευσης. Η διδακτική αυτή παρέμβαση βασίζεται στις αρχές της ‘εποικοδομητικής’ προσέγγισης για τη διδασκαλία και μάθηση των φυσικών επιστημών και συμπεριλαμβάνει δραστηριότητες που λαμβάνουν χώρα τόσο στο χώρο του σχολείου όσο και σε χώρο ενός μουσείου Ζωολογίας. Με βάση τα αποτελέσματα της έρευνας παρέχονται ενδείξεις σύμφωνα με τις οποίες τα παιδιά μετά το πέρας της διδακτικής παρέμβασης είναι δυνατόν να οικοδομήσουν την έννοια της κατηγοριοποίησης των ζώων με τη χρήση μορφολογικών αντί λειτουργικών ή/και ανθρωπομορφικών κριτηρίων που συνήθως χρησιμοποιούν. Πιο συγκεκριμένα φαίνεται (α) να βελτιώνουν τις γνώσεις τους σχετικά με την αναγνώριση και ονοματοδοσία δειγμάτων ζώων που ανήκουν στις κατηγορίες ‘ερπετό’, ‘πτηνό’, ‘ψάρι’ και ‘θηλαστικό’ και (β) να αναγνωρίζουν μια κατηγορία ζώων από ένα δείγμα ζώου αναφερόμενα στα βασικά μορφολογικά χαρακτηριστικά του. Επίσης διαπιστώνεται ότι η επίσκεψη στο μουσείο ζωολογίας και οι δραστηριότητες που πραγματοποιούνται επί τόπου φαίνεται να συμβάλλουν καθοριστικά στο μετασχηματισμό και την εξέλιξη των νοητικών παραστάσεων των παιδιών για την έννοια της κατηγοριοποίησης των ζώων. / This thesis presents the results of a research concerning the design, implementation and evaluation of a teaching intervention relevant to the classification of animals within the formal and non-formal education. This teaching intervention refers to preschoolers, is based on the principles of 'constructive' approach of teaching and learning of science and includes educational activities which take place both at school and at the zoological museum. According to the findings of the research, there is indications accordance to which children after the end of the teaching intervention are able to construct the concept of classification of animals using morphological characteristics instead of function or anthropomorphic ones. More specifically, this thesis gives indications according to which children after the teaching intervention are able (a) to improve their knowledge on the recognition and denomination of specimens of animals belonging to the categories of 'reptile', 'bird', 'fish' and 'mammal' and (b) to recognize a category of animals by an animal sample based on the morphological characteristics. Finally, it is also noted that the visit to the zoological museum and the educational activities carried out in situ seems to make a significant contribution in the transformation and progress of cognitive representations of children for the concept of classifying animals.
18

Εφαρμογή τεχνικών εξόρυξης γνώσης στην εκπαίδευση

Παπανικολάου, Δονάτος 31 May 2012 (has links)
Σε αυτή την Διπλωματική εργασία μελετήσαμε με ποιο τρόπο μπορούν να εφαρμοστούν οι διάφορες τεχνικές Εξόρυξης Γνώσης (Data Mining) στην εκπαίδευση. Αυτός ο επιστημονικός τομέας o οποίος ερευνά και αναπτύσσει τεχνικές προκειμένου να ανακαλύψει γνώση από δεδομένα τα οποία προέρχονται από την εκπαίδευση ονομάζεται Εξόρυξη Γνώσης από Εκπαιδευτικά Δεδομένα (Educational Data Mining –EDM. Στην εργασία αυτή εκτός από την θεωρητική μελέτη των αλγορίθμων και των τεχνικών που διέπουν την εξόρυξη γνώσης από δεδομένα γενικά, έγινε και μια λεπτομερέστερη μελέτη και παρουσίαση της κατηγορίας των αλγορίθμων κατηγοριοποίησης (Classification), διότι αυτοί οι αλγόριθμοι χρησιμοποιήθηκαν στην φάση της υλοποίησης/αξιολόγησης. Στην συνέχεια η εργασία επικεντρώθηκε στον τρόπο με τον οποίο μπορούν να εφαρμοστούν αυτοί οι αλγόριθμοι σε εκπαιδευτικά δεδομένα, τι εφαρμογές έχουμε στην εκπαίδευση, ενώ αναφερόμαστε και σε μια πληθώρα ερευνών που έχουν πραγματοποιηθεί πάνω στο συγκεκριμένο αντικείμενο. Στην συνέχεια διερευνήσαμε την εφαρμογή τεχνικών κατηγοριοποίησης στην πρόγνωση της επίδοσης μαθητών Δευτεροβάθμιας Εκπαίδευσης στα μαθήματα της Γεωγραφίας Α’ και Β’ Γυμνασίου. Συγκεκριμένα υλοποιήσαμε και θα αξιολογήσαμε έξι αλγορίθμους οι οποίοι ανήκουν στην ομάδα των αλγορίθμων κατηγοριοποίησης(Classification) και είναι αντιπροσωπευτικοί των σημαντικότερων τεχνικών κατηγοριοποίησης. Από την οικογένεια των ταξινομητών με χρήση δένδρων απόφασης (Decision Tree Classifiers) υλοποιήσαμε τον J48, από τους αλγορίθμους κανόνων ταξινόμησης (Rule-based Classification ) τον Ripper, από τους αλγόριθμους στατιστικής κατηγοριοποίησης τον Naïve Bayes, από την μέθοδο των Κ πλησιέστερων γειτόνων (KNN) τον 3-ΝΝ, από την κατηγορία των τεχνητών νευρωνικών δικτύων τον Back Propagation και τέλος από τις μηχανές διανυσμάτων υποστήριξης (Support Vector Machines SVM) τον SMO (Sequental Minimal Optimazation). Όλες οι παραπάνω υλοποιήσεις και αξιολογήσεις έγιναν με το ελεύθερο λογισμικού Weka το οποίο είναι υλοποιημένο σε Java και το οποίο προσφέρει μια πληθώρα αλγορίθμων μηχανικής μάθησης για να κάνουμε εξόρυξη γνώσης. / In this work we will study the way the misc data mining techniques can be applied to the misc fields of the education. This new scientific field is commonly named Educational Data Mining. In this study we will study the theoretical analysis of the data mining techniques focussing to the classification techniques as those are the most commonly used for prediction purpose. We also intend to predict student performance in secondary education using data mining techniques. The data we collect are concerned the class of Geography and we apply to them six data mining models with the help of the open source machine learning software Weka. We use supervised machine learning algorithms from the Classification field (Decision Tree Classifiers, Rule-based Classification, Neural Networks, k-Nearest Neighbour Algorithm, Bayesian and Support Vector Machines). After we have evaluate the algorithms we build a java tool, that uses the 3-KNN algorithm, to help us predict the performance of a student at the end of the year.
19

Σχεδιασμός και υλοποίηση ενός συστήματος αποκομιδής ορισμένης πληροφορίας από τον παγκόσμιο ιστό, με τη χρήση σημασιολογικών δικτύων λημμάτων / Design and implementation of a topical-focused web crawler through the use of semantic networks

Κοζανίδης, Ελευθέριος 28 February 2013 (has links)
Η συγκεκριμένη διατριβή στοχεύει στον σχεδιασμό της μεθοδολογίας που θα εφαρμοστεί για την υλοποίηση ενός προσκομιστή πληροφορίας από τον Παγκόσμιο Ιστό, ο οποίος θα λειτουργεί λαμβάνοντας υπόψη θεματικά κριτήρια. Τέτοιου είδους προγράμματα ανίχνευσης πληροφορίας, είναι ευρέως γνωστά ως θεματικά εστιασμένοι προσκομιστές ιστοσελίδων. Κατά τη διάρκεια της μελέτης μας, σχεδιάσαμε και υλοποιήσαμε ένα καινοτόμο σύστημα θεματικής κατηγοριοποίησης ιστοσελίδων που κάνει εκτεταμένη χρήση των σημασιολογικών δεδομένων τα οποία περιέχονται στο σημασιολογικό δίκτυο WordNet. Η απόφαση για την αξιοποίηση του WordNet ελήφθη με τη φιλοδοξία να αντιμετωπιστούν αποτελεσματικά φαινόμενα ασάφειας εννοιών που μειώνουν τις επιδόσεις των διαθέσιμων θεματικών κατηγοριοποιητών. Η καταλληλότητα του WordNet για την επίλυση της σημασιολογικής ασάφειας έχει αποδειχθεί στο παρελθόν, αλλά ποτέ δεν εξετάστηκε σε ένα σύστημα εστιασμένης προσκόμισης ιστοσελίδων με τον συγκεκριμένο τρόπο, ενώ ποτέ δεν έχει αξιοποιηθεί στην κατηγοριοποίηση ιστοσελίδων για την ελληνική γλώσσα. Ως εκ τούτου, ο θεματικός κατηγοριοποιητής που υλοποιήσαμε, και κατά συνέπεια, και ο εστιασμένος προσκομιστής στον οποίο ενσωματώνεται ο κατηγοριοποιητής, είναι καινοτόμοι όσο αφορά τον τρόπο με τον οποίο αποσαφηνίζουν έννοιες λέξεων με στόχο την αποτελεσματική ανίχνευση του θεματικού προσανατολισμού μίας ιστοσελίδας . Ένας προσκομιστής ιστοσελίδων είναι ένα πρόγραμμα που με αφετηρία μία λίστα διευθύνσεων ιστοσελίδων (URLs) αρχικοποίησης προσκομίζει το περιεχόμενο των ιστοσελίδων που συναντά και συνεχίζει ακολουθώντας τους εσωτερικούς τους συνδέσμους με απώτερο σκοπό την προσκόμιση όσο το δυνατό μεγαλύτερου υποσυνόλου δεδομένων του Παγκόσμιου Ιστού (ανάλογα με τους διαθέσιμους πόρους, την χωρητικότητα του δικτύου, κλπ.). Δεδομένου ότι ο όγκος των δεδομένων που είναι διαθέσιμα στον Παγκόσμιο Ιστό αυξάνεται με εκθετικό ρυθμό, είναι πρακτικά αδύνατο να προσκομιστούν όλες οι ζητούμενες πηγές πληροφορίας ανά πάσα στιγμή. Ένας τρόπος για να αντιμετωπίσουμε το συγκεκριμένο πρόβλημα είναι η εκμετάλλευση συστημάτων εστιασμένης προσκόμισης ιστοσελίδων που στοχεύουν στη λήψη ιστοσελίδων συγκεκριμένης θεματολογίας που εκφράζουν κάθε φορά το θεματικό προφίλ του χρήστη, σε αντίθεση με τους προσκομιστές ιστοσελίδων γενικού σκοπού που καταναλώνουν πόρους άσκοπα προσπαθώντας να προσκομίσουν κάθε πιθανή πηγή πληροφορίας που συναντούν. Οι εστιασμένοι προσκομιστές χρησιμοποιούνται εκτενώς, για την κατασκευή θεματικά προσανατολισμένων ευρετηρίων ιστοσελίδων, κάθε ένα από τα οποία έχει την δυνατότητα να εξυπηρετήσει αιτήσεις χρηστών με συγκεκριμένο θεματικό προσανατολισμό. Με αυτό τον τρόπο είναι δυνατόν να αντιμετωπιστεί το πρόβλημα της υπερφόρτωσης πληροφοριών. Προκειμένου να επιτελέσουμε την συγκεκριμένη εργασία μελετήσαμε εκτενώς υπάρχουσες τεχνικές εστιασμένης προσκόμισης, στις οποίες στηριχθήκαμε ώστε να ορίσουμε την μεθοδολογία που θα ακολουθήσουμε. Το αποτέλεσμα είναι η υλοποίηση ενός θεματικά εστιασμένου πολυνηματικού προσκομιστή, ο οποίος ενσωματώνει τις εξής καινοτομίες: είναι ρυθμισμένος προκειμένου να εκτελεί εστιασμένες προσκομίσεις σε ιστοσελίδες ελληνικού ενδιαφέροντος, αποσαφηνίζει το κείμενο που αντιστοιχεί σε ιστοσελίδες προκειμένου να ανακαλύψει τον θεματικό τους προσανατολισμό. Επιπλέον προτείνουμε μία σειρά υποσυστημάτων τα οποία θα μπορούσαν να ενσωματωθούν στο σύστημα εστιασμένης προσκόμισης προκειμένου να ενισχύσουμε την απόδοσή του. Τέτοια συστήματα είναι το υποσύστημα ανίχνευσης όψεων που αντιστοιχίζονται σε επώνυμες οντότητες καθώς και το υποσύστημα εξαγωγής λέξεων κλειδιών που μπορούν να χρησιμοποιηθούν ως χαρακτηριστικά κατηγοριοποίσης από το αλφαριθμητικό των διευθύνσεων (URL) ιστοσελίδων. Για να παρουσιάσουμε την αποτελεσματικότητα της προτεινόμενης μεθόδου, διενεργήσαμε μία σειρά πειραματικών μετρήσεων. Συγκεκριμένα αξιολογήσαμε πειραματικά τα ακόλουθα: την αποτελεσματικότητα του αλγορίθμου αποσαφήνισης που ενσωματώσαμε στον προσκομιστή, την απόδοση του θεματικού κατηγοριοποιητή ο οποίος καθορίζει την συμπεριφορά του εστιασμένου προσκομιστή σχετικά με το αν μια σελίδα θα πρέπει να κατέβει ως θεματικά σχετική με το θέμα ενδιαφέροντος ή όχι, την απόδοση του εστιασμένου προσκομιστή καταγράφοντας τον ρυθμό απόκτησης που επιτυγχάνει κατά την διάρκεια της εστιασμένης προσκόμισης χρησιμοποιώντας κάθε φορά διαφορετικά χαρακτηριστικά κατηγοριοποίησης, την καταλληλότητα του υποσυστήματος εξαγωγής λέξεων-κλειδιών από το αλφαριθμητικό URL για την περιγραφή του θεματικού προσανατολισμού της ιστοσελίδας και τέλος τη χρησιμότητα του συστήματος αναγνώρισης επώνυμων οντοτήτων στην οργάνωση ιστοσελίδων των οποίων η σημασιολογία δεν αναπαρίσταται ικανοποιητικά σε σημασιολογικούς πόρους γενικού σκοπού συμπεριλαμβανομένου του σημασιολογικού δικτύου WordNet. Τα πειραματικά αποτελέσματα επιβεβαιώνουν τη συμβολή του θεματικά εστιασμένου προσκομιστή που προτείνουμε στην προσκόμιση περιεχομένου ειδικού ενδιαφέροντος από τον Παγκόσμιο Ιστό. Παράλληλα αποδεικνύουμε ότι όλες οι μέθοδοι που ενσωματώσαμε στο σύστημα εστιασμένης προσκόμισης είναι δυνατό να συνεργαστούν κατά τρόπο που να βελτιώνει την απόδοση του προσκομιστή . Τέλος από τα πειραματικά αποτελέσματα αποδεικνύεται ότι η προτεινόμενη τεχνική είναι εξίσου αποτελεσματική για ιστοσελίδες στα αγγλικά και στα ελληνικά. Επιπλέον πιστεύουμε ότι μπορεί να εφαρμοστεί με επιτυχία και σε ιστοσελίδες που περιέχουν κείμενα άλλων φυσικών γλωσσών, με προϋπόθεση την ύπαρξη σημασιολογικών πόρων, αντίστοιχων με το WordNet και διαθέσιμων εργαλείων που θα επιτρέπουν την ανάλυση των δεδομένων κειμένου τους. / This dissertation aims at the specification of an algorithmic methodology that will be applied towards the implementation of a web crawler, which will operate upon thematic criteria. Such crawlers are widely known as topical focused web crawlers. To realize our objective, the utilization of a web page thematic classification system (either existing or newly developed one) is imperative. In the course of our study, we designed and implemented a novel thematic classifier that makes extensive use of the semantic data encoded in WordNet semantic network and such decision was taken with the aspiration of tackling effectively sense ambiguity phenomena that degrade the performance of available classifiers. The suitability of WordNet towards resolving semantic ambiguity has been previously proven but never examined in a focused web crawling application and has never been exploited for the Greek language. Therefore, our thematic classifier and consequently our focused crawler that integrates it are innovative in the way in which they perform word sense disambiguation for achieving the effective detection of the web page topics (themes). In a broad sense, a web crawler is a program that based on a seed list of URLs it downloads the contents of the web pages it comes across and continues following their internal links with the utmost objective of fetching as much as web data as possible (depending on available resources, network capacity, etc.). Given that the web data grows at exponential rates, it is practically impossible to download all the web sources at any given time. One way to tackle such difficulty is to implement and employ topical focused crawlers that aim at downloading content of specific topics (potentially of interest to the user) rather than waste resources trying to download every single data source that is available on the web. Topically focused crawlers are extensively used for building topical focused indices, each of which can serve specialized user search requests, therefore dealing partially with the information overload problem. To carry out our work, we have extensively reviewed existing approaches with respect to topically focused crawling techniques upon which we relied for defining our own focused crawling methodology, which resulted into the implementation of a topical focused crawler that incorporates the following innovate features: it is tailored to operate on the Greek web, it disambiguates the web pages in order to uncover their topic and it incorporates numerous features, such as a named entities recognizer, a URL keyword extractor, personalization techniques, etc., in order to maximize its performance. To demonstrate the effectiveness of our method, we have applied our topical focused crawler on several datasets and experimentally evaluated the following issues: the efficiency of the sense resolution algorithm incorporated into our crawler, the performance of the topical classifier that the crawler consults prior to making a final decision as to whether a page should be downloaded as topically relevant to a subject of interest or not, the suitability of the URL keyword extractor module for judging the subject of a web page based entirely on the analysis of its URL, the usefulness of the named entities recognizer in organizing pages whose semantics are poorly represented within the contents of general-purpose semantic resources (including WordNet semantic network). Experimental results confirm the contribution of our topically focused crawler in downloading web content of specific interest and show that all the methods and techniques that we have successfully integrated into the crawler can interoperate with its other in a manner that improves the crawling performance while allowing for flexibility in the downloading process at the same time. Last but not least, experimental results showcase that our crawling methodology is equally effective for both English and Greek and we believe that it can be fruitfully applied to other natural languages provided that there the respective semantic resources and tools are available for analyzing their textual data.
20

Οργάνωση και διαχείριση βάσεων εικόνων βασισμένη σε τεχνικές εκμάθησης δεδομένων πολυσχιδούς δομής

Μακεδόνας, Ανδρέας 22 December 2009 (has links)
Το ερευνητικό αντικείμενο της συγκεκριμένης διατριβής αναφέρεται στην επεξεργασία έγχρωμης εικόνας με χρήση της θεωρίας γράφων, την ανάκτηση εικόνας καθώς και την οργάνωση / διαχείριση βάσεων δεδομένων με μεθόδους γραφημάτων και αναγνώρισης προτύπων, με εφαρμογή σε πολυμέσα. Τα συγκεκριμένα προβλήματα προσεγγίστηκαν διατηρώντας τη γενικότητά τους και επιλύθηκαν με βάση τα ακόλουθα σημεία: 1. Ανάπτυξη τεχνικών για την επιλογή χαρακτηριστικών από τις εικόνες βάσει χαρακτηριστικών χαμηλού επιπέδου (χρώματος και υφής), για χρήση τους σε εφαρμογές ομοιότητας και ανάκτησης εικόνας. 2. Υπολογισμός μετρικών και αποστάσεων στο χώρο των χαρακτηριστικών. 3. Μελέτη της πολυσχιδούς δομής των εικόνων μιας βάσης στο χώρο των χαρακτηριστικών. 4. Ελάττωση της διάστασης του χώρου και παραγωγή αναπαραστάσεων δύο διαστάσεων. 5. Εφαρμογή των μεθόδων αυτών σε υποκειμενικές αποστάσεις εικόνων. Η θεωρία γράφων και οι μέθοδοι αναγνώρισης προτύπων χρησιμοποιήθηκαν προκειμένου να παρουσιαστούν βέλτιστες λύσεις αφενός στο πρόβλημα της ανάκτησης εικόνων από βάσεις δεδομένων και αφετέρου στην οργάνωση και διαχείριση τέτοιων βάσεων εικόνων. Η διατριβή φέρνει πιο κοντά την επεξεργασία εικόνας με μεθόδους προερχόμενες από τη θεωρία γραφημάτων, τη στατιστική και την αναγνώριση προτύπων. Σε όλη τη διάρκεια της διατριβής, ιδιαίτερη έμφαση δόθηκε στο ζήτημα της εύρεσης του κατάλληλου συνδυασμού μεταξύ της αποτελεσματικότητας των συστημάτων και της αποδοτικότητας στα πλαίσια της εφαρμογής των προτεινόμενων αλγοριθμικών διαδικασιών. Τα αναλυτικά πειραματικά αποτελέσματα που πραγματοποιήθηκαν, αποδεικνύουν την βελτιωμένη απόδοση των προτεινόμενων μεθοδολογιών. / The subject of this doctoral thesis is related to color image processing using graph theoretic methods, image retrieval and image database management and organization in the reduced feature space, using pattern recognition analysis, with multimedia applications. The author attempted to approach the thesis subject by retaining its genericness and addressing the following points: 1. Development of techniques for extraction of image visual attributes based on low level features (color and texture information), to be used for image similarity and retrieval practices. 2. Calculation of metrics and distances in the feature space. 3. Study of the image manifolds created in the selected feature space. 4. Application of dimensionality reduction techniques and production of biplots. 5. Application of the proposed methodologies using perceptual image distances. Graph theory and pattern recognition methodologies were incorporated in order to provide novel solution to color image retrieval of image databases, as well as to image database management and organization. The current thesis brings closer image processing with graph theoretic methodologies, statistical analysis and pattern recognition. Throughout the thesis, consideration has been taken for finding the best trade off between effectiveness and efficiency when applying the proposed algorithmic procedures. The extended experimental results carried out in all stages of the projected studies reveal the enhanced performance of the proposed methodologies.

Page generated in 0.0272 seconds