Spelling suggestions: "subject:"επίτευξη""
41 |
Εξόρυξη γνώσης από δεδομέναΟικονομάκης, Εμμανουήλ Κ. 20 October 2009 (has links)
Στη συγκεκριμένη διπλωματική εργασία αναλύεται το πρόβλημα του εντοπισμού ομάδων σε σύνολα δεδομένων (ομαδοποίηση δεδομένων).
Δίνεται μια σύντομη ανασκόπηση των μεθόδων που χρησιμοποιούνται σήμερα στην ομαδοποίηση δεδομένων και ιδιαίτερα στην ολοένα και αυξανόμενη χρήση Εξελικτικών Αλγόριθμων (ΕΑ) στην ομαδοποίηση. Οι ΕΑ έχουν αποδειχθεί ιδιαίτερα αποτελεσματικοί σε μια πληθώρα προβλημάτων βελτιστοποίησης. Η χρήση ΕΑ είναι αναμενόμενη, καθώς η ομαδοποίηση δεδομένων μπορεί να εκφραστεί και ως πρόβλημα
βελτιστοποίησης. Επιπρόσθετα, παρουσιάζεται μια μέθοδος αντιμετώπισης της (συνήθως) μεγάλης διάστασης των προβλημάτων ομαδοποίησης, κάτι που επιβαρύνει ιδιαίτερα τους ΕΑ.
Αναλυτικότερα, το πρώτο μέρος της διπλωματικής εργασίας παρέχει μια σφαιρική εικόνα του προβλήματος της ομαδοποίησης καθώς και των κατηγοριών των αλγορίθμων, που έχουν προταθεί για τον εντοπισμό ομάδων. Επιπλέον, παρουσιάζονται δομές δεδομένων που χρησιμοποιούνται από αλγόριθμους ομαδοποίησης για την επιτάχυνσή τους, όπως είναι τα Range Trees και τα BBD Trees.
Εν συνεχεία, παρουσιάζονται αναλυτικά οι ΕΑ και ο τρόπος εφαρμογής τους σε προβλήματα ομαδοποίησης δεδομένων, αναλύοντας τρόπους αναπαράστασης του προβλήματος ομαδοποίησης, έτσι ώστε να είναι δυνατή η χρήση ΕΑ καθώς επίσης και οι μορφές των αντικειμενικών συναρτήσεων. Εισάγεται μια νέα προσέγγιση της εφαρμογής των ΕΑ σε προβλήματα ομαδοποίησης με σκοπό την πλήρη αποδέσμευση της διαδικασίας από εκτιμήσεις του πλήθους των ομάδων. Η διπλωματική εργασία κλείνει με τη σύγκριση υπάρχοντων αλγορίθμων ομαδοποίησης, που εφαρμόζουν την καθιερωμένη προσέγγιση της εφαρμογής των ΕΑ σε προβλήματα ομαδοποίησης, ένα νέο τρόπο εφαρμογής των ΕΑ, καθώς και κλασικούς αλγόριθμους όπως ο k-means και ο DBSCAN. Η σύγκριση γίνεται σε τεχνητά σύνολα δεδομένων, το κάθε ένα με διαφορετικές ιδιαιτερότητες. / In this master thesis, the problem of finding groups in data sets (data clustering) is analyzed. Data clustering methods in general and, more specifically, Evolutionary Algorithms (EA) based methods are shortly reviewed. EA's have proven to be effective in a extensive number of optimization problems. Since data clustering can be formulated as an optimization problem, EA can be utilized. Additionally, a method of reducing the (usually) large dimensionality of clustering problems is presented, since this hinders the performance and stability of EAs.
The first part of this thesis provides an introduction to clustering as well as to existing clustering algorithms. Additionally, data structures used by clustering algorithms such as Range trees and BBD trees are described. After that, EA is described thoroughly as well as approaches of applying them on clustering problems, by analyzing forms of presenting a clustering problem in a way than an EA can be used, as well as and possible objective functions. A new approach of applying EAs on clustering problems is introduced, in an attempt to automatically determine the number of clusters present in a data set. Finally, an existing EA-based method and well known clustering algorithms such as k-means and DBSCAN are compared to the proposed approach. This comparison is made on artificial data sets, each one with its own characteristics.
|
42 |
Προηγμένες τεχνικές και αλγόριθμοι εξόρυξης γνώσης για την προσωποποίηση της πρόσβασης σε δικτυακούς τόπους / Advanced techniques and algorithms of knowledge mining from Web SitesΓιαννακούδη, Θεοδούλα 16 May 2007 (has links)
Η προσωποποίηση του ιστού είναι ένα πεδίο που έχει κερδίσει μεγάλη προσοχή όχι μόνο στην ερευνητική περιοχή, όπου πολλές ερευνητικές μονάδες έχουν ασχοληθεί με το πρόβλημα από διαφορετικές μεριές, αλλά και στην επιχειρησιακή περιοχή, όπου υπάρχει μία ποικιλία εργαλείων και εφαρμογών που διαθέτουν ένα ή περισσότερα modules στη διαδικασία της εξατομίκευσης. Ο στόχος όλων αυτών είναι, εξερευνώντας τις πληροφορίες που κρύβονται στα logs του εξυπηρετητή δικτύου να ανακαλύψουν τις αλληλεπιδράσεις μεταξύ των επισκεπτών των ιστότοπων και των ιστοσελίδων που περιέχονται σε αυτούς. Οι πληροφορίες αυτές μπορούν να αξιοποιηθούν για τη βελτιστοποίηση των δικτυακών τόπων, εξασφαλίζοντας έτσι αποτελεσματικότερη πλοήγηση για τον επισκέπτη και διατήρηση του πελάτη στην περίπτωση του επιχειρηματικού τομέα. Ένα βασικό βήμα πριν την εξατομίκευση αποτελεί η εξόρυξη χρησιμοποίησης από τον ιστό, ώστε να αποκαλυφθεί τη γνώση που κρύβεται στα log αρχεία ενός web εξυπηρετητή. Εφαρμόζοντας στατιστικές μεθόδους και μεθόδους εξόρυξης δεδομένων στα web log δεδομένα, μπορούν να προσδιοριστούν ενδιαφέροντα πρότυπα που αφορούν τη συμπεριφορά πλοήγησης των χρηστών, όπως συστάδες χρηστών και σελίδων και πιθανές συσχετίσεις μεταξύ web σελίδων και ομάδων χρηστών. Τα τελευταία χρόνια, γίνεται μια προσπάθεια συγχώνευσης του περιεχομένου του ιστού στη διαδικασία εξόρυξης χρησιμοποίησης, για να επαυξηθεί η αποτελεσματικότητα της εξατομίκευσης. Το ενδιαφέρον σε αυτή τη διπλωματική εργασία εστιάζεται στο πεδίο της εξόρυξης γνώσης για τη χρησιμοποίηση δικτυακών τόπων και πώς η διαδικασία αυτή μπορεί να επωφεληθεί από τα χαρακτηριστικά του σημασιολογικού ιστού. Αρχικά, παρουσιάζονται τεχνικές και αλγόριθμοι που έχουν προταθεί τα τελευταία χρόνια για εξόρυξη χρησιμοποίησης από τα log αρχεία των web εξυπηρετητών. Έπειτα εισάγεται και ο ρόλος του περιεχομένου στη διαδικασία αυτή και παρουσιάζονται δύο εργασίες που λαμβάνουν υπόψη και το περιεχόμενο των δικτυακών τόπων: μία τεχνική εξόρυξης χρησιμοποίησης με βάση το PLSA, η οποία δίνει στο τέλος και τη δυνατότητα ενοποίησης του περιεχομένου του ιστού και ένα σύστημα προσωποποίησης το οποίο χρησιμοποιεί το περιεχόμενο του ιστοτόπου για να βελτιώσει την αποτελεσματικότητα της μηχανής παραγωγής προτάσεων. Αφού αναλυθεί θεωρητικά το πεδίο εξόρυξης γνώσης από τα logs μέσα από την περιγραφή των σύγχρονων τεχνικών, προτείνεται το σύστημα ORGAN-Ontology-oRiented usaGe ANalysis- το οποίο αφορά στη φάση της ανάλυσης των log αρχείων και την εξόρυξη γνώσης για τη χρησιμοποίηση των δικτυακών τόπων με άξονα τη σημασιολογία του ιστοτόπου. Τα σημασιολογικά χαρακτηριστικά του δικτυακού τόπου έχουν προκύψει με τεχνικές εξόρυξης δεδομένων από το σύνολο των ιστοσελίδων και έχουν σχολιαστεί από μία OWL οντολογία. Το ORGAN παρέχει διεπαφή για την υποβολή ερωτήσεων σχετικών με την επισκεψιμότητα και τη σημασιολογία των σελίδων, αξιοποιώντας τη γνώση για το site, όπως αναπαρίσταται πάνω στην οντολογία. Περιγράφεται διεξοδικά ο σχεδιασμός, η ανάπτυξη και η πειραματική αξιολόγηση του συστήματος και σχολιάζονται τα αποτελέσματα του. / Web personalization is a domain which has gained great momentum not only in the research area, where many research units have addressed the problem form different perspectives, but also in the industrial area, where a variety of modules for the personalization process is available. The objective is, researching the information hidden in the web server log files to discover the interactions between web sites visitors and web sites pages. This information can be further exploited for web sites optimization, ensuring more effective navigation for the user and client retention in the industrial case. A primary step before the personalization is the web usage mining, where the knowledge hidden in the log files is revealed. Web usage mining is the procedure where the information stored in the Web server logs is processed by applying statistical and data mining techniques such as clustering, association rules discovery, classification, and sequential pattern discovery, in order to reveal useful patterns that can be further analyzed. Recently, there has been an effort to incorporate Web content in the web usage mining process, in order to enhance the effectiveness of personalization. The interest in this thesis is focused on the domain of the knowledge mining for usage of web sites and how this procedure can get the better of attributes of the semantic web. Initially, techniques and algorithms that have been proposed lately in the field of web usage mining are presented. After, the role of the context in the usage mining process is introduced and two relevant works are presented: a usage mining technique based on the PLSA model, which may integrate attributes of the site content, and a personalization system which uses the site content in order to enhance a recommendation engine. After analyzing theoretically the usage mining domain, a new system is proposed, the ORGAN, which is named after Ontology-oRiented usaGe ANalysis. ORGAN concerns the stage of log files analysis and the domain of knowledge mining for the web site usage based on the semantic attributes of the web site. The web site semantic attributes have resulted from the web site pages applying data mining techniques and have been annotated by an OWL ontology. ORGAN provides an interface for queries submission concerning the average level of visitation and the semantics of the web site pages, exploiting the knowledge for the site, as it is derived from the ontology. There is an extensive description of the design, the development and the experimental evaluation of the system.
|
43 |
Μέτρα ομοιότητας στην τεχνική ομαδοποίησης (clustering): εφαρμογή στην ανάλυση κειμένων (text mining) / Similarity measures in clustering: an application in text miningΠαπαστεργίου, Θωμάς 17 May 2007 (has links)
Ανάπτυξη ενός μέτρου ανομοιότητας μεταξύ κατηγορικών δεδομένων και η εφαρμογή του για την ομαδοποίηση κειμένων και την λύση του προβλήματος αυθεντiκότητας κειμένων. / Developement of a similarity measure for categorical data and the application of the measure in text clustering and in the authoring attribution problem.
|
44 |
Χρήση της OLAP τεχνικής στην οπτικοποίηση κανόνων Data mining / Visualization of Data mining rules using OLAPΓκίζα, Ειρήνη 27 August 2008 (has links)
Η διαδικασία εξόρυξης από δεδομένα [Data Mining] αποτελεί μια συνεχώς αναπτυσσόμενη διαδικασία ανακάλυψης γνώσης μέσω της εξαγωγής μέχρι πρότινος άγνωστης πληροφορίας από μεγάλες εμπορικές και επιστημονικές βάσεις δεδομένων. Η διαδικασία εξόρυξης από δεδομένα εξάγει κανόνες δια μέσου της επεξεργασίας κατηγορικών ή αριθμητικών δεδομένων, από βάσεις πολλών διαστάσεων (> από 4 χαρακτηριστικά). Η ταξινόμηση, η ομαδοποίηση και η συσχέτιση αποτελούν τις πιο γνωστές και πλέον χρησιμοποιούμενες τεχνικές Data Mining. Ωστόσο συνήθως και οι κανόνες που εξάγονται από τα δεδομένα μπορεί να είναι πολλοί και δυσνόητοι στον τελικό χρήστη/ αναλυτή ο οποίος ενδέχεται να μην είναι εξοικειωμένος με τις τεχνικές της Μηχανικής Μάθησης. Προκειμένου να επιλυθεί αυτό το πρόβλημα τα τελευταία έτη έχουν αναπτυχθεί διάφορες τεχνικές οπτικοποίησης (Visualization) τόσο των δεδομένων που χρησιμοποιούνται κατά τη διαδικασία Data Mining (ανεπεξέργαστα δεδομένα) όσο και των κανόνων που εξάγονται από την εφαρμογή της. Όλες οι τεχνικές οπτικοποίησης προσπαθούν να εκμεταλλευτούν την αντιληπτική ικανότητα του χρήστη στην κατανόηση των εξαγόμενων προτύπων. Επιπρόσθετα ο χρήστης τείνει να εμπιστεύεται περισσότερο ένα αποτέλεσμα όταν το κατανοεί πλήρως. Ο σκοπός των τεχνικών οπτικοποίησης συνίσταται ακριβώς σε αυτό. Στη διεθνή βιβλιογραφία έχουν παρουσιαστεί αρκετές μέθοδοι οπτικής παρουσίασης των δεδομένων ενώ τα τελευταία χρόνια η επιστημονική κοινότητα έχει εστιάσει το ενδιαφέρον της και στην οπτικοποίηση των αποτελεσμάτων του Data Mining.
Στόχος της παρούσας διπλωματικής εργασίας είναι πέρα από την παράθεση των τεχνικών οπτικής παρουσίασης των εξαγόμενων κανόνων των διαδικασιών συσχέτισης [association], ταξινόμησης [classification] και [clustering] που έχουν παρουσιαστεί από την επιστημονική κοινότητα την τελευταία εικοσαετία, η παρουσίαση μιας νέας τεχνικής οπτικοποίησης των κανόνων data mining με χρήση της τεχνολογίας On Line Analytical Processing [OLAP]. Σε πιο ειδικό πλαίσιο, η προτεινόμενη τεχνική χρησιμοποιεί το δυσδιάστατο πίνακα που χρησιμοποιούν τα περισσότερα OLAP μοντέλα και την έννοια της ιεραρχίας προκειμένου να οπτικοποιήσει ένα σημαντικό αριθμό κανόνων data mining και από τις τρεις (3) προαναφερόμενες τεχνικές. Επίσης, παρουσιάζονται τα πειραματικά αποτελέσματα της οπτικοποίησης που δείχνουν πώς η προτεινόμενη τεχνική είναι χρήσιμη στην ανάλυση και στην κατανόηση των εξαγόμενων κανόνων. / Data Mining is an emerging knowledge discovery process of extracting previously unknown, actionable information from very large scientific and commercial databases. Usually, a data mining process extracts rules by processing high dimensional categorical and/or numerical data (> 4 attributes). Classification, Clustering and Association constitute for the most well known Data Mining tasks.
However, in the data mining context often the user has to analyze hundreds of extracted rules in order to grasp valuable knowledge. Thus, the analysis of such rules by means of visual tools has evolved rapidly in recent years. Visual data mining attempts to take advantage of humans’ ability to perceive pattern and structure in visual form. The end user trusts more a result if he understand it completely. And this is the purpose of visual techniques. There have been proposed many techniques for visualizing the data in literature, whereas the last years many researchers have focused on the visualization of data mining results (knowledge visualization).
Researchers have developed many tools to visualize data mining rules. However, few of these tools can handle effectively more than some dozens of data mining rules. In this thesis, we propose a new visualization technique of data mining rules based On Line Analytical Processing [OLAP]. More specifically, the proposed technique utilizes the standard two dimensional cross-tabulation table of most OLAP models in order to visualize even a great number of data mining rules from all techniques. We also present experimental results that demonstrate how the proposed technique is useful and helpful for analyzing and understanding extracted data mining rules.
|
45 |
Εντοπισμός θέσης σε Wi-Fi δίκτυα μέσω της πιθανοτικής μεθόδου particle filtering και χρήση σε m-commerce εφαρμογές / Wi-Fi localization via particle filtering and use for m-commerceΒαρβάρας, Δημήτριος 31 August 2012 (has links)
Ενδιαφέρον παρουσιάζει η αυξημένη ανάγκη για εφαρμογές εσωτερικού χώρου οι οποίες να είναι σε θέση να χρησιμοποιούν την ασύρματη τεχνολογία για να εντοπίσουν την θέση των χρηστών με σκοπό την εκμετάλλευση της πληροφορίας της θέσης τους για την αποστολή διαφόρων πληροφοριών ενδιαφέροντος. Στην εργασία αυτή προτείνεται ένα σύστημα εντοπισμού θέσης του οποίου η εξαγόμενη πληροφορία χρησιμοποιείται σε m-commerce εφαρμογές (mobile commerce) μέσω τεχνικών εξόρυξης γνώσης (data mining).
Το σύστημα το οποίο προτείνεται αποτελείται από δύο κεντρικά υποσυστήματα. Το πρώτο υποσύστημα αποτελεί ένα σύστημα εντοπισμού θέσης μέσα σε ένα Wi-Fi δίκτυο. Το δεύτερο υποσύστημα περιλαμβάνει την λογική για την εξόρυξη δεδομένων από το πληροφοριακό περιεχόμενο της θέσης των χρηστών ώστε να μπορεί να χρησιμοποιηθεί στον εμπορικό τομέα. / The increased need for applications of indoor localization which use wireless technology in order to locate users’ position and exploiting this position information for extracting deeper knowledge has motivated this paper. In this work it is proposed a system of localization where the exported information is used in m-commerce applications (mobile commerce) via techniques of data mining.
The system which is suggested is constituted of two central sub systems. The first sub system constitutes a system of localization in a Wi-Fi network. The second sub system includes the logic of the excavation of data from the informative content of users’ position so that it can be used in the commercial sector.
|
46 |
Σχεδιασμός και υλοποίηση συστήματος ανάλυσης ηχογραφήσεων ηχοτοπίουΛιάσος, Παντελής 19 October 2012 (has links)
Η ακουστική οικολογία είναι το επιστημονικό πεδίο το οποίο μελετά την επίδραση διαφόρων παραγόντων, όπως η ανθρώπινη δραστηριότητα, σε συγκεκριμένα οικοσυστήματα μέσω επιλεγμένων ηχογραφήσεων των γεωγραφικών περιοχών των ηχοτοπίων. Εδώ παρουσιάζεται μελέτη αυτόματης ανάλυσης, αναγνώρισης και κατηγοριοποίησης από τέτοιες ηχογραφήσεις. Δοκιμάζονται διάφοροι αλγόριθμοι και επιλέγεται μέθοδος που βασίζεται στην επεξεργασία του ηχητικού φάσματος, μέσω των Mel Frequency Cepstral Coefficients (MfCC) του φάσματος του ηχητικού σήματος. Τα ομαδοποιημένα δεδομένα που προέκυψαν, μελετήθηκαν ως προς το ποσοστό επιτυχούς αναγνώρισης της προέλευσης των ήχων που διακρίνονται στις ηχογραφήσεις. Η κατηγοριοποίηση και ταξινόμηση αυτή έγινε με τη δοκιμή διαφόρων αλγορίθμων ταξινόμησης. Επιπλέον πραγματοποιείται σύγκριση των αλγορίθμων αυτών με βάση το ποσοστό επιτυχούς αναγνώρισης αλλά και της ταχύτητας ταξινόμησης των ηχογραφημένων δειγμάτων η οποία οδηγεί σε συμπεράσματα για τη βελτιστοποίηση της συγκεκριμένης διαδικασίας / Acoustic ecology is the scientific field which studies the effect of human activity and other factors to ecosystems via the recording of soundscapes which constitute a database of selected recordings of geographic regions. The parameters that are examined are based on the processing of the sound spectrum, they are named Mel Frequency Cepstral Coefficients (MfCC) and represent factors of the signal spectrum. The rate of the successful recognition of the origin of sounds distinguished in the set of the soundscape recordings is estimated. Various classification algorithms are tested for the sound data classification. Moreover a comparison among the algorithms is realised based both on the ratio of successful recognition and the classification speed of the recorded samples which leads to conclusions on the optimisation of this particular process.
|
47 |
Εξόρυξη γνώσης από ιατροβιολογικά δεδομένα / Biomedical data miningΚαλλά, Μαρία-Παυλίνα 28 February 2013 (has links)
Πίσω από όλα αυτά τα δεδομένα που υπάρχουν
κρύβεται ένας τεράστιος θησαυρός γνώσεων τον οποίο δεν μπορούμε να αντιληφθούμε καθώς η μορφή των πληροφοριών δεν μας το επιτρέπει. Έτσι αναπτύχθηκαν μέθοδοι και τεχνικές που μας βοηθούν να βρούμε την κρυμμένη
γνώση και να την αξιοποιήσουμε προς όφελος κυρίως του κοινού και η πιο γνωστή
μέθοδος, με την οποία θα ασχοληθούμε και εμείς είναι η Εξόρυξη Γνώσης.
Στην εργασία που ακολουθεί θα μιλήσουμε για την χρήση των μεθόδων Εξόρυξης Γνώσης (όπως λέγονται) σε βιοϊατρικά δεδομένα.
Στην αρχή θα κάνουμε αναφορά στην Μοριακή Βιολογία και στην Βιοπληροφορική. Ακολούθως θα δουμε την Ανακάλυψη γνώσης από βάσεις δεδομένων. Θα δούμε αναλυτικά την Εξόρυξη γνώσης και πιο πολύ τις μεθόδους κατηγοριοποίησης. Τέλος θα εφαρμόσουμε τους αλγορίθμους σε ιατροβιολογικά δεδομένα και θα δούμε τα συμπεράσματα που προκύπτουν αλλά και μελλοντικές επεκτάσεις. / Behind all these data
there is hidden a huge treasure of knowledge which we can not understand . Thus developed methods and techniques that help us find the hidden
knowledge and to utilize it for the benefit of the public.
The most famous method, which we will study, is Data Mining.
In the work that follows we will discuss the use of data mining methods (as they are called) in biomedical data.
In the beginning, we will report information about Molecular Biology and Bioinformatics. Then. we will see the knowledge discovery in databases. We will see in detail the Data Mining and the classification methods. Finally we implement the algorithms in biomedical data and see the conclusions and future extensions.
|
48 |
Παραμετροποίηση στοχαστικών μεθόδων εξόρυξης γνώσης από δεδομένα, μετασχηματισμού συμβολοσειρών και τεχνικών συμπερασματικού λογικού προγραμματισμού / Parameterization of stochastic data mining methods, string conversion algorithms and deductive logic programming techniquesΛύρας, Δημήτριος 02 February 2011 (has links)
Η παρούσα διατριβή πραγματεύεται το αντικείμενο της μάθησης από δύο διαφορετικές οπτικές γωνίες: την επαγωγική και την παραγωγική μάθηση.
Αρχικά, παρουσιάζονται παραμετροποιήσεις στοχαστικών μεθόδων εξόρυξης γνώσης από δεδομένα υπό τη μορφή τεσσάρων καινοτόμων εξατομικευμένων μοντέλων στήριξης ασθενών που πάσχουν από διαταραχές άγχους. Τα τρία μοντέλα προσανατολίζονται στην ανεύρεση πιθανών συσχετίσεων μεταξύ των περιβαλλοντικών παραμέτρων των ασθενών και του επιπέδου άγχους που αυτοί παρουσιάζουν, ενώ παράλληλα προτείνεται και η χρήση ενός Μπεϋζιανού μοντέλου πρόβλεψης του επιπέδου άγχους που είναι πιθανό να εμφανίσει κάποιος ασθενής δεδομένων ορισμένων τιμών του περιβαλλοντικού του πλαισίου εφαρμογής.
Αναφορικά με το χώρο της εξόρυξης γνώσης από κείμενο και του μετασχηματισμού συμβολοσειρών, προτείνεται η εκπαίδευση μοντέλων δέντρων αποφάσεων για την αυτόματη μεταγραφή Ελληνικού κειμένου στην αντίστοιχη φωνητική του αναπαράσταση, πραγματοποιείται η στοχαστική μοντελοποίηση όλων των πιθανών μεταγραφικών νορμών από ορθογραφημένα Ελληνικά σε Greeklish και τέλος παρουσιάζεται ένας καινοτόμος αλγόριθμος που συνδυάζει δύο γνωστά για την ικανοποιητική τους απόδοση μέτρα σύγκρισης ομοιότητας αλφαριθμητικών προκειμένου να επιτευχθεί η αυτόματη λημματοποίηση του κειμένου εισόδου.
Επιπρόσθετα, στα πλαίσια της ανάπτυξης συστημάτων που θα διευκολύνουν την ανάκτηση εγγράφων ή πληροφοριών προτείνεται η συνδυαστική χρήση του προαναφερθέντος αλγορίθμου λημματοποίησης παράλληλα με τη χρήση ενός πιθανοτικού δικτύου Bayes στοχεύοντας στην ανάπτυξη ενός εύρωστου και ανταγωνιστικού ως προς τις επιδόσεις συστήματος ανάκτησης πληροφοριών.
Τέλος, παρουσιάζονται οι προτάσεις μας που αφορούν στο χώρο της παραγωγικής μάθησης και του ελέγχου ικανοποιησιμότητας λογικών εκφράσεων. Συγκεκριμένα περιλαμβάνουν:
i) την ανάλυση και εκτενή παρουσίαση μιας καινοτόμας μαθηματικής μοντελοποίησης με την ονομασία AnaLog (Analytic Tableaux Logic) η οποία δύναται να εκφράσει τη λογική που διέπει τους αναλυτικούς πίνακες για προτασιακούς τύπους σε κανονική διαζευκτική μορφή. Mέσω του λογισμού Analog επιτυγχάνεται η εύρεση των κλειστών κλάδων του πλήρως ανεπτυγμένου δέντρου Smullyan, χωρίς να είναι απαραίτητος ο αναλυτικός σχεδιασμός του δέντρου, και
ii) την παράθεση ενός αναλυτικού αλγορίθμου που μπορεί να αξιοποιήσει τον φορμαλισμό AnaLog σε ένα πλαίσιο αριθμητικής διαστημάτων μέσω του οποίου μπορούμε να αποφανθούμε για την ικανοποιησιμότητα συμβατικών διαζευκτικών προτασιακών εκφράσεων. / The present dissertation deals with the problem of learning from two different perspectives, meaning the inferential and the deductive learning.
Initially, we present our suggestions regarding the parameterization of stochastic data mining methods in the form of four treatment supportive services for patients suffering from anxiety disorders. Three of these services focus on the discovery of possible associations between the patients’ contextual data whereas the last one aims at predicting the stress level a patient might suffer from, in a given environmental context.
Our proposals with regards to the wider area of text mining and string conversion include: i) the employment of decision-tree based models for the automatic conversion of Greek texts into their equivalent CPA format, ii) the stochastic modeling of all the existing transliteration norms for the Greek to Greeklish conversion in the form of a robust transcriber and iii) a novel algorithm that is able to combine two well-known for their satisfactory performance string distance metric models in order to address the problem of automatic word lemmatization.
With regards to the development of systems that would facilitate the automatic information retrieval, we propose the employment of the aforementioned lemmatization algorithm in order to reduce the ambiguity posed by the plethora of morphological variations of the processed language along with the parallel use of probabilistic Bayesian Networks aiming at the development of a robust and competitive modern information retrieval system.
Finally, our proposals regarding logical deduction and satisfiability checking include:
i) a novel mathematical formalism of the analytic tableaux methodology named AnaLog (after the terms Analytic Tableaux Logic) which allows us to efficiently simulate the structure and the properties of a complete clausal tableau given an input CNF formula. Via the AnaLog calculus it is made possible to calculate all the closed branches of the equivalent complete Smullyan tree without imposing the need to fully construct it, and
ii) a practical application of the AnaLog calculus within an interval arithmetic framework which is able to decide upon the satisfiability of propositional formulas in CNF format. This framework, apart from constituting an illustrative demonstration of the application of the AnaLog calculus, it may also be employed as an alternative conventional SAT system.
|
49 |
Εφαρμογή παγκόσμιου ιστού για προσωποποιημένες υπηρεσίες διαιτολογίας με την χρήση οντολογιώνΟικονόμου, Φλώρα 11 June 2013 (has links)
Ο παγκόσμιος ιστός αποτελεί μία τεράστια αποθήκη πληροφοριών και αναπτύσσεται με τάχιστους ρυθμούς, ενώ η ανθρώπινη ικανότητα να εντοπίζει, να επεξεργάζεται και να αντιλαμβάνεται τις παρεχόμενες πληροφορίες παραμένει πεπερασμένη. Οι μηχανές αναζήτησης διευκολύνουν την αναζήτηση στον παγκόσμιο ιστό και έχουν γίνει αναπόσπαστο κομμάτι της καθημερινής ζωής των χρηστών του διαδικτύου. Οι χρήστες όμως χαρακτηρίζονται από διαφορετικές ανάγκες, προτιμήσεις, ιδιαιτερότητες και κατά την πλοήγησή τους μπορεί να χάσουν τον στόχο της αναζήτησής τους. Η προσωποποίηση στον παγκόσμιο ιστό, δηλαδή η εξατομίκευση των παρεχόμενων αποτελεσμάτων, αποτελεί μία πολλά υποσχόμενη προσέγγιση για την λύση του πληροφοριακού υπερφόρτου, παρέχοντας κατάλληλα προσαρμοσμένες εμπειρίες πλοήγησης.
Στα πλαίσια αυτής της διπλωματικής εργασίας αναπτύχθηκε μία μεθοδολογία για την προσωποποίηση των αποτελεσμάτων μίας μηχανής αναζήτησης ώστε αυτά να ανταποκρίνονται στις προτιμήσεις των χρηστών και στα διαιτολογικά τους χαρακτηριστικά. Η μεθοδολογία αναπτύχθηκε σε δύο μέρη: στο εκτός σύνδεσης τμήμα και στο συνδεδεμένο. Στο πρώτο με την χρησιμοποίηση των αρχείων πρόσβασης μίας μηχανής αναζήτησης και των διαιτολογικών χαρακτηριστικών των χρηστών, έγινε εξαγωγή πληροφορίας για τις προτιμήσεις των τελευταίων. Στην συνέχεια με την χρήση μίας οντολογίας που κατασκευάστηκε για τα πλαίσια της διπλωματικής αυτής εργασίας, έγινε σημασιολογική κατηγοριοποίηση των επιλογών των χρηστών και κατασκευάστηκαν τα προφίλ που τους χαρακτηρίζουν. Έπειτα με την χρήση ενός αλγορίθμου ομαδοποίησης οι χρήστες κατηγοριοποιήθηκαν με βάση τα διαιτολογικά τους χαρακτηριστικά και τις επιλογές τους στην μηχανή αναζήτησης. Στο συνδεδεμένο τμήμα ο αλγόριθμος προσωποποίησης εκμεταλλευόμενος την σημασιολογική αντιστοίχιση των αποτελεσμάτων της μηχανής αναζήτησης και τις ομάδες των χρηστών που δημιουργήθηκαν στο εκτός σύνδεσης τμήμα αναδιοργανώνει τα παρεχόμενα από την μηχανή αναζήτησης αποτελέσματα. Η αναδιοργάνωση γίνεται προωθώντας στις υψηλότερες θέσεις των αποτελεσμάτων της μηχανής αναζήτησης τα αποτελέσματα που ταιριάζουν καλύτερα με τις προτιμήσεις και τα χαρακτηριστικά της ομάδας στην οποία εντάσσεται ο χρήστης. Στο τέλος έγιναν πειράματα και εξακριβώθηκαν τα επιθυμητά αποτελέσματα για την προσωποποίηση σύμφωνα με τις σημασιολογικές ομάδες των χρηστών. / The World Wide Web has become a huge data repository and it keeps growing exponentially, whereas the human capability to find, process and understand the provided content remains constant. Search engines facilitate the search process in the World Wide Web and they have become an integral part of the web users' daily lives. However users who are characterized by different needs, preferences and special characteristics, navigate through large Web structures and may lost their goal of inquiry. Web personalization, i.e. the customization of the search engines’ returned results, is one of the most promising approaches for alleviating information overload providing tailored navigation experiences to Web users.
The present dissertation presents the methodology which was implemented in order to personalize a search engine’s results for corresponding users’ preferences and dietary characteristics. This methodology was implemented in two parts: the offline and the online part. The first one uses a search engines’ log files and the dietary characteristics of the users in order to extract information for the latter preferences. Afterwards, with the use of an ontology which was created explicitly for this work, semantic profiling of users’ interests was achieved and their corresponding profiles were formed. Then with the use of a clustering algorithm, users’ categorization was made based on their dietary profiles and their preferences in the search engine. In the online part the methodology re-ranks the search engines’ results, based on the semantic characterization of those results and the users’ clusters which were created at the offline part. Re-ranking is achieved by placing those results which match better the interests and the characteristics of the user’s cluster at the top of the list of the search engines’ returned results. Experimental evaluation of the presented methodology shows that the expected objectives from the semantic users’ clustering in search engines are achievable.
|
50 |
Ανάλυση των χρηματιστηριακών δεδομένων με χρήση των αλγορίθμων εξόρυξηςΜπεγκόμ, Τζαχίντα 10 June 2014 (has links)
Λόγω της έξαρσης της τεχνολογικής ανάπτυξης ο όγκος των πληροφοριών σήμερα είναι τεράστιος και έχει δημιουργήσει την ανάγκη για την ανάλυση και την επεξεργασία των δεδομένων ώστε, μετά την επεξεργασία, να μπορούν να μετατραπούν σε χρήσιμες πληροφορίες και να μας βοηθήσουν στη λήψη αποφάσεων. Οι τεχνικές εξόρυξης δεδομένων σε συνδυασμό με τις στατιστικές μεθόδους αποτελούν σπουδαίο εργαλείο για την ανάκτηση των συγκεκριμένων πληροφοριών. Η χρήση αυτών των πληροφοριών βοηθά στη μελέτη και κατ’επέκταση στην εξαγωγή των συμπερασμάτων για το χαρακτηριστικό που εξετάζεται. Ένας τομέας που παρουσιάζει μεγάλο ερευνητικό ενδιαφέρον, λόγω του όγκου των πληροφοριών που συσσωρεύει καθημερινά, είναι το χρηματιστήριο. Η εξόρυξη γνώσης από τα δεδομένα με σκοπό την όσο το δυνατόν «σωστή» πρόβλεψη μπορεί να αποφέρει πολύ μεγάλο κέρδος και αυτός είναι ένας λόγος για τον οποίο πολλές επιχειρήσεις έχουν επενδύσει στην τεχνολογία των πληροφοριών.Η παρούσα εργασία εδράζεται στο πλαίσιο της γενικής προσπάθειας τεχνικής ανάλυσης χρηματιστηριακών δεδομένων, εστιάζοντας παράλληλα στην ανάλυση με τη χρήση τεχνικών εξόρυξης. Το αντικείμενο της παρούσας διπλωματικής εργασίας είναι η ανάλυση των χρηματιστηριακών δεδομένων (χρονοσειρών) χρησιμοποιώντας τεχνικές εξόρυξης που μπορούν να βοηθήσουν στη λήψη των αποφάσεων. Συγκεκριμένα, στους στόχους της εργασίας περιλαμβάνεται η ομαδοποίηση παρόμοιων μετοχών, η εύρεση της κατηγορίας των μετοχών στην οποία μπορεί να ανήκει μία νέα μετοχή και η πρόβλεψη των μελλοντικών τιμών. Οι μελέτες αυτές εκτός από το χρηματιστήριο, μπορούν να εφαρμοστούν επίσης για την αναγνώριση των προτύπων, τη διαχείριση του χαρτοφυλακίου και τις χρηματοπιστωτικές αγορές. / The rapid development of technology has led to a large increase in the volume of information, creating the need for data analysis and processing. After processing, these data can be transformed into useful information that can help us to make decisions. The data mining techniques combined with the statistical methods are important tools for the recovery of such information. This information helps us to study the features and to extract information about them. The stock market is one of the greatest research areas of interest due to the volume of the information that accumulates daily. Knowledge extraction from data aiming the best possible prediction could yield significant profit, thus making information technology a magnet for corporate investment. This thesis is based on the general effort of technical analysis for stock market data, while focusing on analysis using data mining techniques. The present thesis aims to analyze stock data (time series) by applying data mining techniques which enable decision making. Specifically, the objectives of the work include the grouping of similar stocks, the determination of the class in which a new stock may belong and the prediction of the closing values of the stocks. Apart from the stock market, these studies can also be applied for the pattern recognition, portfolio management and financial markets.
|
Page generated in 0.0281 seconds