Global ETD Search

21	Ανάπτυξη μεθόδων αυτόματης κατηγοριοποίησης κειμένων προσανατολισμένων στο φύλο Αραβαντινού, Χριστίνα 15 May 2015 (has links) Η εντυπωσιακή εξάπλωση των μέσων κοινωνικής δικτύωσης τα τελευταία χρόνια, θέτει βασικά ζητήματα τα οποία απασχολούν την ερευνητική κοινότητα. Η συγκέντρωση και οργάνωση του τεράστιου όγκου πληροφορίας βάσει θέματος, συγγραφέα, ηλικίας ή και φύλου αποτελούν χαρακτηριστικά παραδείγματα προβλημάτων που πρέπει να αντιμετωπιστούν. Η συσσώρευση παρόμοιας πληροφορίας από τα ψηφιακά ίχνη που αφήνει ο κάθε χρήστης καθώς διατυπώνει τη γνώμη του για διάφορα θέματα ή περιγράφει στιγμιότυπα από τη ζωή του δημιουργεί τάσεις, οι οποίες εξαπλώνονται ταχύτατα μέσω των tweets, των δημοσιευμάτων σε ιστολόγια (blogs) και των αναρτήσεων στο Facebook. Ιδιαίτερο ενδιαφέρον παρουσιάζει το πώς μπορεί όλη αυτή η πληροφορία να κατηγοριοποιηθεί βάσει δημογραφικών χαρακτηριστικών, όπως το φύλο ή η ηλικία. Άμεσες πληροφορίες που παρέχει ο κάθε χρήστης για τον εαυτό του, όπως επίσης και έμμεσες πληροφορίες που μπορούν να προκύψουν από την γλωσσολογική ανάλυση των κειμένων του χρήστη, αποτελούν σημαντικά δεδομένα που μπορούν να χρησιμοποιηθούν για την ανίχνευση του φύλου του συγγραφέα. Πιο συγκεκριμένα, η αναγνώριση του φύλου ενός χρήστη από δεδομένα κειμένου, μπορεί να αναχθεί σε ένα πρόβλημα κατηγοριοποίησης κειμένου. Το κείμενο υφίσταται επεξεργασία και στη συνέχεια, με τη χρήση μηχανικής μάθησης, εντοπίζεται το φύλο. Ειδικότερα, μέσω στατιστικής και γλωσσολογικής ανάλυσης των κειμένων, εξάγονται διάφορα χαρακτηριστικά (π.χ. συχνότητα εμφάνισης λέξεων, μέρη του λόγου, μήκος λέξεων, χαρακτηριστικά που συνδέονται με το περιεχόμενο κ.τ.λ.), τα οποία στη συνέχεια χρησιμοποιούνται για να γίνει η αναγνώριση του φύλου. Στην παρούσα διπλωματική εργασία σκοπός είναι η μελέτη και η ανάπτυξη ενός συστήματος κατηγοριοποίησης κειμένων ιστολογίου και ιστοσελίδων κοινωνικής δικτύωσης, βάσει του φύλου. Εξετάζεται η απόδοση διαφορετικών συνδυασμών χαρακτηριστικών και κατηγοριοποιητών στoν εντοπισμό του φύλου. / The rapid growth of social media in recent years creates important research tasks. The collection and management of the huge information available, based on topic, author, age or gender are some examples of the problems that need to be addressed. The gathering of such information from the digital traces of the users, when they express their opinions on different subjects or they describe moments of their lives, creates trends, which expand through tweets, blog posts and Facebook statuses. An interesting aspect is to classify all the available information, according to demographic characteristics, such as gender or age. The direct clues provided by the users about themselves, along with the indirect information that can come of the linguistic analysis of their texts, are useful elements that can be used for the identification of the authors’ gender. More specifically, the detection of the users’ gender from textual data can be faced as a document classification problem. The document is processed and then, machine learning techniques are applied, in order to detect the gender. The features used for the gender identification can be extracted from statistical and linguistic analysis of the document. In the present thesis, we aim to develop an automatic system for the classification of web blog and social media posts, according to their authors’ gender. We study the performance of different combinations of features and classifiers for the identification of the gender. Εξόρυξη δεδομένων Αναγνώριση φύλου 005.74 Data mining Document classification Gender identification Feature extraction
22	Σχεδιασμός και υλοποίηση συστήματος ανάλυσης ηχογραφήσεων ηχοτοπίου Λιάσος, Παντελής 19 October 2012 (has links) Η ακουστική οικολογία είναι το επιστημονικό πεδίο το οποίο μελετά την επίδραση διαφόρων παραγόντων, όπως η ανθρώπινη δραστηριότητα, σε συγκεκριμένα οικοσυστήματα μέσω επιλεγμένων ηχογραφήσεων των γεωγραφικών περιοχών των ηχοτοπίων. Εδώ παρουσιάζεται μελέτη αυτόματης ανάλυσης, αναγνώρισης και κατηγοριοποίησης από τέτοιες ηχογραφήσεις. Δοκιμάζονται διάφοροι αλγόριθμοι και επιλέγεται μέθοδος που βασίζεται στην επεξεργασία του ηχητικού φάσματος, μέσω των Mel Frequency Cepstral Coefficients (MfCC) του φάσματος του ηχητικού σήματος. Τα ομαδοποιημένα δεδομένα που προέκυψαν, μελετήθηκαν ως προς το ποσοστό επιτυχούς αναγνώρισης της προέλευσης των ήχων που διακρίνονται στις ηχογραφήσεις. Η κατηγοριοποίηση και ταξινόμηση αυτή έγινε με τη δοκιμή διαφόρων αλγορίθμων ταξινόμησης. Επιπλέον πραγματοποιείται σύγκριση των αλγορίθμων αυτών με βάση το ποσοστό επιτυχούς αναγνώρισης αλλά και της ταχύτητας ταξινόμησης των ηχογραφημένων δειγμάτων η οποία οδηγεί σε συμπεράσματα για τη βελτιστοποίηση της συγκεκριμένης διαδικασίας / Acoustic ecology is the scientific field which studies the effect of human activity and other factors to ecosystems via the recording of soundscapes which constitute a database of selected recordings of geographic regions. The parameters that are examined are based on the processing of the sound spectrum, they are named Mel Frequency Cepstral Coefficients (MfCC) and represent factors of the signal spectrum. The rate of the successful recognition of the origin of sounds distinguished in the set of the soundscape recordings is estimated. Various classification algorithms are tested for the sound data classification. Moreover a comparison among the algorithms is realised based both on the ratio of successful recognition and the classification speed of the recorded samples which leads to conclusions on the optimisation of this particular process. Εξόρυξη δεδομένων Ταξινόμηση Ηχοτοπία Βάσεις δεδομένων Ηχογραφήσεις Ακουστική οικολογία 620.25 Data mining Classification Soundscapes Databases Recordings Acoustic ecology
23	Ανάλυση των χρηματιστηριακών δεδομένων με χρήση των αλγορίθμων εξόρυξης Μπεγκόμ, Τζαχίντα 10 June 2014 (has links) Λόγω της έξαρσης της τεχνολογικής ανάπτυξης ο όγκος των πληροφοριών σήμερα είναι τεράστιος και έχει δημιουργήσει την ανάγκη για την ανάλυση και την επεξεργασία των δεδομένων ώστε, μετά την επεξεργασία, να μπορούν να μετατραπούν σε χρήσιμες πληροφορίες και να μας βοηθήσουν στη λήψη αποφάσεων. Οι τεχνικές εξόρυξης δεδομένων σε συνδυασμό με τις στατιστικές μεθόδους αποτελούν σπουδαίο εργαλείο για την ανάκτηση των συγκεκριμένων πληροφοριών. Η χρήση αυτών των πληροφοριών βοηθά στη μελέτη και κατ’επέκταση στην εξαγωγή των συμπερασμάτων για το χαρακτηριστικό που εξετάζεται. Ένας τομέας που παρουσιάζει μεγάλο ερευνητικό ενδιαφέρον, λόγω του όγκου των πληροφοριών που συσσωρεύει καθημερινά, είναι το χρηματιστήριο. Η εξόρυξη γνώσης από τα δεδομένα με σκοπό την όσο το δυνατόν «σωστή» πρόβλεψη μπορεί να αποφέρει πολύ μεγάλο κέρδος και αυτός είναι ένας λόγος για τον οποίο πολλές επιχειρήσεις έχουν επενδύσει στην τεχνολογία των πληροφοριών.Η παρούσα εργασία εδράζεται στο πλαίσιο της γενικής προσπάθειας τεχνικής ανάλυσης χρηματιστηριακών δεδομένων, εστιάζοντας παράλληλα στην ανάλυση με τη χρήση τεχνικών εξόρυξης. Το αντικείμενο της παρούσας διπλωματικής εργασίας είναι η ανάλυση των χρηματιστηριακών δεδομένων (χρονοσειρών) χρησιμοποιώντας τεχνικές εξόρυξης που μπορούν να βοηθήσουν στη λήψη των αποφάσεων. Συγκεκριμένα, στους στόχους της εργασίας περιλαμβάνεται η ομαδοποίηση παρόμοιων μετοχών, η εύρεση της κατηγορίας των μετοχών στην οποία μπορεί να ανήκει μία νέα μετοχή και η πρόβλεψη των μελλοντικών τιμών. Οι μελέτες αυτές εκτός από το χρηματιστήριο, μπορούν να εφαρμοστούν επίσης για την αναγνώριση των προτύπων, τη διαχείριση του χαρτοφυλακίου και τις χρηματοπιστωτικές αγορές. / The rapid development of technology has led to a large increase in the volume of information, creating the need for data analysis and processing. After processing, these data can be transformed into useful information that can help us to make decisions. The data mining techniques combined with the statistical methods are important tools for the recovery of such information. This information helps us to study the features and to extract information about them. The stock market is one of the greatest research areas of interest due to the volume of the information that accumulates daily. Knowledge extraction from data aiming the best possible prediction could yield significant profit, thus making information technology a magnet for corporate investment. This thesis is based on the general effort of technical analysis for stock market data, while focusing on analysis using data mining techniques. The present thesis aims to analyze stock data (time series) by applying data mining techniques which enable decision making. Specifically, the objectives of the work include the grouping of similar stocks, the determination of the class in which a new stock may belong and the prediction of the closing values of the stocks. Apart from the stock market, these studies can also be applied for the pattern recognition, portfolio management and financial markets. Εξόρυξη δεδομένων Συσταδοποίηση Κατηγοριοποίηση Πρόβλεψη 332.102 856 3 Data mining Stock data Clustering Classification Prediction Time series modeling
24	Αποτελεσματικές τεχνικές διαχείρισης δεδομένων στον Παγκόσμιο Ιστό / Efficient techniques for Web data management Ιωάννου, Ζαφειρία-Μαρίνα 24 November 2014 (has links) Η εξέλιξη της τεχνολογίας των υπολογιστών σε συνδυασμό με την πρόοδο της τεχνολογίας των βάσεων δεδομένων έχουν συμβάλει στην ανάπτυξη νέων αποδοτικών και αυτοματοποιημένων τεχνικών για την αποτελεσματική συλλογή, αποθήκευση και διαχείριση των δεδομένων. Ως συνέπεια, ο όγκος των δεδομένων που αποθηκεύονται και είναι ευρέως διαθέσιμα ηλεκτρονικά αυξάνεται ραγδαία και η ανάγκη ανάπτυξης και χρήσης αποδοτικών μεθόδων ανάλυσης για την εξαγωγή χρήσιμης πληροφορίας καθίσταται ολοένα και πιο επιτακτική. Η εξόρυξη δεδομένων (data mining) ως ένα αναδυόμενο πεδίο διεπιστημονικών εφαρμογών συνδυάζει παραδοσιακές μεθόδους ανάλυσης δεδομένων με εξελιγμένους αλγόριθμους και διαδραματίζει σημαντικό ρόλο στην επεξεργασία μεγάλου όγκου δεδομένων. Ο όρος οπτικοποίηση δεδομένων (data visualization) αναφέρεται στη μελέτη τεχνικών οπτικής αναπαράστασης δεδομένων χρησιμοποιώντας γραφικά, κίνηση, τρισδιάστατες απεικονίσεις και άλλα πολυμεσικά εργαλεία. Στόχος των τεχνικών οπτικοποίησης είναι παρουσίαση ενός συνόλου δεδομένων με τρόπο σαφή και αποτελεσματικό που να παρέχει τη δυνατότητα εξαγωγής συμπερασμάτων και ανακάλυψης συσχετίσεων που διαφορετικά θα παρέμεναν άγνωστες. Στη διεθνή βιβλιογραφία, έχουν παρουσιαστεί αρκετές τεχνικές οπτικοποίησης δεδομένων, ενώ τα τελευταία χρόνια η επιστημονική κοινότητα έχει εστιάσει το ενδιαφέρον της και στην οπτικοποίηση των αποτελεσμάτων της εξόρυξης δεδομένων. Στα πλαίσια αυτής της μεταπτυχιακής διπλωματικής εργασίας, προτείνεται μια αποδοτική τεχνική εξόρυξης δεδομένων που βασίζεται σε γνωστές μεθόδους συσταδοποίησης, όπως ο Ιεραρχικός αλγόριθμος και o αλγόριθμος Spherical K-means και είναι κατάλληλη να εφαρμοστεί για την ανάλυση και εξαγωγή χρήσιμης γνώσης σε διαφορετικά σύνολα δεδομένων. Η προτεινόμενη τεχνική εφαρμόστηκε σε δύο διαφορετικούς τύπους δεδομένων: α) κειμενικά δεδομένα (textual data) που προέρχονται από τη βάση δεδομένων του PubMed, β) αριθμητικά δεδομένα (numerical data) από τη βάση δεδομένων της FINDbase. Επιπλέον, παρουσιάζεται μια μελέτη τεχνικών οπτικοποίησης και η ανάπτυξη σύγχρονων εφαρμογών οπτικοποίησης, τόσο για την αποτελεσματική αναπαράσταση των αρχικών δεδομένων μιας συλλογής (πριν από την επεξεργασία τους), όσο και των αποτελεσμάτων που προέκυψαν από την προτεινόμενη τεχνική συσταδοποίησης. / The evolution of computer technology along with advances in database technology have contributed to the development of new efficient and automated techniques for the effective collection, storage and management of data. As a result, the volume of stored and widely available online data is growing rapidly, and the need for effective analytical methods for extracting relevant information is becoming increasingly urgent. As an emerging field of interdisciplinary applications, data mining combines traditional data analysis methods with sophisticated algorithms and plays an important role in the processing of large volumes of data. Data visualization refers to the study of the techniques used for the visual representation of data, including graphics, animation, 3D depictions and other multimedia tools. The main goal of data visualization techniques is to present a set of data in a clear and effective way, so that the extraction of conclusions and discovery of correlations that would otherwise remain unknown, are enabled. While several data visualization techniques have been presented in the relative literature, in recent years the scientific community has been focusing on the visualization of the results obtained by the application of data mining techniques. In the present thesis, we propose an efficient data mining technique that is based on well-known clustering methods, such as the Hierarchical and Spherical K-means ones, and is suitable for the analysis and extraction of useful knowledge from different types of datasets. The proposed technique was applied into two different types of data including: a) textual data from the PubMed database, b) numerical data from the FINDbase database. Furthermore, we present a study of visualization techniques and the development of modern visualization tools for the effective representation of the original dataset (before processing) and the results obtained by the proposed clustering technique. Εξόρυξη δεδομένων Συσταδοποίηση Παγκόσμιος Ιστός 005.740 285 467 8 Data mining Text mining Clustering Data visualization Web
25	Επισήμανση και ανάκτηση περιεχομένου με τεχνικές ενεργούς μάθησης Φουρφουρής, Γεώργιος 15 December 2014 (has links) Η ανάκτηση περιεχομένου από τις επιμέρους βάσεις είναι ιδιαίτερης σημασίας για την σωστή επεξεργασία δεδομένων και την εξαγωγή συμπερασμάτων. Παράλληλα, η σωστή επισήμανση των επιμέρους δεδομένων (κείμενο, εικόνα, βίντεο) βοηθά ιδιαίτερα στη σωστή ανάκτηση των περιεχομένων και επακόλουθα στην εξαγωγή των απαραίτητων συμπερασμάτων. Στα πλαίσια αυτής της διπλωματικής, αρχικά, δίδεται μια πλήρης περιγραφή και ανάλυση των παραπάνω ενώ στη συνέχεια υλοποιείται το αντίστοιχο σύστημα επισήμανσης και ανάκτησης περιεχομένου. Πιο αναλυτικά, το σύστημα είναι σε θέση να ανεβάζει και να επισημαίνει κατάλληλα τα περιεχόμενά του στις βάσεις περιεχομένων και δεδομένων. Παράλληλα, μπορεί να ανακτά τα συγκεκριμένα περιεχόμενα από αυτές τις βάσεις ώστε να είναι σε θέση να εξάγει τα κατάλληλα συμπεράσματα. Όλα αυτά υλοποιούνται και ενσωματώνονται με τις μεθόδους ενεργής μάθησης ενώ παρουσιάζονται σε μια web based εφαρμογή. / The content retrieval of individual data bases are of particular importance for both correct processing of data and draw conclusions. Furthermore, proper labeling of individual data (among text, image or video), particularly helps in recovering the correct contents and subsequent export of the necessary conclusions. Within this thesis is firstly given a complete description and analysis of the above references and then is implemented the corresponding labeling and content retrieval system. More specifically, the system is able to fetch and appropriate note the contents of data bases and data contents. Furthermore, it can recover the specific contents of those databases being able to draw of the appropriate conclusions. All of these are implemented and integrated with the methods of active learning represented on a web based application. Εξόρυξη γνώσης Ανάκτηση δεδομένων Ηλεκτρονική μάθηση Ενεργός μάθηση Εξόρυξη δεδομένων 025.04 Content retrieval Content annotation Knowledge mining Data retrieval E-learning Active learning Data mining
26	Νέοι αλγόριθμοι υπολογιστικής νοημοσύνης και ομαδοποίησης για την εξόρυξη πληροφορίας Τασουλής, Δημήτρης 10 August 2007 (has links) Αυτή η Διδακτορική Διατριβή πραγματεύεται το θέμα της ομαδοποίησης δεδομένων (clustering), καθώς και εφαρμογές των τεχνικών αυτών σε πραγματικά προβλήματα. Η παρουσίαση των επιμέρους θεμάτων και αποτελεσμάτων της διατριβής αυτής οργανώνεται ως εξής: Στο Κεφάλαιο 1 παρέχουμε τον ορισμό της Υπολογιστικής Νοημοσύνης σαν τομέας ερευνάς, και αναλύουμε τα ξεχωριστά τμήματα που τον αποτελούν. Για κάθε ένα από αυτά παρουσιάζεται μια σύντομη περιγραφή. Το Κεφάλαιο 2, ασχολείται με την ανάλυση του ερευνητικού πεδίου της ομαδοποίησης. Κάθε ένα από τα χαρακτηριστικά της αναλύεται ξεχωριστά και γίνεται μια επισκόπηση των σημαντικότερων αλγόριθμων ομαδοποίησης. Το Κεφάλαιο 3, αφιερώνεται στη παρουσίαση του αλγορίθμου UKW, που κατά την εκτέλεση του έχει την ικανότητα να προσεγγίζει το πλήθος των ομάδων σε ένα σύνολο δεδομένων. Επίσης παρουσιάζονται πειραματικά αποτελέσματα με σκοπό τη μελέτη της απόδοσης του αλγορίθμου. Στο Κεφάλαιο 4, προτείνεται μια επέκταση του αλγορίθμου UKW, σε μετρικούς χώρους. Η προτεινόμενη επέκταση διατηρεί όλα τα πλεονεκτήματα του αλγορίθμου UKW. Τα πειραματικά αποτελέσματα που παρουσιάζονται επίσης σε αυτό το κεφάλαιο, συγκρίνουν την προτεινόμενη επέκταση με άλλους αλγορίθμους. Στο επόμενο κεφάλαιο παρουσιάζουμε τροποποιήσεις του αλγορίθμου με στόχο την βελτίωση των αποτελεσμάτων του. Οι προτεινόμενες τροποποιήσεις αξιοποιούν πληροφορία από τα τοπικά χαρακτηριστικά των δεδομένων, ώστε να κατευθύνουν όσο το δυνατόν καλύτερα την αλγοριθμική διαδικασία. Το Κεφάλαιο 6, πραγματεύεται επεκτάσεις του αλγορίθμου σε κατανεμημένες Βάσεις δεδομένων. Για τις διάφορες υποθέσεις που μπορούν να γίνουν όσον αφορά τη φύση του περιβάλλοντος επικοινωνίας, παρουσιάζονται κατάλληλοι αλγόριθμοι. Στο Κεφάλαιο 7, εξετάζουμε την περίπτωση δυναμικών βάσεων δεδομένων. Σε ένα τέτοιο μη στατικό περιβάλλον αναπτύσσεται μια επέκταση του αλγορίθμου UKW, που ενσωματώνει τη δυναμική δομή δεικτοδότησης Bkd-tree. Επιπλέον παρουσιάζονται θεωρητικά αποτελέσματα για την πολυπλοκότητα χειρότερης περίπτωσης του αλγορίθμου. Το Κεφάλαιο 8, μελετά την εφαρμογή αλγορίθμων ομαδοποίησης σε δεδομένα γονιδιακών εκφράσεων. Επίσης προτείνεται και αξιολογείται ένα υβριδικό σχήμα που καταφέρνει να αυτοματοποιήσει την όλη διαδικασία επιλογής γονιδίων και ομαδοποίησης. Τέλος, η παρουσίαση του ερευνητικού έργου αυτής της διατριβής ολοκληρώνεται στο Κεφάλαιο 9 που ασχολείται με την ανάπτυξη υβριδικών τεχνικών που συνδυάζουν την ομαδοποίηση και τα Τεχνητά Νευρωνικά Δίκτυα, και αναδεικνύει τις δυνατότητες τους σε δύο πραγματικά προβλήματα. / This Doctoral Dissertation appoints the issue of data Clustering, as well as the applications of these kind of methods in real world problems. The presentation of the individual results of this dissertation is organised as follows: In Chapter 1, the definition of Computational Intelligence is provided as a research area. For each distinct part of this area a short description is supplied. Chapter 2, deals with the analysis of the research area of Clustering per se, and its characteristics are analysed separably. Moreover, we provide a review of the most representative clustering algorithms. Chapter 3, is devoted to the presentation of the UKW algorithm, that is able to endogenously provide approximations for the number of clusters in a dataset, during its execution. Furthermore, the included experimental results demonstrate the algorithm's efficiency. In Chapter 4, an extension of the UKW algorithm to metric spaces is proposed. This extension preserves all the advantages of the original algorithm. The included experimental results compare the proposed extension to other approaches. In the next chapter we present modifications of the UKW algorithm that scope to improve its efficiency. This is performed through the utilisation of information from the local characteristics of the data, so as to direct more efficiently the whole clustering procedure. Chapter 6, deals with extensions of the algorithm in distributed data bases. For the various assumptions that can be postulated for the nature of the communication environment different algorithms are proposed. In Chapter 7, we consider the case of dynamic databases. In such a non-static environment, an algorithm is developed that draws form the principles of the UKW algorithm, and embodies the dynamic indexing Bkd-tree data structure. Moreover, theoretical results are presented regarding the worst case complexity of the algorithm. Chapter 8, studies the application of clustering algorithms in gene expression data. Besides, it is proposed and evaluated, a hybrid algorithmic scheme that manages to automate the whole procedure of gene selection and clustering. Finally, the presentation of the research work of this dissertation is fulfilled in Chapter 9. This Chapter is devoted to the development of hybrid techniques that combine clustering methods and Artificial Neural Networks, and demonstrate their abilities in two real world problems. Εξόρυξη δεδομένων Βάσεις δεδομένων 006.3 Data clustering Computational intelligence Data mining Data bases Computational geometry
27	Υλοποίηση εφαρμογής εξόρυξης δεδομένων σε αποτελέσματα εντοπισμού της θέσης κινητού χρήστη και αξιοποίηση της πληροφορίας σε M-commerce εφαρμογές Μεττούρης, Χρίστος 07 November 2008 (has links) Στην παρούσα διπλωματική υλοποιείται εφαρμογή, η οποία χρησιμοποιεί τεχνικές εξόρυξης δεδομένων σε αποτελέσματα εντοπισμού της θέσης κινητού χρήστη για παραγωγή πληροφορίας σε μορφή κανόνων συσχέτισης, ενώ παράλληλα γίνεται αξιοποίηση των αποτελεσμάτων εντοπισμού της θέσης σε M-commerce εφαρμογές. Η εφαρμογή υλοποιήθηκε για χρήση της σε μια υπεραγορά, στην οποία οι πελάτες θα ανιχνεύονται στα διάφορα τμήματά της, κατά την πραγματοποίηση των αγορών τους. Από τα αποτελέσματα εντοπισμού της θέσης του χρήστη, παράγονται κανόνες συσχέτισης, οι οποίοι αφορούν τις ανιχνεύσεις των πελατών στα τμήματα αυτά. Επίσης παρουσιάζεται η πορεία των χρηστών στην υπεραγορά, ενώ τελικά αποστέλονται σε αυτούς M-commerce σχετικά μηνύματα. / In this thesis, we present an application that utilizes Data Mining techniques on data collected by a user positioning application, to extract useful information in the form of association Rules. Furthermore, user positioning results are being used for M-commerce purposes. The application is developed to be used by a supermarket, in which all customers are detected, so that their location becomes known. By using the positioning results, association rules are extracted. Apart from the extraction of association rules, the application presents each customer’s route in the supermarket. Finally, M-commerce related messages are being sent to the customers, according to their preferences, concerning the areas of the supermarket. Εξόρυξη δεδομένων Κανόνες συσχέτισης Κινητό εμπόριο 005.74 Data mining Association rules User positioning Mobile commerce Mobile advertising
28	Μεθοδολογικό πλαίσιο υποστήριξης της εξόρυξης γνώσης από δεδομένα με την χρήση αρχών της πολυκριτήριας ανάλυσης αποφάσεων Μαστρογιάννης, Νικόλαος 11 January 2010 (has links) Η εξόρυξη γνώση από δεδομένα είναι μια νέα και δυναμική τεχνολογία που βοηθάει τις επιχειρήσεις να επικεντρωθούν στην σημαντική πληροφορία που βρίσκεται μέσα στις αποθήκες δεδομένων τους, αναζητώντας κρυμμένα πρότυπα και ανακαλύπτοντας πληροφορίες που οι ειδικοί μπορεί να χάσουν ή να παραβλέψουν. Τα τελευταία χρόνια έχει αναπτυχθεί πλήθος αλγορίθμων της εξόρυξης δεδομένων, οι οποίοι ακολουθούν διαφορετικές μεθοδολογικές προσεγγίσεις, ενώ ταυτόχρονα παρουσιάζουν σημαντική ποικιλία εφαρμογών. Η προσπάθεια ωστόσο για βελτιωμένους και αποδοτικότερους αλγορίθμους συνεχίζεται. Η παρούσα διδακτορική διατριβή έχει σαν βασικό της στόχο να συνεισφέρει στην προσπάθεια αυτή, βελτιώνοντας και ενισχύοντας την θεωρητική θεμελίωση υφιστάμενων αλγορίθμων της εξόρυξης δεδομένων. Ειδικότερα, μέσα από μια διαφορετική λογική, η οποία βασίζεται σε έννοιες και διαδικασίες της πολυκριτήριας ανάλυσης αποφάσεων, και ειδικότερα της μεθόδου ELECTRE I της θεωρίας των σχέσεων υπεροχής, η διδακτορική διατριβή αναπτύσσει ένα νέο μεθοδολογικό πλαίσιο για την εξόρυξη δεδομένων. Ενσωματώνοντας στην συνέχεια αυτό το μεθοδολογικό πλαίσιο σε υφιστάμενους αλγορίθμους, δημιουργούνται ουσιαστικά νέοι, αποτελεσματικότεροι και ακριβέστεροι αλγόριθμοι, για επιμέρους διαδικασίες και εφαρμογές της εξόρυξης δεδομένων. Πιο συγκεκριμένα, το προτεινόμενο μεθοδολογικό πλαίσιο, εφαρμόστηκε, με τις αναγκαίες τροποποιήσεις, στις διαδικασίες της ταξινόμησης και της ομαδοποίησης κατηγορικών αντικειμένων, μέσω των μεθόδων CLEDM και CLEKMODES, αντίστοιχα. Τα καλά αποτελέσματα από την εφαρμογή των παραπάνω μεθόδων σε μια σειρά ευρέως χρησιμοποιούμενων βάσεων δεδομένων, σε συνδυασμό με την δυνατότητα επέκτασης του μεθοδολογικού πλαισίου και σε άλλες διαδικασίες της εξόρυξης δεδομένων, διαμορφώνουν ένα νέο «υβριδικό» πεδίο έρευνας. Το πεδίο αυτό, αφενός έχει την δυναμική παραγωγής συνεχώς καλύτερων αλγορίθμων για την εξόρυξη δεδομένων, αφετέρου μπορεί να εξερευνήσει εις βάθος και να τυποποιήσει περαιτέρω την αλληλεπίδραση της εξόρυξης δεδομένων με την πολυκριτήρια ανάλυση αποφάσεων. / Data mining is a new and advancing technology that helps corporations to focus on the most important pieces of information stored in their data warehouses. In particular, data mining searches for hidden patterns and is able to discover information that otherwise could be missed or overlooked by experts. During the last years, a series of data mining algorithms has been developed. These algorithms are based on different methodological patterns and they can be implemented to solve a large variety of applications. However, the effort to build more advanced and efficient data mining algorithms has never stopped. The goal of this PhD thesis is to significantly contribute to the above effort by enhancing and improving the theoretical framework of existing data mining algorithms. More specifically, a different theoretical perspective is introduced, that is based on concepts and procedures of multicriteria analysis and in particular the ELECTRE I method of the outranking relations theory. Consequently, the PhD thesis develops a new methodological framework for data mining that can be incorporated to existing algorithms. This incorporation essentially develops new, more effective and accurate data mining algorithms, for a series of tasks and applications. In particular, the proposed methodological framework was applied, properly modified, to the tasks of classification and clustering, through the CLEDM and CLEKMODES methods, respectively. The good results of these methods in a series of widely used databases, and the perspective of expanding the new methodological framework to other data mining tasks as well, are able to introduce a new “hybrid” research field. This research field has the potential of producing better data mining algorithms and furthermore the potential to thoroughly explore and further formalize the interaction of data mining and multicriteria analysis. Εξόρυξη δεδομένων Βάσεις δεδομένων Μέθοδος ELECTRE I Αλγόριθμοι Ταξινόμηση Ομαδοποίηση 006.312 Data mining Databases Multicriteria analysis ELECTRE I method Algorithms Classification Clustering
29	Μηχανική μάθηση σε ανομοιογενή δεδομένα / Machine learning in imbalanced data sets Λυπιτάκη, Αναστασία Δήμητρα Δανάη 07 July 2015 (has links) Οι αλγόριθμοι μηχανικής μάθησης είναι επιθυμητό να είναι σε θέση να γενικεύσουν για οποιασδήποτε κλάση με ίδια ακρίβεια. Δηλαδή σε ένα πρόβλημα δύο κλάσεων - θετικών και αρνητικών περιπτώσεων - ο αλγόριθμος να προβλέπει με την ίδια ακρίβεια και τα θετικά και τα αρνητικά παραδείγματα. Αυτό είναι φυσικά η ιδανική κατάσταση. Σε πολλές εφαρμογές οι αλγόριθμοι καλούνται να μάθουν από ένα σύνολο στοιχείων, το οποίο περιέχει πολύ περισσότερα παραδείγματα από τη μια κλάση σε σχέση με την άλλη. Εν γένει, οι επαγωγικοί αλγόριθμοι είναι σχεδιασμένοι να ελαχιστοποιούν τα σφάλματα. Ως συνέπεια οι κλάσεις που περιέχουν λίγες περιπτώσεις μπορούν να αγνοηθούν κατά ένα μεγάλο μέρος επειδή το κόστος λανθασμένης ταξινόμησης της υπερ-αντιπροσωπευόμενης κλάσης ξεπερνά το κόστος λανθασμένης ταξινόμησης της μικρότερη κλάση. Το πρόβλημα των ανομοιογενών συνόλων δεδομένων εμφανίζεται και σε πολλές πραγματικές εφαρμογές όπως στην ιατρική διάγνωση, στη ρομποτική, στις διαδικασίες βιομηχανικής παραγωγής, στην ανίχνευση λαθών δικτύων επικοινωνίας, στην αυτοματοποιημένη δοκιμή του ηλεκτρονικού εξοπλισμού, και σε πολλές άλλες περιοχές. Η παρούσα διπλωματική εργασία με τίτλο ‘Μηχανική Μάθηση με Ανομοιογενή Δεδομένα’ (Machine Learning with Imbalanced Data) αναφέρεται στην επίλυση του προβλήματος αποδοτικής χρήσης αλγορίθμων μηχανικής μάθησης σε ανομοιογενή/ανισοκατανεμημένα δεδομένα. Η διπλωματική περιλαμβάνει μία γενική περιγραφή των βασικών αλγορίθμων μηχανικής μάθησης και των μεθόδων αντιμετώπισης του προβλήματος ανομοιογενών δεδομένων. Παρουσιάζεται πλήθος αλγοριθμικών τεχνικών διαχείρισης ανομοιογενών δεδομένων, όπως οι αλγόριθμοι AdaCost, Cost Senistive Boosting, Metacost και άλλοι. Παρατίθενται οι μετρικές αξιολόγησης των μεθόδων Μηχανικής Μάθησης σε ανομοιογενή δεδομένα, όπως οι καμπύλες διαχείρισης λειτουργικών χαρακτηριστικών (ROC curves), καμπύλες ακρίβειας (PR curves) και καμπύλες κόστους. Στο τελευταίο μέρος της εργασίας προτείνεται ένας υβριδικός αλγόριθμος που συνδυάζει τις τεχνικές OverBagging και Rotation Forest. Συγκρίνεται ο προτεινόμενος αλγόριθμος σε ένα σύνολο ανομοιογενών δεδομένων με άλλους αλγόριθμους και παρουσιάζονται τα αντίστοιχα πειραματικά αποτελέσματα που δείχνουν την καλύτερη απόδοση του προτεινόμενου αλγόριθμου. Τελικά διατυπώνονται τα συμπεράσματα της εργασίας και δίνονται χρήσιμες ερευνητικές κατευθύνσεις. / Machine Learning (ML) algorithms can generalize for every class with the same accuracy. In a problem of two classes, positive (true) and negative (false) cases-the algorithm can predict with the same accuracy the positive and negative examples that is the ideal case. In many applications ML algorithms are used in order to learn from data sets that include more examples from the one class in relationship with another class. In general inductive algorithms are designed in such a way that they can minimize the occurred errors. As a conclusion the classes that contain some cases can be ignored in a large percentage since the cost of the false classification of the super-represented class is greater than the cost of false classification of lower class. The problem of imbalanced data sets is occurred in many ‘real’ applications, such as medical diagnosis, robotics, industrial development processes, communication networks error detection, automated testing of electronic equipment and in other related areas. This dissertation entitled ‘Machine Learning with Imbalanced Data’ is referred to the solution of the problem of efficient use of ML algorithms with imbalanced data sets. The thesis includes a general description of basic ML algorithms and related methods for solving imbalanced data sets. A number of algorithmic techniques for handling imbalanced data sets is presented, such as Adacost, Cost Sensitive Boosting, Metacost and other algorithms. The evaluation metrics of ML methods for imbalanced datasets are presented, including the ROC (Receiver Operating Characteristic) curves, the PR (Precision and Recall) curves and cost curves. A new hybrid ML algorithm combining the OverBagging and Rotation Forest algorithms is introduced and the proposed algorithmic procedure is compared with other related algorithms by using the WEKA operational environment. Experimental results demonstrate the performance superiority of the proposed algorithm. Finally, the conclusions of this research work are presented and several future research directions are given. Ανομοιογενή δεδομένα Μηχανική μάθηση Εξόρυξη δεδομένων Σύνολα ταξινομητών Καμπύλη ROC Καμπύλη PRC Αλγόριθμος Bagging Αλγόριθμος Rotation forest 006.31 Machine learning Imbalanced data sets Data mining ROC curves PRC curves Bagging algorithm Rotation forest algorithm
30	Σχεδίαση και ανάπτυξη ολοκληρωμένου συστήματος δυναμικής ανάλυσης και πρόβλεψης της επίδοσης εκπαιδευόμενων σε συστήματα ανοιχτής και εξ' αποστάσεως εκπαίδευσης Χαλέλλη, Ειρήνη 05 February 2015 (has links) Η ραγδαία ανάπτυξη και διείσδυση των νέων τεχνολογιών πληροφορίας και επικοινωνίας έχει επιφέρει ριζικές αλλαγές σε όλους τους τομείς της ανθρώπινης δράσης (Castells, 1998). Ιδιαίτερο ενδιαφέρον παρουσιάζει η επιρροή των τεχνολογιών αυτών στον τομέα της εκπαίδευσης. Οι εξελίξεις στον χώρο της τεχνολογίας και επικοινωνίας καθώς και η διάδοση του Internet μετεξέλιξαν αναπόφευκτα την εκπαιδευτική διαδικασία, από το κλασσικό συγκεντρωτικό μοντέλο σε ένα πιο άμεσο και ευέλικτο: η «εξ’ Αποστάσεως Εκπαίδευση» (e-learning) είναι μια εναλλακτική μορφή εκπαίδευσης, που επιδιώκει να καλύψει τους περιορισμούς της παραδοσιακής εκπαίδευσης. Στην παρούσα μεταπτυχιακή διπλωματική εργασία σχεδιάστηκε και υλοποιήθηκε ένα ολοκληρωμένο σύστημα Δυναμικής Ανάλυσης και Πρόβλεψης της επίδοσης των εκπαιδευομένων, για ένα σύστημα εξ΄ αποστάσεως εκπαίδευσης. Η βασική ιδέα εμφορείται από την ανάγκη των ιδρυμάτων εξ΄ αποστάσεως εκπαίδευσης, για την κάλυψη των εκπαιδευτικών αναγκών και την παροχή υψηλής ποιότητας σπουδών. Η εξόρυξη γνώσης για την πρόβλεψη της επίδοσης των εκπαιδευομένων συμβάλλει καθοριστικά στην επίτευξη υψηλής ποιότητας σπουδών. Η ικανότητα και η δυνατότητα πρόβλεψης της απόδοσης των εκπαιδευομένων μπορεί να φανεί χρήσιμη με αρκετούς τρόπους για την διαμόρφωση ενός συστήματος, που θα μπορεί να αποτρέψει την αποτυχία καθώς και την παραίτηση των εκπαιδευομένων. Αξίζει να σημειωθεί ότι στα συστήματα εξ’ αποστάσεως εκπαίδευσης η συχνότητα «εγκατάλειψης» είναι αρκετά υψηλότερη από αυτή στα συμβατικά πανεπιστήμια. Για την πρόβλεψη της επίδοσης των εκπαιδευομένων, η απαιτούμενη πληροφορία βρίσκεται «κρυμμένη» στο εκπαιδευτικό σύνολο δεδομένων (δλδ. βαθμοί γραπτών εργασιών, βαθμοί τελικής εξέτασης, παρουσίες φοιτητών) και είναι εξαγώγιμη με τεχνικές εξόρυξης. Η χρήση μεθόδων εξόρυξης δεδομένων (data mining) στον τομέα της εκπαίδευσης παρουσιάζει αυξανόμενο ερευνητικό ενδιαφέρον. Ο νέος αυτός «αναπτυσσόμενος» τομέας έρευνας, που ονομάζεται «Εκπαιδευτική Εξόρυξη Δεδομένων», ασχολείται με την ανάπτυξη μεθόδων εξόρυξης «γνώσης» από τα εκπαιδευτικά σύνολα δεδομένων. Πράγμα που επιτυγχάνεται με τη χρήση τεχνικών όπως τα δέντρα απόφασης, τα Νευρωνικά Δίκτυα, Naïve Bayes, k-means, κλπ. Η παρούσα εργασία έχει σχεδιαστεί να προσφέρει ένα μοντέλο εξόρυξης δεδομένων χρησιμοποιώντας τη μέθοδο των δέντρων απόφασης, για το σύστημα τριτοβάθμιας εκπαίδευσης στο ανοιχτό πανεπιστήμιο. Η «γνώση» που προκύπτει από τα δεδομένα εξόρυξης θα χρησιμοποιηθεί με στόχο την διευκόλυνση και την ενίσχυση της μάθησης, καθώς επίσης και στη λήψη αποφάσεων. Στην παρούσα εργασία, εξάγουμε «γνώση» που σχετίζεται με τις επιδόσεις των μαθητών στην τελική εξέταση. Επίσης, γίνεται εντοπισμός των ατόμων που εγκαταλείπουν το μάθημα και των μαθητών που χρειάζονται ιδιαίτερη προσοχή και εντέλει δίνει τη δυνατότητα στους καθηγητές να παράσχουν την κατάλληλη παροχή συμβουλών. / The rapid development and intrusion of information technology and communications have caused radical changes in all sectors of human’s activity. (Castells, 1998). Of particular interest is the great technology’s influence on education. Due to the adoption of the new technologies, e-learning has been emerged and developed. As a result, distance learning has transformed and new possibilities have appeared. It is remarkable that distance learning became and considered as a scout of the new era in education and contributed to the quality of education: e-learning is trying to cover the limitations of conventional teaching environment. In the present thesis, an integrated system of dynamic analysis and prediction of the performance of students in distance education has been designed and implemented. The initial idea for designing this system came from the higher distance education institutes’ need to provide quality education to its students and to improve the quality of managerial decisions. One way to achieve highest level of quality in higher distance education e-learning system is by discovering knowledge from educational data to study the main attributes that may affect the students’ performance. The discovered knowledge can be used to offer a helpful and constructive recommendations to the academic planners in higher distance education institutes to enhance their decision making process, to improve students’ academic performance, trim down failure rate and dropout rate, to assist instructors, to improve teaching and many other benefits. Dropout rates in university level distance learning are definitely higher than those inconventional universities, thus limiting dropout is essential in university-level distance learning. Εξόρυξη δεδομένων Ταξινόμηση Δέντρα απόφασης J48 αλγόριθμος BFTree αλγόριθμος REPTree αλγόριθμος ΕΑΠ Εκπαίδευση Σύστημα πρόβλεψης 006.312 Data mining Classification Weka Decision trees J48 algorithm REPTree algorithm BFTree algorithm Hellenic Open University Recommendation system e-Learning

Search results