Spelling suggestions: "subject:"εξόρυξη γνώση"" "subject:"εξόρυξης γνώση""
1 |
Εφαρμογή τεχνικών data mining σε συστήματα ηλεκτρονικού εμπορίουΚουρής, Γιάννης Ν. 17 June 2009 (has links)
Η παρούσα διατριβή ασχολήθηκε με την εφαρμογή τεχνικών data mining σε συστήματα
ηλεκτρονικού εμπορίου. Για να είμαστε πιο ακριβείς επικεντρωθήκαμε στην εύρεση κανόνων
συσχετίσεων από δεδομένα, και κύρια δεδομένα που είχαν να κάνουν με βάσεις συναλλαγών.
Η βασική ιδέα ενός κανόνα συσχετίσεως είναι να αναπτύξει μια συστηματική μέθοδο με την
οποία ένας χρήστης μπορεί να προβλέψει την εμφάνιση κάποιων αντικειμένων, δοσμένης της
ύπαρξης κάποιων άλλων σε μια συναλλαγή, και συνήθως αποτελούν συνεπαγωγές της μορφής
Χ=>Y. Παράδειγμα ενός τέτοιου κανόνα είναι: “οι πελάτες που αγοράζουν κινητά τηλέφωνα
και handsfree αγοράζουν και θήκη για το κινητό τους”. Τα τελευταία χρόνια είχε γίνει κοινός
τόπος όλων των μελετών και των ερευνητών οι αδυναμίες και τα μειονεκτήματα του μοντέλου
εύρεσης κανόνων συσχετίσεων. Στόχος μας ήταν να επιλύσουμε υπάρχοντα προβλήματα αλλά
και να εκθέσουμε και να αντιμετωπίσουμε κάποια νέα. Σαν σύγγραμμα η παρούσα διατριβή
μπορεί να χωριστεί σε τρία κομμάτια. Το πρώτο είναι τα τρία πρώτα κεφάλαια, τα οποία και
αποτελούν εισαγωγικά κεφάλαια απαραίτητα για την υποστήριξη και κατανόηση της δουλειάς
μας. Ακολούθως τα κεφάλαια 4 έως 8 αποτελούν το δεύτερο και κύριο κομμάτι της παρούσας
διατριβής, και περιγράφουν διάφορες τεχνικές και προτάσεις μας, αποτελέσματα της ερευνάς
μας. Το τρίτο και τελευταίο κομμάτι της διατριβής, αναφορικά το Κεφάλαιο 9, αποτελεί την
σύνοψη ολόκληρης της εργασίας μας όπου παραθέτουμε εν συντομία την τελική προσφορά μας
στο χώρο, δίνουμε πιθανές εφαρμογές των προτάσεων μας, και τέλος προτείνουμε μελλοντικές
κατευθύνσεις της έρευνας σε ανοιχτά πεδία – προβλήματα. / -
|
2 |
Τεχνικές για προσαρμοστική και προσωποποιημένη πρόσβαση σε ιστοσελίδεςΤσάκου, Αναστασία 10 June 2014 (has links)
Ο μεγάλος όγκος σελίδων και υπηρεσιών στο Διαδίκτυο αρκετές φορές δημιουργεί προβλήματα πλοήγησης με αποτέλεσμα η αναζήτηση εγγράφων και πληροφοριών να είναι μια εξαιρετικά χρονοβόρα και δύσκολη διαδικασία. Για το λόγο αυτό είναι απαραίτητη η πρόβλεψη των αναγκών των χρηστών με στόχο τη βελτίωση της χρηστικότητας του Διαδικτύου αλλά και της παραμονής του χρήστη σε έναν δικτυακό τόπο. Ο στόχος αυτής της διπλωματικής εργασίας είναι αρχικά να παρουσιάσει μεθόδους και τεχνικές που χρησιμοποιούνται για την εξατομίκευση και προσαρμογή στα ενδιαφέροντα του χρήστη, δικτυακών τόπων. Η εξατομίκευση περιλαμβάνει τη χρήση πληροφοριών που προέρχονται από τα ενδιαφέρονται και τη συμπεριφορά πλοήγησης του χρήστη σε συνδυασμό με το περιεχόμενο και τη δομή του δικτυακού τόπου. Στη συνέχεια παρουσιάζεται ένα σύστημα αναδιοργάνωσης της δομής ενός δικτυακού τόπου, του οποίου η υλοποίηση βασίστηκε στη δημοτικότητα των σελίδων για κάθε χρήστη όπως αυτή προκύπτει από τα log αρχεία που διατηρεί ο server του δικτυακού τόπου. Τέλος, το σύστημα αυτό εφαρμόζεται σε έναν πειραματικό δικτυακό τόπο και γίνεται αξιολόγηση των αποτελεσμάτων εφαρμογής του. / The large number of web pages on many Web sites has raised navigation problems. As a result, users often miss the goal of their inquiry, or receive ambiguous results when they try to navigate through them. Therefore, the requirement for predicting user needs in order to improve the usability and user retention of a Web Site is more than ever, indispensable. The primary purpose of this thesis is to explore methods and techniques for improving or “personalizing” Web Sites. Web personalization includes any action that adapts the information or services provided by a Web site to the needs of a particular user or a set of users, taking advantage of the knowledge gained from the users’ navigation behavior and interests in combination with the content and structure of the Web Site. Secondly, this thesis describes the implementation of a tool (reorganization software) which parses log files and uses specific metrics related to web page accesses, in order to reorganize the structure of a web site according to its users’ preferences. Finally, the tool is applied in an experimental Web Site and the results of this reorganization process are evaluated.
|
3 |
Ομάδες ταξινομητών για την αύξηση της ακρίβειας των μεθόδων μηχανικής μάθησης και εξόρυξης γνώσης / Improving the accuracy of machine learning and data mining techniques using ensembles of classifiersΚωτσιαντής, Σωτήρης 24 June 2007 (has links)
Στην περίπτωση της αναζήτησης της βέλτιστης ακρίβειας από ένα σύστημα εξόρυξης γνώσης είναι αδύνατο ένας αλγόριθμος που βασίζεται σε μια και μόνο μέθοδο μηχανικής μάθησης να υπερτερεί σε ακρίβεια μιας ομάδας ταξινομητών. Γι’ αυτό το λόγο θα παρουσιαστούν διάφοροι προτεινόμενοι νέοι τρόποι συνδυασμού των αποφάσεων των αλγορίθμων μάθησης οι οποίοι αναπτύχθηκαν στα πλαίσια της διατριβής. Επίσης, θα παρουσιαστεί ένας προτεινόμενος υβριδικός τρόπος επιλογής των ανεξάρτητων μεταβλητών για τους αλγόριθμους μάθησης. Στη συνέχεια, θα παρουσιαστούν κάποιοι νέοι προτεινόμενοι αλγόριθμοι που αναπτύχθηκαν για την αντιμετώπιση προβλημάτων ειδικής δυσκολίας όπως η μάθηση: α) σε ανομοιογενή δεδομένα, β) σε προβλήματα πραγματικού χρόνου και γ) σε προβλήματα βαθμωτής συνάρτησης στόχου. Τέλος, περιγράφεται η δυνατότητα χρησιμοποίησης των μεθόδων μηχανικής μάθησης για εκπαιδευτικούς σκοπούς, όπως στην πρόβλεψη της επίδοσης των φοιτητών στο Ανοιχτό Πανεπιστήμιο. Στη συνέχεια, θα παρουσιαστεί και ένα εργαλείο υποστήριξης των αποφάσεων που αναπτύχθηκε για αυτό το σκοπό. Η παρουσίαση τελειώνει παραθέτοντας κάποια ανοιχτά επιστημονικά ζητήματα του χώρου. / Ensembles of classifiers is a new direction for the improvement of the classification accuracy. For this reason, we present a number of new proposed methods for combining classifiers. We also introduce a new hybrid method for feature selection that is a very important step of the data mining process. Moreover, we present a number of new algorithms for handling special learning problems such as: a) problems with imbalanced datasets, b) real time problems and c) ordinal classification problems. Furthermore, we have used machine learning techniques for educational applications.
|
4 |
Εξόρυξη γνώσης απο μέσα κοινωνικής δικτύωσης: Μελέτη περίπτωσης στο TwitterΝεράντζης, Δημήτριος 12 April 2013 (has links)
Σε αυτήν την εργασία χρησιμοποιούμε το μέσο κοινωνικής δικτύωσης "twitter" (https://twitter.com/) για την συλλογή μηνυμάτων που αφορούν τις εξελίξεις στην ευρωζώνη και την εφαρμογή μεθόδων επιβλεπόμενης μηχανικής μάθησης για την "εκπαίδευση" ενός κατηγοριοποιητή ο οποίος θα διαχωρίζει τα μηνύματα σε "θετικά" και "αρνητικά"
ανάλογα με την είδηση ή την άποψη που περιέχουν. Οι μέθοδοι κατηγοριοποίησης που εφαρμόστηκαν ήταν οι k πλησιέστεροι γείτονες, μηχανές διανυσμάτων υποστήριξης και αφελής Μπεϊζιανός κατηγοριοποιητής.
Ο ταξινομητής θα μπορούσε να χρησιμοποιηθεί σε ένα απλό πρόγραμμα το οποίο ημερησίως θα συλλέγει και θα ταξινομεί, αυτομάτως, σχετικά μηνύματα. Μία μακρυπρόθεσμη χρήση ενός τέτοιου προγράμματος θα μας έδινε σαν αποτέλεσμα δεδομένα σε μορφή χρονοσειράς τα οποία στην συνέχεια θα μπορούσαν να αναλυθούν για την εξαγωγή, πιθανώς, χρήσιμων συμπερασμάτων. / --
|
5 |
Αποδοτικοί αλγόριθμοι εξατομίκευσης βασισμένοι σε εξόρυξη γνώσης απο δεδομένα χρήσης Web / Effective personalization algorithms based on Web usage miningΡήγκου, Μαρία 25 June 2007 (has links)
Το Web αποτελεί πλέον µια τεράστια αποθήκη πληροφοριών και συνεχίζει να µεγαλώνει εκθετικά, ενώ η ανθρώπινη ικανότητα να εντοπίζει, να επεξεργάζεται και να αντιλαµβάνεται τις πληροφορίες παραµένει πεπερασµένη. Το πρόβληµα στις µέρες µας δεν είναι η πρόσβαση στην πληροφορία, αλλά το ότι όλο και περισσότεροι άνθρωποι µε διαφορετικές ανάγκες και προτιµήσεις πλοηγούνται µέσα σε περίπλοκες δοµές Web χάνοντας στην πορεία το στόχο της αναζήτησής τους. Η εξατοµίκευση, µια πολυσυλλεκτική ερευνητική περιοχή, αποτελεί µια από τις πιο πολλά υποσχόµενες προσεγγίσεις για τη λύση του προβλήµατος του πληροφοριακού υπερφόρτου, παρέχοντας κατάλληλα προσαρµοσµένες εµπειρίες πλοήγησης. Η διατριβή εξετάζει αλγοριθµικά θέµατα που σχετίζονται µε την υλοποίηση αποδοτικών σχηµάτων εξατοµίκευσης σε περιβάλλον web, βασισµένων σε εξόρυξη γνώσης από δεδοµένα χρήσης web. Οι τεχνικές ανακάλυψης προτύπων που µελετώνται περιλαµβάνουν το clustering, την εξόρυξη κανόνων συσχέτισης και την ανακάλυψη σειριακών προτύπων, ενώ οι προτεινόµενες λύσεις εξατοµίκευσης που βασίζονται στις δύο τελευταίες τεχνικές συνδυάζουν τα δεδοµένα χρήσης µε δεδοµένα περιεχοµένου και δοµής. Ειδικότερα, στο πρώτο κεφάλαιο της διατριβής, ορίζεται το επιστηµονικό πεδίο των σύγχρονων τεχνολογιών εξατοµίκευσης στο περιβάλλον του web, εστιάζοντας στη στενή σχέση τους µε το χώρο του web mining, στοιχειοθετώντας µε αυτό τον τρόπο το γενικότερο πλαίσιο αναφοράς. Στη συνέχεια, περιγράφονται τα διαδοχικά στάδια της τυπικής διαδικασίας εξατοµίκευσης µε έµφαση στη φάση ανακάλυψης προτύπων και τις τεχνικές machine learning που χρησιµοποιούνται σε δεδοµένα χρήσης web και το κεφάλαιο ολοκληρώνεται µε µια συνοπτική περιγραφή της συµβολής της διατριβής στο πεδίο της εξατοµίκευσης σε περιβάλλον web. Στο δεύτερο κεφάλαιο προτείνεται ένας αλγόριθµος για εξατοµικευµένο clustering, που βασίζεται σε µια δοµή range tree που διατρέχεται σε πρώτη φάση για τον εντοπισµό των web αντικειµένων που ικανοποιούν τα ατοµικά κριτήρια του χρήστη. Στα αντικείµενα αυτά, εφαρµόζεται στη συνέχεια clustering, ώστε να είναι δυνατή η αποδοτικότερη διαχείρισή τους και να διευκολυνθεί η διαδικασία λήψης αποφάσεων από πλευράς χρήστη. O αλγόριθµος που προτείνεται αποτελεί βελτίωση του αλγόριθµου kmeans range, καθώς εκµεταλλεύεται το range tree που έχει ήδη κατασκευαστεί κατά το βήµα της εξατοµίκευσης και το χρησιµοποιεί ως τη βασική δοµή πάνω στην οποία στηρίζεται το βήµα του clustering χρησιµοποιώντας εναλλακτικά του k-means, τον αλγόριθµο k-windows. Ο συνολικός αριθµός παραµέτρων που χρησιµοποιούνται για την µοντελοποίηση των αντικειµένων υπαγορεύει και τον αριθµό των διαστάσεων του χώρου εργασίας. Η συνολική πολυπλοκότητα χρόνου του αλγορίθµου είναι ίση µε O(logd-2n+v), όπου n είναι ο συνολικός αριθµός των στοιχείων που δίνονται σαν είσοδος και v είναι το µέγεθος της απάντησης. Στο τρίτο κεφάλαιο της διατριβής προτείνεται ένα αποδοτικό σχήµα πρόβλεψης µελλοντικών δικτυακών αιτήσεων βασισµένο στην εξόρυξη σειριακών προτύπων πλοήγησης (navigation patterns) από αρχεία server log, σε συνδυασµό µε την τοπολογία των συνδέσµων του website και τη θεµατική κατηγοριοποίηση των σελίδων του. Τα µονοπάτια που ακολουθούν οι χρήστες κατά την πλοήγηση καταγράφονται, συµπληρώνονται µε τα κοµµάτια που λείπουν λόγω caching και διασπώνται σε συνόδους και σε επεισόδια, ώστε να προκύψουν σηµασιολογικά πλήρη υποσύνολά τους. Τα πρότυπα που εντοπίζονται στα επεισόδια µοντελοποιούνται µε τη µορφή n-grams και οι αποφάσεις πρόβλεψης βασίζονται στη λογική ενός µοντέλου n-gram+ που προσοµοιάζει το all Kth-τάξης µοντέλο Markov και πιο συγκεκριµένα, το επιλεκτικό µοντέλο Markov. Η υβριδική προσέγγιση που υιοθετεί το προτεινόµενο σχήµα, επιτυγχάνει 100% coverage, ενώ κατά τις πειραµατικές µετρήσεις το άνω όριο της ακρίβειας έφθασε το 71,67% στο σύνολο των προβλέψεων που επιχειρήθηκαν. Το χαρακτηριστικό του πλήρους coverage καθιστά το σχήµα κατάλληλο για συστήµατα παραγωγής συστάσεων, ενώ η ακρίβεια µπορεί να βελτιωθεί περαιτέρω αν µεγαλώσει το παράθυρο πρόβλεψης. Στο τέταρτο κεφάλαιο της διατριβής, εξετάζεται η ενσωµάτωση λειτουργιών εξατοµίκευσης στις ηλεκτρονικές µαθησιακές κοινότητες και προτείνεται ένα σύνολο από δυνατότητες εξατοµίκευσης που διαφοροποιούνται ως προς τα δεδοµένα στα οποία βασίζονται, την τεχνική εξόρυξης προτύπων που χρησιµοποιούν και την αντίστοιχη πολυπλοκότητα υλοποίησης. Οι υπηρεσίες αυτές περιλαµβάνουν: (α) εξατοµίκευση µε βάση το ρόλο του χρήστη, (β) εξατοµίκευση µε βάση το βαθµό δραστηριοποίησης του χρήστη, (γ) εξατοµίκευση µε βάση την ανακάλυψη προτύπων στα ατοµικά ιστορικά µελέτης των εκπαιδευόµενων και (δ) εξατοµίκευση µε βάση συσχετίσεις του περιεχοµένου των µαθηµάτων. / The Web has become a huge repository of information and keeps growing exponentially under no editorial control, while the human capability to find, read and understand content remains constant. Providing people with access to information is not the problem; the problem is that people with varying needs and preferences navigate through large Web structures, missing the goal of their inquiry. Web personalization is one of the most promising approaches for alleviating this information overload, providing tailored Web experiences. The present dissertation investigates algorithmic issues concerning the implementation of effective personalization scenarios in the web environment, based on web usage mining. The pattern discovery techniques deployed comprise clustering, association rule mining and sequential pattern discovery, while the proposed personalization schemas based on the latter two techniques integrate usage data with content and structure information. The first chapter introduces the scientific field of current web personalization technology, focusing on its close relation with the web mining domain, providing this way the general framework of the dissertation. Next, the typical web personalization process is described with emphasis on the pattern discovery phase along with an overview of the machine learning techniques applied on web usage data. The chapter concludes with a synoptic description of the contribution of the dissertation to web personalization research and applications domian. The second chapter introduces an algorithm for personalized clustering based on a range tree structure, used for identifying all web objects satisfying a set of predefined personal user preferences. The returned objects go through a clustering phase before reaching the end user, thus allowing more effective manipulation and supporting the decision making process. The proposed algorithm improves the k-means range algorithm, as it uses the already constructed range tree (i.e. during the personalized filtering phase) as the basic structure on which the clustering step is based, applying instead of the kmeans, the k-windows algorithm. The total number of parameters used for modeling the web objects dictates the number of dimensions of the Euclidean space representation. The time complexity of the algorithm is O(logd-2n+v), where d is the number of dimensions, n is the total number of web objects and v is the size of the answer. The third chapter proposes an effective prediction schema for web requests based on extracting sequential navigational patterns from server log files, combined with the website link structure and the thematic categorization of its content pages. The schema records the paths followed by users when browsing through the website pages, completes them with the missing parts (due to caching) and identifies sessions and episodes, so as to derive meaningful path subsets. The patterns extracted from the episodes are modeled in the form of n-grams and the prediction decisions are based on an n-gram+ model that resembles an all Kth-order Markov model and more specifically a selective Markov model. The hybrid approach adapted achieves full-coverage prediction, and reached the upper limit of 71,67% presicion when tested at an experimental setting. The full-coverage feature makes the proposed schema quite suitable for recommendation engines, while precision is further improved when using a larger prediction window. The fourth chapter examines the integration of personalized functionalities in the framework of electronic learning communities and studies the advantages derived from generating dynamic adaptations on the layout, the content as well as the learning scenarios delivered to each community student based on personal data, needs and preferences. More specifically, the chapter proposes a set of personalization functions differentiated by the data they use, the pattern discovery technique they apply and the resulting implementation complexity. These services comprise: (a) personalization based on the user role in the community, (b) personalization based on the level of user activity, (c) personalization based on discovery of association rules in the personal progress files of students, and (d) personalization based on predefined content correlations among learning topics.
|
6 |
Αλγόριθμοι εξαγωγής κανόνων συσχέτισης και εφαρμογέςΜουσουρούλη, Ιωάννα 24 October 2008 (has links)
Η παρούσα μεταπτυχιακή εργασία έχει στόχο τη μελέτη προβλημάτων «κρυμμένης γνώσης» από συστήματα και εφαρμογές ηλεκτρονικού εμπορίου (e-commerce) και ηλεκτρονικής μάθησης (e-learning) με κύριο στόχο τη βελτίωση της ποιότητας και της απόδοσης των παρεχόμενων υπηρεσιών προς τους τελικούς χρήστες.
Στο πρώτο κεφάλαιο παρουσιάζεται ένα σενάριο για σημασιολογικά εξατομικευμένο e-learning. Ο προτεινόμενος αλγόριθμος βασίζεται σε μια οντολογία (ontology) η οποία βοηθά στη δόμηση και στη διαχείριση του περιεχομένου που σχετίζεται με μια δεδομένη σειρά μαθημάτων, ένα μάθημα ή ένα θεματικό. Η διαδικασία χωρίζεται σε δύο στάδια: στο offline στάδιο το οποίο περιλαμβάνει τις ενέργειες προετοιμασίας των δεδομένων, δημιουργίας της οντολογίας και εξόρυξης από δεδομένα χρήσης (usage mining) και στο online στάδιο το οποίο περιλαμβάνει την εξαγωγή των εξατομικευμένων συστάσεων. Το προτεινόμενο σύστημα σε πρώτη φάση βρίσκει ένα αρχικό σύνολο συστάσεων βασισμένο στην οντολογία του πεδίου και στη συνέχεια χρησιμοποιεί τα frequent itemsets (συχνά εμφανιζόμενα σύνολα στοιχείων) για να το εμπλουτίσει, λαμβάνοντας υπόψη την πλοήγηση άλλων παρόμοιων χρηστών (similar users). Με τον τρόπο αυτό, μειώνεται ο χρόνος που απαιτείται για την ανάλυση όλων των frequent itemsets και των κανόνων συσχέτισης. Η ανάλυση εστιάζεται μόνο σε εκείνα τα σύνολα που προέρχονται από το συνδυασμό της ενεργούς συνόδου (current session) του χρήστη και των συστάσεων της οντολογίας. Αν και η εξατομίκευση απαιτεί αρκετά βήματα επεξεργασίας και ανάλυσης, στη συγκεκριμένη προσέγγιση το εμπόδιο αυτό αποφεύγεται με την εκτέλεση σημαντικού μέρους της διαδικασίας offline.
Στο δεύτερο κεφάλαιο μελετάται το πρόβλημα της παραγωγής προτάσεων σε μια εφαρμογή e-commerce. Η προτεινόμενη υβριδική προσέγγιση στοχεύει στην παραγωγή αποτελεσματικών συστάσεων για τους πελάτες ενός online καταστήματος που ενοικιάζει κινηματογραφικές ταινίες. Η γνώση για τους πελάτες και τα προϊόντα προκύπτει από τα δεδομένα χρήσης και τη δομή της οντολογίας σε συνδυασμό με τις εκτιμήσεις-βαθμολογίες των πελατών για τις ταινίες καθώς και την εφαρμογή τεχνικών ταιριάσματος «όμοιων» πελατών. Όταν ένα ή περισσότερα κριτήρια ταιριάσματος ικανοποιούνται, τότε άλλες ταινίες μπορούν να προσδιοριστούν σύμφωνα με το οντολογικό σχήμα που έχουν παρόμοια χαρακτηριστικά με αυτές που ο πελάτης έχει ήδη νοικιάσει. Στην περίπτωση ενός νέου πελάτη όπου το ιστορικό του είναι κενό, αναλύονται πληροφορίες από την αίτηση εγγραφής του ώστε να ταξινομηθεί σε μια συγκεκριμένη κλάση πελατών και να παραχθούν προτάσεις με βάση το οντολογικό σχήμα. Αυτή η ενοποίηση παρέχει πρόσθετη γνώση για τις προτιμήσεις των πελατών και επιτρέπει την παραγωγή επιτυχημένων συστάσεων. Ακόμη και στην περίπτωση του «cold-start problem» όπου δεν είναι διαθέσιμη αρχική πληροφορία για τη συμπεριφορά του πελάτη, η προσέγγιση προβαίνει σε σχετικές συστάσεις.
Στο τρίτο κεφάλαιο παρουσιάζεται μία νέα προσέγγιση στο πρόβλημα της δημιουργίας συστάσεων. Οι προηγούμενες προσεγγίσεις δεν λαμβάνουν υπόψη τους τη σειρά με την οποία ο χρήστης προσπελαύνει τα δεδομένα, είτε πρόκειται για e-learning είτε πρόκειται για e-commerce δεδομένα. Στο κεφάλαιο αυτό προτείνεται μία τεχνική η οποία λαμβάνει υπόψη τη σειρά με την οποία ο χρήστης προσπελαύνει τα δεδομένα (ordering). Πιο συγκεκριμένα μελετάται η τεχνική αυτή σε e-commerce συστήματα και καλάθια αγορών. Παρουσιάζεται και αναλύεται η υλοποίηση του προτεινόμενου αλγορίθμου. Επιπλέον γίνεται αξιολόγηση των αποτελεσμάτων του αλγορίθμου σε testing input data τα οποία και δείχνουν την ποιότητα των παραγόμενων συστάσεων. / -
|
7 |
Μελέτη εφαρμογών μεθόδων εξόρυξης γνώσης σε κοινωνικά δίκτυαΧριστακοπούλου, Ευαγγελία 03 October 2011 (has links)
Ένα βασικό ανοιχτό ερώτημα στην ανάλυση των online κοινωνικών δικτύων είναι η κατανόηση του φαινομένου της ομοφιλίας. Οι χρήστες τους είναι όμοιοι με τους φίλους τους, όσον αφορά τα ενδιαφέροντά τους. Στη διπλωματική αυτή εργασία, επιχειρείται η διερεύνηση του φαινομένου της ομοφιλίας στο Facebook και στο Twitter. Τα datasets τα οποία εξορύχθηκαν για αυτήν τη διπλωματική εργασία αφορούν τους Έλληνες χρήστες. Ακόμη, εισάγεται ένα νέο μοντέλο για τη μέτρηση της ομοιότητας μεταξύ των χρηστών , ως προς τα κοινά τους ενδιαφέροντα – το προσαρμοσμένο vector space μοντέλο. Το μοντέλο αυτό συγκρίνεται με τη διαδεδομένη μέθοδο των κοινών γειτόνων. Τέλος, προτείνεται η δημιουργία recommendations βάσει των κοινών ενδιαφερόντων των χρηστών και όχι μόνο βάσει των κοινών φίλων . Μάλιστα, κατασκευάζεται μια web application η οποία δείχνει το πώς μπορεί να πραγματοποιηθεί αυτό, κάνοντας homophily-based recommendations και χρησιμοποιώντας το προσαρμοσμένο vector space μοντέλο. / A fundamental open question in social networking analysis is the research of the phenomenon of homophily. The users of the social networking sites are similar to their friends, regarding their interests, their hobbies and their topics of discussion. In this diploma thesis, the study of the phenomenon of homophily is attempted in two main and popular networking sites- Facebook and Twitter. The datasets that were mined for the purpose of this diploma thesis concern the Greek users of the two above-mentioned social networking sites.Moreover, a new method for measuring similarity between users regarding their common interests is introduced- the so-called “adapted vector-space model”. This model is compared to the popular method of common neighbors. Finally, the creation of recommendations based on the common interests of users (and not only based on the existence of common friends, as is the case with the existing situation) is suggested. What is more, a web application is constructed that shows how this can be implemented. This application makes homophily-based recommendations and it uses the adapted vector-space model.
|
8 |
Εξόρυξη πληροφορίας από βιοϊατρική βιβλιογραφία : εφαρμογή στην ανάλυση κειμένων (text mining) από πηγές στον παγκόσμιο ιστόΙωάννου, Ζαφειρία - Μαρίνα 23 January 2012 (has links)
Τα τελευταία χρόνια, υπάρχει ένα αυξανόμενο ενδιαφέρον για την αυτόματη εξόρυξη κειμένων (Text Mining) με βιοϊατρικό περιεχόμενο, λόγω της ραγδαίας αύξησης των δημοσιεύσεων που είναι αποθηκευμένες σε ηλεκτρονική μορφή σε Βάσεις Δεδομένων του Παγκόσμιου Ιστού, όπως το PubMed και το Springerlink.
Το βασικό πρόβλημα που κάνει αυτό τον στόχο περισσότερο προκλητικό και δύσκολο είναι η αδυναμία της επεξεργασίας της διαθέσιμης αυτής πληροφορίας και της εξαγωγής χρήσιμων συνδέσεων και συμπερασμάτων. Κρίνεται, επομένως, επιτακτική η ανάπτυξη νέων εργαλείων που θα διευκολύνουν την εξόρυξη γνώσης από κείμενα βιολογικού περιεχομένου.
Σκοπός της παρούσας διπλωματικής εργασίας είναι αρχικά η παρουσίαση γνωστών μεθόδων εξόρυξης δεδομένων από κείμενα αλλά και η ανάπτυξη ενός εργαλείου για την αποδοτική και αξιόπιστη ανακάλυψη γνώσεων από βιοϊατρική βιβλιογραφία που να βασίζεται σε προηγμένες τεχνικές εξόρυξης γνώσης από κείμενα.
Πιο συγκεκριμένα, η προσπάθειά μας επικεντρώνεται στην ανάπτυξη ενός αποδοτικού αλγόριθμου συσταδοποίησης και τη χρήση αποδοτικών τεχνικών που αξιολογούν τα αποτελέσματα της συσταδοποίησης, έτσι ώστε να παρέχεται βοήθεια στον χρήστη στην προσπάθεια αναζήτησης του για πληροφορία βιολογικού περιεχομένου.
Ο προτεινόμενος αλγόριθμος βασίζεται σε διαφορετικές τεχνικές συσταδοποίησης, όπως ο Ιεραρχικός Αλγόριθμος και ο Spherical K-means Αλγόριθμος και εφαρμόζει μια τελική ταξινόμηση με βάση το Impact Factor των κειμένων που ανακτήθηκαν.
Τα βασικά βήματα που περιλαμβάνει ο αλγόριθμος είναι: η προεπεξεργασία των κειμένων, η αναπαράσταση των κειμένων σε διανυσματική μορφή με χρήση του Διανυσματικού Μοντέλου (Vector Space Model), η εφαρμογή της Λανθάνουσας Σημασιολογικής Δεικτοδότησης (Latent Semantic Indexing), η Ασαφής Συσταδοποίηση (Fuzzy Clustering), ο Ιεραρχικός Αλγόριθμος (Hierarchical Algorithm), o Spherical K-means Αλγόριθμος, η επιλογή της καλύτερης συστάδας και τέλος η ταξινόμηση με βάση το Impact Factor των κειμένων που ανακτήθηκαν.
Η εφαρμογή που υλοποιούμε βασίζεται στον παραπάνω αλγόριθμο και προσφέρει δύο τρόπους αναζήτησης: 1) σε τρέχοντα ερωτήματα του χρήστη, τα οποία αποθηκεύονται στη βάση δεδομένων και επομένως λειτουργεί ως μέσο συμπιεσμένης αποθήκευσης των προηγούμενων ερωτημάτων του χρήστη, 2) αναζήτηση μέσα από μία λίστα προκαθορισμένων Topic βιολογικού περιεχομένου και επομένως παρέχει στο χρήστη μια επιπλέον βοήθεια σε ένα ευρύ φάσμα ερωτημάτων. Επιπλέον, η εφαρμογή εξάγει χρήσιμες συσχετίσεις όρων χρησιμοποιώντας τις τελικές συστάδες. / There is an increasing interest in automatic text mining in biomedical texts due to the increasing number of electronically available publications stored in databases such as PubMed and SpringerLink.
The main problem that makes this goal more challenging and difficult is the inability of processing the available information and extracting useful connections and assumptions. Therefore, there is an urgent need for new text-mining tools to facilitate the process of text mining from biomedical documents.
The goal of the present diploma thesis is to present known methods of text mining, and to develop an application that provides reliable knowledge from biomedical literature based on efficient text mining techniques.
In particular, our attempt is mainly focused on developing an efficient clustering algorithm and using techniques for evaluating the results of clustering, in order to assist the users in their biological information seeking activities.
The proposed algorithm involves different clustering techniques, such as Hierarchical Algorithm, Spherical K-means Algorithm and employs a final ranking according to Impact Factor of retrieved documents.
The basic steps of our algorithm are: preprocessing of text’s content, representation with the vector space model, applying Latent Semantic Indexing (LSI), fuzzy clustering, hierarchical clustering, spherical k-means clustering, selection of the best cluster and ranking of biomedical documents according to their impact factor.
The application that we implement is based on the above algorithm and provides two search methods: 1) search with user’s queries, which are saved in the database and thus playing the role of a compacted storage of his past search activities, 2) search through a list of pre-specified biological Topics, and thus providing the user with an extra assistance in his various queries. Moreover the whole scheme can mine useful associations between terms by exploiting the nature of the formed clusters.
|
9 |
Εφαρμογές και τεχνικές εξόρυξης και οπτικοποίησης γνώσης σε βιοϊατρικά δεδομέναΜερίδου, Δέσποινα 08 May 2013 (has links)
Η οπτικοποίηση των δεδομένων (data visualization) αποτελεί τη διαδικασία αναπαράστασης αφαιρετικών ή επιστημονικών δεδομένων με τη μορφή εικόνας, η οποία μπορεί να συμβάλει στην καλύτερη και βαθύτερη κατανόηση της σημασίας των δεδομένων και των μεταβλητών ή των μονάδων που συνιστούν τα δεδομένα αυτά. Λόγω των τεράστιων και συνεχώς αυξανόμενων ποσοτήτων και πηγών πληροφορίας, η ανάγκη για οπτικοποίηση είναι μεγάλη. Εφαρμόζοντας διάφορα μέσα οπτικοποίησης, η μελέτη των δεδομένων γίνεται πιο αποδοτική: τα δεδομένα εξετάζονται μαζικά και γρήγορα. Επίσης, η οπτικοποίηση των δεδομένων συμβάλλει στην ουσιαστική κατανόηση ενός ορισμένου προβλήματος και μπορεί να οδηγήσει στην ανακάλυψη νέων εννοιών και λύσεων.
Η τεχνική της οπτικοποίησης δεδομένων βρίσκει ιδιαίτερη εφαρμογή στον τομέα της Βιοπληροφορικής. Συγκεκριμένα, η οπτικοποίηση εφαρμόζεται σε δεδομένα αλληλουχιών, γονιδιωμάτων, μακρομοριακών δομών, συστημικής βιολογίας, μαγνητικής τομογραφίας, κλπ. Η πρόσφατη και ολοένα μεγαλύτερη πρόοδος στη διαθεσιμότητα δεδομένων και στις μεθόδους ανάλυσης έχει δημιουργήσει νέες ευκαιρίες για τους ερευνητές, έτσι ώστε αυτοί να είναι σε θέση να βελτιώσουν τις μεθόδους καταγραφής νόσων σε εθνικό ή τοπικό επίπεδο.
Η HELPIDA (HELlenic ePIdemiological DAtabase) αποτελεί την πρώτη προσπάθει καταγραφής ενός μεγάλου αριθμού επιδημιολογικών μελετών από τον χώρο της ελλάδας, συνδυασμού αυτών με γεωγραφικές και στατιστικές παραμέτρους και οπτικοποίησης των αποτελεσμάτων με σκοπό την εξόρυξη πολύτιμης πληροφορίας. Σε ό,τι αφορά την πρώτη έκδοσή της, η HELPIDA αναπτύχθηκε με τη χρήστη των γλωσσών προγραμματισμού ASP.NET και Visual C#. Στην εργασία αυτή, παρουσιάζεται η δεύτερη έκδοση της HELPIDA, η οποία σχεδιάστηκε με τη βοήθεια του εργαλείου Microsoft Lightswitch και εμπλουτίστηκε με γραφήματα και οπτικοποιήσεις δεδομένων.
Εφαρμόζοντας ορισμένα εργαλεία οπτικοποίησης, στοχεύουμε στον χαρακτηρισμό της HELPIDA ως ένα πολύτιμο εργαλείο στον τομέα της Δημόσιας Υγείας και ελπίζουμε ότι θα χρησιμοποιηθεί από ερευνητές σε ακαδημαϊκό επίπεδο αλλά και σε άλλους τομείς. / Data visualization is the study of the visual representation of data, meaning "information that has been abstracted in some schematic form, including attributes or variables for the units of information". The ability to visualize the implications of data is as old as humanity itself. Yet due to the vast quantities, sources, and sinks of data being pumped around our global economy at an ever increasing rate, the need for superior visualization is great and growing. Data visualization is efficient: vast quantities of data are processed in a simple and quick manner. Furthermore, visualizations can help an analyst or a group achieve more insight into the nature of a problem and discover new understanding.
Data Visualization is often applied in the field of Bioinformatics. Specifically, software tools are used for the visualization of sequences, genomes, alignments, phylogenies, macromolecular structures, systems biology, microscopy, and magnetic resonance imaging data.
HELPIDA (HELlenic ePIdemiological DAtabase) is the first attempt to register a large number of epidemiological studies from Greece, to combine them with geographical and statistical parameters and to visualize the results in order to mine valuable information. As fas as the first version of the application is concerned, HELPIDA was developed using the programming languages ASP.NET and Visual C#. In this thesis, the second version of HELPIDA, which was designed using the tool Microsoft Lightswitch and was enhanced with charts and data visualizations, is presented.
Being enhanced with certain data visualization tools, HELPIDA is aiming at being used as an invaluable tool for Public Health decisions and we hope that it will be exploited by decision makers in academic and political level.
|
10 |
Εφαρμογή τεχνικών εξόρυξης γνώσης στην εκπαίδευσηΠαπανικολάου, Δονάτος 31 May 2012 (has links)
Σε αυτή την Διπλωματική εργασία μελετήσαμε με ποιο τρόπο μπορούν να εφαρμοστούν οι διάφορες τεχνικές Εξόρυξης Γνώσης (Data Mining) στην εκπαίδευση. Αυτός ο επιστημονικός τομέας o οποίος ερευνά και αναπτύσσει τεχνικές προκειμένου να ανακαλύψει γνώση από δεδομένα τα οποία προέρχονται από την εκπαίδευση ονομάζεται Εξόρυξη Γνώσης από Εκπαιδευτικά Δεδομένα (Educational Data Mining –EDM. Στην εργασία αυτή εκτός από την θεωρητική μελέτη των αλγορίθμων και των τεχνικών που διέπουν την εξόρυξη γνώσης από δεδομένα γενικά, έγινε και μια λεπτομερέστερη μελέτη και παρουσίαση της κατηγορίας των αλγορίθμων κατηγοριοποίησης (Classification), διότι αυτοί οι αλγόριθμοι χρησιμοποιήθηκαν στην φάση της υλοποίησης/αξιολόγησης. Στην συνέχεια η εργασία επικεντρώθηκε στον τρόπο με τον οποίο μπορούν να εφαρμοστούν αυτοί οι αλγόριθμοι σε εκπαιδευτικά δεδομένα, τι εφαρμογές έχουμε στην εκπαίδευση, ενώ αναφερόμαστε και σε μια πληθώρα ερευνών που έχουν πραγματοποιηθεί πάνω στο συγκεκριμένο αντικείμενο. Στην συνέχεια διερευνήσαμε την εφαρμογή τεχνικών κατηγοριοποίησης στην πρόγνωση της επίδοσης μαθητών Δευτεροβάθμιας Εκπαίδευσης στα μαθήματα της Γεωγραφίας Α’ και Β’ Γυμνασίου. Συγκεκριμένα υλοποιήσαμε και θα αξιολογήσαμε έξι αλγορίθμους οι οποίοι ανήκουν στην ομάδα των αλγορίθμων κατηγοριοποίησης(Classification) και είναι αντιπροσωπευτικοί των σημαντικότερων τεχνικών κατηγοριοποίησης. Από την οικογένεια των ταξινομητών με χρήση δένδρων απόφασης (Decision Tree Classifiers) υλοποιήσαμε τον J48, από τους αλγορίθμους κανόνων ταξινόμησης (Rule-based Classification ) τον Ripper, από τους αλγόριθμους στατιστικής κατηγοριοποίησης τον Naïve Bayes, από την μέθοδο των Κ πλησιέστερων γειτόνων (KNN) τον 3-ΝΝ, από την κατηγορία των τεχνητών νευρωνικών δικτύων τον Back Propagation και τέλος από τις μηχανές διανυσμάτων υποστήριξης (Support Vector Machines SVM) τον SMO (Sequental Minimal Optimazation). Όλες οι παραπάνω υλοποιήσεις και αξιολογήσεις έγιναν με το ελεύθερο λογισμικού Weka το οποίο είναι υλοποιημένο σε Java και το οποίο προσφέρει μια πληθώρα αλγορίθμων μηχανικής μάθησης για να κάνουμε εξόρυξη γνώσης. / In this work we will study the way the misc data mining techniques can be applied to the misc fields of the education. This new scientific field is commonly named Educational Data Mining. In this study we will study the theoretical analysis of the data mining techniques focussing to the classification techniques as those are the most commonly used for prediction purpose. We also intend to predict student performance in secondary education using data mining techniques. The data we collect are concerned the class of Geography and we apply to them six data mining models with the help of the open source machine learning software Weka. We use supervised machine learning algorithms from the Classification field (Decision Tree Classifiers, Rule-based Classification, Neural Networks, k-Nearest Neighbour Algorithm, Bayesian and Support Vector Machines). After we have evaluate the algorithms we build a java tool, that uses the 3-KNN algorithm, to help us predict the performance of a student at the end of the year.
|
Page generated in 0.1235 seconds