Global ETD Search

11	Εξόρυξη γνώσης από δεδομένα Οικονομάκης, Εμμανουήλ Κ. 20 October 2009 (has links) Στη συγκεκριμένη διπλωματική εργασία αναλύεται το πρόβλημα του εντοπισμού ομάδων σε σύνολα δεδομένων (ομαδοποίηση δεδομένων). Δίνεται μια σύντομη ανασκόπηση των μεθόδων που χρησιμοποιούνται σήμερα στην ομαδοποίηση δεδομένων και ιδιαίτερα στην ολοένα και αυξανόμενη χρήση Εξελικτικών Αλγόριθμων (ΕΑ) στην ομαδοποίηση. Οι ΕΑ έχουν αποδειχθεί ιδιαίτερα αποτελεσματικοί σε μια πληθώρα προβλημάτων βελτιστοποίησης. Η χρήση ΕΑ είναι αναμενόμενη, καθώς η ομαδοποίηση δεδομένων μπορεί να εκφραστεί και ως πρόβλημα βελτιστοποίησης. Επιπρόσθετα, παρουσιάζεται μια μέθοδος αντιμετώπισης της (συνήθως) μεγάλης διάστασης των προβλημάτων ομαδοποίησης, κάτι που επιβαρύνει ιδιαίτερα τους ΕΑ. Αναλυτικότερα, το πρώτο μέρος της διπλωματικής εργασίας παρέχει μια σφαιρική εικόνα του προβλήματος της ομαδοποίησης καθώς και των κατηγοριών των αλγορίθμων, που έχουν προταθεί για τον εντοπισμό ομάδων. Επιπλέον, παρουσιάζονται δομές δεδομένων που χρησιμοποιούνται από αλγόριθμους ομαδοποίησης για την επιτάχυνσή τους, όπως είναι τα Range Trees και τα BBD Trees. Εν συνεχεία, παρουσιάζονται αναλυτικά οι ΕΑ και ο τρόπος εφαρμογής τους σε προβλήματα ομαδοποίησης δεδομένων, αναλύοντας τρόπους αναπαράστασης του προβλήματος ομαδοποίησης, έτσι ώστε να είναι δυνατή η χρήση ΕΑ καθώς επίσης και οι μορφές των αντικειμενικών συναρτήσεων. Εισάγεται μια νέα προσέγγιση της εφαρμογής των ΕΑ σε προβλήματα ομαδοποίησης με σκοπό την πλήρη αποδέσμευση της διαδικασίας από εκτιμήσεις του πλήθους των ομάδων. Η διπλωματική εργασία κλείνει με τη σύγκριση υπάρχοντων αλγορίθμων ομαδοποίησης, που εφαρμόζουν την καθιερωμένη προσέγγιση της εφαρμογής των ΕΑ σε προβλήματα ομαδοποίησης, ένα νέο τρόπο εφαρμογής των ΕΑ, καθώς και κλασικούς αλγόριθμους όπως ο k-means και ο DBSCAN. Η σύγκριση γίνεται σε τεχνητά σύνολα δεδομένων, το κάθε ένα με διαφορετικές ιδιαιτερότητες. / In this master thesis, the problem of finding groups in data sets (data clustering) is analyzed. Data clustering methods in general and, more specifically, Evolutionary Algorithms (EA) based methods are shortly reviewed. EA's have proven to be effective in a extensive number of optimization problems. Since data clustering can be formulated as an optimization problem, EA can be utilized. Additionally, a method of reducing the (usually) large dimensionality of clustering problems is presented, since this hinders the performance and stability of EAs. The first part of this thesis provides an introduction to clustering as well as to existing clustering algorithms. Additionally, data structures used by clustering algorithms such as Range trees and BBD trees are described. After that, EA is described thoroughly as well as approaches of applying them on clustering problems, by analyzing forms of presenting a clustering problem in a way than an EA can be used, as well as and possible objective functions. A new approach of applying EAs on clustering problems is introduced, in an attempt to automatically determine the number of clusters present in a data set. Finally, an existing EA-based method and well known clustering algorithms such as k-means and DBSCAN are compared to the proposed approach. This comparison is made on artificial data sets, each one with its own characteristics. Εξόρυξη γνώσης 004.35 Data mining Computational intelligence Data clustering Evolutionary algorithms
12	Προηγμένες τεχνικές και αλγόριθμοι εξόρυξης γνώσης για την προσωποποίηση της πρόσβασης σε δικτυακούς τόπους / Advanced techniques and algorithms of knowledge mining from Web Sites Γιαννακούδη, Θεοδούλα 16 May 2007 (has links) Η προσωποποίηση του ιστού είναι ένα πεδίο που έχει κερδίσει μεγάλη προσοχή όχι μόνο στην ερευνητική περιοχή, όπου πολλές ερευνητικές μονάδες έχουν ασχοληθεί με το πρόβλημα από διαφορετικές μεριές, αλλά και στην επιχειρησιακή περιοχή, όπου υπάρχει μία ποικιλία εργαλείων και εφαρμογών που διαθέτουν ένα ή περισσότερα modules στη διαδικασία της εξατομίκευσης. Ο στόχος όλων αυτών είναι, εξερευνώντας τις πληροφορίες που κρύβονται στα logs του εξυπηρετητή δικτύου να ανακαλύψουν τις αλληλεπιδράσεις μεταξύ των επισκεπτών των ιστότοπων και των ιστοσελίδων που περιέχονται σε αυτούς. Οι πληροφορίες αυτές μπορούν να αξιοποιηθούν για τη βελτιστοποίηση των δικτυακών τόπων, εξασφαλίζοντας έτσι αποτελεσματικότερη πλοήγηση για τον επισκέπτη και διατήρηση του πελάτη στην περίπτωση του επιχειρηματικού τομέα. Ένα βασικό βήμα πριν την εξατομίκευση αποτελεί η εξόρυξη χρησιμοποίησης από τον ιστό, ώστε να αποκαλυφθεί τη γνώση που κρύβεται στα log αρχεία ενός web εξυπηρετητή. Εφαρμόζοντας στατιστικές μεθόδους και μεθόδους εξόρυξης δεδομένων στα web log δεδομένα, μπορούν να προσδιοριστούν ενδιαφέροντα πρότυπα που αφορούν τη συμπεριφορά πλοήγησης των χρηστών, όπως συστάδες χρηστών και σελίδων και πιθανές συσχετίσεις μεταξύ web σελίδων και ομάδων χρηστών. Τα τελευταία χρόνια, γίνεται μια προσπάθεια συγχώνευσης του περιεχομένου του ιστού στη διαδικασία εξόρυξης χρησιμοποίησης, για να επαυξηθεί η αποτελεσματικότητα της εξατομίκευσης. Το ενδιαφέρον σε αυτή τη διπλωματική εργασία εστιάζεται στο πεδίο της εξόρυξης γνώσης για τη χρησιμοποίηση δικτυακών τόπων και πώς η διαδικασία αυτή μπορεί να επωφεληθεί από τα χαρακτηριστικά του σημασιολογικού ιστού. Αρχικά, παρουσιάζονται τεχνικές και αλγόριθμοι που έχουν προταθεί τα τελευταία χρόνια για εξόρυξη χρησιμοποίησης από τα log αρχεία των web εξυπηρετητών. Έπειτα εισάγεται και ο ρόλος του περιεχομένου στη διαδικασία αυτή και παρουσιάζονται δύο εργασίες που λαμβάνουν υπόψη και το περιεχόμενο των δικτυακών τόπων: μία τεχνική εξόρυξης χρησιμοποίησης με βάση το PLSA, η οποία δίνει στο τέλος και τη δυνατότητα ενοποίησης του περιεχομένου του ιστού και ένα σύστημα προσωποποίησης το οποίο χρησιμοποιεί το περιεχόμενο του ιστοτόπου για να βελτιώσει την αποτελεσματικότητα της μηχανής παραγωγής προτάσεων. Αφού αναλυθεί θεωρητικά το πεδίο εξόρυξης γνώσης από τα logs μέσα από την περιγραφή των σύγχρονων τεχνικών, προτείνεται το σύστημα ORGAN-Ontology-oRiented usaGe ANalysis- το οποίο αφορά στη φάση της ανάλυσης των log αρχείων και την εξόρυξη γνώσης για τη χρησιμοποίηση των δικτυακών τόπων με άξονα τη σημασιολογία του ιστοτόπου. Τα σημασιολογικά χαρακτηριστικά του δικτυακού τόπου έχουν προκύψει με τεχνικές εξόρυξης δεδομένων από το σύνολο των ιστοσελίδων και έχουν σχολιαστεί από μία OWL οντολογία. Το ORGAN παρέχει διεπαφή για την υποβολή ερωτήσεων σχετικών με την επισκεψιμότητα και τη σημασιολογία των σελίδων, αξιοποιώντας τη γνώση για το site, όπως αναπαρίσταται πάνω στην οντολογία. Περιγράφεται διεξοδικά ο σχεδιασμός, η ανάπτυξη και η πειραματική αξιολόγηση του συστήματος και σχολιάζονται τα αποτελέσματα του. / Web personalization is a domain which has gained great momentum not only in the research area, where many research units have addressed the problem form different perspectives, but also in the industrial area, where a variety of modules for the personalization process is available. The objective is, researching the information hidden in the web server log files to discover the interactions between web sites visitors and web sites pages. This information can be further exploited for web sites optimization, ensuring more effective navigation for the user and client retention in the industrial case. A primary step before the personalization is the web usage mining, where the knowledge hidden in the log files is revealed. Web usage mining is the procedure where the information stored in the Web server logs is processed by applying statistical and data mining techniques such as clustering, association rules discovery, classification, and sequential pattern discovery, in order to reveal useful patterns that can be further analyzed. Recently, there has been an effort to incorporate Web content in the web usage mining process, in order to enhance the effectiveness of personalization. The interest in this thesis is focused on the domain of the knowledge mining for usage of web sites and how this procedure can get the better of attributes of the semantic web. Initially, techniques and algorithms that have been proposed lately in the field of web usage mining are presented. After, the role of the context in the usage mining process is introduced and two relevant works are presented: a usage mining technique based on the PLSA model, which may integrate attributes of the site content, and a personalization system which uses the site content in order to enhance a recommendation engine. After analyzing theoretically the usage mining domain, a new system is proposed, the ORGAN, which is named after Ontology-oRiented usaGe ANalysis. ORGAN concerns the stage of log files analysis and the domain of knowledge mining for the web site usage based on the semantic attributes of the web site. The web site semantic attributes have resulted from the web site pages applying data mining techniques and have been annotated by an OWL ontology. ORGAN provides an interface for queries submission concerning the average level of visitation and the semantics of the web site pages, exploiting the knowledge for the site, as it is derived from the ontology. There is an extensive description of the design, the development and the experimental evaluation of the system. Ανάλυση των log αρχείων Προσωποποίηση Σημασιολογικός ιστός Μετα-δεδομένα Εξόρυξη γνώσης 025.04 Log files analysis Semantic web Metadata Knowledge mining
13	Εντοπισμός θέσης σε Wi-Fi δίκτυα μέσω της πιθανοτικής μεθόδου particle filtering και χρήση σε m-commerce εφαρμογές / Wi-Fi localization via particle filtering and use for m-commerce Βαρβάρας, Δημήτριος 31 August 2012 (has links) Ενδιαφέρον παρουσιάζει η αυξημένη ανάγκη για εφαρμογές εσωτερικού χώρου οι οποίες να είναι σε θέση να χρησιμοποιούν την ασύρματη τεχνολογία για να εντοπίσουν την θέση των χρηστών με σκοπό την εκμετάλλευση της πληροφορίας της θέσης τους για την αποστολή διαφόρων πληροφοριών ενδιαφέροντος. Στην εργασία αυτή προτείνεται ένα σύστημα εντοπισμού θέσης του οποίου η εξαγόμενη πληροφορία χρησιμοποιείται σε m-commerce εφαρμογές (mobile commerce) μέσω τεχνικών εξόρυξης γνώσης (data mining). Το σύστημα το οποίο προτείνεται αποτελείται από δύο κεντρικά υποσυστήματα. Το πρώτο υποσύστημα αποτελεί ένα σύστημα εντοπισμού θέσης μέσα σε ένα Wi-Fi δίκτυο. Το δεύτερο υποσύστημα περιλαμβάνει την λογική για την εξόρυξη δεδομένων από το πληροφοριακό περιεχόμενο της θέσης των χρηστών ώστε να μπορεί να χρησιμοποιηθεί στον εμπορικό τομέα. / The increased need for applications of indoor localization which use wireless technology in order to locate users’ position and exploiting this position information for extracting deeper knowledge has motivated this paper. In this work it is proposed a system of localization where the exported information is used in m-commerce applications (mobile commerce) via techniques of data mining. The system which is suggested is constituted of two central sub systems. The first sub system constitutes a system of localization in a Wi-Fi network. The second sub system includes the logic of the excavation of data from the informative content of users’ position so that it can be used in the commercial sector. Εντοπισμός θέσης Κινητό εμπόριο Ασύρματα δίκτυα Εξόρυξη γνώσης 621.384 Position localization M-commerce Wi-Fi Data mining
14	Εξόρυξη γνώσης από ιατροβιολογικά δεδομένα / Biomedical data mining Καλλά, Μαρία-Παυλίνα 28 February 2013 (has links) Πίσω από όλα αυτά τα δεδομένα που υπάρχουν κρύβεται ένας τεράστιος θησαυρός γνώσεων τον οποίο δεν μπορούμε να αντιληφθούμε καθώς η μορφή των πληροφοριών δεν μας το επιτρέπει. Έτσι αναπτύχθηκαν μέθοδοι και τεχνικές που μας βοηθούν να βρούμε την κρυμμένη γνώση και να την αξιοποιήσουμε προς όφελος κυρίως του κοινού και η πιο γνωστή μέθοδος, με την οποία θα ασχοληθούμε και εμείς είναι η Εξόρυξη Γνώσης. Στην εργασία που ακολουθεί θα μιλήσουμε για την χρήση των μεθόδων Εξόρυξης Γνώσης (όπως λέγονται) σε βιοϊατρικά δεδομένα. Στην αρχή θα κάνουμε αναφορά στην Μοριακή Βιολογία και στην Βιοπληροφορική. Ακολούθως θα δουμε την Ανακάλυψη γνώσης από βάσεις δεδομένων. Θα δούμε αναλυτικά την Εξόρυξη γνώσης και πιο πολύ τις μεθόδους κατηγοριοποίησης. Τέλος θα εφαρμόσουμε τους αλγορίθμους σε ιατροβιολογικά δεδομένα και θα δούμε τα συμπεράσματα που προκύπτουν αλλά και μελλοντικές επεκτάσεις. / Behind all these data there is hidden a huge treasure of knowledge which we can not understand . Thus developed methods and techniques that help us find the hidden knowledge and to utilize it for the benefit of the public. The most famous method, which we will study, is Data Mining. In the work that follows we will discuss the use of data mining methods (as they are called) in biomedical data. In the beginning, we will report information about Molecular Biology and Bioinformatics. Then. we will see the knowledge discovery in databases. We will see in detail the Data Mining and the classification methods. Finally we implement the algorithms in biomedical data and see the conclusions and future extensions. Βιοπληροφορική Εξόρυξη γνώσης 610.285 Bioinformatics Data mining Classification algorithms Biological databases Ensemble methods
15	Εφαρμογή παγκόσμιου ιστού για προσωποποιημένες υπηρεσίες διαιτολογίας με την χρήση οντολογιών Οικονόμου, Φλώρα 11 June 2013 (has links) Ο παγκόσμιος ιστός αποτελεί μία τεράστια αποθήκη πληροφοριών και αναπτύσσεται με τάχιστους ρυθμούς, ενώ η ανθρώπινη ικανότητα να εντοπίζει, να επεξεργάζεται και να αντιλαμβάνεται τις παρεχόμενες πληροφορίες παραμένει πεπερασμένη. Οι μηχανές αναζήτησης διευκολύνουν την αναζήτηση στον παγκόσμιο ιστό και έχουν γίνει αναπόσπαστο κομμάτι της καθημερινής ζωής των χρηστών του διαδικτύου. Οι χρήστες όμως χαρακτηρίζονται από διαφορετικές ανάγκες, προτιμήσεις, ιδιαιτερότητες και κατά την πλοήγησή τους μπορεί να χάσουν τον στόχο της αναζήτησής τους. Η προσωποποίηση στον παγκόσμιο ιστό, δηλαδή η εξατομίκευση των παρεχόμενων αποτελεσμάτων, αποτελεί μία πολλά υποσχόμενη προσέγγιση για την λύση του πληροφοριακού υπερφόρτου, παρέχοντας κατάλληλα προσαρμοσμένες εμπειρίες πλοήγησης. Στα πλαίσια αυτής της διπλωματικής εργασίας αναπτύχθηκε μία μεθοδολογία για την προσωποποίηση των αποτελεσμάτων μίας μηχανής αναζήτησης ώστε αυτά να ανταποκρίνονται στις προτιμήσεις των χρηστών και στα διαιτολογικά τους χαρακτηριστικά. Η μεθοδολογία αναπτύχθηκε σε δύο μέρη: στο εκτός σύνδεσης τμήμα και στο συνδεδεμένο. Στο πρώτο με την χρησιμοποίηση των αρχείων πρόσβασης μίας μηχανής αναζήτησης και των διαιτολογικών χαρακτηριστικών των χρηστών, έγινε εξαγωγή πληροφορίας για τις προτιμήσεις των τελευταίων. Στην συνέχεια με την χρήση μίας οντολογίας που κατασκευάστηκε για τα πλαίσια της διπλωματικής αυτής εργασίας, έγινε σημασιολογική κατηγοριοποίηση των επιλογών των χρηστών και κατασκευάστηκαν τα προφίλ που τους χαρακτηρίζουν. Έπειτα με την χρήση ενός αλγορίθμου ομαδοποίησης οι χρήστες κατηγοριοποιήθηκαν με βάση τα διαιτολογικά τους χαρακτηριστικά και τις επιλογές τους στην μηχανή αναζήτησης. Στο συνδεδεμένο τμήμα ο αλγόριθμος προσωποποίησης εκμεταλλευόμενος την σημασιολογική αντιστοίχιση των αποτελεσμάτων της μηχανής αναζήτησης και τις ομάδες των χρηστών που δημιουργήθηκαν στο εκτός σύνδεσης τμήμα αναδιοργανώνει τα παρεχόμενα από την μηχανή αναζήτησης αποτελέσματα. Η αναδιοργάνωση γίνεται προωθώντας στις υψηλότερες θέσεις των αποτελεσμάτων της μηχανής αναζήτησης τα αποτελέσματα που ταιριάζουν καλύτερα με τις προτιμήσεις και τα χαρακτηριστικά της ομάδας στην οποία εντάσσεται ο χρήστης. Στο τέλος έγιναν πειράματα και εξακριβώθηκαν τα επιθυμητά αποτελέσματα για την προσωποποίηση σύμφωνα με τις σημασιολογικές ομάδες των χρηστών. / The World Wide Web has become a huge data repository and it keeps growing exponentially, whereas the human capability to find, process and understand the provided content remains constant. Search engines facilitate the search process in the World Wide Web and they have become an integral part of the web users' daily lives. However users who are characterized by different needs, preferences and special characteristics, navigate through large Web structures and may lost their goal of inquiry. Web personalization, i.e. the customization of the search engines’ returned results, is one of the most promising approaches for alleviating information overload providing tailored navigation experiences to Web users. The present dissertation presents the methodology which was implemented in order to personalize a search engine’s results for corresponding users’ preferences and dietary characteristics. This methodology was implemented in two parts: the offline and the online part. The first one uses a search engines’ log files and the dietary characteristics of the users in order to extract information for the latter preferences. Afterwards, with the use of an ontology which was created explicitly for this work, semantic profiling of users’ interests was achieved and their corresponding profiles were formed. Then with the use of a clustering algorithm, users’ categorization was made based on their dietary profiles and their preferences in the search engine. In the online part the methodology re-ranks the search engines’ results, based on the semantic characterization of those results and the users’ clusters which were created at the offline part. Re-ranking is achieved by placing those results which match better the interests and the characteristics of the user’s cluster at the top of the list of the search engines’ returned results. Experimental evaluation of the presented methodology shows that the expected objectives from the semantic users’ clustering in search engines are achievable. Οντολογίες Προσωποποίηση Εξόρυξη γνώσης Προφίλ χρηστών 025.042 5 Semantic clustering Ontologies Personalization Web usage mining Information search and retrieval User profiles
16	Αποτελεσματικές τεχνικές διαχείρισης δεδομένων στον Παγκόσμιο Ιστό / Efficient techniques for Web data management Ιωάννου, Ζαφειρία-Μαρίνα 24 November 2014 (has links) Η εξέλιξη της τεχνολογίας των υπολογιστών σε συνδυασμό με την πρόοδο της τεχνολογίας των βάσεων δεδομένων έχουν συμβάλει στην ανάπτυξη νέων αποδοτικών και αυτοματοποιημένων τεχνικών για την αποτελεσματική συλλογή, αποθήκευση και διαχείριση των δεδομένων. Ως συνέπεια, ο όγκος των δεδομένων που αποθηκεύονται και είναι ευρέως διαθέσιμα ηλεκτρονικά αυξάνεται ραγδαία και η ανάγκη ανάπτυξης και χρήσης αποδοτικών μεθόδων ανάλυσης για την εξαγωγή χρήσιμης πληροφορίας καθίσταται ολοένα και πιο επιτακτική. Η εξόρυξη δεδομένων (data mining) ως ένα αναδυόμενο πεδίο διεπιστημονικών εφαρμογών συνδυάζει παραδοσιακές μεθόδους ανάλυσης δεδομένων με εξελιγμένους αλγόριθμους και διαδραματίζει σημαντικό ρόλο στην επεξεργασία μεγάλου όγκου δεδομένων. Ο όρος οπτικοποίηση δεδομένων (data visualization) αναφέρεται στη μελέτη τεχνικών οπτικής αναπαράστασης δεδομένων χρησιμοποιώντας γραφικά, κίνηση, τρισδιάστατες απεικονίσεις και άλλα πολυμεσικά εργαλεία. Στόχος των τεχνικών οπτικοποίησης είναι παρουσίαση ενός συνόλου δεδομένων με τρόπο σαφή και αποτελεσματικό που να παρέχει τη δυνατότητα εξαγωγής συμπερασμάτων και ανακάλυψης συσχετίσεων που διαφορετικά θα παρέμεναν άγνωστες. Στη διεθνή βιβλιογραφία, έχουν παρουσιαστεί αρκετές τεχνικές οπτικοποίησης δεδομένων, ενώ τα τελευταία χρόνια η επιστημονική κοινότητα έχει εστιάσει το ενδιαφέρον της και στην οπτικοποίηση των αποτελεσμάτων της εξόρυξης δεδομένων. Στα πλαίσια αυτής της μεταπτυχιακής διπλωματικής εργασίας, προτείνεται μια αποδοτική τεχνική εξόρυξης δεδομένων που βασίζεται σε γνωστές μεθόδους συσταδοποίησης, όπως ο Ιεραρχικός αλγόριθμος και o αλγόριθμος Spherical K-means και είναι κατάλληλη να εφαρμοστεί για την ανάλυση και εξαγωγή χρήσιμης γνώσης σε διαφορετικά σύνολα δεδομένων. Η προτεινόμενη τεχνική εφαρμόστηκε σε δύο διαφορετικούς τύπους δεδομένων: α) κειμενικά δεδομένα (textual data) που προέρχονται από τη βάση δεδομένων του PubMed, β) αριθμητικά δεδομένα (numerical data) από τη βάση δεδομένων της FINDbase. Επιπλέον, παρουσιάζεται μια μελέτη τεχνικών οπτικοποίησης και η ανάπτυξη σύγχρονων εφαρμογών οπτικοποίησης, τόσο για την αποτελεσματική αναπαράσταση των αρχικών δεδομένων μιας συλλογής (πριν από την επεξεργασία τους), όσο και των αποτελεσμάτων που προέκυψαν από την προτεινόμενη τεχνική συσταδοποίησης. / The evolution of computer technology along with advances in database technology have contributed to the development of new efficient and automated techniques for the effective collection, storage and management of data. As a result, the volume of stored and widely available online data is growing rapidly, and the need for effective analytical methods for extracting relevant information is becoming increasingly urgent. As an emerging field of interdisciplinary applications, data mining combines traditional data analysis methods with sophisticated algorithms and plays an important role in the processing of large volumes of data. Data visualization refers to the study of the techniques used for the visual representation of data, including graphics, animation, 3D depictions and other multimedia tools. The main goal of data visualization techniques is to present a set of data in a clear and effective way, so that the extraction of conclusions and discovery of correlations that would otherwise remain unknown, are enabled. While several data visualization techniques have been presented in the relative literature, in recent years the scientific community has been focusing on the visualization of the results obtained by the application of data mining techniques. In the present thesis, we propose an efficient data mining technique that is based on well-known clustering methods, such as the Hierarchical and Spherical K-means ones, and is suitable for the analysis and extraction of useful knowledge from different types of datasets. The proposed technique was applied into two different types of data including: a) textual data from the PubMed database, b) numerical data from the FINDbase database. Furthermore, we present a study of visualization techniques and the development of modern visualization tools for the effective representation of the original dataset (before processing) and the results obtained by the proposed clustering technique. Εξόρυξη δεδομένων Συσταδοποίηση Παγκόσμιος Ιστός 005.740 285 467 8 Data mining Text mining Clustering Data visualization Web
17	Επισήμανση και ανάκτηση περιεχομένου με τεχνικές ενεργούς μάθησης Φουρφουρής, Γεώργιος 15 December 2014 (has links) Η ανάκτηση περιεχομένου από τις επιμέρους βάσεις είναι ιδιαίτερης σημασίας για την σωστή επεξεργασία δεδομένων και την εξαγωγή συμπερασμάτων. Παράλληλα, η σωστή επισήμανση των επιμέρους δεδομένων (κείμενο, εικόνα, βίντεο) βοηθά ιδιαίτερα στη σωστή ανάκτηση των περιεχομένων και επακόλουθα στην εξαγωγή των απαραίτητων συμπερασμάτων. Στα πλαίσια αυτής της διπλωματικής, αρχικά, δίδεται μια πλήρης περιγραφή και ανάλυση των παραπάνω ενώ στη συνέχεια υλοποιείται το αντίστοιχο σύστημα επισήμανσης και ανάκτησης περιεχομένου. Πιο αναλυτικά, το σύστημα είναι σε θέση να ανεβάζει και να επισημαίνει κατάλληλα τα περιεχόμενά του στις βάσεις περιεχομένων και δεδομένων. Παράλληλα, μπορεί να ανακτά τα συγκεκριμένα περιεχόμενα από αυτές τις βάσεις ώστε να είναι σε θέση να εξάγει τα κατάλληλα συμπεράσματα. Όλα αυτά υλοποιούνται και ενσωματώνονται με τις μεθόδους ενεργής μάθησης ενώ παρουσιάζονται σε μια web based εφαρμογή. / The content retrieval of individual data bases are of particular importance for both correct processing of data and draw conclusions. Furthermore, proper labeling of individual data (among text, image or video), particularly helps in recovering the correct contents and subsequent export of the necessary conclusions. Within this thesis is firstly given a complete description and analysis of the above references and then is implemented the corresponding labeling and content retrieval system. More specifically, the system is able to fetch and appropriate note the contents of data bases and data contents. Furthermore, it can recover the specific contents of those databases being able to draw of the appropriate conclusions. All of these are implemented and integrated with the methods of active learning represented on a web based application. Εξόρυξη γνώσης Ανάκτηση δεδομένων Ηλεκτρονική μάθηση Ενεργός μάθηση Εξόρυξη δεδομένων 025.04 Content retrieval Content annotation Knowledge mining Data retrieval E-learning Active learning Data mining
18	Διαχείριση συνδυασμένων μεταφορικών συναλλαγών μέσω της ολοκλήρωσης υβριδικών συστημάτων συστάσεων και τεχνικών εξόρυξης γνώσης Λαζανάς, Αλέξης 27 April 2009 (has links) Η παρούσα διδακτορική διατριβή αναφέρεται σε μια ειδική κατηγορία Πληροφοριακών Συστημάτων, αυτή των Συστημάτων Ηλεκτρονικής Αγοράς. Πιο συγκεκριμένα, αποτελεί μια προσπάθεια ολοκλήρωσης υβριδικών Τεχνικών Συστάσεων και Τεχνικών Εξόρυξης Γνώσης, με παράλληλη ενσωμάτωσή τους σε ένα πλαίσιο διαχείρισης συνδυασμένων μεταφορών και αξιοποίηση σύγχρονων Τεχνολογιών Διαδικτύου. Λαμβάνοντας υπόψη τη διαπιστωμένη ανάγκη για την ανάπτυξη καινοτόμων συστημάτων διαχείρισης συνδυασμένων μεταφορών, η διατριβή παρουσιάζει αναλυτικά τις φάσεις ανάπτυξης ενός τέτοιου συστήματος. Το προτεινόμενο σύστημα δέχεται αιτήσεις μεταφορικών συναλλαγών και έχει τη δυνατότητα κατασκευής άμεσων ή τμηματικών λύσεων με την χρήση κατάλληλων αλγορίθμων Επιχειρησιακής Έρευνας. Στο συγκεκριμένο σύστημα ενσωματώνονται υβριδικές τεχνικές συστάσεων με σκοπό την παροχή υψηλού επιπέδου πληροφόρησης στους εμπλεκόμενους χρήστες. Επιπλέον η διατριβή προτείνει ένα πρωτότυπο υβριδικό μοντέλο συστάσεων με τη συνδυασμένη χρήση μεθόδων συστάσεων και τεχνικών εξόρυξης γνώσης. Η ανάπτυξη του παραπάνω μοντέλου αποσκοπεί στην αντιμετώπιση των μειονεκτημάτων που προκύπτουν από τη χρήση προηγούμενων τεχνικών και τη βελτίωση των παρεχόμενων υπηρεσιών. Στο προτεινόμενο σύστημα συμμετέχουν και αλληλεπιδρούν, μέσω αυστηρά ορισμένων πρωτοκόλλων, ένα σύνολο ευφυών πρακτόρων, αναλαμβάνοντας την διεκπεραίωση μιας σειράς απαραίτητων εργασιών για την πραγματοποίηση των μεταφορικών συναλλαγών. Το σύστημα βασίζεται στον Παγκόσμιο Ιστό και υλοποιήθηκε με τη χρήση σύγχρονων Τεχνολογιών Διαδικτύου. / This PhD thesis refers to a specific area of Information Systems called E-Market Systems. More specifically, it represents an attempt to integrate hybrid Recommendation techniques as well as data mining methods, encapsulating them at the same time, into an intermodal transportation transactions management framework, through the exploitation of innovative internet technologies. Taking into consideration the urgent need for the development of innovative intermodal transportations management systems, this thesis presents analytically all the phases of the development of such a system. The proposed system accepts requests for transportation transactions and is capable of constructing direct or modular transportation solutions exploiting suitable Operation Research Algorithms. The system encapsulates hybrid recommendation techniques – aiming at providing a high level of information to the involved users. Moreover, this thesis proposes an innovative hybrid recommendation model which combines recommendation methods and data mining techniques. The development of the above model, aims at facing up the problems that rise by the use of the recommendation methods mentioned before and at the enhancement of the provided services. In the proposed system, an agents’ community participate and interact with each others, through well defined communication protocols, with the responsibility of performing all the necessary tasks for the establishment of a transportation transaction. The proposed system is Web-based and implemented through the use of modern Web technologies. Συστήματα συστάσεων Εξόρυξη γνώσης Ηλεκτρονικές αγορές 006.3 Intermodal transportation Recommender systems Data mining Intelligent software agents E-markets Web technologies
19	Τεχνικές και συστήματα διαχείρισης γνώσης στο διαδίκτυο / Techniques and systems for knowledge management on the Web Μαρκέλλου, Πηνελόπη 25 June 2007 (has links) Ο Παγκόσμιος Ιστός Πληροφοριών (Web) χαρακτηρίζεται σαν ένα περιβάλλον αχανές, ετερογενές, κατανεμημένο και πολύπλοκο με αποτέλεσμα να είναι δύσκολος ο αποδοτικός χειρισμός των δεδομένων των e-εφαρμογών με βάση παραδοσιακές μεθόδους και τεχνικές. Αυτό με τη σειρά του οδηγεί στην απαίτηση για σχεδιασμό, ανάπτυξη και υιοθέτηση «ευφυών» εργαλείων που θα επιλέξουν και θα εμφανίσουν στο χρήστη την κατάλληλη πληροφορία, στον κατάλληλο χρόνο και με την κατάλληλη μορφή. Η παρούσα διδακτορική διατριβή ασχολείται με το πρόβλημα της εξόρυξης «κρυμμένης» γνώσης από συστήματα και εφαρμογές ηλεκτρονικής μάθησης (e-learning), ηλεκτρονικού εμπορίου (e-commerce) και επιχειρηματικής ευφυΐας (business intelligence) με κύριο στόχο τη βελτίωση της ποιότητας και της απόδοσης των παρεχόμενων υπηρεσιών προς τους τελικούς χρήστες. Συγκεκριμένα, τα ερευνητικά αποτελέσματα επικεντρώνονται στα ακόλουθα: α) Μεθοδολογίες, τεχνικές και προτεινόμενοι αλγόριθμοι εξόρυξης «κρυμμένης» γνώσης από e-εφαρμογές λαμβάνοντας υπόψη τη σημασιολογία των δεδομένων, β) Παραγωγή εξατομικευμένων εκπαιδευτικών εμπειριών, γ) Παραγωγή αποδοτικών συστάσεων για την αγορά online προϊόντων, δ) Παραγωγή επιστημονικών και τεχνολογικών δεικτών από διπλώματα ευρεσιτεχνίας για την ανάδειξη του επιπέδου καινοτόμου δραστηριότητας μιας αγοράς, ε) Προτάσεις για μελλοντικές ερευνητικές κατευθύνσεις που επεκτείνουν τις τεχνικές εξόρυξης γνώσης σε πιο σύνθετους τύπους εφαρμογών και αναδεικνύουν νέες ερευνητικές ευκαιρίες. Στο πρώτο κεφάλαιο παρουσιάζεται μια προσέγγιση για την υποστήριξη εξατομικευμένου e-learning όπου η δομή και η σχέση των δεδομένων και των πληροφοριών παίζουν ουσιαστικό ρόλο. Ο προτεινόμενος αλγόριθμος βασίζεται σε μια οντολογία (ontology) η οποία βοηθά στη δόμηση και στη διαχείριση του περιεχομένου που σχετίζεται με μια δεδομένη σειρά μαθημάτων, ένα μάθημα ή ένα θεματικό. Η διαδικασία χωρίζεται σε δύο στάδια: στις offline ενέργειες προετοιμασίας των δεδομένων, δημιουργίας της οντολογίας και εξόρυξης από δεδομένα χρήσης (usage mining) και στην online παροχή της εξατομίκευσης. Το σύστημα βρίσκει σε πρώτη φάση ένα αρχικό σύνολο συστάσεων βασισμένο στην οντολογία του πεδίου και στη συνέχεια χρησιμοποιεί τα frequent itemsets (συχνά εμφανιζόμενα σύνολα στοιχείων) για να το εμπλουτίσει, λαμβάνοντας υπόψη την πλοήγηση άλλων παρόμοιων χρηστών (similar users). Με τον τρόπο αυτό, μειώνουμε το χρόνο που απαιτείται για την ανάλυση όλων των frequent itemsets και των κανόνων συσχέτισης. Εστιάζουμε μόνο σε εκείνα τα σύνολα που προέρχονται από το συνδυασμό της ενεργούς συνόδου (current session) του χρήστη και των συστάσεων της οντολογίας. Επιπλέον, αυτή η προσέγγιση ανακουφίζει και το πρόβλημα των μεγάλων χρόνων απόκρισης, το οποίο μπορεί στη συνέχεια να οδηγήσει στην εγκατάλειψη του e-learning συστήματος. Αν και η εξατομίκευση απαιτεί αρκετά βήματα επεξεργασίας και ανάλυσης, το εμπόδιο αυτό αποφεύγεται με την εκτέλεση σημαντικού μέρους της διαδικασίας offline. Στο δεύτερο κεφάλαιο μελετάται το πρόβλημα της παραγωγής προτάσεων σε μια εφαρμογή e-commerce. Τα συστήματα συστάσεων (recommendations systems ή RSs) αποτελούν ίσως την πιο δημοφιλή μορφή εξατομίκευσης και τείνουν να μετατραπούν στις μέρες μας σε σημαντικά επιχειρησιακά εργαλεία. Η προτεινόμενη υβριδική προσέγγιση στοχεύει στην παραγωγή αποτελεσματικών συστάσεων για τους πελάτες ενός online καταστήματος που νοικιάζει κινηματογραφικές ταινίες. Η γνώση για τους πελάτες και τα προϊόντα προκύπτει από δεδομένα χρήσης και τη δομή της οντολογίας σε συνδυασμό με τις εκτιμήσεις-βαθμολογίες των πελατών για τις ταινίες καθώς και την εφαρμογή τεχνικών ταιριάσματος «όμοιων» πελατών. Όταν ένα ή περισσότερα κριτήρια ταιριάσματος ικανοποιούνται, τότε άλλες ταινίες μπορούν να προσδιοριστούν σύμφωνα με το οντολογικό σχήμα που έχουν παρόμοια χαρακτηριστικά με αυτές που ο πελάτης έχει ήδη νοικιάσει. Στην περίπτωση ενός νέου πελάτη όπου το ιστορικό του είναι κενό, πληροφορίες από την αίτηση εγγραφής του αναλύονται ώστε να ταξινομηθεί σε μια συγκεκριμένη κλάση πελατών και να παραχθούν προτάσεις με βάση το οντολογικό σχήμα. Αυτή η ολοκλήρωση παρέχει πρόσθετη γνώση για τις προτιμήσεις των πελατών και επιτρέπει την παραγωγή επιτυχημένων συστάσεων. Ακόμη και στην περίπτωση του «cold-start problem» όπου δεν είναι διαθέσιμη αρχική πληροφορία για τη συμπεριφορά του πελάτη, η προσέγγιση μπορεί να προβεί σε σχετικές συστάσεις. Τέλος, στο τρίτο κεφάλαιο μελετάται το πρόβλημα της εξόρυξης γνώσης από καταχωρήσεις διπλωμάτων ευρεσιτεχνίας που καταδεικνύουν το επίπεδο της καινοτόμου δραστηριότητας μιας αγοράς. Η προτεινόμενη προσέγγιση αφορά στην εφαρμογή τεχνικών Text Mining σε διπλώματα ευρεσιτεχνίας που βρίσκονται καταχωρημένα σε βάσεις δεδομένων διαφόρων διεθνών οργανισμών διαχείρισής τους, με στόχο την παραγωγή επιστημονικών και τεχνολογικών δεικτών για την ανάδειξη του επιπέδου καινοτομίας μιας αγοράς και συνεπώς την επιχειρηματική ευφυΐα. Αρχικά τα δεδομένα καθαρίζονται προκειμένου να βελτιωθεί η ποιότητά τους πριν την επεξεργασία. Στη συνέχεια εφαρμόζονται δύο τύποι επεξεργασίας η απλή ανάλυση (simple analysis) και η στατιστική ανάλυση (statistical analysis). Στην πρώτη περίπτωση παράγονται γραφήματα που συσχετίζουν τις πληροφορίες π.χ. κύριοι τομείς ανάπτυξης σε μια χώρα. Στη δεύτερη περίπτωση αναλύονται γλωσσολογικά τα πεδία title και abstract των διπλωμάτων ευρεσιτεχνίας και ομαδοποιούνται τα λήμματα των λέξεων. Στη συνέχεια πάνω στα δεδομένα εφαρμόζονται τεχνικές correspondence και clustering analysis έτσι ώστε αυτά να ομαδοποιηθούν σύμφωνα με τις τεχνολογίες στις οποίες αναφέρονται. Τα clusters πλέον αυτά προβάλλονται όπως και στην απλή ανάλυση παρέχοντας στο χρήστη μια πιο λεπτομερή απεικόνιση της πληροφορίας των διπλωμάτων ευρεσιτεχνίας. Ο συνδυασμός των αναλύσεων που εφαρμόζονται με βάση την προτεινόμενη μεθοδολογία επιτρέπει την αποτύπωση των τεχνολογικών εξελίξεων και καινοτομιών. Οι δείκτες που παράγονται είναι πολύ σημαντικοί αφού μπορούν να ποσοτικοποιήσουν τις πληροφορίες που αφορούν σε συγκεκριμένες τεχνολογίες. Με αυτό τον τρόπο μπορούμε να παράγουμε δείκτες για τη δραστηριότητα συγκεκριμένων φορέων, εφευρετών, χωρών, κλπ. Τέλος, τεχνολογικοί δείκτες που υποδεικνύουν μελλοντικές ελπιδοφόρες τεχνολογίες καθώς και ποιοι φορείς θα είναι πρωτοπόροι σε αυτές μπορούν να εξαχθούν. / The World Wide Web (Web) has been characterized as a vast, heterogeneous, distributed and complicated environment resulting in difficulties for the efficient handling of e-applications’ data with traditional methods and techniques. This leads to the requirement for designing, implementing and adopting “intelligent” tools, able to select and present to the user the suitable information, at the suitable time and in the suitable form. The present dissertation deals with the problem of mining “hidden” knowledge from systems and applications of electronic learning (e-learning), electronic commerce (e-commerce) and business intelligence (BI), aiming mainly at the improvement of quality and performance of the services provided to the end-users. Specifically, the results are focused on the following: a) Methodologies, techniques and proposed algorithms of mining hidden knowledge from e-applications taking into consideration the semantics of data, b) Production of personalized educational experiences, c) Generation of efficient recommendations for the online purchase of products, d) Discovery of scientific and technological indicators in patents that indicate the level of innovation activity of a market, e) Proposals for future research directions that extend the techniques of knowledge mining to more complex types of applications and indicate new research opportunities. The first chapter presents an approach for the support of personalized e-learning in the cases where the structure and the relation of data and information play essential role. The proposed algorithm is based on an ontology which helps in structuring and managing the content that is related with a given course, a lesson or a topic. The process is decomposed into two stages: the offline phase of data preparation, ontology creation and data usage mining and the online phase of producing personalization. The system finds a initial set of recommendations based on the ontology of the domain and then identifies a set of frequent itemsets (sets of items observed often) in order to enrich the initial recommendations, taking into consideration the navigation of other similar users. In this way, we decrease the time required for the analysis of all the frequent itemsets and association rules, by focusing only on those sets that derive from the combination of the current active session of the user and the ontology recommendations. Moreover, this approach also alleviates the problem of long response times that can lead to the abandonment of the system. Even if the personalization requires considerable steps of preparation and analysis, this obstacle is avoided with the implementation of important part of the process offline. The second chapter studies the problem of recommendations’ production in an e-commerce application. Recommendation systems or RSs constitute perhaps the most popular form of personalization and they tend to become in our days an important business tool. The proposed hybrid approach aims in the production of effective recommendations for the customers of an online shop that rents movies. The knowledge for the customers and the movies results from usage data and the structure of an ontology in combination with customer rates about the movies, as well as with the application of matching techniques for discovering similar customers. When one or more matching criteria are satisfied, then other movies can be specified according to the ontological schema that has similar characteristics with those that the customer already has rented. In the case of a new customer with no history information, data from his registration form are analyzed so that he is categorized in a specific group of customers and the recommendations are based on the ontology. This integration provides additional knowledge for the preferences of customers and allows the production of successful recommendations. Even in the case of cold-start problem where initial information on the customer’s behavior is not available, the approach can produce qualitative and relatively precise recommendations. Finally, the third chapter describes the problem of mining knowledge from patent registrations which indicate the level of innovation activity of a market. The proposed approach concerns the application of Text Mining techniques in patents retrieved from the databases of various national and international Patent Offices, aiming at the production of scientific and technological indicators of the innovation level of a market activity and consequently business intelligence. Initially, the data are cleaned in order to improve their quality before the analysis steps. Then two types of analysis are applied on the data: simple analysis and statistical analysis. In the first case, several charts are produced that connect the information e.g. main sectors of development in a country. In the second case, the title and abstract fields of the patents are linguistically analyzed and the lemmas of words are grouped. Then correspondence and clustering analysis are applied. The produced clusters are depicted as in the simple analysis providing the user with a detailed representation of patent information. The combination of analyses that are applied based on the proposed methodology allows the identification of technological evolutions and innovations. The produced indicators are very important since they can quantify the information that concerns specific technologies. In this way, we can produce indicators for the activity of specific institutions, inventors, countries, etc. Finally, technological indicators about the potential emerging technologies as well as the institutions that will be pioneers can be exported. Εξόρυξη γνώσης Διαχείριση γνώσης Εξατομίκευση Ηλεκτρονική μάθηση Ηλεκτρονικό εμπόριο Συστάσεις 025.04 Knowledge management Web mining Personalization Recommendations E-learning E-commerce Business intelligence
20	Δομική ανάλυση χρονικά εξελισσόμενων γραφημάτων : ιδιότητες, μοντέλα και εφαρμογές / Structural analysis of time evolving graphs : properties, models and applications Μαλλιαρός, Φραγκίσκος 07 October 2011 (has links) Τα τελευταία χρόνια έχει παρατηρηθεί ιδιαίτερο ερευνητικό ενδιαφέρον στη μελέτη δικτύων (γραφημάτων) που προκύπτουν από διάφορες κοινωνικές, τεχνολογικές και επιστημονικές δραστηριότητες. Χαρακτηριστικά παραδείγματα αποτελούν το γράφημα του Διαδικτύου, το γράφημα του Παγκοσμίου Ιστού, κοινωνικά δίκτυα αναπαράστασης της αλληλεπίδρασης των ατόμων στην κοινωνία ή των χρηστών σε υπηρεσίες κοινωνικής δικτύωσης, δίκτυα μοντελοποίησης της συνεργασίας μεταξύ οντοτήτων, βιολογικά δίκτυα, κ.α.. Βασικό χαρακτηριστικό των γραφημάτων αυτών αποτελεί το μεγάλο μέγεθός τους, κάτι που πολλές φορές δυσχαιρένει την ανάλυση και μελέτη τους. Επιπλέον, τα γραφήματα αυτά στις περισσότερες περιπτώσεις δεν είναι στατικά, αλλά εξελίσσονται στο χρόνο με την προσθήκη-διαγραφή κόμβων και ακμών. Έτσι, ορισμένα από τα ερωτήματα που προκύπτουν και έχουν απασχολήσει την ερευνητική κοινότητα είναι πώς μπορούμε να αναλύσουμε τέτοιου είδους γραφήματα και να εξάγουμε ενδιαφέρουσα πληροφορία, ποια είναι η δομή των γραφημάτων αυτών, καθώς και ο τρόπος με τον οποίο δομούνται και εξελίσσονται στο χρόνο. Ένα σημαντικό θέμα που σχετίζεται με τη δομή των γραφημάτων αυτών, αποτελεί η έννοια της ανθεκτικότητας. Γενικά, ένα γράφημα χαρακτηρίζεται ως ανθεκτικό, αν έχει τη δυνατότητα να διατηρήσει τη δομή του και τις ιδιότητες συνεκτικότητας που κατέχει, ύστερα από την απώλεια ενός μέρους των κόμβων και ακμών του. Η ιδιότητα της ανθεκτικότητας σε πραγματικά γραφήματα είναι άμεσα συνυφασμένη με την έννοια της δομής κοινοτήτων (community structure), δηλαδή της οργάνωσης των κόμβων σε ομάδες με υψηλό πλήθος συνδέσεων μεταξύ κόμβων της ίδιας ομάδας και μικρό πλήθος μεταξύ κόμβων που ανήκουν σε διαφορετικές ομάδες. Πώς μπορούμε να κάνουμε μια γρήγορη εκτίμηση των ιδιοτήτων ανθεκτικότητας ενός γραφήματος, χωρίς να επιτελέσουμε μια διαδικασία διαγραφής κόμβων και ακμών όπου σε κάθε βήμα υπολογίζεται η συνεκτικότητα; Με άλλα λόγια, υπάρχει κάποιος δείκτης (μετρική) που μπορεί να μας ενημερώσει τόσο για την ανθεκτικότητα όσο και για τις ιδιότητες δομής κοινοτήτων ενός γραφήματος, ο οποίος θα μπορεί να υπολογιστεί αρκετά γρήγορα ακόμα και για γραφήματα με εκατομμύρια κόμβους και ακμές; Επιπλέον, εάν το γράφημα εξελίσσεται στο χρόνο, τι μπορούμε να πούμε για την ανθεκτικότητά του και κατ' επέκταση, για τις ιδιότητες δομής κοινοτήτων που διαθέτει; Υπάρχει κάποια κοινή ιδιότητα (πρότυπο) στα κοινωνικά γραφήματα που σχετίζεται με τη χρονική εξέλιξη των ιδιοτήτων αυτών; Στα πλαίσια της παρούσας εργασίας προσπαθούμε να απαντήσουμε τα παραπάνω ερωτήματα, μελετώντας τις ιδιότητες επέκτασης κοινωνικών γραφημάτων μεγάλης κλίμακας. Αρχικά παρουσιάζουμε μια μετρική που έχει τη δυνατότητα να χαρακτηρίσει τόσο την ανθεκτικότητα όσο και τις ιδιότητες δομής κοινοτήτων ενός γραφήματος και περιγράφουμε πώς μπορούμε να την υπολογίσουμε αποδοτικά και αποτελεσματικά εκμεταλλευόμενοι ορισμένες ιδιαίτερες φασματικές ιδιότητες των πραγματικών γραφημάτων. Στη συνέχεια, εφαρμόζουμε τη μετρική αυτή σε ένα μεγάλο πλήθος στατικών κοινωνικών γραφημάτων μεγάλης κλίμακας και παρατηρούμε ορισμένες ενδιαφέρουσες ιδιότητες που σχετίζονται με την ανθεκτικότητά του και κατ΄ επέκταση με τις ιδιότητες δομής κοινοτήτων που εμφανίζουν. Μελετάμε πώς οι ιδιότητες αυτές αλλάζουν στον χρόνο, καθώς το γράφημα εξελίσσεται και παρατηρούμε ορισμένα ενδιαφέροντα πρότυπα. Τέλος, παρουσιάζουμε πώς μπορούμε να εντοπίσουμε ανωμαλίες σε γραφήματα που εξελίσσονται στο χρόνο, μελετώντας τις ιδιότητες που σχετίζονται με την ανθεκτικότητά του. / Over the last few years there has been a lot of interest in the study of complex network structures (or graphs) arising in many diverse settings. Characteristic examples are networks from the domain of sociology (e.g., social networks), technological and information networks (e.g., the Internet, the Web, email exchange networks, social interaction networks over social media applications), biological networks (e.g., protein interactions), collaboration and citation networks (e.g., coauthorship networks), and many more. A basic characteristic of these networks is their large scale (size), which in many cases hinder their study. Moreover, the graphs usually are not static, but they evolve over time with the addition/deletion of nodes and edges. A large amount of research work has been devoted on understanding the structure, the organization and the evolution of these networks, with many interesting results. One important aspect which is related to the structure of such graphs, is the notion of robustness. Generally, a graph is characterized as robust, if it is capable to retain its structure and its connectivity properties after the loss of a portion of its nodes and edges. The property of robustness in real-world graphs is closely related to the notion of community structure, where the network is organized based on a modular architecture, presenting well-defined clusters with large inter-cluster and small intra-cluster edge density. We expect that the robustness of a network with good community structure will be poor, since it can be easily become disconnected with the removal of the edges which connect the different clusters. How can we do this estimation quickly without removing edges and nodes and measuring the connectivity? In other words, is there a robustness and community structure index (metric) which can be computed fast enough, even for graphs with millions of nodes and edges? Moreover, if the network evolves over time, what can we say about its robustness, and as an extension, about its community structure? Is there a common pattern in social graphs that govern the time evolution of these properties? In this thesis, we tackle the problem of estimating the robustness properties of a graph quickly, studying the expansion properties of several real-world time-evolving social graphs. First, we present a metric which can be used to characterize both the robustness and the community structure properties of a graph. We present how to efficiently and effectively compute this measure, exploiting the special spectral properties of real-world graphs. Then, we apply this method to several large static social graphs, and we observe some interesting properties that are related to their robustness. We study how these properties change over time, while the graph evolves, and we observe interesting patterns. Finally, we show how to spot outliers and detect anomalies in graphs that evolve over time, examining the change of the robustness properties of a graph. Κοινωνικά δίκτυα Ανθεκτικότητα Ιδιότητες επέκτασης 001.422 602 856 6 Social networks Robustness Expansion properties Graph mining

Search results