• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 30
  • 9
  • 8
  • Tagged with
  • 84
  • 32
  • 25
  • 18
  • 14
  • 9
  • 8
  • 7
  • 7
  • 7
  • 6
  • 6
  • 6
  • 5
  • 5
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
51

Δημιουργία διαδικτυακής εφαρμογής κοινωνικής δικτύωσης από δεδομένα που προέρχονται από τα υπάρχοντα κοινωνικά δίκτυα (Facebook, Twitter, Linkedin, Google Friend Connect)

Παπανικολοπούλου, Κωνσταντίνα 21 December 2011 (has links)
Η παρούσα διπλωματική εργασία έχει ως αντικείμενο αφενός την μελέτη και επισκόπηση των υπαρχόντων κοινωνικών δικτύων και την καταγραφή των πληροφοριών που παρέχουν, αφετέρου δε την ανάπτυξη μιας εφαρμογής κοινωνικής δικτύωσης, η οποία θα αποτελείται από δύο μέρη.Το πρώτο μέρος έχει την μορφή ενός tutorila των APIs τεσσάρων μεγάλων κοινωνικών δικτύων: Facebook, Twitter, Linkedin, Google Friend Connect. Το δεύτερο μέρος παρέχει στον χρήστη την δυνατότητα συνάθροισης και προβολής των δεδομένων του που προέρχονται από τα προφίλ του στα προαναφερθέντα κοινωνικά δίκτυα. / The scope of this thesis is firstly to study and review of existing social networks and record the information they provide, and secondly, to develop a social networking application which will consist of two parts. The first part takes the form of an APIs tutorial of four large socila networks: Facebook, Twitter,Linkedin, Google Friend Connect. The second part provides the user the ability to gather and display the data from the profiles of the aforementioned social networks.
52

Συλλογή, αξιοποίηση και επεξεργασία πληροφοριών που παρέχουν τα κοινωνικά δίκτυα για υποστήριξη εφαρμογών που τρέχουν σε περιβάλλοντα κοινωνικών δικτύων (Facebook)

Παπανικολοπούλου, Ελένη 21 December 2011 (has links)
Η διπλωματική εργασία πραγματεύεται την διαχείριση των πληροφοριών που παρέχουν τα Κοινωνικά Δίκτυα, έχοντας ως αντικειμενικό σκοπό την εξοικείωση με την δημιουργία εφαρμογής στα πλαίσια μιας συγκεκριμένης υπηρεσίας Κοινωνικής Δικτύωσης, το Facebook. Γίνεται αναφορά γενικών πληροφοριών σχετικά με τα υπάρχοντα Κοινωνικά Δίκτυα και δίνεται ιδιαίτερη έμφαση σε θέματα ιδιωτικότητας και ασφάλειας των προσωπικών δεδομένων των χρηστών. Επιπρόσθετα αναλύεται μια συγκεκριμένη πλατφόρμα του Facebook, το DSL FAITH, που αποτελεί ενδιάμεσο στρώμα μεταξύ των εφαρμογών και του Facebook, και βοηθά τους χρήστες να αυξήσουν την ιδιωτικότητα των δεδομένων τους. Τέλος δημιουργήθηκε μια εφαρμογή στο περιβάλλον του Facebook, η οποία έχει ως αντικείμενο αφενός την βελτίωση των ρυθμίσεων ιδιωτικότητας των χρηστών, αφετέρου την διευκόλυνσή τους σε θέματα εμφάνισης των δεδομένων τους και η οποία ενσωματώθηκε στη πλατφόρμα DSL FAITH. / The diploma thesis deals with administration of social information provided by Social Networks and its objective goal is familiarization with development of an application within a particular Social Network service, Facebook. Reference is made to general Information about existing Social Networks and issues such as privacy and security of users’ personal data are emphasized. Additionally, a specific Facebook platform, DSL FAITH is analyzed. DSI FAITH is a middleware between applications and Facebook and assists users augment their privacy. Finally, a Facebook application called Facebook Privacy Wall is developed and integrated with DSL FAITH platform, which aims at improvement or users’ privacy adjustments and assistance in matters of data appearance.
53

Εξόρυξη πληροφορίας από βιοϊατρική βιβλιογραφία : εφαρμογή στην ανάλυση κειμένων (text mining) από πηγές στον παγκόσμιο ιστό

Ιωάννου, Ζαφειρία - Μαρίνα 23 January 2012 (has links)
Τα τελευταία χρόνια, υπάρχει ένα αυξανόμενο ενδιαφέρον για την αυτόματη εξόρυξη κειμένων (Text Mining) με βιοϊατρικό περιεχόμενο, λόγω της ραγδαίας αύξησης των δημοσιεύσεων που είναι αποθηκευμένες σε ηλεκτρονική μορφή σε Βάσεις Δεδομένων του Παγκόσμιου Ιστού, όπως το PubMed και το Springerlink. Το βασικό πρόβλημα που κάνει αυτό τον στόχο περισσότερο προκλητικό και δύσκολο είναι η αδυναμία της επεξεργασίας της διαθέσιμης αυτής πληροφορίας και της εξαγωγής χρήσιμων συνδέσεων και συμπερασμάτων. Κρίνεται, επομένως, επιτακτική η ανάπτυξη νέων εργαλείων που θα διευκολύνουν την εξόρυξη γνώσης από κείμενα βιολογικού περιεχομένου. Σκοπός της παρούσας διπλωματικής εργασίας είναι αρχικά η παρουσίαση γνωστών μεθόδων εξόρυξης δεδομένων από κείμενα αλλά και η ανάπτυξη ενός εργαλείου για την αποδοτική και αξιόπιστη ανακάλυψη γνώσεων από βιοϊατρική βιβλιογραφία που να βασίζεται σε προηγμένες τεχνικές εξόρυξης γνώσης από κείμενα. Πιο συγκεκριμένα, η προσπάθειά μας επικεντρώνεται στην ανάπτυξη ενός αποδοτικού αλγόριθμου συσταδοποίησης και τη χρήση αποδοτικών τεχνικών που αξιολογούν τα αποτελέσματα της συσταδοποίησης, έτσι ώστε να παρέχεται βοήθεια στον χρήστη στην προσπάθεια αναζήτησης του για πληροφορία βιολογικού περιεχομένου. Ο προτεινόμενος αλγόριθμος βασίζεται σε διαφορετικές τεχνικές συσταδοποίησης, όπως ο Ιεραρχικός Αλγόριθμος και ο Spherical K-means Αλγόριθμος και εφαρμόζει μια τελική ταξινόμηση με βάση το Impact Factor των κειμένων που ανακτήθηκαν. Τα βασικά βήματα που περιλαμβάνει ο αλγόριθμος είναι: η προεπεξεργασία των κειμένων, η αναπαράσταση των κειμένων σε διανυσματική μορφή με χρήση του Διανυσματικού Μοντέλου (Vector Space Model), η εφαρμογή της Λανθάνουσας Σημασιολογικής Δεικτοδότησης (Latent Semantic Indexing), η Ασαφής Συσταδοποίηση (Fuzzy Clustering), ο Ιεραρχικός Αλγόριθμος (Hierarchical Algorithm), o Spherical K-means Αλγόριθμος, η επιλογή της καλύτερης συστάδας και τέλος η ταξινόμηση με βάση το Impact Factor των κειμένων που ανακτήθηκαν. Η εφαρμογή που υλοποιούμε βασίζεται στον παραπάνω αλγόριθμο και προσφέρει δύο τρόπους αναζήτησης: 1) σε τρέχοντα ερωτήματα του χρήστη, τα οποία αποθηκεύονται στη βάση δεδομένων και επομένως λειτουργεί ως μέσο συμπιεσμένης αποθήκευσης των προηγούμενων ερωτημάτων του χρήστη, 2) αναζήτηση μέσα από μία λίστα προκαθορισμένων Topic βιολογικού περιεχομένου και επομένως παρέχει στο χρήστη μια επιπλέον βοήθεια σε ένα ευρύ φάσμα ερωτημάτων. Επιπλέον, η εφαρμογή εξάγει χρήσιμες συσχετίσεις όρων χρησιμοποιώντας τις τελικές συστάδες. / There is an increasing interest in automatic text mining in biomedical texts due to the increasing number of electronically available publications stored in databases such as PubMed and SpringerLink. The main problem that makes this goal more challenging and difficult is the inability of processing the available information and extracting useful connections and assumptions. Therefore, there is an urgent need for new text-mining tools to facilitate the process of text mining from biomedical documents. The goal of the present diploma thesis is to present known methods of text mining, and to develop an application that provides reliable knowledge from biomedical literature based on efficient text mining techniques. In particular, our attempt is mainly focused on developing an efficient clustering algorithm and using techniques for evaluating the results of clustering, in order to assist the users in their biological information seeking activities. The proposed algorithm involves different clustering techniques, such as Hierarchical Algorithm, Spherical K-means Algorithm and employs a final ranking according to Impact Factor of retrieved documents. The basic steps of our algorithm are: preprocessing of text’s content, representation with the vector space model, applying Latent Semantic Indexing (LSI), fuzzy clustering, hierarchical clustering, spherical k-means clustering, selection of the best cluster and ranking of biomedical documents according to their impact factor. The application that we implement is based on the above algorithm and provides two search methods: 1) search with user’s queries, which are saved in the database and thus playing the role of a compacted storage of his past search activities, 2) search through a list of pre-specified biological Topics, and thus providing the user with an extra assistance in his various queries. Moreover the whole scheme can mine useful associations between terms by exploiting the nature of the formed clusters.
54

Σχεδίαση και ανάπτυξη εργαλείου εξόρυξης γνώσης για το γνωσιακό φορτίο χρηστών από δεδομένα eye tracking συσκευής

Πετεινάρα, Στυλιανή 05 March 2012 (has links)
Αντικείμενο της παρούσας Διπλωματικής εργασίας είναι η σχεδίαση και ανάπτυξη εργαλείου εξόρυξης γνώσης για τη συναισθηματική κατάσταση χρηστών από δεδομένα συσκευής Eye tracking, όπως επίσης και η μελέτη της μεταβολής γνωσιακού φορτίου χρηστών με τη βοήθεια πειραματικής διαδικασίας. Στη Διπλωματική αυτή εργασία σχεδιάστηκε και αναπτύχθηκε μια εφαρμογή που εκτελεί την παραπάνω λειτουργία, και διεξήχθη ένα πείραμα με σκοπό να συσχετιστούν συγκεκριμένες μετρικές Eye tracking με τη συναισθηματική κατάσταση και το γνωσιακό φορτίο χρηστών. / Design and developpment of a data-mining tool, for the cognitive workload of users from the data of an eye-tracking device.
55

Αποδοτική ιεραρχημένη ανάκτηση κοινωνικού περιεχομένου με χρήση ταξονομιών ετικετών / TREATS: optimal ranked retrieval with tag taxonomies in social media environments

Κοντοτάσιου, Ιωάννα 15 May 2012 (has links)
Μία διαδεδομένη τεχνική που χρησιμοποιείται για την επίτευξη αποδοτικής αναζήτησης περιεχομένου είναι η κατηγοριοποίηση αυτού σε ταξονομίες ετικετών, δηλαδή σε δενδρικές <<ΕΙΝΑΙ-ΕΝΑ>> ιεραρχίες λέξεων-κλειδιών που παρέχουν οι χρήστες. Κάθε κόμβος της δενδρικής δομής αντιστοιχεί σε μία ετικέτα της ταξονομίας. Στην παρούσα διπλωματική εργασία θα γίνει χρήση τέτοιων ταξονομιών ετικετών, όπου κάθε αντικείμενο επισημαίνεται από τους χρήστες με μία ή περισσότερες ετικέτες. Το περιβάλλον το οποίο θα ορίσουμε είναι ιδιαίτερα δυναμικό, με την έννοια ότι η προσθαφαίρεση και τροποποίηση των ετικετών από τους χρήστες είναι συνεχής καθώς και ότι αντικείμενα μπορούν να προσθαφαιρούνται συνεχώς. Στο περιβάλλον αυτό θα στοχεύσουμε στην αποδοτική ιεραρχημένη ανάκτηση περιεχομένου. Πρωταρχικό στόχο αποτελεί η δημιουργία μετρικών ομοιότητας μεταξύ ερωτημάτων, τα οποία υποβάλλονται από χρήστες, και του αποθηκευμένου και κατηγοριοποιημένου περιεχομένου. Οι μετρικές αυτές θα βασίζονται στη σημασιολογική απόσταση των κόμβων των ταξονομιών από τους όρους των υποβληθέντων ερωτημάτων (οι οποίοι όροι θα πρέπει επίσης να αποτελούν κόμβους της ταξονομίας). Βάσει των παραπάνω μετρικών θα σχεδιαστούν και θα υλοποιηθούν αλγόριθμοι για την ανάκτηση των k πιο σχετικών αντικειμένων, οι οποίοι θα αποτελούν επεκτάσεις των βασικών αλγορίθμων κατωφλίου του Fagin (Fagin's Threshold Algorithms - TA). Στην προτεινόμενη προσέγγιση θα καμφθεί η απαίτηση της προΰπαρξης ανεστραμμένων ευρετηρίων. Αντίθετα, τα απαιτούμενα (από τους αλγορίθμους του Fagin) ανεστραμμένα ευρετήρια να κατασκευάζονται δυναμικά κατά την απάντηση των ερωτημάτων. / The spark for this work stems from the recent explosion in social media production, the proven interest of users to tag this media, and on the proven capability of semantically rich taxonomies to appropriately classify content. The rich annotations/tags provided for social media offer a great basis for taxonomies. Noting that web search increasingly involves taxonomies, and that there exists already a rich set of taxonomies for many different fields, which can help classify tags, we target the problems associated with efficient taxonomy-based ranked retrieval in social web environments. In a social-tag taxonomies environment, each tag (taxonomy node) is associated with all documents tagged with this tag. Queries are formulated using tags. The environment is highly dynamic, as documents and tags-documents associations are being added and/or deleted constantly. This dynamism can render as highly inefficient the traditional approaches to ranked retrieval, which are based on text indices, due to the high index creation, maintenance, and use costs. We first adapt similarity measures between tag queries and documents, which are based on well-established principles of taxonomy-based search. We then develop algorithms for top-k queries exploiting taxonomic knowledge. We contribute a suit of top-k algorithms, coined TREATS (ThREshold Algorithms on TaxonomieS). Our first algorithm shows how to build per-tag inverted indices (required by the well-established Threshold Algorithms (TA) for top-k query processing). In this way, we port optimal ranked retrieval algorithms into the taxonomy realm. Our second algorithm, TREATS-sorted, shares the same principles as TA-sorted, but without the need to maintain any inverted text indices! This introduces significant savings: First, in terms of storage required to store the indices. Second, for the overhead for building and maintaining indices. And third, for the overhead incurred during query execution for accessing indices. Our third algorithm, TREATS-Labelled, further exploits the taxonomic structure in order to introduce large additional performance benefits. We also prove the correctness and (instance-)optimality of TREATS. Finally, we have implemented all algorithms and evaluated their efficiency against the baseline TA-random and TA-sorted algorithms, using real data sets with different characteristics.
56

Τεχνικές επαναδιατύπωσης ερωτημάτων στον παγκόσμιο ιστό για ανάκτηση πληροφορίας προσανατολισμένης στο σκοπό αναζήτησης / Query rewrites for goal oriented web searches

Κύρτσης, Νικόλαος 15 May 2012 (has links)
Στα πλαίσια της παρούσας διπλωματικής εργασίας, ασχολούμαστε με την αυτόματη κατηγοριοποίηση των αποτελεσμάτων των αναζητήσεων στον Παγκόσμιο Ιστό. Αρχικά, ορίζουμε τα χαρακτηριστικά των σελίδων που είναι κατάλληλα για κατηγοριοποίηση με βάση την πρόθεση του χρήστη. Έπειτα, με χρήση μεθόδων μείωσης της διαστατικότητας επιλέγουμε τα πιο αντιπροσωπευτικά από τα χαρακτηριστικά αυτά και αξιολογούμε την απόδοση διάφορων αλγορίθμων κατηγοριοποίησης. Ακολούθως, επιλέγουμε τον αλγόριθμο κατηγοριοποίησης που βασίζεται στα επιλεγμένα χαρακτηριστικά και επιτυγχάνει την καλύτερη απόδοση. Εφαρμόζοντας τον αλγόριθμο, κατηγοριοποιούμε τα αποτελέσματα των αναζητήσεων στον Παγκόσμιο Ιστό. Τέλος, προτείνουμε μια μέθοδο εξαγωγής όρων από τα κατηγοριοποιημένα αποτελέσματα και επαναδιατύπωσης του ερωτήματος με βάση τον σκοπό αναζήτησης του χρήστη. / In this thesis, we tackle the problem of automatic classification of search results in Web environment. First, we define web pages features that are convenient for classification based on the user’s intent. Next, we use dimensionality reduction techniques to choose the most representative features and we evaluate different classification algorithms. We choose the most efficient classification algorithm based on chosen features and by using it, we classify the results retrieved from web searches. In the end, we propose a method to extract terms from the classified results and to reformulate the query based on user intent.
57

Εξόρυξη γνώσης στον παγκόσμιο ιστό και εφαρμογές σε συστήματα συστάσεων

Φαλιάγκα, Ευανθία 17 September 2012 (has links)
Το διαδίκτυο συγκεντρώνει μεγάλες ποσότητες πληροφοριών, οι οποίες λόγω του όγκου τους πολλές φορές μένουν αναξιοποίητες. Οι τεχνικές εξόρυξης γνώσης μπορούν να αυτοματοποιήσουν τη διαδικασία της ανάκτησης χρήσιμων πληροφοριών από τον ιστό και να συνδυαστούν με συστήματα που μπορούν να αξιοποιήσουν τη γνώση αυτή. Ένα τέτοιο παράδειγμα είναι τα συστήματα συστάσεων, τα οποία μπορούν να αξιοποιούν την υπάρχουσα γνώση και να εντοπίζουν αυτόματα τις κατάλληλες επιλογές από ένα μεγάλο αριθμό εναλλακτικών, με βάση ορισμένα καθορισμένα κριτήρια. Για το λόγο αυτό τα συστήματα συστάσεων είναι άρρηκτα συνδεδεμένα με τεχνικές εξόρυξης γνώσης, οι οποίες μέσα από πληθώρα πληροφοριών μπορούν να εξάγουν χρήσιμα στοιχεία που βοηθούν στην αυτοματοποιημένη παραγωγή συστάσεων, διαδικασία που γίνεται ακόμα πιο πολύπλοκη όταν η πρόταση πρέπει να γίνει με βάση πολλαπλά κριτήρια, με διαφορετικά βάρη το καθένα. Εφαρμογές των συστημάτων συστάσεων υπάρχουν σε τομείς όπως η ψυχαγωγία, το ηλεκτρονικό εμπόριο αλλά και σε διαδικτυακές υπηρεσίες. Μία ακόμη εφαρμογή τους είναι και το πρόβλημα της αξιολόγησης ανθρώπινων χαρακτηριστικών, όπου τα κριτήρια των συστάσεων θα είναι οι δεξιότητες των ανθρώπων και το αντικείμενο της σύστασης θα είναι το πρόσωπο που αξιολογείται. Αυτά ονομάζονται συστήματα ηλεκτρονικών προσλήψεων (e-recruitment συστήματα) και αυτοματοποιούν τη διαδικασία της δημοσίευσης θέσεων εργασίας και τη λήψη βιογραφικών σημειωμάτων. Το πρόβλημα των ηλεκτρονικών προσλήψεων έχει δύο όψεις: Μπορεί να είναι είτε προσανατολισμένο στον υποψήφιο (seeker oriented) είτε προσανατολισμένο στον εργοδότη (company oriented). Στην πρώτη περίπτωση το σύστημα ηλεκτρονικών προσλήψεων προτείνει στον υποψήφιο μία λίστα από θέσεις εργασίας που ταιριάζουν καλύτερα στο προφίλ του. Στη δεύτερη περίπτωση οι εργοδότες δημοσιεύουν τις προδιαγραφές των διαθέσιμων θέσεων εργασίας οι υποψήφιοι εκδηλώνουν ενδιαφέρον και στη συνέχεια γίνεται κατάταξη των υποψηφίων με βάση κριτήρια που εξαρτώνται από τη θέση εργασίας. Αντικείμενο της παρούσας διδακτορικής διατριβής είναι η μελέτη και η εφαρμογή τεχνικών εξόρυξης γνώσης ώστε να βελτιωθεί η διαδικασία των συστάσεων. Οι τεχνικές που προτείνονται εφαρμόζονται σε συστήματα ηλεκτρονικών προσλήψεων προσανατολισμένων στον εργοδότη. Συγκεκριμένα, στο πρώτο κεφάλαιο παρουσιάζονται τα βασικά χαρακτηριστικά των συστημάτων συστάσεων και δίνεται έμφαση στα συστήματα όπου οι συστάσεις βασίζονται στο φιλτράρισμα με βάση το περιεχόμενο. Σαν παράδειγμα των συστημάτων συστάσεων χρησιμοποιήθηκε ένα σύστημα ηλεκτρονικών προσλήψεων προσανατολισμένο στον εργοδότη που αυτοματοποιεί την αξιολόγηση των υποψηφίων. Στη συνέχεια του κεφαλαίου παρουσιάζεται μία νέα προσέγγιση στην κατάταξη υποψηφίων με πολλές βελτιώσεις σε σχέση με τα υπάρχοντα συστήματα. Η προσέγγιση που προτείνεται διαφέρει από τα υπάρχοντα συστήματα ηλεκτρονικών προσλήψεων στο γεγονός ότι δε δέχεται βιογραφικά, αλλά οι υποψήφιοι συμπληρώνουν τα στοιχεία του προφίλ τους χρησιμοποιώντας προκαθορισμένες φόρμες μέσω διαδικτύου. Ακόμη, μοντελοποιεί τα βιογραφικά που προκύπτουν με χρήση της HR-XML γλώσσας μοντελοποίησης και στη συνέχεια κατατάσσει τους υποψηφίους, βαθμολογώντας τα προσόντα τους ανάλογα με τις απαιτήσεις της κάθε θέσης εργασίας. Η διαδικασία βαθμολόγησης και κατάταξης βασίζεται στον αλγόριθμο Analytic Hierarchy Process, ή AHP (Saaty, 1990). Για να ελεγχθεί η λειτουργικότητα και η αποτελεσματικότητα του συστήματος σχεδιάστηκε και εκτελέστηκε ένα σενάριο, που χρησιμοποίησε θέσεις εργασίας από το γραφείο διασύνδεσης του Πανεπιστημίου Πατρών. Στο δεύτερο κεφάλαιο, προτείνεται μία μέθοδος δημιουργίας συστάσεων που βασίζεται στην αυτόματη εξόρυξη των στοιχείων της προσωπικότητας των χρηστών. Το τελευταίο βασίζεται στη γλωσσολογική ανάλυση των γραπτών δεδομένων που σχετίζονται με τους υποψηφίους και είναι διαθέσιμα στις ιστοσελίδες κοινωνικής δικτύωσης. Τα χαρακτηριστικά προσωπικότητας των υποψηφίων θεωρούνται μεγάλης σημασίας στις περισσότερες θέσεις εργασίας αλλά αγνοούνται εντελώς στα υπάρχοντα συστήματα ηλεκτρονικών προσλήψεων. Στο σύστημα παροχής συστάσεων που υλοποιήθηκε, υπολογίστηκε η εξωστρέφεια του κάθε υποψηφίου, το οποίο χρησιμοποιήθηκε σαν ένα από τα κριτήρια κατάταξης. Στη συνέχεια, περιγράφεται η αρχιτεκτονική του συστήματος και παρουσιάζεται η εφαρμογή διαδικτύου που υλοποιήθηκε, η οποία ουσιαστικά είναι ένα ολοκληρωμένο σύστημα ηλεκτρονικών προσλήψεων που κατατάσσει τους υποψηφίους για κάθε θέση εργασίας. Η εφαρμογή αυτή δοκιμάστηκε με πραγματικά δεδομένα μέσω ενός πιλοτικού σεναρίου που σχεδιάστηκε σε συνεργασία με το τμήμα προσωπικού της Novartis Hellas. Για τα πειραματικά αποτελέσματα χρησιμοποιήθηκαν 100 ελληνικά ιστολόγια και υπολογίστηκαν τα LIWC σκορ για κάθε κατηγορία λέξεων σε κάθε ιστολόγιο. Τα αποτελέσματα αξιολογήθηκαν από έμπειρους υπεύθυνους προσλήψεων και δείχνουν την αποτελεσματικότητα του συστήματος σε ένα πραγματικό σενάριο πρόσληψης προσωπικού. Στο τρίτο κεφάλαιο προτείνεται η εφαρμογή εποπτευόμενων αλγορίθμων μάθησης (supervised learning algorithms) σε αυτοματοποιημένα συστήματα συστάσεων, για να αντιμετωπιστεί το πρόβλημα της κατάταξης. Η προτεινόμενη μέθοδος εφαρμόζεται σε ένα σύστημα ηλεκτρονικών προσλήψεων όπου, ένα σύνολο αντικειμενικών κριτηρίων εξάγεται από το LinkedIn προφίλ του υποψηφίου και υπολογίζονται τα χαρακτηριστικά της προσωπικότητάς του χρησιμοποιώντας γλωσσολογική ανάλυση στις δημοσιεύσεις του ιστολογίου του. Το νέο χαρακτηριστικό της μεθόδου είναι ότι πλέον αξιοποιεί τις κατατάξεις που έκανε ο υπεύθυνος προσλήψεων για κάθε θέση εργασίας, τις χρησιμοποιεί σαν δεδομένα εκπαίδευσης και ενσωματώνοντας αλγόριθμους μηχανικής μάθησης, το σύστημα «μαθαίνει» και ταξινομεί τους υποψηφίους με βάση τις προηγούμενες επιλογές. Μία ακόμη βελτίωση που προτείνεται στο κεφάλαιο αυτό είναι η δημιουργία και χρήση ταξινομίας, ώστε να γίνεται σημασιολογική αναζήτηση των δεξιοτήτων που απαιτούνται σε κάθε θέση εργασίας και να μετράται η σχετική προϋπηρεσία. Χρησιμοποιώντας τη σημασιολογική αναζήτηση, το σύστημα μπορεί να ανταποκριθεί σε κάθε θέση εργασίας ακόμα και αν απαιτεί συγκεκριμένη προϋπηρεσία και εξειδικευμένα προσόντα. Τα αποτελέσματα του συστήματος που υλοποιήθηκε για την εφαρμογή της μεθόδου που προτείνεται συγκρίθηκαν με τις κατατάξεις ενός υπεύθυνου προσλήψεων και έδειξαν ότι το σύστημα που αναπτύχθηκε μπορεί να χρησιμοποιηθεί σε πραγματικές συνθήκες με πολύ καλή ακρίβεια. Στο τέταρτο κεφάλαιο παρουσιάζεται μία μέθοδος εξόρυξης γνώσης σε επίπεδο κλώνων μοντέλων για την εκτίμηση της ποιότητας των εφαρμογών. Η μέθοδος προτείνει τη μοντελοποίηση του εννοιολογικού συστήματος μιας εφαρμογής. Στη συνέχεια, εφαρμόζοντας εργαλεία ανάκτησης υπογράφων γίνεται αναζήτηση κλώνων μοντέλων και υπολογίζονται οι κατάλληλες μετρικές ποιότητας. Σκοπός της μεθοδολογίας και του συστήματος που αναπτύχθηκε είναι να ανιχνεύει προβλήματα στο εννοιολογικό σχήμα μιας εφαρμογής όσο αφορά στην αποδοτικότητα, στη συνέπεια, στην ευχρηστία και γενικά στην ποιότητα μιας εφαρμογής. Η προτεινόμενη μεθοδολογία μπορεί να χρησιμοποιηθεί είτε στη φάση του σχεδιασμού μιας εφαρμογής είτε στην ανακατασκευή της. Η σωστή λειτουργία του συστήματος που αναπτύχθηκε επιβεβαιώνεται πειραματικά μέσω ενός πιλοτικού σεναρίου. / The internet gathers vast amounts of information, which remain unexploited. Data mining techniques can automate the process of extracting knowledge from the web, which can be exploited by information systems. On the other hand recommender systems can utilize knowledge for a specific domain to automatically find the best choice from a large number of alternatives according to certain specified criteria. Thus recommender systems are closely related to data mining techniques, which can be employed to extract useful data and produce automatic recommendations. This process becomes more complex when the recommendations are based on multiple criteria with different weights. Recommender systems have many applications in the areas of entertainment, e-commerce and other web services. Another application is the problem of assessing human traits, where the recommendation criteria are the candidates’ skills and the recommendation objective is to assess candidate’s relevance to a specific position. These are termed e-recruitment systems and automate the process of publishing positions and receiving CVs. The online recruitment problem is two-sided: It can be seeker-oriented or company-oriented. In the first case the e-recruitment system recommends to the candidate a list of job positions that better fit his profile. In the second case recruiters publish the specifications of available job positions, the candidates apply and then they are ranked based on criteria that depend on the job position. The purpose of this thesis is the study the application of data mining techniques with an objective to improve the recommendation process. The proposed techniques are applied to company-oriented e-recruitment systems. Specifically, the first chapter presents the basic characteristics of the recommender systems and focuses on systems that make content-based predictions. As an example of recommender systems a company oriented e-recruitment system was used to automatically evaluate job applicants. In this chapter, a new approach for candidate ranking is presented that has many improvements over the existing systems. The proposed approach differs from conventional e-recruitment systems in that it does not accept CVs, but candidates fill predefined online forms. Moreover, it models the resulting CVs using the HR-XML modeling language and then ranks the candidates, graduating the required qualifications for each job. The process of scoring and ranking algorithm is based on the Analytic Hierarchy Process, or AHP. To test the functionality and the efficiency of the system a scenario was set based on job offers from the liaison office of the University of Patras. The second chapter proposes a recommender system based on the algorithm of Analytic Hierarchy Process (AHP) and the automatic extraction of the users’ personality elements. The latter is based on the linguistic analysis of text data associated with the candidates and are available on social networking sites. The personality traits of the candidates are very important in most jobs, but completely ignored in the existing e-recruitment systems. Then, the system architecture is shown and the Web application that was implemented is presented, which is essentially an integrated e-recruitment system that ranks the candidates for each job. This application was tested with real data through a pilot script that was designed in collaboration with the personnel department of Novartis Hellas. For the experimental results were used 100 Greek blogs and LIWC scores were calculated for each category of words in each blog. The results were evaluated by experienced recruiters and show the effectiveness of the system in real scenario recruitment. The third chapter introduces the application of supervised learning algorithms on automated recommender systems, to solve the problem of ranking. The proposed method is applied to an e-recruitment system where a set of objective criteria is extracted from the candidate’s LinkedIn profile and then his personality traits are calculated using linguistic analysis to his blog posts. The new feature of this method is that it uses the recruiter’s rankings for each job position, uses them as training data and incorporates machine learning algorithms. The system “learns” and ranks the candidates based on previous recommendations. Another enhancement proposed in this chapter is the development and use of a taxonomy, to enable a semantic matching of the skills required for each job position and calculate the relevant experience. Using semantic matching, the system can respond to any job position even of it requires specific job experience and specialized skills. The results of the system implemented to validate the proposed method, were compared to a recruiter’s ranking and showed that the implemented system can be used in real world with very good accuracy. The fourth chapter presents a method for model clones mining to evaluate the applications’ quality. The method proposes the modeling of the conceptual schema of the application. Then, using tools for sub graphs mining a search for model clones is performed and the appropriate quality metrics are calculated. The purpose of the methodology and the implemented system was to detect problems in the conceptual schema of an application regarding the efficiency, consistency, usability and overall quality of an application. The proposed methodology can be used either in the design phase of an application or in the reconstruction phase. The proper functionality of the developed system is experimentally confirmed with a pilot scenario.
58

Bayesian mixture models for frequent itemset mining

He, Ruofei January 2012 (has links)
In binary-transaction data-mining, traditional frequent itemset mining often produces results which are not straightforward to interpret. To overcome this problem, probability models are often used to produce more compact and conclusive results, albeit with some loss of accuracy. Bayesian statistics have been widely used in the development of probability models in machine learning in recent years and these methods have many advantages, including their abilities to avoid overfitting. In this thesis, we develop two Bayesian mixture models with the Dirichlet distribution prior and the Dirichlet process (DP) prior to improve the previous non-Bayesian mixture model developed for transaction dataset mining. First, we develop a finite Bayesian mixture model by introducing conjugate priors to the model. Then, we extend this model to an infinite Bayesian mixture using a Dirichlet process prior. The Dirichlet process mixture model is a nonparametric Bayesian model which allows for the automatic determination of an appropriate number of mixture components. We implement the inference of both mixture models using two methods: a collapsed Gibbs sampling scheme and a variational approximation algorithm. Experiments in several benchmark problems have shown that both mixture models achieve better performance than a non-Bayesian mixture model. The variational algorithm is the faster of the two approaches while the Gibbs sampling method achieves a more accurate result. The Dirichlet process mixture model can automatically grow to a proper complexity for a better approximation. However, these approaches also show that mixture models underestimate the probabilities of frequent itemsets. Consequently, these models have a higher sensitivity but a lower specificity.
59

Extraction de motifs séquentiels dans des données séquentielles multidimensionnelles et hétérogènes : une application à l'analyse de trajectoires de patients / Mining heterogeneous multidimensional sequential data : An application to the analysis of patient healthcare trajectories

Egho, Elias 02 July 2014 (has links)
Tous les domaines de la science et de la technologie produisent de gros volume de données hétérogènes. L'exploration de tels volumes de données reste toujours un défi. Peu de travaux ciblent l'exploration et l'analyse de données séquentielles multidimensionnelles et hétérogènes. Dans ce travail, nous proposons une contribution à la découverte de connaissances dans les données séquentielles hétérogènes. Nous étudions trois axes de recherche différents: (i) l'extraction de motifs séquentiels, (ii) la classification et (iii) le clustering des données séquentielles. Tout d'abord, nous généralisons la notion de séquence multidimensionnelle en considérant la structure complexe et hétérogène. Nous présentons une nouvelle approche MMISP pour extraire des motifs séquentiels à partir de données séquentielles multidimensionnelles et hétérogènes. MMISP génère un grand nombre de motifs séquentiels comme cela est généralement le cas pour toues les algorithmes d'énumération des motifs. Pour surmonter ce problème, nous proposons une nouvelle façon de considérer les séquences multidimensionnelles hétérogènes en les associant à des structures de patrons. Nous développons une méthode pour énumérer seulement les motifs qui respectent certaines contraintes. La deuxième direction de recherche est la classification de séquences multidimensionnelles et hétérogènes. Nous utilisons l'analyse formelle de concept (AFC) comme une méthode de classification. Nous montrons l'intérêt des treillis de concepts et de l'indice de stabilité pour classer les séquences et pour choisir quelques groupes intéressants de séquences. La troisième direction de recherche dans cette thèse est préoccupé par le regroupement des données séquentielles multidimensionnelles et hétérogènes. Nous nous basons sur la notion de sous-séquences communes pour définir une mesure de similarité permettant d'évaluer la proximité entre deux séquences formées d'une liste d'ensemble d'items. Nous utilisons cette mesure de similarité pour construire une matrice de similarité entre les séquences et pour les segmenter en plusieurs groupes. Dans ce travail, nous présentons les résultats théoriques et un algorithme de programmation dynamique permettant de compter efficacement toutes les sous-séquences communes à deux séquences sans énumérer toutes les séquences. Le système résultant de cette recherches a été appliqué pour analyser et extraire les trajectoires de soins de santé des patients en cancérologie. Les données sont issues d' une base de données médico-administrative incluant des informations sur des patients hospitalisent en France. Le système permet d'identifier et de caractériser des épisodes de soins pour des ensembles spécifiques de patients. Les résultats ont été discutés et interprétés avec les experts du domaine / All domains of science and technology produce large and heterogeneous data. Although a lot of work was done in this area, mining such data is still a challenge. No previous research work targets the mining of heterogeneous multidimensional sequential data. This thesis proposes a contribution to knowledge discovery in heterogeneous sequential data. We study three different research directions: (i) Extraction of sequential patterns, (ii) Classification and (iii) Clustering of sequential data. Firstly we generalize the notion of a multidimensional sequence by considering complex and heterogeneous sequential structure. We present a new approach called MMISP to extract sequential patterns from heterogeneous sequential data. MMISP generates a large number of sequential patterns as this is usually the case for pattern enumeration algorithms. To overcome this problem, we propose a novel way of considering heterogeneous multidimensional sequences by mapping them into pattern structures. We develop a framework for enumerating only patterns satisfying given constraints. The second research direction is in concern with the classification of heterogeneous multidimensional sequences. We use Formal Concept Analysis (FCA) as a classification method. We show interesting properties of concept lattices and of stability index to classify sequences into a concept lattice and to select some interesting groups of sequences. The third research direction in this thesis is in concern with the clustering of heterogeneous multidimensional sequential data. We focus on the notion of common subsequences to define similarity between a pair of sequences composed of a list of itemsets. We use this similarity measure to build a similarity matrix between sequences and to separate them in different groups. In this work, we present theoretical results and an efficient dynamic programming algorithm to count the number of common subsequences between two sequences without enumerating all subsequences. The system resulting from this research work was applied to analyze and mine patient healthcare trajectories in oncology. Data are taken from a medico-administrative database including all information about the hospitalizations of patients in Lorraine Region (France). The system allows to identify and characterize episodes of care for specific sets of patients. Results were discussed and validated with domain experts
60

Εξαγωγή γνώσης από αποθήκες υπηρεσιών Παγκόσμιου Ιστού / Knowledge extraction from Web services repositories

Κιούφτης, Βασίλειος 16 May 2014 (has links)
Με την αυξανόμενη χρήση του Παγκόσμιου Ιστού και των Συστημάτων Προσανατολισμένων στις Υπηρεσίες , οι υπηρεσίες παγκόσμιου ιστού έχουν γίνει μίας ευρέως διαδεδομένη ως προς τη χρήση τεχνολογία. Οι αποθήκες υπηρεσιών παγκόσμιου ιστού αναπτύσσονται με ραγδαίους ρυθμούς , δημιουργώντας την ανάγκη ανάπτυξης προηγμένων εργαλείων για την οργάνωση και δεικτοδότησή τους. Η ομαδοποίηση των υπηρεσιών παγκόσμιου ιστού, οι οποίες συνήθως αναπαρίστανται από έγγραφα Γλώσσας Περιγραφής Υπηρεσιών Παγκόσμιου Ιστού (Web Service Description Language - WSDL) , καθιστά τις μηχανές αναζήτησης υπηρεσιών παγκόσμιου ιστού αλλά και τους χρήστες ικανούς να οργανώνουν και να επεξεργάζονται μεγάλες αποθήκες υπηρεσιών σε ομάδες με παρόμοια λειτουργικότητα και χαρακτηριστικά. Σε αυτή την εργασία προτείνουμε μια νέα τεχνική για την ομαδοποίηση των WSDL εγγράφων. Η προτεινόμενη μέθοδος θεωρεί τις υπηρεσίες παγκόσμιου ιστού ως κατηγορικά δεδομένα όπου κάθε υπηρεσία περιγράφεται από ένα σύνολο τιμών που εξάγονται από το περιεχόμενο και τη δομή του αντίστοιχου αρχείου περιγραφής και ως μέτρο ποιότητας της ομαδοποίησης ορίζεται η αμοιβαία πληροφορία μεταξύ των ομάδων και των τιμών τους. Περιγράφουμε τον τρόπο με τον οποίο οι υπηρεσίες παγκόσμιου ιστού αναπαρίστανται ως κατηγορικά δεδομένα και ομαδοποιούνται, χρησιμοποιώντας τον αλγόριθμο ομαδοποίησης κατηγορικών δεδομένων LIMBO , ελαχιστοποιώντας συγχρόνως την απώλεια πληροφορίας στις τιμές που εξάγονται από τα γνωρίσματα. Κατά την πειραματική αξιολόγηση , η δική μας προσέγγιση υπερέχει σε απόδοση F-Measure τις τεχνικές που χρησιμοποιούν εναλλακτικές μετρικές ομοιότητας και μεθόδους για την ομαδοποίηση WSDL εγγράφων. / With the increasing use of web and Service Oriented Systems, web-services have become a widely adopted technology. Web services repositories are growing fast, creating the need for advanced tools for organizing and indexing them. Clustering web services, usually represented by Web Service Description Language (WSDL) documents, enables the web service search engines and users to organize and process large web service repositories in groups with similar functionality and characteristics. In this paper, we propose a novel technique of clustering WSDL documents. The proposed method considers web services as categorical data and each service is described by a set of values extracted from the content and structure of its description file and as quality measure of clustering is defined the mutual information of the clusters and their values. We describe the way to represent web services as categorical data and how to cluster them by using LIMBO algorithm, minimizing at the same time the information loss in features values. In experimental evaluation, our approach outperforms in terms of F-Measure the approaches which use alternative similarity measures and methods for clustering WSDL documents.

Page generated in 0.0384 seconds