• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 10
  • Tagged with
  • 10
  • 10
  • 5
  • 5
  • 4
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Εξατομικευμένη αναζήτηση πληροφορίας με χρήση σημασιολογικών δικτύων / Personalized web search through the use of semantic networks

Ζώτος, Νικόλαος 15 November 2007 (has links)
Κατά την αναζήτηση στον Παγκόσμιο Ιστό, είναι πιθανό να επιστρέφονται πολλά αποτελέσματα για ερωτήματα που είναι ασαφή και αμφιλεγόμενα. Τα snippets που εξάγονται από τις σελίδες που ανακτήθηκαν, είναι ένας δείκτης της χρησιμότητας της σελίδας ως προς την θεματική πρόθεση του ερωτήματος και μπορούν να χρησιμοποιηθούν για να εστιάσουμε στο αντικείμενο της αναζήτησης. Στην παρούσα εργασία προτείνουμε μια καινοτόμο μέθοδο αυτόματης εξαγωγής snippets ιστοσελίδων που είναι πολύ σχετικά με την πρόθεση του ερωτήματος αλλά και αντιπροσωπευτικά του συνολικού περιεχομένου των σελίδων. Θα δείξουμε ότι η χρήση σημασιολογίας ως βάση της θεματικά προσανατολισμένης ανάκτησης πληροφορίας μας βοηθάει να προτείνουμε στον χρήστη snippets υψηλής ποιότητας. Τα snippets που παράγονται με την μέθοδο που προτείνουμε είναι σημαντικά καλύτερα όσον αφορά την απόδοση της ανάκτησης σε σχέση με αυτά που προκύπτουν από στατιστική επεξεργασία της σελίδας. Επιπλέον, μπορούμε να χρησιμοποιήσουμε τη σημασιολογική εξαγωγή snippets για να αυξήσουμε την απόδοση των παραδοσιακών αλγορίθμων, οι οποίοι βασίζονται στην επικάλυψη λέξεων ή σε στατιστικά βάρη, αφού αυτοί συνήθως παράγουν διαφορετικά αποτελέσματα. Η επιλογή από την πλευρά του χρήστη των πιο σχετικών με το ερώτημά του snippets, μπορεί να χρησιμοποιηθεί στο να βελτιώσουμε τα επιστρεφόμενα αποτελέσματα και να προωθήσουμε τις πιο χρήσιμες προς αυτόν σελίδες. / When searching the web, it is often possible that there are too many results available for ambiguous queries. Text snippets, extracted from the retrieved pages, are an indicator of the pages’ usefulness to the query intention and can be used to focus the scope of search results. In this paper, we propose a novel method for automatically extracting web page snippets that are highly relevant to the query intention and expressive of the pages’ entire content. We show that the usage of semantics, as a basis for focused retrieval, produces high quality text snippet suggestions. The snippets delivered by our method are significantly better in terms of retrieval performance compared to those derived using the pages’ statistical content. Furthermore, our study suggests that semantically-driven snippet generation can also be used to augment traditional passage retrieval algorithms based on word overlap or statistical weights, since they typically differ in coverage and produce different results. User clicks on the query relevant snippets can be used to refine the query results and promote the most comprehensive among the relevant documents.
2

Ανάπτυξη συστήματος παροχής συστάσεων με χρήση τεχνικών σημασιολογικής ανάλυσης

Τουλιάτος, Γεράσιμος 09 July 2013 (has links)
Εξαιτίας του μεγάλου όγκου δεδομένων που υπάρχουν στον Παγκόσμιο Ιστό, η ανεύρεση της επιθυμητής πληροφορίας από ένα χρήστη μπορεί να αποδειχθεί χρονοβόρα. Διάφορα συστήματα προσωποποιημένης αναζήτησης έχουν προταθεί κατά καιρούς για να διευκολύνουν την επίλυση του συγκεκριμένου προβλήματος. Στόχος της παρούσας εργασίας ήταν η μελέτη διάφορων τεχνικών βελτίωσης των αποτελεσμάτων μιας αναζήτησης και η ανάπτυξη ενός συστήματος που θα προβλέπει την πληροφοριακή ανάγκη ενός χρήστη και θα του προτείνει ένα σύνολο από σελίδες που πιθανόν να τον ικανοποιούν. Επειδή το Web αποτελεί ένα πολύ μεγάλο σύστημα, η μελέτη μας ξεκινάει από το επίπεδο ιστοτόπου. Για την ανάπτυξη του συστήματός μας θα κάνουμε χρήση σημασιολογικών τεχνικών ανάλυσης. Πιο συγκεκριμένα, με χρήση μιας οντολογίας θα χαρακτηρίσουμε εννοιολογικά τις σελίδες ενός ιστοτόπου και επιπλέον θα χρησιμοποιήσουμε την οντολογία για να εκφράσουμε την πληροφοριακή ανάγκη του χρήστη. Κατά την περιήγησή του στον ιστότοπο ο χρήστης επιλέγει εκείνους τους συνδέσμους που θεωρεί ότι το φέρνουν πιο κοντά στο στόχο του. Εμείς, χαρακτηρίζουμε κάθε υπερσύνδεσμο με έννοιες που συνδέονται με το περιεχόμενο της σελίδας στην οποία αυτός δείχνει. Επειδή, ο κάθε χρήστης αναπαριστά την πληροφορία με ένα δικό του δίκτυο εννοιών, υιοθετήσαμε μια οντολογία που συγκεντρώνει αυτό που ονομάζουμε “κοινή γνώση” για ένα θέμα. Χρησιμοποιώντας, τις έννοιες από τους υπερσυνδέσμους που επέλεξε ο χρήστης, τις σχέσεις μεταξύ των εννοιών της οντολογίας εκτιμούμε τις πιθανές έννοιες – στόχους του χρήστη και προσδιορίζουμε με αυτόν τον τρόπο την πληροφοριακή του ανάγκη. Τέλος, κατατάσσουμε τις σελίδες ως προς τη εννοιολογική τους συσχέτιση με τα ενδιαφέροντα του χρήστη και δημιουργούμε τις προτάσεις μας. / Due to the large volume of data available on the Web, finding the desired information can be time consuming. Various personalized search systems have been proposed to help resolve this problem. The aim of this work was to study various techniques used to deal with the problem and also, develop a system that will predict a user's information need and propose a set of pages that might satisfy him. Because the Web is a very large system, our study starts at the level of a site. In developing our system we will make use of semantic analysis techniques. Specifically, we will use an ontology to describe the contents of the pages of a website and we will also use the ontology to express the information need of the user. While browsing, the user selects those links, that considers they will bring him closer to his goal. We characterize each link with concepts associated with the content of the page they point to. Because each user represents the information in his own concept network, we adopted an ontology to express what is said to be 'common knowledge' on a topic. Using the concepts of the hyperlinks that the user selected and the relations between the concepts of the ontology, we choose the possible concept that user has in mind, and thus determine his information needs. Finally, we rank the pages of the website against the estimated informational needs of the user, creating so our proposals.
3

Οι έννοιες του συγκεκριμένου και του αφηρημένου στη σημασιολογική άνοια : Μια περίπτωση μελέτης

Παπαναγιώτου, Άρτεμις 11 October 2013 (has links)
Στην παρούσα εργασία αξιολογείται η σημασιολογική γνώση ατόμων που νοσούν από Σημασιολογική Άνοια, στο πλαίσιο της διαφοροποίησης στην κατανόηση και επεξεργασία ανάμεσα στις συγκεκριμένες και αφηρημένες έννοιες. Η αξιολόγηση πραγματοποιείται με τη δοκιμασία λεξικής απόφασης με προέγερση, βασισμένη στη σχέση ομοιότητας(συνωνυμία) που χαρακτηρίζει τα ερεθίσματα. Τα αποτελέσματα της δοκιμασίας διαμορφώνονται από το χρόνο αντίδρασης των συμμετεχόντων και το ποσό διευκόλυνσης που τους παρέχουν οι προεγέρτες και στη συνέχεια παρουσιάζονται γραφηματικά και ερμηνεύονται. / In the particular project we assess the semantic knowledge of people with Semantic Dementia,under the differentiation in understanding and processing between concrete and abstract concepts. The assessment is performed with the linguistic experiment of lexical decision with priming, based on the similarity relation that characterises the stimuli. The experiment's results are formed by the participants' reaction time and the amount of priming which is offered by the lexical primes and therefore the results are presented in a graph and they are interpreted.
4

Μεθοδολογία αυτόματου σημασιολογικού σχολιασμού στο περιεχόμενο ιστοσελίδων

Σπύρος, Γεώργιος 14 December 2009 (has links)
Στις μέρες μας η χρήση του παγκόσμιου ιστού έχει εξελιχθεί σε ένα κοινωνικό φαινόμενο. Η εξάπλωσή του είναι συνεχής και εκθετικά αυξανόμενη. Στα χρόνια που έχουν μεσολαβήσει από την εμφάνισή του, οι χρήστες έχουν αποκτήσει ένα βαθμό εμπειρίας και έχει γίνει από πλευράς τους ένα σύνολο αποδοχών βασισμένων σε αυτή ακριβώς την εμπειρία από τη χρήση του παγκόσμιου ιστού. Πιο συγκεκριμένα έχει γίνει αντιληπτό από τους χρήστες το γεγονός ότι οι ιστοσελίδες με τις οποίες αλληλεπιδρούν καθημερινά σχεδόν είναι δημιουργήματα κάποιων άλλων χρηστών. Επίσης έχει γίνει αντιληπτό ότι ο κάθε χρήστης μπορεί να δημιουργήσει τη δική του ιστοσελίδα και μάλιστα να περιλάβει σε αυτή αναφορές προς μια άλλη ιστοσελίδα κάποιου άλλου χρήστη. Οι αναφορές αυτές όμως, συνήθως δεν εμφανίζονται απλά και μόνο με τη μορφή ενός υπερσυνδέσμου. Τις περισσότερες φορές υπάρχει και κείμενο που τις συνοδεύει και που παρέχει πληροφορίες για το περιεχόμενο της αναφερόμενης ιστοσελίδας. Σε αυτή τη διπλωματική εργασία περιγράφουμε μια μεθοδολογία για τον αυτόματο σημασιολογικό σχολιασμό του περιεχομένου ιστοσελίδων. Τα εργαλεία και οι τεχνικές που περιγράφονται βασίζονται σε δύο κύριες υποθέσεις. Πρώτον, οι άνθρωποι που δημιουργούν και διατηρούν ιστοσελίδες περιγράφουν άλλες ιστοσελίδες μέσα σε αυτές. Δεύτερον, οι άνθρωποι συνδέουν τις ιστοσελίδες τους με την εκάστοτε ιστοσελίδα την οποία περιγράφουν μέσω ενός συνδέσμου αγκύρωσης (anchor link) που είναι καθαρά σημαδεμένος με μία συγκεκριμένη ετικέτα (tag) μέσα στον εκάστοτε HTML κώδικα. Ο αυτόματος σημασιολογικός σχολιασμός που επιχειρούμε για μια ιστοσελίδα ισοδυναμεί με την εύρεση μιας ετικέτας (tag) ικανής να περιγράψει το περιεχόμενο της. Η εύρεση αυτής της ετικέτας είναι μια διαδικασία που βασίζεται σε μία συγκεκριμένη μεθοδολογία που αποτελείται από ένα συγκεκριμένο αριθμό βημάτων. Κάθε βήμα από αυτά υλοποιείται με τη χρήση διαφόρων εργαλείων και τεχνικών και τροφοδοτεί με την έξοδό του την είσοδο του επόμενου βήματος. Βασική ιδέα της μεθοδολογίας είναι η συλλογή αρκετών κειμένων αγκύρωσης (anchor texts), καθώς και ενός μέρους του γειτονικού τους κειμένου, για μία ιστοσελίδα. Η συλλογή αυτή προκύπτει ύστερα από επεξεργασία αρκετών ιστοσελίδων που περιέχουν υπερσυνδέσμους προς τη συγκεκριμένη ιστοσελίδα. Η σημασιολογική ετικέτα για μια ιστοσελίδα προκύπτει από την εφαρμογή διαφόρων τεχνικών γλωσσολογικής επεξεργασίας στη συλλογή των κειμένων που την αφορούν. Έτσι προκύπτει το τελικό συμπέρασμα για το σημασιολογικό σχολιασμό του περιεχομένου της ιστοσελίδας. / Nowadays the World Wide Web usage has evolved into a social phenomenon. It’s spread is constant and it’s increasing exponentially. During the years that have passed since it’s first appearance, the users have gained a certain level of experience and they have made some acceptances through this experience. They have understood that the web pages with which they interact in their everyday web activities, are creations from some other users. It has also become clear that every user can create his own web page and include in it references to some other pages of his liking. These references don’t simply exist as hyperlinks. Most of the time they are accompanied by some text which provides useful information about the referenced page’s content. In this diploma thesis we describe a methodology for the automatic annotation of a web page’s contents. The tools and techniques that are described, are based in two main hypotheses. First, humans that create web pages describe other web pages inside them. Second, humans connect their web pages with any web page they describe via an anchor link which is clearly described with a tag in each page’s HTML code. The automatic semantic annotation that we attempt here for a web page is the process of finding a tag able to describe the page’s contents. The finding of this tag is a process based in a certain methodology which consists of a number of steps. Each step of these is implemented using various tools and techniques and his output is the next step’s input. The basic idea behind our methodology is to collect as many anchor texts as possible, along with a window of words around them, for each web page. This collection is the result of a procedure which involves the processing of many web pages that contain hyperlinks to the web page which we want to annotate. The semantic tag for a web page is derived from the usage of certain natural language processing techniques in the collection of documents that refer to the web page. Thus the final conclusion for the web page’s contents annotation is extracted.
5

Εφαρμογή παγκόσμιου ιστού για προσωποποιημένες υπηρεσίες διαιτολογίας με την χρήση οντολογιών

Οικονόμου, Φλώρα 11 June 2013 (has links)
Ο παγκόσμιος ιστός αποτελεί μία τεράστια αποθήκη πληροφοριών και αναπτύσσεται με τάχιστους ρυθμούς, ενώ η ανθρώπινη ικανότητα να εντοπίζει, να επεξεργάζεται και να αντιλαμβάνεται τις παρεχόμενες πληροφορίες παραμένει πεπερασμένη. Οι μηχανές αναζήτησης διευκολύνουν την αναζήτηση στον παγκόσμιο ιστό και έχουν γίνει αναπόσπαστο κομμάτι της καθημερινής ζωής των χρηστών του διαδικτύου. Οι χρήστες όμως χαρακτηρίζονται από διαφορετικές ανάγκες, προτιμήσεις, ιδιαιτερότητες και κατά την πλοήγησή τους μπορεί να χάσουν τον στόχο της αναζήτησής τους. Η προσωποποίηση στον παγκόσμιο ιστό, δηλαδή η εξατομίκευση των παρεχόμενων αποτελεσμάτων, αποτελεί μία πολλά υποσχόμενη προσέγγιση για την λύση του πληροφοριακού υπερφόρτου, παρέχοντας κατάλληλα προσαρμοσμένες εμπειρίες πλοήγησης. Στα πλαίσια αυτής της διπλωματικής εργασίας αναπτύχθηκε μία μεθοδολογία για την προσωποποίηση των αποτελεσμάτων μίας μηχανής αναζήτησης ώστε αυτά να ανταποκρίνονται στις προτιμήσεις των χρηστών και στα διαιτολογικά τους χαρακτηριστικά. Η μεθοδολογία αναπτύχθηκε σε δύο μέρη: στο εκτός σύνδεσης τμήμα και στο συνδεδεμένο. Στο πρώτο με την χρησιμοποίηση των αρχείων πρόσβασης μίας μηχανής αναζήτησης και των διαιτολογικών χαρακτηριστικών των χρηστών, έγινε εξαγωγή πληροφορίας για τις προτιμήσεις των τελευταίων. Στην συνέχεια με την χρήση μίας οντολογίας που κατασκευάστηκε για τα πλαίσια της διπλωματικής αυτής εργασίας, έγινε σημασιολογική κατηγοριοποίηση των επιλογών των χρηστών και κατασκευάστηκαν τα προφίλ που τους χαρακτηρίζουν. Έπειτα με την χρήση ενός αλγορίθμου ομαδοποίησης οι χρήστες κατηγοριοποιήθηκαν με βάση τα διαιτολογικά τους χαρακτηριστικά και τις επιλογές τους στην μηχανή αναζήτησης. Στο συνδεδεμένο τμήμα ο αλγόριθμος προσωποποίησης εκμεταλλευόμενος την σημασιολογική αντιστοίχιση των αποτελεσμάτων της μηχανής αναζήτησης και τις ομάδες των χρηστών που δημιουργήθηκαν στο εκτός σύνδεσης τμήμα αναδιοργανώνει τα παρεχόμενα από την μηχανή αναζήτησης αποτελέσματα. Η αναδιοργάνωση γίνεται προωθώντας στις υψηλότερες θέσεις των αποτελεσμάτων της μηχανής αναζήτησης τα αποτελέσματα που ταιριάζουν καλύτερα με τις προτιμήσεις και τα χαρακτηριστικά της ομάδας στην οποία εντάσσεται ο χρήστης. Στο τέλος έγιναν πειράματα και εξακριβώθηκαν τα επιθυμητά αποτελέσματα για την προσωποποίηση σύμφωνα με τις σημασιολογικές ομάδες των χρηστών. / The World Wide Web has become a huge data repository and it keeps growing exponentially, whereas the human capability to find, process and understand the provided content remains constant. Search engines facilitate the search process in the World Wide Web and they have become an integral part of the web users' daily lives. However users who are characterized by different needs, preferences and special characteristics, navigate through large Web structures and may lost their goal of inquiry. Web personalization, i.e. the customization of the search engines’ returned results, is one of the most promising approaches for alleviating information overload providing tailored navigation experiences to Web users. The present dissertation presents the methodology which was implemented in order to personalize a search engine’s results for corresponding users’ preferences and dietary characteristics. This methodology was implemented in two parts: the offline and the online part. The first one uses a search engines’ log files and the dietary characteristics of the users in order to extract information for the latter preferences. Afterwards, with the use of an ontology which was created explicitly for this work, semantic profiling of users’ interests was achieved and their corresponding profiles were formed. Then with the use of a clustering algorithm, users’ categorization was made based on their dietary profiles and their preferences in the search engine. In the online part the methodology re-ranks the search engines’ results, based on the semantic characterization of those results and the users’ clusters which were created at the offline part. Re-ranking is achieved by placing those results which match better the interests and the characteristics of the user’s cluster at the top of the list of the search engines’ returned results. Experimental evaluation of the presented methodology shows that the expected objectives from the semantic users’ clustering in search engines are achievable.
6

Εννοιολογικός προσανατολισμός της αναζήτησης στον Παγκόσμιο Ιστό

Βεργέτη, Δανάη 09 October 2014 (has links)
Tα τελευταία χρόνια, η εξάπλωση του διαδικτύου και το εύρος της πληροφορίας που διατίθεται στο χρήστη, καθιστούν αναγκαία τη χρησιμοποίηση σημασιολογικών τεχνικών προσωποποίησης, προκειμένου να βελτιώσουν την εμπειρία του χρήστη στο διαδίκτυο. Στις μηχανές αναζήτησης, οι χρήστες βελτιώνουν το επερώτημά τους με την προσθήκη, την αφαίρεση ή την αντικατάσταση των λέξεων. Παρ 'όλα αυτά , εκτός από την αλληλεπίδραση με μια μηχανή αναζήτησης, η εμπειρία ενός χρήστη στο διαδίκτυο κατά την αναζήτηση της σωστής πληροφορίας, περιλαμβάνει και την περιήγησή του σε σελίδες ενός δικτυακού τόπου ή μια σειρά από δικτυακούς τόπους. Κατά τη διάρκεια της συνεδρίας του, ο χρήστης αναδιαμορφώνει την αναζήτησή του. Ωστόσο, τόσο ο καθορισμός της σημασιολογίας της αναζήτησής του, όσο και ο προσανατολισμός της αναζήτησής του (γενίκευση ή εξειδίκευση σε ένα σημασιολογικό πεδίο) με βάση την πλοήγηση μέσα από τις σελίδες, δεν είναι τόσο εύκολοι. Κάθε σελίδα περιέχει περισσότερες από μία έννοιες. Επιπλέον, η επιλογή των αντιπροσωπευτικότερων είναι πολύπλοκη διαδικασία. Σκοπός της παρούσας εργασίας είναι η παρουσίαση της μεθοδολογίας SOSACT. Η μεθοδολογία SOSACT αποτελεί μια σημασιολογική μεθοδολογία εξατομίκευσης που παρακολουθεί τις επιλογές του χρήστη κατά τη συνεδρία του και καθορίζει αν ο χρήστης ειδικεύει ή γενικεύει την πλοήγηση του μέσα από τη σημασιολογική ανάλυση των σελίδων, σε ένα εννοιολογικό πεδίο. Η μεθοδολογία SOSACT ορίζει το σημασιολογικό προσανατολισμό της πλοήγησης του χρήστη. Επιπλέον, στην παρούσα εργασία προτείνεται ο αλγόριθμος SOSACT, ο οποίος εντοπίζει το σημασιολογικό προσανατολισμό του χρήστη με τη βοήθεια μίας ταξινομίας. Η μεθοδολογία SOSACT υλοποιείται από το σύστημα SOSACT. Το σύστημα SOSACT εφαρμόζει τον αλγόριθμο SOSACT και προτείνει χρήσιμες συστάσεις προς το χρήστη για τη βελτίωση της διαδικτυακής αναζήτησής του . Το σύστημα SOSACT αξιολογήθηκε με τη χρησιμοποίηση πραγματικής δραστηριότητας χρηστών σε μια ιστοσελίδα, για ορισμένο χρονικό διάστημα. Η μεθοδολογία SOSACT μπορεί να εφαρμοστεί και σε ένα σώμα κειμένων και όχι μόνο σε διαδικτυακές πηγές. Μπορεί να γίνει ένα χρήσιμο εργαλείο για τη βελτίωση της πλοήγησης στο διαδίκτυο. Επιπλέον, η προτεινόμενη μεθοδολογία μπορεί να γεφυρώσει τις τεχνικές αποσαφήνισης του επερωτήματος στις μηχανές αναζήτησης και τις τεχνικές αναδιαμόρφωσης του αντικειμένου περιήγησης. Η μεθοδολογία SOSACT θα μπορούσε να χρησιμοποιηθεί σε μια συγκριτική μελέτη μεταξύ των δύο αυτών τομέων και να οδηγήσει σε νέες τεχνικές και στις δύο περιοχές έρευνας του Σημασιολογικού Ιστού. / In recent years, the spread of the World Wide Web, as well as the range of information available to the user make the use of semantic personalization techniques a necessity in order to enhance the user experience on the web. In search engines, users refine their query by adding, removing or replacing the keywords in their query. Thus, query refinement is easy to be detected and tell whether a user generalizes or specializes his web search. Nevertheless, besides interaction with a search engine, a user web search involves browsing and navigating through the pages of a web site or a number of web sites while seeking the right information. During this session the user reformulates his search. But, defining search orientation (generalization or specialization) based on navigation through web pages is not that easy. Each page contains more than one concept. Furthermore, the concepts may be developed in the same extend and it is difficult to tell about the representative semantics of a certain page and thus a user session’s orientation. In order to define user navigation’s orientation a semantic web personalization methodology is developed, the SOSACT methodology, which tracks user’s hits through a session and defines whether a user specializes or generalizes his navigation through semantics analysis of the pages in his session window. Moreover, the SOSACT algorithm is proposed of capturing user session orientation based on concept taxonomy. The SOSACT methodology is implemented by the SOSACT system. The SOSACT system applies the SOSACT algorithm and proposes useful recommendation to the user to improve his web search. The SOSACT system is evaluated on real user activity in a web site for a certain period of time. The experimental outcomes satisfied the prospective results. The SOSACT methodology could become a useful tool for navigation refinement. Furthermore, this work is proved to bridge search engine query refinement and browsing reformulation techniques. It could be a comparative study between these two fields and lead to new techniques in both areas or migration techniques between both areas.
7

Αυτόματη εξαγωγή λεξικής - σημασιολογικής γνώσης από ηλεκτρονικά σώματα κειμένων με χρήση ελαχίστων πόρων / Automatic extraction of lexico - semantic knowledge from electronic text corpora using minimal resources

Θανόπουλος, Αριστομένης 25 June 2007 (has links)
Το αντικείμενο της διατριβής είναι η μελέτη μεθόδων αυτόματης εξαγωγής των συμφράσεων και των σημασιολογικών ομοιοτήτων των λέξεων από μεγάλα σώματα κειμένων. Υιοθετείται μια προσέγγιση ελάχιστων γλωσσικών πόρων που εξασφαλίζει την απεριόριστη μεταφερσιμότητα των μεθόδων σε φυσικές γλώσσες και θεματικές περιοχές. Για την αξιολόγηση των προτεινόμενων μεθόδων προτείνονται, αξιολογούνται και εφαρμόζονται μεθοδολογίες με βάση πρότυπες βάσεις λεξικής γνώσης (στην Αγγλική), όπως το WordNet. Για την εξαγωγή των συμφράσεων προτείνονται νέα μέτρα εξαγωγής στατιστικά σημαντικών διγράμμων και γενικά ν-γράμμων που αξιολογούνται θετικά. Για την εξαγωγή των λεξικών - σημασιολογικών ομοιοτήτων των λέξεων ακολουθείται καταρχήν η προσέγγιση ομοιότητας περικειμένων λέξεων με παραθυρικές μεθόδους, όπου μελετώνται το πεδίο συμφραζομένων, το φιλτράρισμα των συνεμφανίσεων των λέξεων, τα μέτρα ομοιότητας, όπου εισάγεται ο παράγοντας του αριθμού κοινών παραμέτρων, καθώς και η αντιμετώπιση συστηματικών σφαλμάτων, ενώ προτείνεται η αξιοποίηση των λειτουργικών λέξεων. Επιπλέον, προτείνεται η αξιοποίηση της ομοιότητας περικείμενων εκφράσεων, που απαντάται συχνά σε θεματικώς εστιασμένα κείμενα, με ένα αλγόριθμο βασισμένο στην ετεροσυσχέτιση ακολουθιών λέξεων. Μελετάται η μεθοδολογία αξιοποίησης των παρατακτικών συνδέσεων ενώ προτείνεται μια μέθοδος ενοποίησης ετερογενών σωμάτων γνώσης λεξικών – σημασιολογικών ομοιοτήτων. Τέλος, η εξαχθείσα γνώση μετασχηματίζεται σε σημασιολογικές κλάσεις με μια συμβολική μέθοδο ιεραρχικής ομαδοποίησης και επίσης ενσωματώνεται επιτυχώς σε ένα διαλογικό σύστημα μηχανικής μάθησης όπου ενισχύει την απόδοση της αναγνώρισης του σκοπού του χρήστη συμβάλλοντας στην εκτίμηση του ρόλου των άγνωστων λέξεων. / The research described in this dissertation regards automatic extraction of collocations and lexico-semantic similarities from large text corpora. We follow an approach based on minimal linguistic resources in order to achieve unrestricted portability across languages and thematic domains. In order to evaluate the proposed methods we propose, evaluate and apply methodologies based on English gold standard lexical resources, such as WordNet. For the extraction of collocations we propose and test a few novel measures for the identification of statistically significant bigrams and, generally, n-grams, which exhibit strong performance. For the extraction of lexico-semantic similarities we follow a distributional window-based approach. We study the contextual scope, the filtering of lexical co-occurrences and the performance of similarity measures. We propose the incorporation of the number of common parameters into the latter, the exploitation of functional words and a method for the elimination of systematic errors. Moreover, we propose a novel approach to exploitation of word sequence similarities, common in technical texts, based on cross-correlation of word sequences. We refine an approach for word similarity extraction from coordinations and we propose a method for the amalgamation of lexico-semantic similarity databases extracted via different principles and methods. Finally, the extracted similarity knowledge is transformed in the form of soft hierarchical semantic clusters and it is successfully incorporated into a machine learning based dialogue system, reinforcing the performance of user’s plan recognition by estimating the semantic role of unknown words.
8

Αυτόματη επιλογή σημασιολογικά συγγενών όρων για την επαναδιατύπωση των ερωτημάτων σε μηχανές αναζήτησης πληροφορίας / Automatic selection of semantic related terms for reformulating a query into a search engine

Κοζανίδης, Ελευθέριος 14 September 2007 (has links)
Η βελτίωση ερωτημάτων (Query refinement) είναι η διαδικασία πρότασης εναλλακτικών όρων στους χρήστες των μηχανών αναζήτησης του Διαδικτύου για την διατύπωση της πληροφοριακής τους ανάγκης. Παρόλο που εναλλακτικοί σχηματισμοί ερωτημάτων μπορούν να συνεισφέρουν στην βελτίωση των ανακτηθέντων αποτελεσμάτων, η χρησιμοποίησή τους από χρήστες του Διαδικτύου είναι ιδιαίτερα περιορισμένη καθώς οι όροι των βελτιωμένων ερωτημάτων δεν περιέχουν σχεδόν καθόλου πληροφορία αναφορικά με τον βαθμό ομοιότητάς τους με τους όρους του αρχικού ερωτήματος, ενώ συγχρόνως δεν καταδεικνύουν το βαθμό συσχέτισής τους με τα πληροφοριακά ενδιαφέροντα των χρηστών. Παραδοσιακά, οι εναλλακτικοί σχηματισμοί ερωτημάτων καθορίζονται κατ’ αποκλειστικότητα από τη σημασιολογική σχέση που επιδεικνύουν οι συμπληρωματικοί όροι με τους αρχικούς όρους του ερωτήματος, χωρίς να λαμβάνουν υπόψη τον επιδιωκόμενο στόχο της αναζήτησης που υπολανθάνει πίσω από ένα ερώτημα του χρήστη. Στην παρούσα εργασία θα παρουσιάσουμε μια πρότυπη τεχνική βελτίωσης ερωτημάτων η οποία χρησιμοποιεί μια λεξική οντολογία προκειμένου να εντοπίσει εναλλακτικούς σχηματισμούς ερωτημάτων οι οποίοι αφενός, θα περιγράφουν το αντικείμενο της αναζήτησης του χρήστη και αφετέρου θα σχετίζονται με τα ερωτήματα που υπέβαλε ο χρήστης. Το πιο πρωτοποριακό χαρακτηριστικό της τεχνικής μας είναι η οπτική αναπαράσταση του εναλλακτικού ερωτήματος με την μορφή ενός ιεραρχικά δομημένου γράφου. Η αναπαράσταση αυτή παρέχει σαφείς πληροφορίες για την σημασιολογική σχέση μεταξύ των όρων του βελτιωμένου ερωτήματος και των όρων που χρησιμοποίησε ο χρήστης για να εκφράσει την πληροφοριακή του ανάγκη ενώ παράλληλα παρέχει την δυνατότητα στον χρήστη να επιλέξει ποιοι από τους υποψήφιους όρους θα συμμετέχουν τελικά στην διαδικασία βελτιστοποίησης δημιουργώντας διαδραστικά το νέο ερώτημα. Τα αποτελέσματα των πειραμάτων που διενεργήσαμε για να αξιολογήσουμε την απόδοση της τεχνικής μας, είναι ιδιαίτερα ικανοποιητικά και μας οδηγούν στο συμπέρασμα ότι η μέθοδός μας μπορεί να βοηθήσει σημαντικά στη διευκόλυνση του χρήστη κατά τη διαδικασία επιλογής ερωτημάτων για την ανάκτηση πληροφορίας από τα δεδομένα του Παγκόσμιου Ιστού. / Query refinement is the process of providing Web information seekers with alternative wordings for expressing their information needs. Although alternative query formulations may contribute to the improvement of retrieval results, nevertheless their realization by Web users is intrinsically limited in that alternative query wordings do not convey explicit information about neither their degree nor their type of correlation to the user-issued queries. Moreover, alternative query formulations are determined based on the semantics of the issued query alone and they do not consider anything about the search intentions of the user issuing that query. In this paper, we introduce a novel query refinement technique which uses a lexical ontology for identifying alternative query formulations that are both informative of the user’s interests and related to the user selected queries. The most innovative feature of our technique is the visualization of the alternative query wordings in a graphical representation form, which conveys explicit information about the refined queries correlation to the user issued requests and which allows the user select which terms to participate in the refinement process. Experimental results demonstrate that our method has a significant potential in improving the user search experience.
9

Μελέτη και συγκριτική αξιολόγηση μεθόδων δόμησης περιεχομένου ιστοτόπων : εφαρμογή σε ειδησεογραφικούς ιστοτόπους

Στογιάννος, Νικόλαος-Αλέξανδρος 20 April 2011 (has links)
Η κατάλληλη οργάνωση του περιεχομένου ενός ιστοτόπου, έτσι ώστε να αυξάνεται η ευρεσιμότητα των πληροφοριών και να διευκολύνεται η επιτυχής ολοκλήρωση των τυπικών εργασιών των χρηστών, αποτελεί έναν από τους πρωταρχικούς στόχους των σχεδιαστών ιστοτόπων. Οι υπάρχουσες τεχνικές του πεδίου Αλληλεπίδρασης-Ανθρώπου Υπολογιστή που συνεισφέρουν στην επίτευξη αυτού του στόχου συχνά αγνοούνται εξαιτίας των απαιτήσεών τους σε χρονικούς και οικονομικούς πόρους. Ειδικότερα για ειδησεογραφικούς ιστοτόπους, τόσο το μέγεθος τους όσο και η καθημερινή προσθήκη και τροποποίηση των παρεχόμενων πληροφοριών, καθιστούν αναγκαία τη χρήση αποδοτικότερων τεχνικών για την οργάνωση του περιεχομένου τους. Στην εργασία αυτή διερευνούμε την αποτελεσματικότητα μίας μεθόδου, επονομαζόμενης AutoCardSorter, που έχει προταθεί στη βιβλιογραφία για την ημιαυτόματη κατηγοριοποίηση ιστοσελίδων, βάσει των σημασιολογικών συσχετίσεων του περιεχομένου τους, στο πλαίσιο οργάνωσης των πληροφοριών ειδησεογραφικών ιστοτόπων. Για το σκοπό αυτό διενεργήθηκαν πέντε συνολικά μελέτες, στις οποίες πραγματοποιήθηκε τόσο ποσοτική όσο και ποιοτική σύγκριση των κατηγοριοποιήσεων που προέκυψαν από συμμετέχοντες σε αντίστοιχες μελέτες ταξινόμησης καρτών ανοικτού και κλειστού τύπου, με τα αποτελέσματα της τεχνικής AutoCardSorter. Από την ανάλυση των αποτελεσμάτων προέκυψε ότι η AutoCardSorter παρήγαγε ομαδοποιήσεις άρθρων που βρίσκονται σε μεγάλη συμφωνία με αυτές των συμμετεχόντων στις μελέτες, αλλά με σημαντικά αποδοτικότερο τρόπο, επιβεβαιώνοντας προηγούμενες παρόμοιες μελέτες σε ιστοτόπους άλλων θεματικών κατηγοριών. Επιπρόσθετα, οι μελέτες έδειξαν ότι μία ελαφρώς τροποποιημένη εκδοχή της AutoCardSorter τοποθετεί νέα άρθρα σε προϋπάρχουσες κατηγορίες με αρκετά μικρότερο ποσοστό συμφωνίας συγκριτικά με τον τρόπο που επέλεξαν οι συμμετέχοντες. Η εργασία ολοκληρώνεται με την παρουσίαση κατευθύνσεων για την βελτίωση της αποτελεσματικότητας της AutoCardSorter, τόσο στο πλαίσιο οργάνωσης του περιεχομένου ειδησεογραφικών ιστοτόπων όσο και γενικότερα. / The proper structure of a website's content, so as to increase the findability of the information provided and to ease the typical user task-making, is one of the primary goals of website designers. The existing methods from the field of HCI that assist designers in this, are often neglected due to their high cost and human resources demanded. Even more so on News Sites, their size and the daily content updating call for improved and more efficient techniques. In this thesis we investigate the efficiency of a novel method, called AutoCardSorter, that has been suggested in bibliography for the semi-automatic content categorisation based on the semantic similarity of each webpage-content. To accomplish this we conducted five comparative studies in which the method was compared, to the primary alternatives of the classic Card Sorting method (open, closed). The analysis of the results showed that AutoCardSorter suggested article categories with high relavance to the ones suggested from a group of human subjects participating in the CardSort studies, although in a much more efficient way. This confirms the results of similar previous studies on websites of other themes (eg. travel, education). Moreover, the studies showed that a modified version of the method places articles under pre-existing categories with significant less relavance to the categorisation suggested by the participants. The thesis is concluded with the proposal of different ways to improve the proposed method's efficiency, both in the content of News Sites and in general.
10

Σχεδιασμός και υλοποίηση ενός συστήματος αποκομιδής ορισμένης πληροφορίας από τον παγκόσμιο ιστό, με τη χρήση σημασιολογικών δικτύων λημμάτων / Design and implementation of a topical-focused web crawler through the use of semantic networks

Κοζανίδης, Ελευθέριος 28 February 2013 (has links)
Η συγκεκριμένη διατριβή στοχεύει στον σχεδιασμό της μεθοδολογίας που θα εφαρμοστεί για την υλοποίηση ενός προσκομιστή πληροφορίας από τον Παγκόσμιο Ιστό, ο οποίος θα λειτουργεί λαμβάνοντας υπόψη θεματικά κριτήρια. Τέτοιου είδους προγράμματα ανίχνευσης πληροφορίας, είναι ευρέως γνωστά ως θεματικά εστιασμένοι προσκομιστές ιστοσελίδων. Κατά τη διάρκεια της μελέτης μας, σχεδιάσαμε και υλοποιήσαμε ένα καινοτόμο σύστημα θεματικής κατηγοριοποίησης ιστοσελίδων που κάνει εκτεταμένη χρήση των σημασιολογικών δεδομένων τα οποία περιέχονται στο σημασιολογικό δίκτυο WordNet. Η απόφαση για την αξιοποίηση του WordNet ελήφθη με τη φιλοδοξία να αντιμετωπιστούν αποτελεσματικά φαινόμενα ασάφειας εννοιών που μειώνουν τις επιδόσεις των διαθέσιμων θεματικών κατηγοριοποιητών. Η καταλληλότητα του WordNet για την επίλυση της σημασιολογικής ασάφειας έχει αποδειχθεί στο παρελθόν, αλλά ποτέ δεν εξετάστηκε σε ένα σύστημα εστιασμένης προσκόμισης ιστοσελίδων με τον συγκεκριμένο τρόπο, ενώ ποτέ δεν έχει αξιοποιηθεί στην κατηγοριοποίηση ιστοσελίδων για την ελληνική γλώσσα. Ως εκ τούτου, ο θεματικός κατηγοριοποιητής που υλοποιήσαμε, και κατά συνέπεια, και ο εστιασμένος προσκομιστής στον οποίο ενσωματώνεται ο κατηγοριοποιητής, είναι καινοτόμοι όσο αφορά τον τρόπο με τον οποίο αποσαφηνίζουν έννοιες λέξεων με στόχο την αποτελεσματική ανίχνευση του θεματικού προσανατολισμού μίας ιστοσελίδας . Ένας προσκομιστής ιστοσελίδων είναι ένα πρόγραμμα που με αφετηρία μία λίστα διευθύνσεων ιστοσελίδων (URLs) αρχικοποίησης προσκομίζει το περιεχόμενο των ιστοσελίδων που συναντά και συνεχίζει ακολουθώντας τους εσωτερικούς τους συνδέσμους με απώτερο σκοπό την προσκόμιση όσο το δυνατό μεγαλύτερου υποσυνόλου δεδομένων του Παγκόσμιου Ιστού (ανάλογα με τους διαθέσιμους πόρους, την χωρητικότητα του δικτύου, κλπ.). Δεδομένου ότι ο όγκος των δεδομένων που είναι διαθέσιμα στον Παγκόσμιο Ιστό αυξάνεται με εκθετικό ρυθμό, είναι πρακτικά αδύνατο να προσκομιστούν όλες οι ζητούμενες πηγές πληροφορίας ανά πάσα στιγμή. Ένας τρόπος για να αντιμετωπίσουμε το συγκεκριμένο πρόβλημα είναι η εκμετάλλευση συστημάτων εστιασμένης προσκόμισης ιστοσελίδων που στοχεύουν στη λήψη ιστοσελίδων συγκεκριμένης θεματολογίας που εκφράζουν κάθε φορά το θεματικό προφίλ του χρήστη, σε αντίθεση με τους προσκομιστές ιστοσελίδων γενικού σκοπού που καταναλώνουν πόρους άσκοπα προσπαθώντας να προσκομίσουν κάθε πιθανή πηγή πληροφορίας που συναντούν. Οι εστιασμένοι προσκομιστές χρησιμοποιούνται εκτενώς, για την κατασκευή θεματικά προσανατολισμένων ευρετηρίων ιστοσελίδων, κάθε ένα από τα οποία έχει την δυνατότητα να εξυπηρετήσει αιτήσεις χρηστών με συγκεκριμένο θεματικό προσανατολισμό. Με αυτό τον τρόπο είναι δυνατόν να αντιμετωπιστεί το πρόβλημα της υπερφόρτωσης πληροφοριών. Προκειμένου να επιτελέσουμε την συγκεκριμένη εργασία μελετήσαμε εκτενώς υπάρχουσες τεχνικές εστιασμένης προσκόμισης, στις οποίες στηριχθήκαμε ώστε να ορίσουμε την μεθοδολογία που θα ακολουθήσουμε. Το αποτέλεσμα είναι η υλοποίηση ενός θεματικά εστιασμένου πολυνηματικού προσκομιστή, ο οποίος ενσωματώνει τις εξής καινοτομίες: είναι ρυθμισμένος προκειμένου να εκτελεί εστιασμένες προσκομίσεις σε ιστοσελίδες ελληνικού ενδιαφέροντος, αποσαφηνίζει το κείμενο που αντιστοιχεί σε ιστοσελίδες προκειμένου να ανακαλύψει τον θεματικό τους προσανατολισμό. Επιπλέον προτείνουμε μία σειρά υποσυστημάτων τα οποία θα μπορούσαν να ενσωματωθούν στο σύστημα εστιασμένης προσκόμισης προκειμένου να ενισχύσουμε την απόδοσή του. Τέτοια συστήματα είναι το υποσύστημα ανίχνευσης όψεων που αντιστοιχίζονται σε επώνυμες οντότητες καθώς και το υποσύστημα εξαγωγής λέξεων κλειδιών που μπορούν να χρησιμοποιηθούν ως χαρακτηριστικά κατηγοριοποίσης από το αλφαριθμητικό των διευθύνσεων (URL) ιστοσελίδων. Για να παρουσιάσουμε την αποτελεσματικότητα της προτεινόμενης μεθόδου, διενεργήσαμε μία σειρά πειραματικών μετρήσεων. Συγκεκριμένα αξιολογήσαμε πειραματικά τα ακόλουθα: την αποτελεσματικότητα του αλγορίθμου αποσαφήνισης που ενσωματώσαμε στον προσκομιστή, την απόδοση του θεματικού κατηγοριοποιητή ο οποίος καθορίζει την συμπεριφορά του εστιασμένου προσκομιστή σχετικά με το αν μια σελίδα θα πρέπει να κατέβει ως θεματικά σχετική με το θέμα ενδιαφέροντος ή όχι, την απόδοση του εστιασμένου προσκομιστή καταγράφοντας τον ρυθμό απόκτησης που επιτυγχάνει κατά την διάρκεια της εστιασμένης προσκόμισης χρησιμοποιώντας κάθε φορά διαφορετικά χαρακτηριστικά κατηγοριοποίησης, την καταλληλότητα του υποσυστήματος εξαγωγής λέξεων-κλειδιών από το αλφαριθμητικό URL για την περιγραφή του θεματικού προσανατολισμού της ιστοσελίδας και τέλος τη χρησιμότητα του συστήματος αναγνώρισης επώνυμων οντοτήτων στην οργάνωση ιστοσελίδων των οποίων η σημασιολογία δεν αναπαρίσταται ικανοποιητικά σε σημασιολογικούς πόρους γενικού σκοπού συμπεριλαμβανομένου του σημασιολογικού δικτύου WordNet. Τα πειραματικά αποτελέσματα επιβεβαιώνουν τη συμβολή του θεματικά εστιασμένου προσκομιστή που προτείνουμε στην προσκόμιση περιεχομένου ειδικού ενδιαφέροντος από τον Παγκόσμιο Ιστό. Παράλληλα αποδεικνύουμε ότι όλες οι μέθοδοι που ενσωματώσαμε στο σύστημα εστιασμένης προσκόμισης είναι δυνατό να συνεργαστούν κατά τρόπο που να βελτιώνει την απόδοση του προσκομιστή . Τέλος από τα πειραματικά αποτελέσματα αποδεικνύεται ότι η προτεινόμενη τεχνική είναι εξίσου αποτελεσματική για ιστοσελίδες στα αγγλικά και στα ελληνικά. Επιπλέον πιστεύουμε ότι μπορεί να εφαρμοστεί με επιτυχία και σε ιστοσελίδες που περιέχουν κείμενα άλλων φυσικών γλωσσών, με προϋπόθεση την ύπαρξη σημασιολογικών πόρων, αντίστοιχων με το WordNet και διαθέσιμων εργαλείων που θα επιτρέπουν την ανάλυση των δεδομένων κειμένου τους. / This dissertation aims at the specification of an algorithmic methodology that will be applied towards the implementation of a web crawler, which will operate upon thematic criteria. Such crawlers are widely known as topical focused web crawlers. To realize our objective, the utilization of a web page thematic classification system (either existing or newly developed one) is imperative. In the course of our study, we designed and implemented a novel thematic classifier that makes extensive use of the semantic data encoded in WordNet semantic network and such decision was taken with the aspiration of tackling effectively sense ambiguity phenomena that degrade the performance of available classifiers. The suitability of WordNet towards resolving semantic ambiguity has been previously proven but never examined in a focused web crawling application and has never been exploited for the Greek language. Therefore, our thematic classifier and consequently our focused crawler that integrates it are innovative in the way in which they perform word sense disambiguation for achieving the effective detection of the web page topics (themes). In a broad sense, a web crawler is a program that based on a seed list of URLs it downloads the contents of the web pages it comes across and continues following their internal links with the utmost objective of fetching as much as web data as possible (depending on available resources, network capacity, etc.). Given that the web data grows at exponential rates, it is practically impossible to download all the web sources at any given time. One way to tackle such difficulty is to implement and employ topical focused crawlers that aim at downloading content of specific topics (potentially of interest to the user) rather than waste resources trying to download every single data source that is available on the web. Topically focused crawlers are extensively used for building topical focused indices, each of which can serve specialized user search requests, therefore dealing partially with the information overload problem. To carry out our work, we have extensively reviewed existing approaches with respect to topically focused crawling techniques upon which we relied for defining our own focused crawling methodology, which resulted into the implementation of a topical focused crawler that incorporates the following innovate features: it is tailored to operate on the Greek web, it disambiguates the web pages in order to uncover their topic and it incorporates numerous features, such as a named entities recognizer, a URL keyword extractor, personalization techniques, etc., in order to maximize its performance. To demonstrate the effectiveness of our method, we have applied our topical focused crawler on several datasets and experimentally evaluated the following issues: the efficiency of the sense resolution algorithm incorporated into our crawler, the performance of the topical classifier that the crawler consults prior to making a final decision as to whether a page should be downloaded as topically relevant to a subject of interest or not, the suitability of the URL keyword extractor module for judging the subject of a web page based entirely on the analysis of its URL, the usefulness of the named entities recognizer in organizing pages whose semantics are poorly represented within the contents of general-purpose semantic resources (including WordNet semantic network). Experimental results confirm the contribution of our topically focused crawler in downloading web content of specific interest and show that all the methods and techniques that we have successfully integrated into the crawler can interoperate with its other in a manner that improves the crawling performance while allowing for flexibility in the downloading process at the same time. Last but not least, experimental results showcase that our crawling methodology is equally effective for both English and Greek and we believe that it can be fruitfully applied to other natural languages provided that there the respective semantic resources and tools are available for analyzing their textual data.

Page generated in 0.0524 seconds