Global ETD Search

1	Σημασιολογική αναζήτηση σε προσωποποιημένη δικτυακή πύλη προβολής προεπεξεργασμένου περιεχομένου από το διαδίκτυο Σιλιντζήρης, Παναγιώτης 21 September 2010 (has links) Σκοπός της παρούσας μεταπτυχιακής εργασίας είναι η μελέτη και η αξιολόγηση των δυνατοτήτων προηγμένης σημασιολογικής αναζήτησης (advanced semantic search) πάνω σε περιεχόμενο που προέρχεται από το Διαδικτύο. Στα πλαίσια της εργασίας, σχεδιασθηκε και υλοποιήθηκε υποσύστημα, το οποίο ενσωματώθηκε και αξιολογήθηκε πάνω στο μηχανισμό peRSSonal ο οποίος ανακτά, επεξεργάζεται και παρουσιάζει στους χρήστες του άρθρα και υλικό από διάφορες ειδησεογραφικές πύλες (news portals) του Διαδικτύου, προσαρμόζοντάς τα στις προσωπικές επιλογές του χρήστη. Η αναζήτηση παραμετροποιείται με στοιχεία όπως: χρονικό πλαίσιο δημοσίευσης τού υλικού (διάστημα από – έως), κατηγορία (πρότυπες κατηγορίες του συστήματος peRSSonal), φυσική γλώσσα στην οποία είναι γραμμένο καθώς και δυνατότητα για στατικό ή σημασιολογικό (εννοιολογικό) ταίριασμα (semantic matching) με τα άρθρα της βάσης. Αρχικά, από την επερώτηση (query) του χρήστη δημιουργείται ένα σύνολο ριζών (stems) των λέξεων οι οποίες δόθηκαν. Η εξαγωγή των ριζών εκτελείται με υποβοήθηση από stemming αλγορίθμο για την αγγλική γλώσσα, ενώ ο σχεδιασμός του συστήματος προβλέπει και τη μελλοντική υποστήριξη διαφορετικών φυσικών γλωσσών καταβάλλοντας μικρό κόπο. Για τις λεκτικές ρίζες που προκύπτουν, εντοπίζονται σχετικές τους και ταυτόχρονα με τη διαδικασία αυτή διενεργείται αναζήτηση στη βάση δεδομένων για κωδικολέξεις (keywords) με βάση την κατηγορία του άρθρου, ούτως ώστε να εμπλουτιστεί το ερώτημα του χρήστη με επιπλέον πληροφορία, καθιστώντας πιο επιτυχημένη και στοχευμένη την αναζήτηση στην πληθώρα των άρθρων που υπάρχουν αποθηκευμένα στη βάση δεδομένων. Για αυτές τις κωδικολέξεις υπολογίζονται συντελεστές – βάρη που θα προσδιορίζουν τη συνάφειά τους με την επερώτηση του χρήστη. Ανάλογα με τον τύπο της αναζήτησης, στατική η σημασιολογική, το υποσύστημα αναζήτησης συγκρίνει την επερώτηση του χρήστη με τα αποθηκευμένα άρθρα και για κάθε ένα από αυτά, ο αλγόριθμος υπολογίζει το βαθμό συνάφειάς του με την επερώτηση. Τα άρθρα που επιλέγονται τελικά είναι αυτά που ξεπερνούν ένα κατώφλι συνάφειας, το οποίο τα κατατάσσει εννοιολογικά πιο κοντά στην επερώτηση του χρήστη. Σημαντικό σημείο στο στάδιο αυτό, είναι η δυνατότητα, για τους εγγεγραμένους χρήστες της Δικτυακής Πύλης, να εκτελείται περεταίρω φιλτράρισμα πάνω στο πρωτογενές αποτέλεσμα, βάσει των προσωπικών τους επιλογών καθώς και πληροφορίας που προέρχεται από τη βάση δεδομένων και που διαμορφώνεται δυναμικά από την παρατήρηση της γενικής συμπεριφοράς των χρηστών κατά την πλοήγηση τους μέσα στον σύστημα (χρόνος παραμονής στα άρθρα, άρθρα που δεν προτιμώνται, συχνότητα επιλογής άρθρων από μια δεδομένη θεματική ενότητα κλπ). Σκοπός είναι η εξαγωγή πιο στοχευμένου συνόλου άρθρων που ικανοποιεί τελικά περισσότερο τον χρήστη. Τέλος, για την βελτίωση της απόδοσης του συστήματος, σχεδιάστηκε και υλοποιήθηκε αλγόριθμος που εκτελεί caching στα αποτελέσματα των επερωτήσεων. Με τον τρόπο αυτό, κάθε νέα αναζήτηση θα λαμβάνει πολύ πιο γρήγορα τα cached αποτελέσματα προγενέστερων παρόμοιων αναζητήσεων, ξοδεύοντας το χρόνο στα πιο πρόσφατα άρθρα. Το caching εκτελείται δυναμικά, τροποποιώντας σε κάθε επερώτηση που υποβάλλεται τα αντίστοιχα cached αποτελέσματα και μεταβάλλοντας τις προτεραιότητές τους και τα βάρη τους, ώστε να οδηγεί την έξοδο ολοένα και πιο κοντά στα επιθυμητά άρθρα και παραμένοντας πιο κοντά στο εξελισόμενο προφίλ και στις προτιμήσεις του χρήστη. Μέσα από την εργασία, προέκυψαν αποτελέσματα που έχουν να κάνουν με σύγκριση αλγορίθμων σε όλα τα παραπάνω στάδια του μηχανισμού αλλά και ανταπόκριση του μηχανισμού στις ανάγκες του χρήστη. / The scope of the present MSc Thesis is the study and the evaluation of the features provided by an advanced semantic search over digital content which comes from the Internet. For the purposes of our work, we designed and implemented a module (subsystem), which was embedded and evaluated on the PeRSSonal news portal. The PeRSSonal news portal retrieves, processes and presents to the end user articles and other content from major News Portals of the Internet by adapting on the user’s personal preferences and profile. For the search procedure, parameters such as the date interval, the thematic category and the article’s language are used. Furthermore it is possible to use static or dynamic (semantic) matching with the articles of the database. In the first phase of the procedure, from the query that the user submitted we create a set of keywords, which are the stemmed words of the words described in the initial query. The extraction stemmed words is executed by an algorithm which implements the Porter Stemmer technique. The system currently supports the English language in the search procedure but its modular architecture allows for the support of other languages as well with little effort. For the keywords produced with this procedure, we locate their synonyms and in the same time a search in the database is conducted in order to find other keywords based on the thematic category of the submitted query. This second set of keywords enriches the first set thus making the search more focused on the thematic category the user chose. For these keywords that enrich the initial query, weights are computed based on their relation with the keywords of the initial query. Based on the type of the search (static or semantic), the search subsystem compares the enriched set of keywords with the articles stored in the database and for each one of these articles which match to the keywords of the query, a degree of relevance is computed. The articles that are selected to be in the final result are the ones that surpass a specific threshold of relevance which semantically brings them close to the user query. A significant point during this phase of the procedure is the possibility to execute for the registered users of the PeRSSonal portal a more detailed filtering on the primal result based on their personal preferences and data that is produced dynamically by observing their behavior (time they spend on the articles, not preferred articles, frequency of selecting a specific thematic category) in the system, during the sessions in that. The goal is the creation of a more focused result on the end user which satisfies him more. In the final phase of the algorithm, and in order to optimize the algorithm’s performance, we design and implement an algorithm which uses cache memory in the form of a database table and runs on the server machine. For each query that is submitted to the system, we store the retrieved results in this table and in the future queries, prior to triggering the search procedure, we compare the queries with the cached ones.In this way, every new search that already has a match in the cache table will consume much less time to execute as it will search only for articles which are not found in the cache. The caching algorithm is executed dynamically by modifying for every submitted query the cached results and by changing their priorities and their relevance weights in order to include in the output the desired articles and to stay closer to the user’s profile and preferences. From the experimental results of this work we had the chance to draw useful conclusions by the comparison of different algorithmic approaches for all the stages of the mechanism and by the response and performance of the algorithm as faced by the end user. Αναζήτηση Προσωποποίηση Σημασιολογία Διαδίκτυο 025.042 7 Search Personalization Semantics Internet
2	Headedness in word formation and lexical semantics : evidence from Italiot and Cypriot Ανδρέου, Μάριος 27 April 2015 (has links) The thesis aims to sort out some of the confusions associated with head, focusing on headedness in Word Formation and Lexical Semantics. In particular, the purpose of my thesis is to enquire into the notion head with focus on the following three issues: (a) delimitation, (b) position, and (c) presence and absence of head in morphological configurations. In a nutshell, the main proposals with respect to headedness in morphology and lexical semantics are as follows: (a) Most of the assumed head-like notions, such as the subcategorizand, the morphosyntactic locus, and the obligatory constituent, might very well not be relevant to the head-nonhead asymmetry. (b) The head for the purposes of morphology should be identified with the category determinant and with the ontological class determinant as far as lexical semantics is concerned. (c) The enquiry into the postulation of functions and arguments reveals that non-argument taking inflection and derivation should be accounted for by the mechanism of subordination of functions without indexation of arguments. This has implications for the way we classify morphemes in lexical semantics. (d) With respect to the position of head, the phenomenon of left-headed [N N]N compounds in Italiot-Greek should not be studied independently of the same phenomenon evident in previous evolutionary stages and in other dialects. (e) In addition, morphology does not combine and manipulate asymmetric relations only (see Di Sciullo 2005), for morphemic order is amenable to change and variation may arise inside the morphological system of a language. (f) From a diachronic point of view, the order of constituents in compounds may not be autonomous from syntax since the head-nonhead linearization inside compounds cannot change without previous change in the head-nonhead order in syntactic constructions. (g) With respect to the absence of head, the analysis of the compound patterns which are considered to be exocentric reveals that exocentric compounds are bracketing paradoxes which involve compounding and derivation in this particular order. In this respect, I part company with previous analyses which identify exocentricity based on the hyponymy test and which collapse exocentricity and semantic non-compositionality. / Η παρούσα διατριβή εξετάζει την έννοια κεφαλή (head) στο επίπεδο της Μορφολογίας και της Λεξικής Σημασιολογίας με έμφαση στα εξής τρία ερωτήματα: (α) ορισμός, (β) θέση, και (γ) παρουσία και απουσία κεφαλής σε μορφολογικούς σχηματισμούς. Συνοπτικά οι βασικές προτάσεις σχετικά με την έννοια της κεφαλής είναι οι εξής: (α) Αρκετές από τις έννοιες με τις οποίες έχει ταυτιστεί η κεφαλή, όπως ο υποκατηγοριοποιητής, δεν είναι σχετικές με την ασυμμετρία κεφαλής-μη κεφαλής. (β) η κεφαλή πρέπει να ταυτιστεί με τον κατηγοριακό καθοριστή σε επίπεδο μορφολογίας και με τον οντολογικό καθοριστή σε επίπεδο λεξικής σημασιολογίας. (γ) Η εφαρμογή της έννοιας κεφαλή στο σχηματισμό σημασιολογικά πολύπλοκων σχηματισμών δείχνει ότι η κλίση, η προθηματοποίηση, και η αξιολογική μορφολογία, οι οποίες δεν φέρουν ορίσματα, πρέπει να αναλυθούν με βάση το μηχανισμό της υπόταξης λειτουργιών χωρίς την προσθήκη ενδείκτη. Η πρόταση αυτή έχει επιπτώσεις στον τρόπο με τον οποίο ταξινομούνται τα μορφήματα σε επίπεδο λεξικής σημασιολογίας. (δ) Όσον αφορά στη θέση της κεφαλής, το φαινόμενο της ύπαρξης αριστερόστροφων συνθέτων στην Κατωιταλική δεν πρέπει να μελετάται ανεξάρτητα από το ίδιο φαινόμενο το οποίο εμφανίζεται τόσο σε άλλες διαλέκτους, όσο και σε προηγούμενες εξελικτικές φάσεις. (ε) Η μορφολογία δεν χειρίζεται μόνο ασυμμετρικές σχέσεις, καθώς η σειρά των μορφημάτων υπόκειται σε αλλαγές. (στ) Από διαχρονική σκοπιά, η σειρά των συστατικών στα σύνθετα μπορεί να μην είναι απόλυτα ελεύθερη, καθώς φαίνεται να επηρεάζεται από τον τομέα της σύνταξης. (ζ) Σχετικά με την απουσία κεφαλής, η ανάλυση των εξωκεντρικών συνθέτων δείχνει ότι τέτοιοι σχηματισμοί είναι δομικά παράδοξα τα οποία συνδυάζουν σύνθεση και παραγωγή. Morphology Lexical semantics Head Dialectology 417.2 Μορφολογία Λεξική σημασιολογία Κεφαλή Διαλεκτολογία
3	Quantification at the syntax-semantics interface : Greek every NPs Μαργαρίτη, Άννα-Μαρία 02 March 2015 (has links) The present thesis offers a thorough examination of Modern Greek distributive determiner (o) kathe (every, each, any) nominal phrases and accounts for the different readings of these expressions. Kathe NPs exhibit a universal distributive every reading (definite use), a Free Choice any (indefinite use) and a kind interpretation. O kathe NPs exhibit a universal distributive each reading (familiar and definite use), a Free Choice any and an Indiscriminative Free Choice just any reading (indefinite uses). In line with previous proposals for every, I suggest that kathe determiners do not lexicalize a universal operator. Following Szabolcsi (2010) on every NPs, I argue that (o) kathe NPs are (inherently) indefinite expressions (in the sense of Heim 1982) that make part of a quantificational concord. A distributive operator binds the element variables of their NP set; a clause-typing operator in the left periphery, a Definiteness, a Generic or a Modal Operator binds the context set variables of the NP, rendering a universal, a kind or an FC reading to the expression, accordingly. The presence of different sentential operators under C determines the readings that arise. I argue that binding by these operators corresponds to two Agree operations in syntax: One is between the Distributive operator in C and Q on the DP as well as with Aspect on the vP. The other one is between the sentential operator and the relevant feature on Q but also on TP/ vP. The quantificational chains formed are argued to be, to some extent, similar to that of wh- chains. In Chapter 1, I present the essential syntactic and semantic background, as well as an outline of my proposal to the riddle of every and (o)kathe NPs interpretational variability. In Chapter 2, I discuss and analyze the syntax of Determiner Phrases and Quantifier Phrases and in particular the syntactic structure of Greek kathe, o kathe, oli i NPs, as well as that of English every, each, all and all the NPs. In Chapter 3 I investigate the different readings the kathe and o kathe NPs give rise to and the semantics behind that, as well as previous approaches on the issue. In Chapter 4, I explain the interpretational variability of the expression in hand as a result of the binding of the NPs’ context set variables by different Operators (a Definiteness, a Generic or a Modal Operator) and Operation Agree. In Chapter 5, I discuss how the theory proposed for Greek kathe, o kathe and English every, each NPs could explain relevant phenomena of quantificational variability in Chinese and Japanese, as well as Greek Polarity phenomena. In Chapter 6, I conclude the discussion. / Η παρούσα διατριβή προσφέρει μια αναλυτική εξέταση των επιμεριστικών δεικτών κάθε και ο κάθε της Νέας Ελληνικής και των Ονοματικών Φράσεών τους, όπως επίσης και μία εξήγηση για τις ποικίλες διαφορετικές ερμηνείες των εκφράσεων αυτών, αλλά και των αντιστοίχων της Αγγλικής. Οι Ονοματικές Φράσεις (ΟΦ) με το κάθε (κάθε ΟΦ) στην οριστική τους χρήση παρουσιάζουν μία ερμηνεία καθολικής ποσοτικής δείξης, όπως επίσης μία ερμηνεία ελεύθερης επιλογής, αόριστης χρήσης, και μία ερμηνεία είδους. Οι Ονοματικές Φράσεις με το ο κάθε (ο κάθε ΟΦ) παρουσιάζουν μία ερμηνεία καθολικής ποσοτικής δείξης ως οριστική και οικεία χρήση, μία ερμηνεία ελεύθερης επιλογής και μία υποτιμητικής ελεύθερης επιλογής ως αόριστες χρήσεις. Σε συμφωνία με προηγούμενες αναλύσεις για τον αντίστοιχο προσδιοριστή της Αγγλικής, προτείνω ότι τα κάθε και ο κάθε δεν λεξικοποιούν τον καθολικό ποσοτικό τελεστή της λογικής. Αντίθετα, ισχυρίζομαι ότι οι Ονοματικές Φράσεις με τα κάθε και ο κάθε είναι κατά βάση αόριστες εκφράσεις, οι οποίες συμμετέχουν σε διαφορετικές ποσοδεικτικές αλυσίδες εκφράσεων κάθε φορά. Ένας επιμεριστικός τελεστής στην αριστερή περιφέρεια δεσμεύει την στοιχειώδη μεταβλητή του συνόλου της ΟΦ. Ένας οριστικός, ένας γενικός ή ένας τροπικός τελεστής, επίσης στην αριστερή περιφέρεια, δεσμεύει τη μεταβλητή περικειμένου, δίνοντας αντίστοιχα τις ερμηνείες της καθολικής ποσοτικής δείξης, του είδους και της ελεύθερης επιλογής. Η παρουσία διαφορετικών προτασιακών τελεστών, λοιπόν, καθορίζει την ανάδυση των διαφορετικών ερμηνειών. Επίσης, ισχυρίζομαι ότι η όλη διαδικασία της δέσμευσης αντιστοιχεί σε λειτουργίες Συμφωνείν στη σύνταξη. Οι ποσοδεικτικές αλυσίδες που σχηματίζονται είναι σε κάποιο βαθμό όμοιες με αυτές των ερωτηματικών προτάσεων. Στο Κεφάλαιο 1 παραθέτω το απαραίτητο συντακτικό και σημασιολογικό υπόβαθρο, όπως επίσης και μια προεπισκόπηση της πρότασής μου. Στο Κεφάλαιο 2 παρουσιάζεται μια συντακτική ανάλυση των εκφράσεων αυτών και των αντιστοίχων αγγλικών. Το Κεφάλαιο 3 διερευνά την σημασιολογία και τις διαφορετικές ερμηνείες. Στο Κεφάλαιο 4 προσφέρω την θεωρητική μου ανάλυση, ενώ στο Κεφάλαιο 5 παρατίθεται μία σύγκριση με ανάλογα φαινόμενα στην Κινεζική και την Ιαπωνική, όπως επίσης και με εκφράσεις πολικότητας της Νέας Ελληνικής. Στο Κεφάλαιο 6 συνοψίζονται τα συμπεράσματα της έρευνας. Syntax Semantics Quantification Operators Variables Indefinite Definite 410 Σύνταξη Σημασιολογία Ποσοτικοποίηση Τελεστές Μεταβλητές Οριστικός Αόριστος
4	Εφαρμογή πολυ-πρακτορικού συστήματος με σημασιολογική οντολογία για κάθετη ολοκλήρωση περιβάλλοντος παραγωγής, έμφαση στο επίπεδο ελέγχου παραγωγής Γεωργουδάκης, Εμμανουήλ 24 January 2012 (has links) Η παρούσα εργασία εστιάζεται και παρουσιάζει μια ολοκληρωμένη λύση στο πρόβλημα της κάθετης επιχειρησιακής ολοκλήρωσης, της διαφανούς δηλαδή ολοκλήρωσης εφαρμογών και συστημάτων, τα οποία είναι δυνατό να εκτελούνται σε διαφορετικά επίπεδα όσον αφορά στην κλασσική ιεραρχία του βιομηχανικού / κατασκευαστικού περιβάλλοντος, από το Επιχειρησιακό Επίπεδο στο οποίο εκτελείται το σύστημα Διαχείρισης Επιχειρησιακών Πόρων (Enterprise Resource Planning – ERP) ως το Επίπεδο Ελέγχου Πεδίου (field control επίπεδο). Η λύση η οποία προτείνεται είναι ένα λογισμικό συνδετικότητας (middleware) που δημιουργεί την αναγκαία υποδομή για ένα πιο ευέλικτο και ευφυές βιομηχανικό περιβάλλον. / The present dissertation, focuses and presents an integrated solution to the problem of vertical business integration that is the transparent integration of applications and systems that is possible to operate in different levels within the classical hierarchy of the industrial / production environment. This hierarchy comprises of the ERP, field control and the device layer. The industrial environment is characterized by particular complexity and is highly heterogeneous. As a result, any attempt to modify the existing production processes is particularly difficult. This project, combines standards, established and emerging technologies to address two contradicting requirements: integration and flexibility. Σημασιολογία Οντολογία 658.16 Semantics Ontology Distributed software Industrial environment
5	Αλγόριθμοι και τεχνικές εξατομικευμένης αναζήτησης σε διαδικτυακά περιβάλλοντα με χρήση υποκείμενων σημασιολογιών Πλέγας, Ιωάννης 06 December 2013 (has links) Η τεράστια ανάπτυξη του Παγκόσμιου Ιστού τις τελευταίες δεκαετίες έχει αναδείξει την αναζήτηση πληροφοριών ως ένα από τα πιο σημαντικά ζητήματα στον τομέα της έρευνας στις Τεχνολογίες της Πληροφορικής. Σήμερα, οι σύγχρονες μηχανές αναζήτησης απαντούν αρκετά ικανοποιητικά στα ερωτήματα των χρηστών, αλλά τα κορυφαία αποτελέσματα που επιστρέφονται δεν είναι πάντα σχετικά με τα δεδομένα που αναζητά ο χρήστης. Ως εκ τούτου, οι μηχανές αναζήτησης καταβάλλουν σημαντικές προσπάθειες για να κατατάξουν τα πιο σχετικά αποτελέσματα του ερωτήματος ως προς τον χρήστη στα κορυφαία αποτελέσματα της λίστας κατάταξης των αποτελεσμάτων. Η διατριβή αυτή ασχολείται κυρίως με το παραπάνω πρόβλημα, δηλαδή την κατάταξη στις υψηλότερες θέσεις των πιο σχετικών αποτελεσμάτων ως προς τον χρήστη (ειδικά για ερωτήματα που οι όροι τους έχουν πολλαπλές σημασίες). Στο πλαίσιο της παρούσας έρευνας κατασκευάστηκαν αλγόριθμοι και τεχνικές που βασίζονται στην τεχνική της σχετικής ανατροφοδότησης (relevance feedback) για την βελτίωση των αποτελεσμάτων που επιστρέφονται από μια μηχανή αναζήτησης. Βασική πηγή της ανατροφοδότησης ήταν τα αποτελέσματα που επιλέγουν οι χρήστες κατά την διαδικασία πλοήγησης. Ο χρήστης επεκτείνει την αρχική πληροφορία αναζήτησης (λέξεις κλειδιά) με νέα πληροφορία που προέρχεται από τα αποτελέσματα που διαλέγει. Έχοντας ένα νέο σύνολο πληροφορίας που αφορά τις προτιμήσεις του χρήστη, συγκρίνεται η σημασιολογική πληροφορία του συνόλου αυτού με τα υπόλοιπα αποτελέσματα (αυτά που επιστράφηκαν πριν επιλέξει το συγκεκριμένο αποτέλεσμα) και μεταβάλλεται η σειρά των αποτελεσμάτων προωθώντας και προτείνοντας τα αποτελέσματα που είναι πιο σχετικά με το νέο σύνολο πληροφορίας. Ένα άλλο πρόβλημα που πρέπει να αντιμετωπιστεί κατά την υποβολή ερωτημάτων από τους χρήστες σε μια μηχανή αναζήτησης είναι ότι τα ερωτήματα που υποβάλλονται στις μηχανές αναζήτησης είναι συνήθως μικρά σε αριθμό λέξεων και αμφίσημα. Συνεπώς, πρέπει να υπάρχουν τρόποι αποσαφήνισης των διαφορετικών εννοιών των όρων αναζήτησης και εύρεσης της έννοιας που ενδιαφέρει τον χρήστη. Η αποσαφήνιση των όρων αναζήτησης είναι μια διαδικασία που έχει μελετηθεί στην βιβλιογραφία με αρκετούς διαφορετικούς τρόπους. Στην διατριβή μου προτείνω νέες στρατηγικές αποσαφήνισης των εννοιών των όρων αναζήτησης των μηχανών αναζήτησης και εξερευνάται η αποδοτικότητά τους στις μηχανές αναζήτησης. Η καινοτομία τους έγκειται στη χρήση του Page-Rank σαν ενδείκτη της σημαντικότητας μιας έννοιας για έναν όρο του ερωτήματος. Επίσης είναι ευρέως γνωστό ότι ο Παγκόσμιος Ιστός περιέχει έγγραφα με την ίδια πληροφορία και έγγραφα με σχεδόν ίδια πληροφορία. Παρά τις προσπάθειες των μηχανών αναζήτησης με αλγόριθμους εύρεσης των κειμένων που περιέχουν επικαλυπτόμενη πληροφορία, ακόμα υπάρχουν περιπτώσεις που τα κείμενα που ανακτώνται από μια μηχανή αναζήτησης περιέχουν επαναλαμβανόμενη πληροφορία. Στην διατριβή αυτή παρουσιάζονται αποδοτικές τεχνικές εύρεσης και περικοπής της επικαλυπτόμενης πληροφορίας από τα αποτελέσματα των μηχανών αναζήτησης χρησιμοποιώντας τις σημασιολογικές πληροφορίες των αποτελεσμάτων των μηχανών αναζήτησης. Συγκεκριμένα αναγνωρίζονται τα αποτελέσματα που περιέχουν την ίδια πληροφορία και απομακρύνονται, ενώ ταυτόχρονα τα αποτελέσματα που περιέχουν επικαλυπτόμενη πληροφορία συγχωνεύονται σε νέα κείμενα(SuperTexts) που περιέχουν την πληροφορία των αρχικών αποτελεσμάτων χωρίς να υπάρχει επαναλαμβανόμενη πληροφορία. Ένας άλλος τρόπος βελτίωσης της αναζήτησης είναι ο σχολιασμός των κειμένων αναζήτησης έτσι ώστε να περιγράφεται καλύτερα η πληροφορία τους. Ο σχολιασμός κειμένων(text annotation) είναι μια τεχνική η οποία αντιστοιχίζει στις λέξεις του κειμένου επιπλέον πληροφορίες όπως η έννοια που αντιστοιχίζεται σε κάθε λέξη με βάση το εννοιολογικό περιεχόμενο του κειμένου. Η προσθήκη επιπλέον σημασιολογικών πληροφοριών σε ένα κείμενο βοηθάει τις μηχανές αναζήτησης να αναζητήσουν καλύτερα τις πληροφορίες που ενδιαφέρουν τους χρήστες και τους χρήστες να βρουν πιο εύκολα τις πληροφορίες που αναζητούν. Στην διατριβή αυτή αναλύονται αποδοτικές τεχνικές αυτόματου σχολιασμού κειμένων από τις οντότητες που περιέχονται στην Wikipedia, μια διαδικασία που αναφέρεται στην βιβλιογραφία ως Wikification. Με τον τρόπο αυτό οι χρήστες μπορούν να εξερευνήσουν επιπλέον πληροφορίες για τις οντότητες που περιέχονται στο κείμενο που τους επιστρέφεται. Ένα άλλο τμήμα της διατριβής αυτής προσπαθεί να εκμεταλλευτεί την σημασιολογία των αποτελεσμάτων των μηχανών αναζήτησης χρησιμοποιώντας εργαλεία του Σημασιολογικού Ιστού. Ο στόχος του Σημασιολογικού Ιστού (Semantic Web) είναι να κάνει τους πόρους του Ιστού κατανοητούς και στους ανθρώπους και στις μηχανές. Ο Σημασιολογικός Ιστός στα πρώτα βήματά του λειτουργούσε σαν μια αναλυτική περιγραφή του σώματος των έγγραφων του Ιστού. Η ανάπτυξη εργαλείων για την αναζήτηση σε Σημασιολογικό Ιστό είναι ακόμα σε πρώιμο στάδιο. Οι σημερινές τεχνικές αναζήτησης δεν έχουν προσαρμοστεί στην δεικτοδότηση και στην ανάκτηση σημασιολογικής πληροφορίας εκτός από μερικές εξαιρέσεις. Στην έρευνά μας έχουν δημιουργηθεί αποδοτικές τεχνικές και εργαλεία χρήσης του Παγκόσμιου Ιστού. Συγκεκριμένα έχει κατασκευαστεί αλγόριθμος μετατροπής ενός κειμένου σε οντολογία ενσωματώνοντας την σημασιολογική και συντακτική του πληροφορία έτσι ώστε να επιστρέφονται στους χρήστες απαντήσεις σε ερωτήσεις φυσικής γλώσσας. Επίσης στην διατριβή αυτή αναλύονται τεχνικές φιλτραρίσματος XML εγγράφων χρησιμοποιώντας σημασιολογικές πληροφορίες. Συγκεκριμένα παρουσιάζεται ένα αποδοτικό κατανεμημένο σύστημα σημασιολογικού φιλτραρίσματος XML εγγράφων που δίνει καλύτερα αποτελέσματα από τις υπάρχουσες προσεγγίσεις. Τέλος, στα πλαίσια αυτής της διδακτορικής διατριβής γίνεται επιπλέον έρευνα για την βελτίωση της απόδοσης των μηχανών αναζήτησης από μια διαφορετική οπτική γωνία. Στην κατεύθυνση αυτή παρουσιάζονται τεχνικές περικοπής ανεστραμμένων λιστών ανεστραμμένων αρχείων. Επίσης επιτυγχάνεται ένας συνδυασμός των προτεινόμενων τεχνικών με υπάρχουσες τεχνικές συμπίεσης ανεστραμμένων αρχείων πράγμα που οδηγεί σε καλύτερα αποτελέσματα συμπίεσης από τα ήδη υπάρχοντα. / The tremendous growth of the Web in the recent decades has made the searching for information as one of the most important issues in research in Computer Technologies. Today, modern search engines respond quite well to the user queries, but the results are not always relative to the data the user is looking for. Therefore, search engines are making significant efforts to rank the most relevant query results to the user in the top results of the ranking list. This work mainly deals with this problem, the ranking of the relevant results to the user in the top of the ranking list even when the queries contain multiple meanings. In the context of this research, algorithms and techniques were constructed based on the technique of relevance feedback which improves the results returned by a search engine. Main source of feedback are the results which the users selects during the navigation process. The user extends the original information (search keywords) with new information derived from the results that chooses. Having a new set of information concerning to the user's preferences, the relevancy of this information is compared with the other results (those returned before choosing this effect) and change the order of the results by promoting and suggesting the results that are more relevant to the new set of information. Another problem that must be addressed when the users submit queries to the search engines is that the queries are usually small in number of words and ambiguous. Therefore, there must be ways to disambiguate the different concepts/senses and ways to find the concept/sense that interests the user. Disambiguation of the search terms is a process that has been studied in the literature in several different ways. This work proposes new strategies to disambiguate the senses/concepts of the search terms and explore their efficiency in search engines. Their innovation is the use of PageRank as an indicator of the importance of a sense/concept for a query term. Another technique that exploits semantics in our work is the use of text annotation. The use of text annotation is a technique that assigns to the words of the text extra information such as the meaning assigned to each word based on the semantic content of the text. Assigning additional semantic information in a text helps users and search engines to seek or describe better the text information. In my thesis, techniques for improving the automatic annotation of small texts with entities from Wikipedia are presented, a process that referred in the literature as Wikification. It is widely known that the Web contain documents with the same information and documents with almost identical information. Despite the efforts of the search engine’s algorithms to find the results that contain repeated information; there are still cases where the results retrieved by a search engine contain repeated information. In this work effective techniques are presented that find and cut the repeated information from the results of the search engines. Specifically, the results that contain the same information are removed, and the results that contain repeated information are merged into new texts (SuperTexts) that contain the information of the initial results without the repeated information. Another part of this work tries to exploit the semantic information of search engine’s results using tools of the Semantic Web. The goal of the Semantic Web is to make the resources of the Web understandable to humans and machines. The Semantic Web in their first steps functioned as a detailed description of the body of the Web documents. The development of tools for querying Semantic Web is still in its infancy. The current search techniques are not adapted to the indexing and retrieval of semantic information with a few exceptions. In our research we have created efficient techniques and tools for using the Semantic Web. Specifically an algorithm was constructed that converts to ontology the search engine’s results integrating semantic and syntactic information in order to answer natural language questions. Also this paper contains XML filtering techniques that use semantic information. Specifically, an efficient distributed system is proposed for the semantic filtering of XML documents that gives better results than the existing approaches. Finally as part of this thesis is additional research that improves the performance of the search engines from a different angle. It is presented a technique for cutting the inverted lists of the inverted files. Specifically a combination of the proposed technique with existing compression techniques is achieved, leading to better compression results than the existing ones. Σημασιολογία Αποσαφήνιση Μηχανές αναζήτησης Σημασιολογικός Ιστός Εξατομίκευση 025.042 52 Search of information Semantics Disambiguation Search engines Semantic Web Personalization
6	Το άσεμνο λεξιλόγιο της Νέας Ελληνικής : μια μελέτη των μορφολογικών, σημασιολογικών και πραγματολογικών χαρακτηριστικών του Χριστοπούλου, Κατερίνα 02 February 2011 (has links) Στην παρούσα μεταπτυχιακή εργασία, αρχικά, γίνεται λόγος για τα γενικά τυπικά χαρακτηριστικά που διέπουν το άσεμνο λεξιλόγιο, κυρίως της Ελληνικής. Στη συνέχεια, επιχειρείται μια μορφολογική ανάλυση των συστατικών που χρησιμοποιούνται για τον σχηματισμό των λέξεων του άσεμνου λεξιλογίου. Ωστόσο, βασικός στόχος είναι η διερεύνηση των σημασιολογικών και πραγματολογικών χαρακτηριστικών που διέπουν αυτό το ιδιαίτερα ενδιαφέρον τμήμα του λεξιλογίου μας. Παράλληλα, ασχολούμαι με περιπτώσεις υποκορισμού ή μεγέθυνσης μέσα στο άσεμνο λεξιλόγιο, με τους μηχανισμούς δανεισμού, με φαινόμενα ευφημισμού και δυσφημισμού και άλλα. Αναλυτικότερα, στο πρώτο κεφάλαιο, το οποίο λειτουργεί ως εναρκτήριο στάδιο ένταξης στο αντικείμενο μελέτης της εργασίας, παρουσιάζω τα περιθωριακά ιδιώματα της ελληνικής καθώς και τη δομή και λειτουργία των ειδικών λεξιλογίων στα οποία εντάσσεται και το προς εξέταση λεξιλόγιο. Στο τέλος του κεφαλαίου εξετάζω τις διαδικασίες και τους μηχανισμούς δανεισμού που υιοθετούνται για την εισαγωγή νέων λέξεων στην Ελληνική από άλλες γλώσσες, οι οποίες επηρέασαν και εμπλούτισαν με αυτόν τον τρόπο το άσεμνο λεξιλόγιο. Στο δεύτερο κεφάλαιο ασχολούμαι με τις διαδικασίες σχηματισμού των λημμάτων του άσεμνου λεξιλογίου. Μορφολογικές διαδικασίες σχηματισμού λέξεων όπως είναι η παραγωγή και η σύνθεση, αλλά και δομές όπως οι συμφυρμοί, λεξικοποιημένες εκφράσεις κ. ά, θα με απασχολήσουν ιδιαίτερα στο κεφάλαιο αυτό. Το τρίτο κεφάλαιο είναι αφιερωμένο στις εννοιακές σχέσεις, στις σχέσεις δηλαδή των λέξεων με άλλες λέξεις, με τις οποίες σχετίζονται. Το βασικό θεωρητικό πρότυπο πάνω στο οποίο θα βασιστώ για την ανάλυση της λεξικής σημασιολογίας είναι αυτό που προτείνεται από τον Cruse (1986, 2004). Εννοιακές σχέσεις, όπως αυτή της πολυσημίας, της συνωνυμίας, της μετωνυμίας, της μερωνυμίας και της μεταφοράς θα με απασχολήσουν ιδιαίτερα. Στη συνέχεια, στο τελευταίο κεφάλαιο με τίτλο «Άσεμνο λεξιλόγιο και Πραγματολογία» αφού αναφερθώ στα κίνητρα που ωθούν στην χρήση αυτού του λεξιλογίου, θα εξετάσω τις λειτουργίες και τη χρήση των λέξεων αυτών μέσα σε συγκεκριμένα εκφωνήματα. Το περιβάλλον μέσα στο οποίο εμφανίζονται οι λέξεις αυτές αλλά και οι διαφορετικοί πολιτισμοί και η νοοτροπία των ομιλητών, όπως θα δούμε στο κεφάλαιο αυτό παίζει πολύ σημαντικό ρόλο. Ολοκληρώνοντας, θα επικεντρωθώ σε λέξεις που χαρακτηρίζονται ως άσεμνες και μπορούν να θεωρηθούν, με βάση πραγματολογικές μελέτες (μεταξύ αυτών Fraser, 2008) ότι λειτουργούν ως δείκτες οργάνωσης λόγου και συγκεκριμένα ως δείκτες προσοχής (attention markers). / Words are extremely important to people. They constitute a means of communication. It is through them that we express our thoughts, feelings and emotions. They are an integral part of our everyday life and they are with us wherever we go. Every word, of any kind, deserves our full attention and needs to be studied, no matter what kind of vocabulary it may be part of. The present thesis is about a very vibrant and expressive part of our language. It concerns “obscene vocabulary”, a domain on which very few scientific studies have been carried out to date. In this thesis I decided to examine the morphological, semantic and pragmatic aspects of the “obscene vocabulary” of the Modern Greek language. In the first chapter, I present the “marginal” jargons of the Modern Greek language, of which “obscene vocabulary” constitutes a part, based on the existing literature so far. Moreover, I propose an appropriate classification of the Greek data, based on Jay (1997). I also look into cases of euphemisms and calumny, and the way they are used in Modern Greek. In addition, I present some cases of loans concerning not only words, but expressions and even affixes coming from other languages as well. Loans and calques seem to constitute a great part of the Greek “obscene vocabulary”, most of them coming from Italian, French and Turkish. The second chapter is about the way that words and expressions of the “obscene vocabulary” are formed. It seems that this kind of vocabulary is highly productive in compound words. What is more, some prefixes and suffixes of the “purist Greek” which are not very productive in the Modern Greek common vocabulary, combined with popular words, they are frequently used to form “obscene” words, resulting in funny word formations. It should be noted here, that the formation of such words is subject to the same constraints as the rest of the vocabulary of the Modern Greek language. Finally, I look into compound expressions, lexicalized phrases, blends and the diminutive and augmentative suffixes and prefixes which are used in order to make a word sound less offensive, more familiar and even positive. The third chapter consists of a semantic analysis of the “obscene vocabulary” of the Modern Greek language, based on Cruse (1986, 2004) and Veloudis (2005). I look into polysemous and synonymous pairs of words and also into notions such as meronymy, metonymy and metaphors, concerning mostly parts of the human body. Finally, I try to analyze the pragmatic aspects of the Greek “obscene vocabulary” This field concerns the circumstances in which this kind of vocabulary is used, human communication, the intonation and the gestures that accompany the use of “obscene vocabulary” and every possible kind of social and psychological reasons, as well as the motives that make someone use this kind of vocabulary. Different languages reflect different cultures and have a different degree and way of using “obscene vocabulary”. Άσεμνα λεξιλόγια Περιθωριακά ιδιώματα Λεξική σημασιολογία Εννοιακές σχέσεις 489.370 9 Obscene vocabularies Swearing - taboo words Lexical semantics Sense relations
7	Αυτόματη εξαγωγή λεξικής - σημασιολογικής γνώσης από ηλεκτρονικά σώματα κειμένων με χρήση ελαχίστων πόρων / Automatic extraction of lexico - semantic knowledge from electronic text corpora using minimal resources Θανόπουλος, Αριστομένης 25 June 2007 (has links) Το αντικείμενο της διατριβής είναι η μελέτη μεθόδων αυτόματης εξαγωγής των συμφράσεων και των σημασιολογικών ομοιοτήτων των λέξεων από μεγάλα σώματα κειμένων. Υιοθετείται μια προσέγγιση ελάχιστων γλωσσικών πόρων που εξασφαλίζει την απεριόριστη μεταφερσιμότητα των μεθόδων σε φυσικές γλώσσες και θεματικές περιοχές. Για την αξιολόγηση των προτεινόμενων μεθόδων προτείνονται, αξιολογούνται και εφαρμόζονται μεθοδολογίες με βάση πρότυπες βάσεις λεξικής γνώσης (στην Αγγλική), όπως το WordNet. Για την εξαγωγή των συμφράσεων προτείνονται νέα μέτρα εξαγωγής στατιστικά σημαντικών διγράμμων και γενικά ν-γράμμων που αξιολογούνται θετικά. Για την εξαγωγή των λεξικών - σημασιολογικών ομοιοτήτων των λέξεων ακολουθείται καταρχήν η προσέγγιση ομοιότητας περικειμένων λέξεων με παραθυρικές μεθόδους, όπου μελετώνται το πεδίο συμφραζομένων, το φιλτράρισμα των συνεμφανίσεων των λέξεων, τα μέτρα ομοιότητας, όπου εισάγεται ο παράγοντας του αριθμού κοινών παραμέτρων, καθώς και η αντιμετώπιση συστηματικών σφαλμάτων, ενώ προτείνεται η αξιοποίηση των λειτουργικών λέξεων. Επιπλέον, προτείνεται η αξιοποίηση της ομοιότητας περικείμενων εκφράσεων, που απαντάται συχνά σε θεματικώς εστιασμένα κείμενα, με ένα αλγόριθμο βασισμένο στην ετεροσυσχέτιση ακολουθιών λέξεων. Μελετάται η μεθοδολογία αξιοποίησης των παρατακτικών συνδέσεων ενώ προτείνεται μια μέθοδος ενοποίησης ετερογενών σωμάτων γνώσης λεξικών – σημασιολογικών ομοιοτήτων. Τέλος, η εξαχθείσα γνώση μετασχηματίζεται σε σημασιολογικές κλάσεις με μια συμβολική μέθοδο ιεραρχικής ομαδοποίησης και επίσης ενσωματώνεται επιτυχώς σε ένα διαλογικό σύστημα μηχανικής μάθησης όπου ενισχύει την απόδοση της αναγνώρισης του σκοπού του χρήστη συμβάλλοντας στην εκτίμηση του ρόλου των άγνωστων λέξεων. / The research described in this dissertation regards automatic extraction of collocations and lexico-semantic similarities from large text corpora. We follow an approach based on minimal linguistic resources in order to achieve unrestricted portability across languages and thematic domains. In order to evaluate the proposed methods we propose, evaluate and apply methodologies based on English gold standard lexical resources, such as WordNet. For the extraction of collocations we propose and test a few novel measures for the identification of statistically significant bigrams and, generally, n-grams, which exhibit strong performance. For the extraction of lexico-semantic similarities we follow a distributional window-based approach. We study the contextual scope, the filtering of lexical co-occurrences and the performance of similarity measures. We propose the incorporation of the number of common parameters into the latter, the exploitation of functional words and a method for the elimination of systematic errors. Moreover, we propose a novel approach to exploitation of word sequence similarities, common in technical texts, based on cross-correlation of word sequences. We refine an approach for word similarity extraction from coordinations and we propose a method for the amalgamation of lexico-semantic similarity databases extracted via different principles and methods. Finally, the extracted similarity knowledge is transformed in the form of soft hierarchical semantic clusters and it is successfully incorporated into a machine learning based dialogue system, reinforcing the performance of user’s plan recognition by estimating the semantic role of unknown words. Λεξική σημασιολογία Αυτόματες μέθοδοι Στατιστικές μέθοδοι Συμφράσεις 410.285 Lexical semantics Automatic methods Statistical methods Natural language processing Semantic similarity Collocations
8	Τεχνικές εξόρυξης γνώσης με χρήση σημασιολογιών από δεδομένα πλοήγησης χρηστών (web usage log mining) με σκοπό την εξατομίκευση δικτυακών τόπων / Knowledge extraction techniques using semantics of web usage log mining in order to personalize websites Θεοδωρίδης, Ιωάννης-Βασίλειος 06 May 2009 (has links) Η παρούσα Διπλωματική Εργασία μελετά το θέμα της προσωποποίησης - εξατομίκευσης δικτυακών τόπων. Αρχικά, παρουσιάζεται μια ανασκόπηση στη σχετική βιβλιογραφία όπου εντοπίζεται πληθώρα αναφορών και λύσεων -ακαδημαϊκών και εμπορικών- για το συγκεκριμένο θέμα. Στις περισσότερες από αυτές τις περιπτώσεις καταβάλλεται προσπάθεια για εξατομίκευση η οποία στηρίζεται σε δεδομένα που συλλέγονται από δηλώσεις ή ενέργειες του χρήστη, άμεσα ή έμμεσα. Όμως, η μελέτη των σχετικών άρθρων δείχνει ότι η μέχρι σήμερα επιτυχία των εγχειρημάτων αξιοποίησης δεδομένων χρήσης του ιστού (web usage data) είναι περιορισμένη. Το βασικό έλλειμμα που διαπιστώνεται είναι το γεγονός ότι η διαχείριση του περιεχομένου ενός δικτυακού τόπου συνήθως γίνεται με μηχανιστικό τρόπο, αποφεύγοντας τόσο την κατανόηση του περιεχομένου του όσο και της δομής του. Ακολούθως, στη Διπλωματική Εργασία γίνεται απόπειρα εξατομίκευσης δικτυακών τόπων με ημιαυτόματο τρόπο χρησιμοποιώντας τα αρχεία καταγραφής χρήσης ιστού ενώ ταυτόχρονα βασίζεται σε σημασιολογικές και εννοιολογικές αναλύσεις του περιεχομένου των δικτυακών τόπων. Με αυτήν τη μέθοδο υλοποιείται ένα εργαλείο που εξατομικεύει τον δικτυακό τόπο προτείνοντας στους χρήστες ιστοσελίδες με παραπλήσιο εννοιολογικό περιεχόμενο. Αυτό γίνεται δημιουργώντας την οντολογία του εκάστοτε δικτυακού τόπου και συνδυάζοντάς τη με τα δεδομένα πλοήγησης των χρηστών. / The present Diploma Dissertation attempts to study the personalization of websites. Initially, a thorough review of the relevant bibliography is presented, in which a plethora of academic and commercial reports and solutions is located regarding the subject of website personalization. In most cases, to achieve personalization, the researchers are based on data which are directly or indirectly collected by user statements or actions. However, the study of relative articles shows that there is limited success in the use of web usage data for personalization purposes. The fundamental problem lies in the fact that the comprehension of the content and the structure of a website is often neglected or even avoided. Further on, personalization of websites in a semi-automatic way is attempted using log files while it is simultaneously based in semantic and conceptual analysis of the website content. In this way, a tool is developed that personalizes websites by proposing web pages with similar conceptual content to the users. This is done by creating the ontology of the website and combining it with the users’ web usage data. Εξόρυξη γνώσης Οντολογία Εργαλείο 006.312 Website personalization Web usage log mining Knowledge extraction Website semantics Ontology Content based personalization Tool

Search results