The nature of information : an analysis of the historically situated socio-cultural assumptions concerning the nature of information under changing technological conditions of its production, reproduction, dissemination and use

Tredinnick, Luke January 2015 (has links)
This narrative commentary in combination with the research outputs listed in Appendix A has been submitted for the award of Ph.D. by Prior Output at London Metropolitan University. The commentary summarises the coherence, context, and original contribution of the submitted research. The research presented in this submission reflects work over a period of about ten years. It addresses the nature of information under conditions of its digital production, reproduction, dissemination and consumption. The central thesis of the research is that digital technologies have destabilised traditional assumptions concerning the nature of information. While not fundamentally altering the nature of information itself, technological change has transformed the social, cultural and professional contexts in which information is embedded and used. This change has epistemological, ontological and socio-cultural aspects, each of which is addressed within the research. The research is broadly situated within a post-structuralist perspective, but is eclectic in its use of theoretical paradigms for their capacity to reveal aspects of a problem, rather than to provide final or foundational claims. It emphasises subjective meanings and experiences over final or foundational theories.

Διαδραστική εξατομίκευση ιστοσελίδων / Adaptive site customization

Τζέκου, Παρασκευή 14 November 2007 (has links)
Η εκρηκτική αύξηση του μεγέθους των δεδομένων που είναι διαθέσιμα στο Δίκτυο καθώς και η ποικιλία των εργασιών οι οποίες μπορούν να πραγματοποιηθούν μέσω του Δικτύου έχουν αυξήσει σημαντικά την νομισματική αξία της κίνησης στο Δίκτυο. Για να κερδίσουν από αυτή την αναπτυσσόμενη αγορά, οι διαχειριστές ιστοσελίδων προσπαθούν να αυξήσουν την κίνηση χρηστών στην ιστοσελίδα τους, διαμορφώνοντάς τη κατάλληλα έτσι ώστε να ικανοποιεί τις ανάγκες συγκεκριμένων χρηστών. Η διαμόρφωση και η παραμετροποίηση των ιστοσελίδων παρουσιάζει δύο μεγάλες προκλήσεις: την αποτελεσματική αναγνώριση των ενδιαφερόντων κάθε χρήστη και την ενσωμάτωση των ενδιαφερόντων του στην παρουσίαση και στο περιεχόμενο της ιστοσελίδας. Σε αυτή την εργασία μελετάται ο τρόπος με τον οποίο μπορούμε να αναγνωρίσουμε με ακρίβεια τα ενδιαφέροντα ενός χρήστη χρησιμοποιώντας τα μοτίβα πλοήγησης και παρουσιάζεται ένας καινοτόμος μηχανισμός προτάσεων ο οποίος εφαρμόζει τεχνικές εξόρυξης στο Δίκτυο για να πραγματοποιήσει τη συσχέτιση μεταξύ των ενδιαφερόντων του χρήστη και του περιεχομένου και της δομής της ιστοσελίδας. Στόχος της τεχνικής που παρουσιάζεται είναι να παραμετροποιηθεί η σελίδα για κάθε συγκεκριμένο χρήστη με βάση τα ενδιαφέροντά του. Η πειραματική αξιολόγηση αποδεικνύει ότι είναι δυνατόν να συμπεράνουμε με ακρίβεια τα ενδιαφέροντα ενός χρήστη από την συμπεριφορά του κατά την πλοήγηση και ότι ο μηχανισμός προτάσεων, ο οποίος χρησιμοποιεί τα συμπεράσματα για τα ενδιαφέροντα του χρήστη, έχει σαν αποτέλεσμα σημαντικές βελτιώσεις στη λειτουργικότητα μιας ιστοσελίδας. / The explosive growth of online data and the diversity of goals that may be pursued over the web have significantly increased the monetary value of the web traffic. To tap into this accelerating market, web site operators try to increase their traffic by customizing their sites to the needs of specific users. Web site customization involves two great challenges: the effective identification of the user interests and the encapsulation of those interests into the sites’ presentation and content. In this paper, we study how we can effectively detect the user interests that are hidden behind navigational patterns and we introduce a novel recommendation mechanism that employs web mining techniques for correlating the identified interests to the sites’ semantic content, in order to customize them to specific users. Our experimental evaluation shows that the user interests can be accurately detected from their navigational behavior and that our recommendation mechanism, which uses the identified interests, yields significant improvements in the sites’ usability.

Foundations research in information retrieval inspired by quantum theory

Arafat, Sachi January 2008 (has links)
In the information age information is useless unless it can be found and used, search engines in our time thereby form a crucial component of research. For something so crucial, information retrieval (IR), the formal discipline investigating search, can be a confusing area of study. There is an underlying difficulty, with the very definition of information retrieval, and weaknesses in its operational method, which prevent it being called a 'science'. The work in this thesis aims to create a formal definition for search, scientific methods for evaluation and comparison of different search strategies, and methods for dealing with the uncertainty associated with user interactions; so that one has the necessary formal foundation to be able to perceive IR as "search science". The key problems restricting a science of search pertain to the ambiguity in the current way in which search scenarios and concepts are specified. This especially affects evaluation of search systems since according to the traditional retrieval approach, evaluations are not repeatable, and thus not collectively verifiable. This is mainly due to the dependence on the method of user studies currently dominating evaluation methodology. This evaluation problem is related to the problem of not being able to formally define the users in user studies. The problem of defining users relates in turn to one of the main retrieval-specific motivations of the thesis, which can be understood by noticing that uncertainties associated with the interpretation of user interactions are collectively inscribed in a relevance concept, the representation and use of which defines the overall character of a retrieval model. Current research is limited in its understanding of how to best model relevance, a key factor restricting extensive formalization of the IR discipline as a whole. Thus, the problems of defining search systems and search scenarios are the principle issues preventing formal comparisons of systems and scenarios, in turn limiting the strength of experimental evaluation. Alternative models of search are proposed that remove the need for ambiguous relevance concepts and instead by arguing for use of simulation as a normative evaluation strategy for retrieval, some new concepts are introduced that can be employed in judging effectiveness of search systems. Included are techniques for simulating search, techniques for formal user modelling and techniques for generating measures of effectiveness for search models. The problems of evaluation and of defining users are generalized by proposing that they are related to the need for an unified framework for defining arbitrary search concepts, search systems, user models, and evaluation strategies. It is argued that this framework depends on a re-interpretation of the concept of search accommodating the increasingly embedded and implicit nature of search on modern operating systems, internet and networks. The re-interpretation of the concept of search is approached by considering a generalization of the concept of ostensive retrieval producing definitions of search, information need, user and system that (formally) accommodates the perception of search as an abstract process that can be physical and/or computational. The feasibility of both the mathematical formalism and physical conceptualizations of quantum theory (QT) are investigated for the purpose of modelling the this abstract search process as a physical process. Techniques for representing a search process by the Hilbert space formalism in QT are presented from which techniques are proposed for generating measures for effectiveness that combine static information such as term weights, and dynamically changing information such as probabilities of relevance. These techniques are used for deducing methods for modelling information need change. In mapping the 'macro level search' process to 'micro level physics' some generalizations were made to the use and interpretation of basic QT concepts such the wave function description of state and reversible evolution of states corresponding to the first and second postulates of quantum theory respectively. Several ways of expressing relevance (and other retrieval concepts) within the derived framework are proposed arguing that the increase in modelling power by use of QT provides effective ways to characterize this complex concept. Mapping the mathematical formalism of search to that of quantum theory presented insightful perspectives about the nature of search. However, differences between the operational semantics of quantum theory and search restricted the usefulness of the mapping. In trying to resolve these semantic differences, a semi-formal framework was developed that is mid-way between a programmatic language, a state-based language resembling the way QT models states, and a process description language. By using this framework, this thesis attempts to intimately link the theory and practice of information retrieval and the evaluation of the retrieval process. The result is a novel, and useful way for formally discussing, modelling and evaluating search concepts, search systems and search processes.

Τεχνικές δυναμικής δεικτοδότησης και φιλτραρίσματος XML εγγράφων / Dynamic algorithms for indexing and filtering XML documents

Παναγιώτης, Αντωνέλλης 22 October 2007 (has links)
Η ολοένα αυξανόμενη διείσδυση και χρήση του Internet παγκοσμίως έχει οδηγήσει στην επιτακτική ανάγκη ενός καλά ορισμένου και κοινά αποδεκτού τρόπου αναπαράστασης και ανταλλαγής της πληροφορίας στο διαδίκτυο. Όλο και περισσότερα ετερογενή συστήματα και πλατφόρμες χρειάζονται να ανταλλάξουν δεδομένα και πληροφορίες μεταξύ τους, με τρόπο καλά ορισμένο αλλά ταυτόχρονα δυναμικό και ελαστικό. H XML αναπτύχθηκε για να επιλύσει ακριβώς αυτό το πρόβλημα, της εινιαίας και καθολικά αποδεκτής αναπαράστασης της διακινούμενης πληροφορίας. Η ραγδαία αύξηση όμως του όγκου των δεδομένων που αναπαρίστανται σε XML δημιούργησε την ανάγκη αναζήτησης μέσα στην δενδρική δομή ενός ΧΜL εγγράφου για κάποια συγκεκριμένη πληροφορία. Η ανάγκη αυτή ταυτόχρονα με την ανάγκη για γρήγορη πρόσβαση στους κόμβους του ΧΜL δέντρου, οδήγησε σε διάφορα εξειδικευμένα ευρετήρια καθένα με διαφορετικά χαρακτηριστικά και δομή. Τα δεδομένα όμως στη σύγχρονη κοινωνία της πληροφόρησης δεν παραμένουν στατικά, αλλά διαρκώς αλλάζουν και μεταβάλλονται δυναμικά. Για να μπορέσουν να αναταποκριθούν στη δυναμική αυτή των δεδομένων, τα ευρετήρια θα πρέπει να έχουν τη δυνατότητα να μεταβάλλονται και αυτά δυναμικά και με ελάχιστο κόστος. Ταυτόχρονα με την ανάγκη αναζήτησης συγκεκριμένης πληροφορίας μέσα σε ένα σύνολο XML δεδομένων, γεννήθηκε και η ακριβώς αντίστροφη ανάγκη: το φιλτράρισμα ενός συνόλου XML δεδομένων διαμέσου κάποιων προτύπων και κανόνων ώστε να βρεθούν εκείνα τα δεδομένα που ταιριάζουν με τα αποθηκευμένα πρότυπα και κανόνες. Το πρόβλημα αυτό συναντάται κυρίως στα συστήματα publish/subscribe, στα οποία οι χρήστες ορίζουν τα ενδιαφέροντά τους και το σύστημα αναλαμβάνει να τους αποστέλλει μόνο πληροφορίες και δεδομένα σχετικά με τις προτιμήσεις τους. Η αναπαράσταση της πληροφορίας σε XML οδήγησε τα συστήματα αυτά να ενσωματώσουν αλγορίθμους φιλτραρίσματος των XML δεδομένων διαμέσου ενός συνόλου προτύπων και κανόνων που έχουν ορίσει εκ των προτέρων οι χρήστες του. Στα πλαίσια της μεταπτυχιακής αυτής εργασίας μελετάμε και συγκρίνουμε τις υπάρχουσες τεχνικές δυναμικής δεικτοδότησης και φιλτραρίσματος XML εγγράφων και παρουσιάζουμε έναν νέο, πρωτοποριακό αλγόριθμο φιλτραρίσματος που υπερτερεί των υπαρχόντων. / The increasingly use of Internet worldwide has led to the impulsory need of a standard, well-defined and wide-accepted information representation. More and more heterogeneous systems require exchanging data and information between them, in a well-defined, flexible and dynamic matter. XML was created in order to address the need of a standard and well-defined information representation. However, the boom of information capacity expressed in XML has rised a new problem: that of searching among a huge XML data for a specific information. This problem along with the need of efficient access to the nodes of an XML tree-structured document has led to the proposal of various heuristic indexes, each one with diferrent structure and features. However, because data do not remain static but change dynamically through time, the proposed indexes should have the flexibility to change dynamically accordingly to the data changes, with the minimal cost. Together with the problem of searching through a set of XML documents, a new problem has rised: that of filtering an XML document through a predefined set of patterns and rules. This problem comes from publish/subscribe systems where the users define their interests and preferences and the system undertakes to filter incoming information through the stored user profiles. The vast volume of XML-represented data and information has led those systems to incorporate XML filtering algorithms which filter the incoming XML data streams through the predefined user profiles.

Εξατομικευμένη αναζήτηση πληροφορίας στο διαδίκτυο

Κάπρος, Παναγιώτης 18 September 2007 (has links)
Στην παρούσα εργασία αντιμετωπίζουμε την διαδικασία εξατομικευμένης αναζήτησης από την πλευρά της σημασιολογίας και του περιεχομένου των σελίδων. Συγκεκριμένα γίνεται χρήση μιας θεματικής ιεραρχίας για την αυτόματη δημιουργία των προφίλ αναζήτησης των χρηστών και χρησιμοποιείται η ίδια ιεραρχία για τον θεματικό χαρακτηρισμό του περιεχομένου ενός κειμένου. Στηριζόμενοι σε μία συνδυασμένη ανάλυση των ενδιαφερόντων του χρήστη και των θεμάτων των σελίδων εξατομικεύουμε τα ανακτώμενα αποτελέσματα δίνοντας προτεραιότητα σε εκείνα τα αποτελέσματα τα οποία το θεματικό τους περιεχόμενο ανταποκρίνεται στο προφίλ του χρήστη. / This work discusses the process of personalized search under the view point of the semantics content of the web pages. In details, a thematic hierarchy is being used to create automatically user search profiles and the same hierarchy is being used to thematic characterize the content of documents. Based on a combined analysis of users’ interests and the thematic content of web pages, we personalize the results giving priority in those results which their thematic content response to the user profile.

Εξατομικευμένη αναζήτηση πληροφορίας με χρήση σημασιολογικών δικτύων / Personalized web search through the use of semantic networks

Ζώτος, Νικόλαος 15 November 2007 (has links)
Κατά την αναζήτηση στον Παγκόσμιο Ιστό, είναι πιθανό να επιστρέφονται πολλά αποτελέσματα για ερωτήματα που είναι ασαφή και αμφιλεγόμενα. Τα snippets που εξάγονται από τις σελίδες που ανακτήθηκαν, είναι ένας δείκτης της χρησιμότητας της σελίδας ως προς την θεματική πρόθεση του ερωτήματος και μπορούν να χρησιμοποιηθούν για να εστιάσουμε στο αντικείμενο της αναζήτησης. Στην παρούσα εργασία προτείνουμε μια καινοτόμο μέθοδο αυτόματης εξαγωγής snippets ιστοσελίδων που είναι πολύ σχετικά με την πρόθεση του ερωτήματος αλλά και αντιπροσωπευτικά του συνολικού περιεχομένου των σελίδων. Θα δείξουμε ότι η χρήση σημασιολογίας ως βάση της θεματικά προσανατολισμένης ανάκτησης πληροφορίας μας βοηθάει να προτείνουμε στον χρήστη snippets υψηλής ποιότητας. Τα snippets που παράγονται με την μέθοδο που προτείνουμε είναι σημαντικά καλύτερα όσον αφορά την απόδοση της ανάκτησης σε σχέση με αυτά που προκύπτουν από στατιστική επεξεργασία της σελίδας. Επιπλέον, μπορούμε να χρησιμοποιήσουμε τη σημασιολογική εξαγωγή snippets για να αυξήσουμε την απόδοση των παραδοσιακών αλγορίθμων, οι οποίοι βασίζονται στην επικάλυψη λέξεων ή σε στατιστικά βάρη, αφού αυτοί συνήθως παράγουν διαφορετικά αποτελέσματα. Η επιλογή από την πλευρά του χρήστη των πιο σχετικών με το ερώτημά του snippets, μπορεί να χρησιμοποιηθεί στο να βελτιώσουμε τα επιστρεφόμενα αποτελέσματα και να προωθήσουμε τις πιο χρήσιμες προς αυτόν σελίδες. / When searching the web, it is often possible that there are too many results available for ambiguous queries. Text snippets, extracted from the retrieved pages, are an indicator of the pages’ usefulness to the query intention and can be used to focus the scope of search results. In this paper, we propose a novel method for automatically extracting web page snippets that are highly relevant to the query intention and expressive of the pages’ entire content. We show that the usage of semantics, as a basis for focused retrieval, produces high quality text snippet suggestions. The snippets delivered by our method are significantly better in terms of retrieval performance compared to those derived using the pages’ statistical content. Furthermore, our study suggests that semantically-driven snippet generation can also be used to augment traditional passage retrieval algorithms based on word overlap or statistical weights, since they typically differ in coverage and produce different results. User clicks on the query relevant snippets can be used to refine the query results and promote the most comprehensive among the relevant documents.

Δημιουργία μηχανισμού επερώτησης και διατήρηση κατανεμημένου αποθέματος εγγράφων RDF στον παγκόσμιο ιστό

Σολωμού, Γεωργία 12 February 2008 (has links)
Το RDF (Resource Description Framework), πρότυπο του W3C, είναι ένα μοντέλο δεδομένων για την αναπαράσταση πληροφορίας στον Παγκόσμιο Ιστό και αποτελεί τη θεμελίωση ενός συνόλου τεχνολογιών για τη μοντελοποίηση κατανεμημένης γνώσης στο Σημαντικό Ιστό. Η παρούσα διπλωματική εργασία περιλαμβάνει τη μελέτη της τεχνολογίας RDF και της σημασιολογικής επέκτασης αυτής, του RDF Schema. Επίσης, στα πλαίσια αυτής της μελέτης έγινε συγκριτική αξιολόγηση των ήδη υπαρχόντων αρχιτεκτονικών για την αποθήκευση και επεξεργασία δεδομένων RDF, εκτιμώντας παράλληλα τη συμπεριφορά τους στην περίπτωση των κατανεμημένων αποθεμάτων. Επιπρόσθετα, αξιολογήθηκαν οι δυνατότητες που προσφέρει σε τέτοιους μηχανισμούς η γλώσσα SPARQL, μια γλώσσα επερωτήσεων για RDF η οποία αποτελεί πρότυπο του W3C. Τέλος, ερευνήθηκαν στο επίπεδο των κατανεμημένων αποθεμάτων δύο πολύ σημαντικά χαρακτηριστικά αυτής της τεχνολογίας, η δυνατότητα συνδυασμού των δεδομένων και της εξαγωγής συμπερασμάτων (inferencing) και η υποστασιοποίηση (reification). Στο τελευταίο στάδιο, και βάσει της παραπάνω αποτύπωσης, πραγματοποιήθηκε η ανάπτυξη μιας εφαρμογής σε γλώσσα Java, η οποία επιτρέπει τη σύνδεση σε ένα ή περισσότερα απομακρυσμένα ή και τοπικά αποθέματα RDF, διαθέτοντας τον απαραίτητο μηχανισμό αποστολής επερωτήσεων (queries) προς αυτά. Η συγκεκριμένη εφαρμογή επιτυγχάνει τον κατάλληλο συνδυασμό των διαθέσιμων κατανεμημένων πληροφοριών και την εξαγωγή συμπερασμών, μια διαδικασία που αποτελεί πρωταρχικό στόχο στο πεδίο του Σημαντικού Ιστού. Για την αξιολόγηση των χαρακτηριστικών της χρησιμοποιήθηκαν απλά παραδείγματα που επιβεβαιώνουν την ορθή λειτουργία της και φανερώνουν το εύρος των δυνατοτήτων της. Άλλωστε, η επεκτασιμότητα και η αξιοπιστία ενός τέτοιου μηχανισμού αποτέλεσαν τη φιλοσοφία πάνω στην οποία στηρίχθηκε η ανάπτυξη του, λαμβάνοντας συγχρόνως υπόψη τα ιδιαίτερα χαρακτηριστικά των κατανεμημένων αποθεμάτων εγγράφων RDF. / RDF (Resource Description Framework), a W3C recommendation, is a data model for representing information in the World Wide Web and constitutes the foundation of many existent technologies for the modeling of distributed knowledge in the Semantic Web. This thesis includes a study of the RDF technology and of its semantic extension, RDF Schema. Also, a comparative evaluation was made among already existing frameworks for the storage and management of RDF data, appreciating their behavior in the case of distributed repositories. Moreover, an evaluation was made for the possibilities that SPARQL offers in such mechanisms, a RDF query language and soon a W3C recommendation. Finally, two very important characteristics of this technology were researched in the field of distributed repositories, the possibility of combination of data and export of conclusions (inferencing) and reification. In the last part, and based on the above imprints, an application was developed in Java, which allows the connection to one or more remote and local RDF repositories, having the necessary mechanism as well for making queries. This application successfully combines distributed knowledge and leads to inferencing, something that is a fundamental objective in the field of Semantic Web. For the evaluation of this application's characteristics, simple examples were used that confirm its proper function and reveal the breadth of its possibilities. Scalability and reliability have been the main goals during this application's development phase, having always in mind that we refer to distributed RDF repositories, which are more complicated and have some special characteristics.

A heuristic information retrieval study : an investigation of methods for enhanced searching of distributed data objects exploiting bidirectional relevance feedback

Petratos, Panagiotis January 2004 (has links)
The primary aim of this research is to investigate methods of improving the effectiveness of current information retrieval systems. This aim can be achieved by accomplishing numerous supporting objectives. A foundational objective is to introduce a novel bidirectional, symmetrical fuzzy logic theory which may prove valuable to information retrieval, including internet searches of distributed data objects. A further objective is to design, implement and apply the novel theory to an experimental information retrieval system called ANACALYPSE, which automatically computes the relevance of a large number of unseen documents from expert relevance feedback on a small number of documents read. A further objective is to define a methodology used in this work as an experimental information retrieval framework consisting of multiple tables including various formulae which anow a plethora of syntheses of similarity functions, ternl weights, relative term frequencies, document weights, bidirectional relevance feedback and history adjusted term weights. The evaluation of bidirectional relevance feedback reveals a better correspondence between system ranking of documents and users' preferences than feedback free system ranking. The assessment of similarity functions reveals that the Cosine and Jaccard functions perform significantly better than the DotProduct and Overlap functions. The evaluation of history tracking of the documents visited from a root page reveals better system ranking of documents than tracking free information retrieval. The assessment of stemming reveals that system information retrieval performance remains unaffected, while stop word removal does not appear to be beneficial and can sometimes be harmful. The overall evaluation of the experimental information retrieval system in comparison to a leading edge commercial information retrieval system and also in comparison to the expert's golden standard of judged relevance according to established statistical correlation methods reveal enhanced system information retrieval effectiveness.

Βελτιστοποίηση ερωτημάτων με πολλαπλά κριτήρια σε βάσεις δεδομένων / Multiobjective query optimization under parametric aggregation constraints

Ρήγα, Γεωργία 24 September 2007 (has links)
Το πρόβλημα της βελτιστοποίησης ερωτημάτων πολλαπλών κριτηρίων σε βάσεις δεδομένων είναι ένα αρκετά δύσκολο και ενδιαφέρον ερευνητικά πρόβλημα, διότι χαρακτηρίζεται από αντικρουόμενες απαιτήσεις. Κάθε βήμα στην απάντηση ενός ερωτήματος μπορεί να εκτελεστεί με παραπάνω από έναν τρόπους. Για την επίλυση τέτοιου είδους ερωτημάτων έχουν προταθεί διάφοροι αλγόριθμοι, με πιο πρόσφατους τους: Mariposa, M' και Generate Partitions. Ο Mariposa και ο Μ' εφαρμόζονται στην βάση δεδομένων Mariposa, η οποία δίνει την δυνατότητα στον χρήστη να καθορίζει την επιθυμητή εξισορόπηση (tradeoff) καθυστέρησης/κόστους για κάθε ερώτημα που θέτει. Ο αλγόριθμος Mariposa ακολουθεί μία προσέγγιση απληστίας (greedy approach) προσπαθώντας σε κάθε βήμα να μεγιστοποιήσει το «κέρδος» ενώ ο Μ' χρησιμοποιεί σύνολα βέτιστων κατά Pareto λύσεων για την επιλογή του επόμενου βήματος στην θέση του κριτηρίου απληστίας. Τέλος, ο αλγόριθμος Generate Partition χρησιμοποιεί έναν διαχωρισμό του χώρου απαντήσεων χρησιμοποιώντας δομές R-trees πετυχαίνοντας πολύ καλή απόδοση. / The optimization of queries in distributed database systems is known to be subject to delicate trade-offs. For example, the Mariposa database system allows users to specify a desired delay-cost tradeoff (that is to supply a decreasing function u(d) specifying how much the user is willing to pay in order to receive the query results within time d) Mariposa divides a query graph into orizontal strides analyzes each stride, and uses a greedy heuristic to find the best plan for all strides.

Αυτόματη επιλογή σημασιολογικά συγγενών όρων για την επαναδιατύπωση των ερωτημάτων σε μηχανές αναζήτησης πληροφορίας / Automatic selection of semantic related terms for reformulating a query into a search engine

Κοζανίδης, Ελευθέριος 14 September 2007 (has links)
Η βελτίωση ερωτημάτων (Query refinement) είναι η διαδικασία πρότασης εναλλακτικών όρων στους χρήστες των μηχανών αναζήτησης του Διαδικτύου για την διατύπωση της πληροφοριακής τους ανάγκης. Παρόλο που εναλλακτικοί σχηματισμοί ερωτημάτων μπορούν να συνεισφέρουν στην βελτίωση των ανακτηθέντων αποτελεσμάτων, η χρησιμοποίησή τους από χρήστες του Διαδικτύου είναι ιδιαίτερα περιορισμένη καθώς οι όροι των βελτιωμένων ερωτημάτων δεν περιέχουν σχεδόν καθόλου πληροφορία αναφορικά με τον βαθμό ομοιότητάς τους με τους όρους του αρχικού ερωτήματος, ενώ συγχρόνως δεν καταδεικνύουν το βαθμό συσχέτισής τους με τα πληροφοριακά ενδιαφέροντα των χρηστών. Παραδοσιακά, οι εναλλακτικοί σχηματισμοί ερωτημάτων καθορίζονται κατ’ αποκλειστικότητα από τη σημασιολογική σχέση που επιδεικνύουν οι συμπληρωματικοί όροι με τους αρχικούς όρους του ερωτήματος, χωρίς να λαμβάνουν υπόψη τον επιδιωκόμενο στόχο της αναζήτησης που υπολανθάνει πίσω από ένα ερώτημα του χρήστη. Στην παρούσα εργασία θα παρουσιάσουμε μια πρότυπη τεχνική βελτίωσης ερωτημάτων η οποία χρησιμοποιεί μια λεξική οντολογία προκειμένου να εντοπίσει εναλλακτικούς σχηματισμούς ερωτημάτων οι οποίοι αφενός, θα περιγράφουν το αντικείμενο της αναζήτησης του χρήστη και αφετέρου θα σχετίζονται με τα ερωτήματα που υπέβαλε ο χρήστης. Το πιο πρωτοποριακό χαρακτηριστικό της τεχνικής μας είναι η οπτική αναπαράσταση του εναλλακτικού ερωτήματος με την μορφή ενός ιεραρχικά δομημένου γράφου. Η αναπαράσταση αυτή παρέχει σαφείς πληροφορίες για την σημασιολογική σχέση μεταξύ των όρων του βελτιωμένου ερωτήματος και των όρων που χρησιμοποίησε ο χρήστης για να εκφράσει την πληροφοριακή του ανάγκη ενώ παράλληλα παρέχει την δυνατότητα στον χρήστη να επιλέξει ποιοι από τους υποψήφιους όρους θα συμμετέχουν τελικά στην διαδικασία βελτιστοποίησης δημιουργώντας διαδραστικά το νέο ερώτημα. Τα αποτελέσματα των πειραμάτων που διενεργήσαμε για να αξιολογήσουμε την απόδοση της τεχνικής μας, είναι ιδιαίτερα ικανοποιητικά και μας οδηγούν στο συμπέρασμα ότι η μέθοδός μας μπορεί να βοηθήσει σημαντικά στη διευκόλυνση του χρήστη κατά τη διαδικασία επιλογής ερωτημάτων για την ανάκτηση πληροφορίας από τα δεδομένα του Παγκόσμιου Ιστού. / Query refinement is the process of providing Web information seekers with alternative wordings for expressing their information needs. Although alternative query formulations may contribute to the improvement of retrieval results, nevertheless their realization by Web users is intrinsically limited in that alternative query wordings do not convey explicit information about neither their degree nor their type of correlation to the user-issued queries. Moreover, alternative query formulations are determined based on the semantics of the issued query alone and they do not consider anything about the search intentions of the user issuing that query. In this paper, we introduce a novel query refinement technique which uses a lexical ontology for identifying alternative query formulations that are both informative of the user’s interests and related to the user selected queries. The most innovative feature of our technique is the visualization of the alternative query wordings in a graphical representation form, which conveys explicit information about the refined queries correlation to the user issued requests and which allows the user select which terms to participate in the refinement process. Experimental results demonstrate that our method has a significant potential in improving the user search experience.

