Return to search

Αποδοτική ιεραρχημένη ανάκτηση κοινωνικού περιεχομένου με χρήση ταξονομιών ετικετών / TREATS: optimal ranked retrieval with tag taxonomies in social media environments

Μία διαδεδομένη τεχνική που χρησιμοποιείται για την επίτευξη
αποδοτικής αναζήτησης περιεχομένου είναι η κατηγοριοποίηση αυτού σε
ταξονομίες ετικετών, δηλαδή σε δενδρικές <<ΕΙΝΑΙ-ΕΝΑ>> ιεραρχίες
λέξεων-κλειδιών που παρέχουν οι χρήστες. Κάθε κόμβος της δενδρικής
δομής αντιστοιχεί σε μία ετικέτα της ταξονομίας.

Στην παρούσα διπλωματική εργασία θα γίνει χρήση τέτοιων ταξονομιών
ετικετών, όπου κάθε αντικείμενο επισημαίνεται από τους χρήστες με μία
ή περισσότερες ετικέτες. Το περιβάλλον το οποίο θα ορίσουμε είναι
ιδιαίτερα δυναμικό, με την έννοια ότι η προσθαφαίρεση και τροποποίηση
των ετικετών από τους χρήστες είναι συνεχής καθώς και ότι αντικείμενα
μπορούν να προσθαφαιρούνται συνεχώς. Στο περιβάλλον αυτό θα
στοχεύσουμε στην αποδοτική ιεραρχημένη ανάκτηση περιεχομένου.

Πρωταρχικό στόχο αποτελεί η δημιουργία μετρικών ομοιότητας μεταξύ
ερωτημάτων, τα οποία υποβάλλονται από χρήστες, και του αποθηκευμένου
και κατηγοριοποιημένου περιεχομένου. Οι μετρικές αυτές θα βασίζονται
στη σημασιολογική απόσταση των κόμβων των ταξονομιών από τους όρους
των υποβληθέντων ερωτημάτων (οι οποίοι όροι θα πρέπει επίσης να
αποτελούν κόμβους της ταξονομίας).

Βάσει των παραπάνω μετρικών θα σχεδιαστούν και θα υλοποιηθούν
αλγόριθμοι για την ανάκτηση των k πιο σχετικών αντικειμένων, οι οποίοι
θα αποτελούν επεκτάσεις των βασικών αλγορίθμων κατωφλίου του Fagin
(Fagin's Threshold Algorithms - TA). Στην προτεινόμενη προσέγγιση θα
καμφθεί η απαίτηση της προΰπαρξης ανεστραμμένων ευρετηρίων. Αντίθετα,
τα απαιτούμενα (από τους αλγορίθμους του Fagin) ανεστραμμένα ευρετήρια
να κατασκευάζονται δυναμικά κατά την απάντηση των ερωτημάτων. / The spark for this work stems from the recent explosion in social media production, the proven interest of users to tag this media, and on the proven capability of semantically rich taxonomies to appropriately classify content.
The rich annotations/tags provided for social media offer a great basis for taxonomies.
Noting that web search increasingly involves taxonomies,
and that there exists already a rich set of taxonomies for many different fields, which can help classify tags, we target the problems associated with efficient taxonomy-based ranked retrieval in social web environments.
In a social-tag taxonomies environment, each tag (taxonomy node) is associated with all documents tagged with this tag. Queries are formulated using tags. The environment is highly dynamic, as documents and tags-documents associations are being added and/or deleted constantly. This dynamism can render as highly inefficient the traditional approaches to ranked retrieval, which are based on text indices, due to the high index creation, maintenance, and use costs.

We first adapt similarity measures between tag queries and documents, which are based on well-established principles of
taxonomy-based search.
We then develop algorithms for top-k queries exploiting taxonomic knowledge.
We contribute a suit of top-k algorithms, coined TREATS (ThREshold Algorithms on TaxonomieS).
Our first algorithm shows how to build per-tag inverted indices (required by the well-established Threshold Algorithms (TA) for top-k query processing). In this way, we port optimal ranked retrieval algorithms into the taxonomy realm.
Our second algorithm, TREATS-sorted, shares the same principles as TA-sorted, but without the need to maintain any inverted text indices! This introduces significant savings: First, in terms of storage required to store the indices. Second, for the overhead for building and maintaining indices. And third, for the overhead incurred during query execution for accessing indices.
Our third algorithm, TREATS-Labelled, further exploits the taxonomic structure in order to introduce large additional performance benefits.
We also prove the correctness and (instance-)optimality of TREATS.
Finally, we have implemented all algorithms and evaluated their efficiency against the baseline TA-random and TA-sorted algorithms, using real data sets with different characteristics.

Identiferoai:union.ndltd.org:upatras.gr/oai:nemertes:10889/5251
Date15 May 2012
CreatorsΚοντοτάσιου, Ιωάννα
ContributorsΤριανταφύλλου, Παναγιώτης, Kontotasiou, Ioanna, Γαλλόπουλος, Ευστράτιος, Ιωάννης, Γαροφαλάκης, Τριανταφύλλου, Παναγιώτης
Source SetsUniversity of Patras
Languagegr
Detected LanguageGreek
TypeThesis
Rights0
RelationΗ ΒΚΠ διαθέτει αντίτυπο της διατριβής σε έντυπη μορφή στο βιβλιοστάσιο διδακτορικών διατριβών που βρίσκεται στο ισόγειο του κτιρίου της.

Page generated in 0.002 seconds