Dans cette thèse, nous nous intéressons à l'évaluation efficace de requêtes top-k continues sur des flux d'informations textuelles avec des feedbacks utilisateurs. La première contribution est une généralisation des modèles de requêtes top-k continues proposés dans l'état de l'art. Cette généralisation est fondée sur une famille des scores non-homogènes définis comme une combinaison linéaire de scores d'importance de l'information (indépendants des requêtes) et de scores de pertinence du contenu avec une décroissance continue de score reflétant la fraîcheur de l'information. La deuxième contribution est la définition et la mise en ¿uvre de structures de données en mémoire pour l'indexation et l'évaluation de cette nouvelle famille de requêtes top-k continues. Nos expériences montrent que notre solution est évolutive et, limitées aux fonctions homogènes, surpasse les performances d'autres solutions. Dans la deuxième partie de cette thèse, nous considérons le problème de l'intégration des signaux de feedback à notre famille de scores non-homogènes. Nous proposons un nouveau cadre général pour l'évaluation de ces requêtes du "web en temps réel" (real-time web queries) avec un ensemble d'algorithmes minimisant le coût d'évaluation d'un signal de feedback utilisateur dynamique sur un item d'information. Enfin, nous présentons MeowsReader, notre prototype de recommandation d'actualités qui intègre l'ensemble des résultats obtenus et illustre comment une classe générale de requêtes continues top-k propose une abstraction appropriée pour la modélisation et le filtrage continu d'information sur le web "temps-réel". / In this thesis, we are interested in efficient evaluation techniques of continuous top-k queries over text and feedback streams featuring generalized scoring functions which capture dynamic ranking aspects. As a first contribution, we generalize state of the art continuous top-k query models, by introducing a general family of non-homogeneous scoring functions combining query-independent item importance with query-dependent content relevance and continuous score decay reflecting information freshness. Our second contribution consists in the definition and implementation of efficient in-memory data structures for indexing and evaluating this new family of continuous top-k queries. Our experiments show that our solution is scalable and outperforms other existing state of the art solutions, when restricted to homogeneous functions. Going a step further, in the second part of this thesis we consider the problem of incorporating dynamic feedback signals to the original scoring function and propose a new general real-time query evaluation framework with a family of new algorithms for efficiently processing continuous top-k queries with dynamic feedback scores in a real-time web context. Finally, putting together the outcomes of these works, we present MeowsReader, a real-time news ranking and filtering prototype which illustrates how a general class of continuous top-k queries offers a suitable abstraction for modelling and implementing continuous online information filtering applications combining keyword search and real-time web activity.
Identifer | oai:union.ndltd.org:theses.fr/2015PA066659 |
Date | 17 September 2015 |
Creators | Vouzoukidou, Despoina |
Contributors | Paris 6, Amann, Bernd |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | English |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text |
Page generated in 0.0016 seconds