Return to search

Indexation pour la recherche par le contenu textuel de flux RSS / Indexing by content in RSS systems

Afin de réduire l’intervalle de temps nécessaire entre la publication de l’information sur le Web et sa consultation par les utilisateurs, les sites Web reposent sur le principe de la Syndication Web. Les fournisseurs d’information diffusent les nouvelles informations à travers des flux RSS auxquels les utilisateurs intéressés peuvent s’abonner. L’objectif de la thèse est de proposer un système de notification passant à l’échelle du Web, prenant en considération le grand nombre d’utilisateurs et le débit élevé d’items. Nous proposons un index basé sur les mots-clés des requêtes utilisateurs permettant de retrouver ceux-ci dans les items des flux. Trois structures d’indexation de souscriptions sont présentées. Un modèle analytique pour estimer le temps de traitement et l’espace mémoire de chaque structure est détaillé. Nous menons une étude expérimentale approfondie de l’impact de plusieurs paramètres sur ces structures. Pour les souscriptions jamais notifiées, nous adaptons les index étudiés pour prendre en considération leur satisfaction partielle. Afin de réduire le nombre d’items reçus par l’utilisateur, nous intégrons une deuxième phase de filtrage par nouveauté et diversité considérant l’ensemble d’items déjà reçus par l’utilisateur. / Based on a Publish/Subscribe paradigm, Web Syndication formats such as RSS have emerged as a popular means for timely delivery of frequently updated Web content. According to these formats, information publishers provide brief summaries of the content they deliver on the Web, while information consumers subscribe to a number of RSS feeds and get informed about newly published items. The goal of this thesis is to propose a notification system which scales on the Web. To deal with this issue, we should take into account the large number of users on the Web and the high publication rate of items. We propose a keyword-based index for user subscriptions to match it on the fly with incoming items. We study three indexing techniques for user subscriptions. We present analytical models to estimate memory requirements and matching time. We also conduct a thorough experimental evaluation to exhibit the impact of critical workload parameters on these structures. For subscriptions which are never notified, we adapt the indexes to support a partial matching between subscriptions and items. We integrate a diversity and novelty filtering step in our system in order to decrease the number of notified items for short subscriptions. This filtering is based on the set of items already received by the user.

Identiferoai:union.ndltd.org:theses.fr/2013CNAM0894
Date10 December 2013
CreatorsHmedeh, Zeinab
ContributorsParis, CNAM, Du Mouza, Cédric, Travers, Nicolas
Source SetsDépôt national des thèses électroniques françaises
LanguageFrench
Detected LanguageFrench
TypeElectronic Thesis or Dissertation, Text

Page generated in 0.0024 seconds