Return to search

Approches numériques pour le filtrage de documents centrés sur une entité : un modèle diachronique et des méta critères / Entity centric document filtering using numerical approaches : a diachronical model and meta criteria

[...] Nos principales contributions peuvent être résumées en trois points :1. la proposition d’un système de classification de documents centrés sur les entités à l’aide d’un profil d’entité et de méta critères dans le contexte de filtrage de documents. Nous avons mis en place une approche qui est indépendante des entités et qui utilise les principes du transfert de connaissances. En effet, notre approche permet l’apprentissage à partir d’un ensemble de données annotées pour un pool d’entités tout en étant capables de catégoriser des documents concernant des entités pour lesquels aucune donnée annotée n’a été fournie ;2. la proposition d’un nouveau modèle de langue diachronique pour étendre la définition de profil d’entité afin de permettre la mise à jour de celui-ci. En effet, le suivi d’une entité nommée implique de pouvoir distinguer une information déjà connue d’une information nouvelle. Le modèle de langue diachronique permet la mise à jour automatique du profil d’entité tout en minimisant le bruit apporté ;3. la proposition d’une méthode pour découvrir la popularité d’une entité afin d’améliorer la cohérence d’un modèle de classification sur tous les aspects temporels liés à une entité. Pour détecter l’importance d’un document au regard d’une entité, nous proposons d’utiliser, entre autres, des indicateurs temporels qui peuvent varier d’une entité à l’autre. Nous proposons de regrouper les entités en fonction de leur popularité sur le Web à chaque instant pour tenter d’améliorer la cohérence des modèles et ainsi augmenter les performances des classificateurs.[...] / [...] Our main contributions are:1. We propose an entity centric classification system, which helps finding documents that are related to an entity based on its profile and a set of meta criteria. We propose to use the classification result to filter out unrelated documents. This approach is entity independent and uses transfer learning principles. We trained the classification system with a set of annotated concerning a set of entities and we categorized documents that concerns other entities;2. We introduce a diachronical language model, which extends our definition of entity profile in order to add to the capability of updating an entity profile. Tracking an entity implies to distinguish between a known piece of information from a new one. This new language model enables automatic update of entity profile while minimizing the noise;3. We develop a method to detect the entity popularity in order to enhance the coherence of a classification model concerning temporal aspects. In order to detect the importance of a document regarding an entity, we propose to use temporal sensors, which may vary from an entity to another. We cluster entities sharing the same amount of popularity on the Web at each time t to enhance the coherence of classification model and thus improve classifier performances.[...]

Identiferoai:union.ndltd.org:theses.fr/2015AIXM4385
Date16 December 2015
CreatorsBouvier, Vincent
ContributorsAix-Marseille, Bellot, Patrice
Source SetsDépôt national des thèses électroniques françaises
LanguageFrench
Detected LanguageFrench
TypeElectronic Thesis or Dissertation, Text

Page generated in 0.002 seconds