Return to search

Modèles probabilistes pour les fréquences de mots et la recherche d'information

Nous nous intéressons à la fois à la modélisation des fréquences des mots dans les collections textuelles et aux modèles probabilistes de recherche d'information (RI). Concernant les modèles statistiques de fréquences de mots, nous portons notre attention sur l'étude du phénomène de rafale (burstiness). Nous établissons une propriété sur les distributions de probabilité caractérisant leur capacité à modéliser ce phénomène et nous étudions ensuite les distributions Beta Negative Binomial et Log-Logistique pour la modélisation des fréquences de mots. Nous portons ensuite notre attention sur les modèles probabilistes de RI et leur propriétés fondamentales. Nous pouvons montrer que les modèles classiques ne reposent pas sur des lois de probabilité en rafale, même si des propriétés fondamentales comme la concavité des modèles permettent implicitement de le prendre en compte. Nous introduisons ensuite une nouvelle famille de modèles probabiliste pour la recherche d'information, fondé sur la notion d'information de Shannon et qui permet d'établir un lien conséquent entre les propriétés importantes des modèles de RI et le phénomène de rafale. Enfin, nous étudions empiriquement et théoriquement les modèles de rétro-pertinence. Nous proposons un cadre théorique qui permet ainsi d'expliquer leurs caractéristiques empiriques et leur performances. Ceci permet entre autres de mettre en avant les propriétés importantes des modèles de retro-pertinence et de montrer que certains modèles de référence sont déficients.

Identiferoai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00675390
Date05 October 2011
CreatorsClinchant, Stephane
PublisherUniversité de Grenoble
Source SetsCCSD theses-EN-ligne, France
Languagefra
Detected LanguageFrench
TypePhD thesis

Page generated in 0.0019 seconds