Dans un article récent sur les enjeux de la recherche d'informations, Belkin (2008) rappelle que la question de la personnalisation est annoncée comme majeure depuis une vingtaine d'années mais que la plupart des tentatives vers une étude systématique ont échoué. S'il n'est pas question de prétendre que les évaluations TREC Interactive puis TREC Hard et TREC ciQA, pour ne mentionner qu'elles, n'ont abouti à rien dans ce domaine, force est de constater que l'utilisateur n'intervient que très peu dans les systèmes de recherche de l'Internet et qu'aussi bien des paradigmes d'évaluation que des stratégies efficaces restent encore à trouver. <br /><br />Dans les différents chapitres qui constituent ce mémoire d'Habilitation, nous présentons trois directions vers une personnalisation de la recherche d'informations. La première correspond à une analyse du besoin en information d'un utilisateur qui permet de distinguer recherche documentaire et recherche de réponses précises sachant que celles-ci peuvent être des informations factuelles, des définitions ou des explications. Cette distinction correspond à celle entre Recherche d'informations (RI) et questions-réponses (QR) mais, pour être utilisables, les systèmes correspondants devront être fusionnés. En outre, il sera utile d'inciter l'utilisateur à changer ses habitudes pour laisser de côté les requêtes mots-clés et (re)venir à des requêtes en langue naturelle. Les solutions logicielles que nous avons développées ont été évaluées dans le cadre des campagnes TREC, CLEF et EQUER.<br /><br />La seconde direction que nous avons suivie est celle de l'aide à la navigation dans de grandes bases documentaires mélangeant fichiers audio et textes. Elle consiste à définir une interface homme-machine permettant un survol chronologique, par l'exploitation de méthodes de reconnaissance de la parole, d'indexation sémantique (LSI), de segmentation thématique et de résumé automatique (campagne d'évaluation DUC), des documents de la collection. Les techniques d'indexation en jeu n'exploitent pas la totalité des traits propres à l'audio (prosodie, hésitations...) et cela fera l'objet de travaux futurs. L'objectif étant de parvenir à des systèmes multimodaux dans lesquels les documents audio ne sont pas \textit{noyés} parmi des documents texte plus nombreux et plus verbeux.<br /><br />La troisième direction consiste à prendre en compte la capacité de lecture et d'écriture d'un utilisateur dans le calcul du score de pertinence d'un document vis à vis d'une requête. Les avancées les plus récentes de la technique et de l'imagerie médicale nous offrent des modélisations plausibles de nos fonctionnements cognitifs dont nous pouvons nous inspirer afin de simuler l'humain dans des domaines tels que le langage et la pensée. Nous nous sommes plus particulièrement intéressé aux modèles cognitifs de la lecture et à la tentative de les exploiter afin de définir des systèmes de recherche d'informations capables d'estimer l'effort nécessaire à la compréhension d'un document et d'être suffisamment robustes pour accepter des requêtes mal orthographiées. Les modèles de recherche d'informations usuels permettent d'ordonner des documents en fonction de la quantité d'informations qu'ils véhiculent vis à vis de ce que l'utilisateur a exprimé dans sa requête tout en tenant compte, dans le meilleur des cas, du taux de nouveautés apportées par rapport à d'autres documents déjà connus. Il s'agit d'une vision purement informationnelle de la pertinence posant l'hypothèse que plus le nombre d'informations nouvelles est grand, plus le document est susceptible d'intéresser l'utilisateur. Cela s'avère exact dans une certaine mesure mais ne tient pas compte du fait que les besoins sont différents suivant le niveau d'expertise de l'utilisateur : une personne novice dans un domaine sera certainement plus intéressée par un document de vulgarisation que par une étude approfondie, au vocabulaire et à la structure complexes. Cela est vrai à plus forte raison pour des personnes ayant des difficultés élevées de lecture tels les dylsexiques. Il s'agit alors de définir de nouvelles mesures prenant en compte cet aspect tout en offrant la possibilité de présenter d'abord les documents les plus "simples", les plus "lisibles".<br /><br />La problématique de la personnalisation et de la prise en compte de l'utilisateur en recherche d'informations renvoie naturellement à celle, bien plus large, des fondements du traitement automatique des langues, au croisement de la linguistique et de l'informatique, toutes deux rejointes par la psycholinguistique et la psychologie cognitive pour l'étude des comportements individuels, les neurosciences pour l'étude des racines physiologiques du langage mais aussi par la sémiologie pour des analyses globales des usages et des significations. Ce croisement pluridisciplinaire est un enjeu majeur des années à venir si l'on veut aller au-delà, pour paraphraser K. Sparck-Jones, de la seule étude permettant d'espérer (et encore ne s'agit-il que d'un espoir sans même être convaincu de la significativité des gains) grappiller quelques points de précision en recherche ad-hoc.<br /><br />Il va de soi que les recherches présentées correspondent à un travail d'équipe. Elles sont ainsi l'\oe uvre des activités conduites au LIA depuis septembre 2000, et notamment, en respectant l'ordre chronologique, celles de Laurent Gillard, Benoît Favre et Laurianne Sitbon dont j'ai co-encadrées les thèses de Doctorat avec Marc El-Bèze (Université d'Avignon et des Pays de Vaucluse), Jean-François Bonastre (Université d'Avignon et des Pays de Vaucluse) et Philippe Blache (CNRS et Université Aix-Marseille).
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00375051 |
Date | 04 December 2008 |
Creators | Bellot, Patrice |
Publisher | Université d'Avignon |
Source Sets | CCSD theses-EN-ligne, France |
Language | French |
Detected Language | French |
Type | habilitation ࠤiriger des recherches |
Page generated in 0.0024 seconds