Les moteurs traditionnels offrent à l'utilisateur des résultats de plus en plus pertinents, mais, dans la plupart des cas, les résultats similaires ont tendance à se regrouper. L'utilisateur peut être intéressé pour retrouver des documents qui soient certes tous pertinents par rapport à sa requête, mais aussi qui soient différents les uns des autres. Dans cette thèse, nous considérons le problème de la diversité pour la recherche d'images. Nous avons focalisé notre attention sur la diversité par l'exploitation du clustering, plus spécialement par une approche hiérarchique (AHC), car sa hiérarchie de clusters peut bien correspondre à la nature hiérarchique de la diversité. De plus, nous proposons une nouvelle approche pour exploiter des ressources plus riches, telle qu'une « arborescence de concepts », pour augmenter la diversité. Différentes approches sont comparées sur trois benchmarks : un qui a été annoté manuellement et qui possède une haute pertinence; et deux publics assez différents et plus généraux. Les résultats montrent que l'exploitation hiérarchique des résultats de l'AHC augmente la diversité en comparaison avec des méthodes de clustering plat standard et avec une méthode de diversité par optimisation. Les résultats montrent aussi l'intérêt d'utiliser une arborescence de concepts comme descripteur pour augmenter la diversité. Enfin, nous avons développé un prototype complet avec la prise en compte des contraintes fortes de temps de calcul ce qui le rend adapté pour être utilisable dans le moteur de recherche de l'entreprise. / Conventional search engines return relevant results but often the retrieved items are similar. Moreover, the similar results tend to appear together. The user may be interested to find documents that are relevant and diverse at the same time.In this thesis, we consider the problem of the diversity in image retrieval. We have focused our attention on diversity by clustering, especially in an approach based on an agglomerative hierarchical clustering (AHC) to address the hierarchical nature of the diversity. Furthermore, we propose a novel approach for exploiting richer description resources, such as a «tree of concepts», to increase the diversity.The different approaches are compared on a highly relevant and manually annotated benchmark: the XiloDiv benchmark; and on the most general: ImageClef2008 and MediaEval2013 benchmarks. The experimental results show that a hierarchical exploitation of the results of the AHC increases the diversity in comparison with two flat clustering methods and a method of diversity by optimization. The results also show that it is better to use concept features than visual features from a diversity point of view. In addition, on the Mediaeval2013 benchmark, we show that an interesting strategy to improve diversity is to increase the relevance using the text, and then to exploit visual based clustering to diversify the results.Finally, we developed a complete prototype in particular taking into account the strong constraints of response time which makes it suitable to be used in the company's search engine.
Identifer | oai:union.ndltd.org:theses.fr/2015PA066361 |
Date | 31 August 2015 |
Creators | Kuoman Mamani, Christian Antonio |
Contributors | Paris 6, Detyniecki, Marcin |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | French |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text |
Page generated in 0.0023 seconds