La croissance rapide d'Internet et de l'information multimédia a suscité un besoin en développement de techniques de recherche d'information multimédia, et en particulier de recherche d'images. On peut distinguer deux tendances. La première, appelée recherche d'images à base de texte, consiste à appliquer des techniques de recherche d'information textuelle à partir d'images annotées. Le texte constitue une caractéristique de haut-niveau, mais cette technique présente plusieurs inconvénients : elle nécessite un travail d'annotation fastidieux. De plus, les annotations peuvent être ambiguës car deux utilisateurs peuvent utiliser deux mots-clés différents pour décrire la même image. Par conséquent, plusieurs approches ont proposé d'utiliser l'ontologie Wordnet, afin de réduire ces ambiguïtés potentielles. La seconde approche, appelée recherche d'images par le contenu, est plus récente. Ces techniques de recherche d'images par le contenu sont basées sur des caractéristiques visuelles (couleur, texture ou forme), calculées automatiquement, et utilisent une mesure de similarité afin de retrouver des images. Cependant, les performances obtenues ne sont pas vraiment acceptables, excepté dans le cas de corpus spécialisés. De façon à améliorer la reconnaissance, une solution consiste à combiner différentes sources d'information : par exemple, différentes caractéristiques visuelles et/ou de l'information sémantique. Or, dans de nombreux problèmes de vision, on dispose rarement d'échantillons d'apprentissage entièrement annotés. Par contre, il est plus facile d'obtenir seulement un sous-ensemble de données annotées, car l'annotation d'un sous-ensemble est moins contraignante pour l'utilisateur. Dans cette direction, cette thèse traite des problèmes de modélisation, classification et annotation d'images. Nous présentons une méthode pour l'optimisation de la classification d'images naturelles, en utilisant une approche de classification d'images basée à la fois sur le contenu des images et le texte associé aux images, et en annotant automatiquement les images non annotées. De plus, nous proposons une méthode de reconnaissance de symboles, en combinant différentes caractéristiques visuelles. L'approche proposée est dérivée de la théorie des modèles graphiques probabilistes et dédiée aux deux tâches de classification d'images naturelles partiellement annotées, et d'annotation. Nous considérons une image comme partiellement annotée si son nombre de mots-clés est inférieur au maximum de mots-clés observés dans la vérité-terrain. Grâce à leur capacité à gérer les données manquantes et à représenter d'éventuelles relations entre mots-clés, les modèles graphiques probabilistes ont été proposés pour représenter des images partiellement annotées. Par conséquent, le modèle que nous proposons ne requiert pas que toutes les images soient annotées : quand une image est partiellement annotée, les mots-clés manquants sont considérés comme des données manquantes. De plus, notre modèle peut étendre automatiquement des annotations existantes à d'autres images partiellement annotées, sans intervention de l'utilisateur. L'incertitude autour de l'association entre un ensemble de mots-clés et une image est représentée par une distribution de probabilité jointe sur le vocabulaire des mots-clés et les caractéristiques visuelles extraites de nos bases d'images. Notre modèle est aussi utilisé pour reconnaître des symboles en combinant différents types de caractéristiques visuelles (caractéristiques discrètes et continues). De plus, de façon à résoudre le problème de dimensionnalité dû à la grande dimension des caractéristiques visuelles, nous avons adapté une méthode de sélection de variables. Enfin, nous avons proposé un modèle de recherche d'images permettant à l'utilisateur de formuler des requêtes sous forme de mots-clés et/ou d'images. Ce modèle intègre un processus de retour de pertinence. Les résultats expérimentaux, obtenus sur de grandes bases d'images complexes, généralistes ou spécialisées, montrent l'intérêt de notre approche. Enfin, notre méthode s'est montrée compétitive avec des modèles de l'état de l'art.
Identifer | oai:union.ndltd.org:CCSD/oai:tel.archives-ouvertes.fr:tel-00530755 |
Date | 04 December 2009 |
Creators | Barrat, Sabine |
Publisher | Université Nancy II |
Source Sets | CCSD theses-EN-ligne, France |
Language | French |
Detected Language | French |
Type | PhD thesis |
Page generated in 0.0016 seconds