Cette thèse présente une étude pour l'interprétation automatique d'images en milieu urbain. Nous proposons une application permettant de reconnaître différents monuments au sein d'images représentant des scènes complexes. La problématique principale est ici de différencier l'information locale extraite des points d'intérêt du bâtiment recherché parmi tous les points extraits de l'image. En effet, la particularité d'une image en milieu urbain vient de la nature publique de la scène. L'objet que l'on cherche à identifier est au milieu de divers autres objets pouvant interférer avec ce dernier. Nous présentons dans une première partie un état de l'art des méthodes de reconnaissance d’images en se concentrant sur l'utilisation de points d'intérêts locaux ainsi que des bases de données pouvant être employées lors des phases d'expérimentation. Nous retenons au final le modèle de sac de mots (BOW) appliqué aux descripteurs locaux SIFT (Scale-Invariant Feature Transform). Dans un second temps nous proposons une approche de classification des données locales faisant intervenir le modèle de machine à vecteurs de support (SVM). L'intérêt présenté dans cette approche proposée est le faible nombre de données requises lors de la phase d'entraînement des modèles. Différentes stratégies d'entraînement et de classification sont exposées ici. Une troisième partie suggère l'ajout d'une correction géométrique de la classification obtenue précédemment. Nous obtenons ainsi une classification non seulement de l'information locale mais aussi visuelle permettant ainsi une cohérence géométrique de la distribution des points d'intérêt. Enfin, un dernier chapitre présente les résultats expérimentaux obtenus, notamment sur des bâtiments de Paris et d'Oxford / This thesis presents a study for an automatic interpretation of urban images. We propose an application for the retrieval of different landmarks in images representing complex scenes. The main issue here is to differentiate the local information extracted from the key-points of the desired building from all the points extracted within the entire image. Indeed, an urban area image is specific by the public nature of the scene depicted. The object sought to be identified is fused within various other objects that can interfere. First of all, we present a state of the art about image recognition and retrieval methods focusing on local points of interest. Databases that can be used during the phases of experimentation are also exposed in a second chapter. We finally retain the Bag of Words modèle applied to local SIFT descriptors. In a second part, we propose a local data classification approach involving the Support Vector Machine model. The interest shown with this proposed approach is the low number of data required during the training phase of the models. Different training and classification strategies are also discussed. A third step suggests the addition of a geometric correction on the classification obtained previously. We thus obtain a classification not only for the local information but also for the visual information allowing thereby a geometric consistency of the points of interest. Finally, a last chapter presents the experimental results obtained, in particular involving images of buildings in Paris and Oxford
Identifer | oai:union.ndltd.org:theses.fr/2017TELE0004 |
Date | 27 June 2017 |
Creators | Hascoët, Nicolas |
Contributors | Evry, Institut national des télécommunications, Zaharia, Titus Bogdan |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | French |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text |
Page generated in 0.0026 seconds