L’objectif de cette thèse était de résoudre le problème d’analyse d’image de façade avec a priori de forme procédurale en vue de l’appliquer à la modélisation 3D d’immeuble à partir d’une seule image. Le cadre de cette thèse se situe à la frontière de l’informatique graphique et de la vision par ordinateur, tant d’un point de vue des méthodes employées que des applications potentielles.Deux approches complémentaires ont été proposées: une méthode dite ascendante qui cherche à regrouper des régions similaires de l’image afin de révéler la structure sous-jacente de la façade ; et une méthode dite descendante basée sur les puissants principes de l’apprentissage par renforcement. Ce nouvel algorithme combine des mesures locales issues de méthodes d’apprentissage supervisé dans une optimisation globale d’un Processus de Décision Markovien, qui découvre la grammaire du bâtiment au fil des itérations.Ces deux méthodes ont été évaluées qualitativement et quantitativement. Les résultats ainsi obtenus, se sont avérés bien meilleurs que l’état de l’art sur le plan de la rapidité, de la qualité de segmentation, mais également au niveau de la flexibilité de la méthode et de ses extensions éventuelles. Cet algorithme a été abondamment testé sur différents types de grammaires de formes, sur différents styles architecturaux, avec différentes mesures sur les images, et s’est avéré particulièrement robuste aux conditions d’illuminations et aux occlusions.En conclusion, les grammaires de formes peuvent être utilisées comme une pierre de Rosette afin de déchiffrer le langage de l’architecture et permettent ainsi de modéliser un bâtiment 3D à partir d’une unique image, à travers un nouvel algorithme issu de l’apprentissage par renforcement. D’une part la méthode développée apporte une réponse au problème de reconstruction urbaine 3D à large échelle à partir d’images, et d’autre part elle laisse entrevoir de potentielles applications de l’apprentissage par renforcement en vision par ordinateur, domaine qui jusqu’alors ne s’y était que très peu intéressé. / The purpose of this thesis was to perform facade image parsing with shape grammars in order to tackle single-view image-based 3D building modeling. The scope of the thesis was lying at the border of Computer Graphics and Computer Vision, both in terms of methods and applications.Two different and complementary approaches have been proposed: a bottom-up parsing algorithm that aimed at grouping similar regions of a facade image so as to retrieve the underlying layout, and a top-down parsing algorithm based on a very powerful framework: Reinforcement Learning. This novel parsing algorithm uses pixel-wise image supports based on supervised learning in a global optimization of a Markov Decision Process.Both methods were evaluated quantitatively and qualitatively. The second one was proved to support various architectures, several shape grammars and image supports, and showed robustness to challenging viewing conditions; illumination and large occlusions. The second method outperformed the state-of-the-art both in terms of segmentation and speed performances. It also provides a much more flexible framework, in which many extensions may be envisioned.The conclusion of this work was that the problem of single-view image-based 3D building modeling could be solved elegantly by using shape grammar as a Rosetta stone to decipher the language of Architecture through a well-suited Reinforcement Learning formulation. This solution was a potential answer to large-scale reconstruction of urban environments from images, but also suggested the possibility of introducing Reinforcement Learning in other vision tasks such as generic image parsing, where it have been barely explored so far.
Identifer | oai:union.ndltd.org:theses.fr/2011ECAP0024 |
Date | 01 June 2011 |
Creators | Teboul, Olivier |
Contributors | Châtenay-Malabry, Ecole centrale de Paris, Paragios, Nikos |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | English |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text |
Page generated in 0.0018 seconds