Global ETD Search

21	Vers une approche hybride mêlant arbre de classification et treillis de Galois pour de l'indexation d'images / Towards an hybrid model between decision trees and Galois lattice for image indexing and classification Girard, Nathalie 05 July 2013 (has links) La classification d'images s'articule généralement autour des deux étapes que sont l'étape d'extraction de signatures suivie de l'étape d'analyse des données extraites, ces dernières étant généralement quantitatives. De nombreux modèles de classification ont été proposés dans la littérature, le choix du modèle le plus adapté est souvent guidé par les performances en classification ainsi que la lisibilité du modèle. L'arbre de classification et le treillis de Galois sont deux modèles symboliques connus pour leur lisibilité. Dans sa thèse [Guillas 2007], Guillas a utilisé efficacement les treillis de Galois pour la classification d'images, et des liens structurels forts avec les arbres de classification ont été mis en évidence. Les travaux présentés dans ce manuscrit font suite à ces résultats, et ont pour but de définir un modèle hybride entre ces deux modèles, qui réunissent leurs avantages (leur lisibilité respective, la robustesse du treillis et le faible espace mémoire de l'arbre). A ces fins, l'étude des liens existants entre les deux modèles a permis de mettre en avant leurs différences. Tout d'abord, le type de discrétisation, les arbres utilisent généralement une discrétisation locale tandis que les treillis, initialement définis pour des données binaires, utilisent une discrétisation globale. A partir d'une étude des propriétés des treillis dichotomiques (treillis définis après une discrétisation), nous proposons une discrétisation locale pour les treillis permettant d'améliorer ses performances en classification et de diminuer sa complexité structurelle. Puis, le processus de post-élagage mis en œuvre dans la plupart des arbres a pour objectif de diminuer la complexité de ces derniers, mais aussi d'augmenter leurs performances en généralisation. Les simplifications de la structure de treillis (exponentielle en la taille de données dans les pires cas), quant à elles, sont motivées uniquement par une diminution de la complexité structurelle. En combinant ces deux simplifications, nous proposons une simplification de la structure du treillis obtenue après notre discrétisation locale et aboutissant à un modèle de classification hybride qui profite de la lisibilité des deux modèles tout en étant moins complexe que le treillis mais aussi performant que celui-ci. / Image classification is generally based on two steps namely the extraction of the image signature, followed by the extracted data analysis. Image signature is generally numerical. Many classification models have been proposed in the literature, among which most suitable choice is often guided by the classification performance and the model readability. Decision trees and Galois lattices are two symbolic models known for their readability. In her thesis {Guillas 2007}, Guillas efficiently used Galois lattices for image classification. Strong structural links between decision trees and Galois lattices have been highlighted. Accordingly, we are interested in comparing models in order to design a hybrid model between those two. The hybrid model will combine the advantages (robustness of the lattice, low memory space of the tree and readability of both). For this purpose, we study the links between the two models to highlight their differences. Firstly, the discretization type where decision trees generally use a local discretization while Galois lattices, originally defined for binary data, use a global discretization. From the study of the properties of dichotomic lattice (specific lattice defined after discretization), we propose a local discretization for lattice that allows us to improve its classification performances and reduces its structural complexity. Then, the process of post-pruning implemented in most of the decision trees aims to reduce the complexity of the latter, but also to improve their classification performances. Lattice filtering is solely motivated by a decrease in the structural complexity of the structures (exponential in the size of data in the worst case). By combining these two processes, we propose a simplification of the lattice structure constructed after our local discretization. This simplification leads to a hybrid classification model that takes advantage of both decision trees and Galois lattice. It is as readable as the last two, while being less complex than the lattice but also efficient. Modèle hybride de classification Treillis de Galois Arbres de décisions Classification d'images Simplification de treillis Hybrid model of classification Galois lattices Decision trees Images classification Quantitative data discretization Lattice filtering
22	Weakly supervised learning for visual recognition / Apprentissage faiblement supervisé pour la reconnaissance visuelle Durand, Thibaut 20 September 2017 (has links) Cette thèse s'intéresse au problème de la classification d'images, où l'objectif est de prédire si une catégorie sémantique est présente dans l'image, à partir de son contenu visuel. Pour analyser des images de scènes complexes, il est important d'apprendre des représentations localisées. Pour limiter le coût d'annotation pendant l'apprentissage, nous nous sommes intéressé aux modèles d'apprentissage faiblement supervisé. Dans cette thèse, nous proposons des modèles qui simultanément classifient et localisent les objets, en utilisant uniquement des labels globaux pendant l'apprentissage. L'apprentissage faiblement supervisé permet de réduire le cout d'annotation, mais en contrepartie l'apprentissage est plus difficile. Le problème principal est comment agréger les informations locales (e.g. régions) en une information globale (e.g. image). La contribution principale de cette thèse est la conception de nouvelles fonctions de pooling (agrégation) pour l'apprentissage faiblement supervisé. En particulier, nous proposons une fonction de pooling « max+min », qui unifie de nombreuses fonctions de pooling. Nous décrivons comment utiliser ce pooling dans le framework Latent Structured SVM ainsi que dans des réseaux de neurones convolutifs. Pour résoudre les problèmes d'optimisation, nous présentons plusieurs solveurs, dont certains qui permettent d'optimiser une métrique d'ordonnancement (ranking) comme l'Average Precision. Expérimentalement, nous montrons l'intérêt nos modèles par rapport aux méthodes de l'état de l'art, sur dix bases de données standard de classification d'images, incluant ImageNet. / This thesis studies the problem of classification of images, where the goal is to predict if a semantic category is present in the image, based on its visual content. To analyze complex scenes, it is important to learn localized representations. To limit the cost of annotation during training, we have focused on weakly supervised learning approaches. In this thesis, we propose several models that simultaneously classify and localize objects, using only global labels during training. The weak supervision significantly reduces the cost of full annotation, but it makes learning more challenging. The key issue is how to aggregate local scores - e.g. regions - into global score - e.g. image. The main contribution of this thesis is the design of new pooling functions for weakly supervised learning. In particular, we propose a “max + min” pooling function, which unifies many pooling functions. We describe how to use this pooling in the Latent Structured SVM framework as well as in convolutional networks. To solve the optimization problems, we present several solvers, some of which allow to optimize a ranking metric such as Average Precision. We experimentally show the interest of our models with respect to state-of-the-art methods, on ten standard image classification datasets, including the large-scale dataset ImageNet. Vision par ordinateur Intelligence artificielle Apprentissage profond Apprentissage faiblement supervisé Classification d'images Reconnaissaissance visuelle Computer vision Machine learning Classification of images 006.3
23	Discriminative image representations using spatial and color information for category-level classification / Représentations discriminantes d'image intégrant information spatiale et couleur pour la classification d'images Khan, Rahat 08 October 2013 (has links) La représentation d'image est au cœur de beaucoup d'algorithmes de vision par ordinateur. Elle intervient notamment dans des tâches de reconnaissance de catégories visuelles comme la classification ou la détection d'objets. Dans ce contexte, la représentation "sac de mot visuel" (Bag of Visual Words ou BoVW en anglais) est l'une des méthodes de référence. Dans cette thèse, nous nous appuyons sur ce modèle pour proposer des représentations d'images discriminantes. Dans la première partie, nous présentons une nouvelle approche simple et efficace pour prendre en compte des informations spatiales dans le modèle BoVW. Son principe est de considérer l'orientation et la longueur de segments formés par des paires de descripteurs similaires. Une notion de "softsimilarité" est introduite pour définir ces relations intra et inter mots visuels. Nous montrons expérimentalement que notre méthode ajoute une information discriminante importante au modèle BoVW et que cette information est complémentaire aux méthodes de l'état de l'art. Ensuite, nous nous focalisons sur la description de l'information couleur. Contrairement aux approches traditionnelles qui s'appuient sur des descriptions invariantes aux changements d'éclairage, nous proposons un descripteur basé sur le pouvoir discriminant. Nos expérimentations permettent de conclure que ce descripteur apprend automatiquement un certain degré d'invariance photométrique tout en surclassant les descripteurs basés sur cette invariance photométrique. De plus, combiné avec un descripteur de forme, le descripteur proposé donne des résultats excellents sur quatre jeux de données particulièrement difficiles. Enfin, nous nous intéressons à la représentation de la couleur à partir de la réflectance multispectrale des surfaces observées, information difficile à extraire sans instruments sophistiqués. Ainsi, nous proposons d'utiliser l'écran et la caméra d'un appareil portable pour capturer des images éclairées par les couleurs primaires de l'écran. Trois éclairages et trois réponses de caméra produisent neuf valeurs pour estimer la réflectance. Les résultats montrent que la précision de la reconstruction spectrale est meilleure que celle estimée avec un seul éclairage. Nous concluons que ce type d'acquisition est possible avec des appareils grand public tels que les tablettes, téléphones ou ordinateurs portables / Image representation is in the heart of many computer vision algorithms. Different computer vision tasks (e.g. classification, detection) require discriminative image representations to recognize visual categories. In a nutshell, the bag-of-visual-words image representation is the most successful approach for object and scene recognition. In this thesis, we mainly revolve around this model and search for discriminative image representations. In the first part, we present a novel approach to incorporate spatial information in the BoVW method. In this framework, we present a simple and efficient way to infuse spatial information by taking advantage of the orientation and length of the segments formed by pairs of similar descriptors. We introduce the notion of soft-similarity to compute intra and inter visual word spatial relationships. We show experimentally that, our method adds important discriminative information to the BoVW method and complementary to the state-of-the-art method. Next, we focus on color description in general. Differing from traditional approaches of invariant description to account for photometric changes, we propose discriminative color descriptor. We demonstrate that such a color description automatically learns a certain degree of photometric invariance. Experiments show that the proposed descriptor outperforms existing photometric invariants. Furthermore, we show that combined with shape descriptor, the proposed color descriptor obtain excellent results on four challenging data sets.Finally, we focus on the most accurate color representation i.e. multispectral reflectance which is an intrinsic property of a surface. Even with the modern era technological advancement, it is difficult to extract reflectance information without sophisticated instruments. To this end, we propose to use the display of the device as an illuminant while the camera captures images illuminated by the red, green and blue primaries of the display. Three illuminants and three response functions of the camera lead to nine response values which are used for reflectance estimation. Results show that the accuracy of the spectral reconstruction improves significantly over the spectral reconstruction based on a single illuminant. We conclude that, multispectral data acquisition is potentially possible with consumer hand-held devices such as tablets, mobiles, and laptops Vision par ordinateur Classification d'images Représentation d'images Sac de mots visuels Descripteur couleur Imagerie multispectrale Informations spatiales Computer vision Image classification Image representation Bag of visual words Color descriptor Multispectral imaging Spatial information
24	Classification d'images RSO polarimétriques à haute résolution spatiale sur site urbain / High – Resolution Polarimetric SAR image classification on urban areas Soheili Majd, Maryam 28 April 2014 (has links) Notre recherche vise à évaluer l’apport d’une seule image polarimétrique RSO (Radar à Synthèse d’Ouverture) à haute résolution spatiale pour classifier les surfaces urbaines. Pour cela, nous définissons plusieurs types de toits, de sols et d’objets.Dans un premier temps, nous proposons un inventaire d’attributs statistiques, texturaux et polarimétriques pouvant être utilisés dans un algorithme de classification. Nous étudions les lois statistiques des descripteurs et montrons que la distribution de Fisher est bien adaptée pour la plupart d’entre eux. Dans un second temps, plusieurs algorithmes de classification vectorielle supervisée sont testés et comparés, notamment la classification par maximum de vraisemblance basée sur une distribution gaussienne, ou celle basée sur la distribution de Wishart comme modèle statistique de la matrice de cohérence polarimétrique, ou encore l’approche SVM. Nous proposons alors une variante de l’algorithme par maximum de vraisemblance basée sur une distribution de Fisher, dont nous avons étudié l’adéquation avec l’ensemble de nos attributs. Nous obtenons une nette amélioration de nos résultats avec ce nouvel algorithme mais une limitation apparaît pour reconnaître certains toits. Ainsi, la forme des bâtiments rectangulaires est reconnue par opérations morphologiques à partir de l’image d’amplitude radar. Cette information spatiale est introduite dans le processus de classification comme contrainte. Nous montrons tout l’intérêt de cette information puisqu’elle empêche la confusion de classification entre pixels situés sur des toits plats et des pixels d’arbre. De plus, nous proposons une méthode de sélection des attributs les plus pertinents pour la classification, basée sur l’information mutuelle et une recherche par algorithme génétique. Nos expériences sont menées sur une image polarimétrique avec un pixel de 35 cm, acquise en 2006 par le capteur aéroporté RAMSES de l’ONERA. / In this research, our aim is to assess the potential of a one single look high spatial resolution polarimetric radar image for the classification of urban areas. For that purpose, we concentrate on classes corresponding to different kinds of roofs, objects and ground surfaces.At first, we propose a uni-variate statistical analysis of polarimetric and texture attributes, that can be used in a classification algorithm. We perform a statistical analysis of descriptors and show that the Fisher distribution is suitable for most of them. We then propose a modification of the maximum likelihood algorithm based on a Fisher distribution; we train it with all of our attributes. We obtain a significant improvement in our results with the new algorithm, but a limitation appears to recognize some roofs.Then, the shape of rectangular buildings is recognized by morphological operations from the image of radar amplitude. This spatial information is introduced in a Fisher-based classification process as a constraint term and we show that classification results are improved. In particular, it overcomes classification ambiguities between flat roof pixels and tree pixels.In a second step, some well-known algorithms for supervised classification are used. We deal with Maximum Likelihood based on complex Gaussian distribution (uni-variate) and multivariate Complex Gaussian using coherency matrix. Meanwhile, the support vector machine, as a nonparametric method, is used as classification algorithm. Moreover, a feature selection based on Genetic Algorithm using Mutual Information (GA-MI) is adapted to introduce optimal subset to classification method. To illustrate the efficiency of subset selection based on GA-MI, we perform a comparison experiment of optimal subset with different target decompositions based on different scattering mechanisms, including the Pauli, Krogager, Freeman, Yamaguchi, Barnes, Holm, Huynen and the Cloude decompositions. Our experiments are based on an image of a suburban area, acquired by the airborne RAMSES SAR sensor of ONERA, in 2006, with a spatial spacing of 35 cm. The results highlight the potential of such data to discriminate some urban land cover types. Zone urbaine Classification d'images Maximum de vraisemblance Fisher Haute résolution spatiale Polarimétrie radar Algorithme génétique Information mutuelle Urban area Image classification Maximum Likelihood Fisher High spatial resolution Polarimetric radar Genetic Algorithm Mutual Information 551
25	Statistiques de formes pour la segmentation d'images avec a priori Charpiat, Guillaume 13 December 2006 (has links) (PDF) Le but de cette thèse est de construire, à partir d'un ensemble donné d'exemples de contours d'objets, un critère qui exprime quantitativement la ressemblance entre une forme quelconque et ces exemples. Ce critère permettra ainsi d'avoir un a priori sur la forme de l'objet à rechercher dans une nouvelle image à segmenter. On définit tout d'abord mathématiquement l'ensemble de "toutes les formes". L'étude de plusieurs métriques sur cet ensemble conduit à leur équivalence topologique. Une approximation dérivable de la distance de Hausdorff permet alors de construire un chemin entre deux formes quelconques par descente de gradient. Le gradient d'une application dépendant d'une forme est un champ de déformation appartenant à son espace tangent; il dépend de son produit scalaire, qui peut alors être vu comme un a priori sur les champs de déformation en changeant qualitativement les évolutions. Une extension de la notion de gradient à des a priori non linéaires est également proposée. Les champs instantanés de déformation d'une forme vers une autre obtenus par gradient d'une distance permettent de définir la "moyenne" d'un ensemble donné de contours, ainsi que les modes caractéristiques de déformation qui lui sont associés, exprimant la variabilité de la forme dans l'échantillon étudié. De ces statistiques sur les formes on déduit plusieurs critères de segmentation, qui sont testés et illustrés sur quelques exemples. Des statistiques assez similaires sont également menées sur des images (au lieu de formes) dans une approche difféomorphique, testées sur des photographies de visages, puis utilisées dans une tâche de reconnaissance d'expression. Vision par ordinateur Traitement d'images Segmentation Forme A priori de forme Statistiques de formes Classification d'images Statistiques d'images Gradient Produits scalaires Équivalence tolopogique de distances Distance de Hausdorff
26	Apprentissage de Représentations Visuelles Profondes Goh, Hanlin 12 July 2013 (has links) (PDF) Les avancées récentes en apprentissage profond et en traitement d'image présentent l'opportunité d'unifier ces deux champs de recherche complémentaires pour une meilleure résolution du problème de classification d'images dans des catégories sémantiques. L'apprentissage profond apporte au traitement d'image le pouvoir de représentation nécessaire à l'amélioration des performances des méthodes de classification d'images. Cette thèse propose de nouvelles méthodes d'apprentissage de représentations visuelles profondes pour la résolution de cette tache. L'apprentissage profond a été abordé sous deux angles. D'abord nous nous sommes intéressés à l'apprentissage non supervisé de représentations latentes ayant certaines propriétés à partir de données en entrée. Il s'agit ici d'intégrer une connaissance à priori, à travers un terme de régularisation, dans l'apprentissage d'une machine de Boltzmann restreinte. Nous proposons plusieurs formes de régularisation qui induisent différentes propriétés telles que la parcimonie, la sélectivité et l'organisation en structure topographique. Le second aspect consiste au passage graduel de l'apprentissage non supervisé à l'apprentissage supervisé de réseaux profonds. Ce but est réalisé par l'introduction sous forme de supervision, d'une information relative à la catégorie sémantique. Deux nouvelles méthodes sont proposées. Le premier est basé sur une régularisation top-down de réseaux de croyance profonds à base de machines des Boltzmann restreintes. Le second optimise un cout intégrant un critère de reconstruction et un critère de supervision pour l'entrainement d'autoencodeurs profonds. Les méthodes proposées ont été appliquées au problème de classification d'images. Nous avons adopté le modèle sac-de-mots comme modèle de base parce qu'il offre d'importantes possibilités grâce à l'utilisation de descripteurs locaux robustes et de pooling par pyramides spatiales qui prennent en compte l'information spatiale de l'image. L'apprentissage profonds avec agrégation spatiale est utilisé pour apprendre un dictionnaire hiérarchique pour l'encodage de représentations visuelles de niveau intermédiaire. Cette méthode donne des résultats très compétitifs en classification de scènes et d'images. Les dictionnaires visuels appris contiennent diverses informations non-redondantes ayant une structure spatiale cohérente. L'inférence est aussi très rapide. Nous avons par la suite optimisé l'étape de pooling sur la base du codage produit par le dictionnaire hiérarchique précédemment appris en introduisant introduit une nouvelle paramétrisation dérivable de l'opération de pooling qui permet un apprentissage par descente de gradient utilisant l'algorithme de rétro-propagation. Ceci est la première tentative d'unification de l'apprentissage profond et du modèle de sac de mots. Bien que cette fusion puisse sembler évidente, l'union de plusieurs aspects de l'apprentissage profond de représentations visuelles demeure une tache complexe à bien des égards et requiert encore un effort de recherche important. apprentissage profond classification d'images représentations visuelles hierarchiques
27	Landslide recognition and monitoring with remotely sensed data from passive optical sensors / Détection et surveillance de glissements de terrain avec des données de télédétection de capteurs optiques Stumpf, André 18 December 2013 (has links) La cartographie, l'inventaire et le suivi de glissements de terrain sont indispensables pour l'évaluation de l'aléa glissements de terrain et la gestion des catastrophes. La disponibilité croissante des satellites THR, des drones et des appareils photo numériques grand public offre un grand potentiel pour soutenir ces tâches à l'échelle régionale et locale en complément detechniques établies telles que l'instrumentation in-situ, radar, et les acquisitions par scanner laser. Un manque d'outils de traitement d'image pour l’extraction efficace d’informations pertinentes à partir de différents types d'imagerie optique complique encore l'exploitation des données optiques et entrave la mise en oeuvre de services opérationnels. Cette thèse est consacrée à l'élaboration et l'application de techniques de traitement d'image pour la cartographie, la caractérisation et la surveillance des glissements de terrain en exploitant des données d'imagerie optique. Un état de l'art approfondi des techniques de télédétection innovantes pour la surveillance des glissements de terrain est proposé et démontre le potentiel et les limites des techniques et propose des critères pour le choix des capteurs disponibles (plateformes et méthodes d'analyse d'images) selon le processus observé et les besoins des utilisateurs. Pour la cartographie rapide des glissements de terrain lors de catastrophes majeures, une méthode qui combine segmentation d'image et apprentissage supervisé est développée pour l'analyse des images satellitaires THR à travers plusieurs exemples en Chine, au Brésil, à Haïti, en Italie et en France. Pour l'analyse de glissements de terrain à l'échelle locale, la recherche a élaboré des chaînes de traitement d'images pour la détection de fissures à partir de séries temporelles d'images de drones comme possible géo-indicateurs de l'activité des glissements, la mesure des champs de déplacements horizontaux à partir d'images satellitaires THR utilisant en utilisant des méthodes stéréophotogrammétrie et par corrélation d’image, et les mesures 3D à partir de photographies terrestres basées sur des méthodes de photogrammétrie multi-images. / Landslide inventory mapping and monitoring are indispensable for hazard assessment and disaster management. The enhanced availability of VHR satellites, UAVs and consumer grade digital cameras offers a great potential to support those tasks at regional and local scales, and to complement established techniques such as in situ instrumentation, radar, andlaser scanning. A lack of image processing tools for the efficient extraction process-relevant information from different types of optical imagery still complicates the exploitation of optical data and hinders the implementation of operational services. This doctoral thesis is dedicated to the development and application of image processing techniques for the mapping,characterization and monitoring of landslides with optical remote sensing data. A comprehensive review of innovative remote sensing techniques for landslide monitoring shows the potential and limitations of available techniques and guides the selection of the most appropriate combination of sensors – platforms – image analysis methods according to the observed process and end-user needs. For the efficient detection of landslides after major triggering events at the regional scale, a method for rapid mapping combining image segmentation, feature extraction, supervised learning is developed. For detailed landslide investigations at the local scale, this study elaborates image processing chains for detection of surface fissures in time-series of UAV images as geo-indicators of landslide activity, the measurement of horizontal surface displacements from VHR satellite images using stereo-photogrammetric and image correlation methods, and 3D measurements from terrestrial photographs based on multi-view open-source photogrammetry. Glissement de terrain Cartographie Surveillance Observation de la Terre Télédétection optique Classification d'images Apprentissage automatique Photogrammétrie Corrélation d'images Landslide Mapping Monitoring Optical remote sensing Earth observation Image classification Machine learning Photogrammetry Image correlation 551

Page generated in 0.278 seconds