Global ETD Search

1	Découverte et exploitation d'objets visuels fréquents dans des collections multimédia / Mining and exploitation of frequent visual objects in multimedia collections Letessier, Pierre 28 March 2013 (has links) L’objectif principal de cette thèse est la découverte d’objets visuels fréquents dans de grandes collections multimédias (images ou vidéos). Comme dans de nombreux domaines (ﬁnance, génétique, . . .), il s’agit d’extraire une connaissance de manière automatique ou semi-automatique en utilisant la fréquence d’apparition d’un objet au sein d’un corpus comme critère de pertinence. Une première contribution de la thèse est de fournir un formalisme aux problèmes de découverte et de fouille d’instances d’objets visuels fréquents. La deuxième contribution de la thèse est une méthode générique de résolution de ces deux types de problème reposant d’une part sur un processus itératif d’échantillonnage d’objets candidats et d’autre part sur une méthode efﬁcace d’appariement d’objets rigides à large échelle. La troisième contribution de la thèse s’attache à construire une fonction de vraisemblance s’approchant au mieux de la distribution parfaite, tout en restant scalable et efﬁcace. Les expérimentations montrent que contrairement aux méthodes de l’état de l’artnotre approche permet de découvrir efﬁcacement des objets de très petite taille dans des millions d’images. Pour ﬁnir, plusieurs scénarios d’exploitation des graphes visuels produits par notre méthode sont proposées et expérimentés. Ceci inclut la détection d’évènements médiatiques transmédias et la suggestion de requêtes visuelles. / The main goal of this thesis is to discover frequent visual objects in large multimedia collections. As in many areas (ﬁnance, genetics, . . .), it consists in extracting a knowledge, using the occurence frequency of an object in a collection as a relevance criterion. A ﬁrst contribution is to provide a formalism to the problems of mining and discovery of frequent visual objects. The second contribution is a generic method to solve these two problems, based on an iterative sampling process, and on an efﬁcient and scalable rigid objects matching. The third contribution of this work focuses on building a likelihood function close to the perfect distribution. Experiments show that contrary to state-of-the-art methods, our approach allows to discover efﬁciently very small objects in several millions images. Finally, several applications are presented, including trademark logos discovery, transmedia events detection or visual-based query suggestion. Recherche d'image par le contenu Hachage CBIR Content-based image retrieval Hashing
2	Enhanced image and video representation for visual recognition / Représentations d'image et de vidéo pour la reconnaissance visuelle Jain, Mihir 09 April 2014 (has links) L'objectif de cette thèse est d'améliorer les représentations des images et des vidéos dans le but d'obtenir une reconnaissance visuelle accrue, tant pour des entités spécifiques que pour des catégories plus génériques. Les contributions de cette thèse portent, pour l'essentiel, sur des méthodes de description du contenu visuel. Nous proposons des méthodes pour la recherche d'image par le contenu ou par des requêtes textuelles, ainsi que des méthodes pour la reconnaissance et la localisation d'action dans des vidéos. En recherche d'image, les contributions se fondent sur des méthodes `a base de plongements de Hamming. Tout d'abord, une méthode de comparaison asymétrique vecteur-`a-code est proposée pour améliorer la méthode originale, symétrique et utilisant une comparaison code-`a-code. Une méthode de classification fondée sur l'appariement de descripteurs locaux est ensuite proposée. Elle s'appuie sur une classification opérée dans un espace de similarités associées au plongement de Hamming. En reconnaissance d'action, les contributions portent essentiellement sur des meilleures manières d'exploiter et de représenter le mouvement. Finalement, une méthode de localisation est proposée. Elle utilise une partition de la vidéo en super-voxels, qui permet d'effectuer un échantillonnage 2D+t de suites de boîtes englobantes autour de zones spatio-temporelles d'intérêt. Elle s'appuie en particulier sur un critère de similarité associé au mouvement. Toutes les méthodes proposées sont évaluées sur des jeux de données publics. Ces expériences montrent que les méthodes proposées dans cette thèse améliorent l'état de l'art au moment de leur publication. / The subject of this thesis is about image and video representations for visual recognition. This thesis ﬁrst focuses on image search, both for image and textual queries, and then considers the classiﬁcation and the localization of actions in videos. In image retrieval, images similar to the query image are retrieved from a large dataset. On this front, we propose an asymmetric version of the Hamming Embedding method, where the comparison of query and database descriptors relies on a vector-to-binary code comparison. For image classiﬁcation, where the task is to identify if an image contains any instance of the queried category, we propose a novel approach based on a match kernel between images, more speciﬁcally based on Hamming Embedding similarity. We also present an effective variant of the SIFT descriptor, which leads to a better classiﬁcation accuracy. Action classiﬁcation is improved by several methods to better employ the motion inherent to videos. This is done by dominant motion compensation, and by introducing a novel descriptor based on kinematic features of the visual ﬂow. The last contribution is devoted to action localization, whose objective is to determine where and when the action of interest appears in the video. A selective sampling strategy produces 2D+t sequences of bounding boxes, which drastically reduces the candidate locations. The method advantageously exploits a criterion that takes in account how motion related to actions deviates from the background motion. We thoroughly evaluated all the proposed methods on real world images and videos from challenging benchmarks. Our methods outperform the previously published related state of the art and remains competitive with the subsequently proposed methods. Représentations visuelles Recherche d'image Classification d'image Reconnaissance d'action Localisation d'actions Visual representation Image retrieval Image classification Action recognition Action localization
3	La navigation dans les bases d'images : prise en compte des attributs de texture Idrissi, Najlae 18 October 2008 (has links) (PDF) Ce travail de recherche entre dans le cadre des systèmes de recherche d'images par le contenu, en particulier la recherche par la texture. Le but de ce travail est de permettre à l'utilisateur de naviguer dans de grande base de données d'images sans formulation de requêtes en un langage d'interrogation spécifique. Pour atteindre cet objectif, nous avons réparti le travail en deux grands volets. Le premier volet concerne l'extraction et l'identification d'un modèle de texture composé d'attributs pertinents. Pour atteindre cet objectif, nous avons proposé d'étudier deux modèles de texture : les matrices de co-occurrences et les attributs de Tamura. La sélection et la validation du modèle caractéristique ont été faites à partir de plusieurs applications que nous avons proposées dans le cadre de cette thèse après réduction de la dimension de l'espace de représentation des modèles de texture. Ensuite, la navigation s'effectue à l'aide de treillis de Galois avec une interface HTML tout en passant par une phase d'interprétation du modèle de texture numérique en un modèle sémantique. Le problème de transcription du numérique au sémantique est considéré comme un problème de discrétisation des valeurs numériques continues. Un autre problème se manifeste lorsque la taille de la base des images augmente, les performances du système de navigation se dégradent. Pour pallier à ce problème, nous proposons de créer des résumés qui de plus permettent de focaliser la recherche et la navigation sur un ensemble d'images cibles et non pas sur toute la base. recherche d'image par le contenu texture analyse et extraction fossé sémantique navigation résumés logique floue
4	Accès à de l'information en mobilité par l'image pour la visite de Musées : Réseaux profonds pour l'identification de gestes et d'objets / Information Access in mobile environment for museum visits : Deep Neraul Networks for Instance and Gesture Recognition Portaz, Maxime 24 October 2018 (has links) Dans le cadre du projet GUIMUTEIC, qui vise à équiper les visiteurs de musées d'un outils d'aide à la visite équipé d'une caméra, cette thèse adresse le problème d'accès à l'information en mobilité.On s'intéresse à comment rendre l'information à propos des œuvres accessible et automatique aux visiteurs de lieux touristiques.Elle s'inscrit dans le cadre du projet GUIMUTEIC, qui vise à équiper les visiteurs de musées d'un outil d'aide à l'accès à l'information en mobilité.Être capable de déterminer si le visiteur désire avoir accès à l'information signifie identifier le contexte autour de lui, afin de fournir une réponse adaptée, et réagir à ses actions.Ceci soulève les problématiques d'identification de points d'intérêts, pour déterminer le contexte, et d'identification de gestes de utilisateurs, pour répondre à ses demandes.Dans le cadre du notre projet, le visiteur est donc équipé d'une caméra embarquée.L'objectif est de fournir un solution à l'aide à la visite, en developpant des méthodes de vision pour l'identification d'objet, et de detection de gestes dans les vidéos à la première personne.Nous proposons dans cette thèse une étude de la faisabilité et de l'intérêt de l'aide à la visite, ainsi que de la pertinence des gestes dans le cadre de l'interaction avec un système embarqué.Nous proposons une nouvelle approche pour l'identification d'objets grâce à des réseaux de neurones profonds siamois pour l'apprentissage de similarité entre les images, avec apprentissage des régions d'intérêt dans l'image.Nous explorons également l'utilisation de réseaux à taille réduite pour le détection de gestes en mobilité.Nous présentons pour cela une architecture utilisant un nouveau type de bloc de convolutions, pour réduire le nombre de paramètres du réseau et permettre son utilisation sur processeur mobile.Pour évaluer nos propositions, nous nous appuyons sur plusieurs corpus de recherche d'image et de gestes, crée spécialement pour correspondre aux contraintes du projet. / This thesis is part of the GUIMUTEIC project, which aim is to equip museum tourist with an audio-guide enhanced by a camera.This thesis adress the problem of information access in mobile environment, by automaticaly providing information about museum artefacts.To be able to give this information, we need to know when the visitor desire guidance, and what he is looking at, to give the correct response.This raises issues of identification of points of interest, to determine the context, and identification of user gestures, to meet his demands.As part of our project, the visitor is equipped with an embedded camera.The goal is to provide a solution to help with the visit, developing vision methods for object identification, and gesture detection in first-person videos.We propose in this thesis a study of the feasibility and the interest of the assistance to the visit, as well as the relevance of the gestures in the context of the interaction with an embedded system.We propose a new approach for objects identification thanks to siamese neural networks to learn images similarity and define regions of interest.We are also exploring the use of small networks for gesture recognition in mobility.We present for this an architecture using new types of convolution blocks, to reduce the number of parameters of the network and allow its use on mobile processor.To evaluate our proposals, we rely on several corpus of image search and gestures, specificaly designed to match the constraints of the project. Recherche d'information Traitement d'image Recherche d'image Modèle de données Reconnaissance de gestes Information Retrieval Image Processing Image Retrieval Matching Model Scene Recognition Image and Sensor Fusion 004
5	Apprentissage de Modèles pour la Classification et la Recherche d'Images Mensink, Thomas 26 October 2012 (has links) (PDF) Nous assistons actuellement à une explosion de la quantité des données visuelles. Par exemple, plusieurs millions de photos sont partagées quotidiennement sur les réseaux sociaux. Les méthodes d'interprétation d'images vise à faciliter l'accès à ces données visuelles, d'une manière sémantiquement compréhensible. Dans ce manuscrit, nous définissons certains buts détaillés qui sont intéressants pour les taches d'interprétation d'images, telles que la classification ou la recherche d'images, que nous considérons dans les trois chapitres principaux. Tout d'abord, nous visons l'exploitation de la nature multimodale de nombreuses bases de données, pour lesquelles les documents sont composés d'images et de descriptions textuelles. Dans ce but, nous définissons des similarités entre le contenu visuel d'un document, et la description textuelle d'un autre document. Ces similarités sont calculées en deux étapes, tout d'abord nous trouvons les voisins visuellement similaires dans la base multimodale, puis nous utilisons les descriptions textuelles de ces voisins afin de définir une similarité avec la description textuelle de n'importe quel document. Ensuite, nous présentons une série de modèles structurés pour la classification d'images, qui encodent explicitement les interactions binaires entre les étiquettes (ou labels). Ces modèles sont plus expressifs que des prédicateurs d'étiquette indépendants, et aboutissent à des prédictions plus fiables, en particulier dans un scenario de prédiction interactive, où les utilisateurs fournissent les valeurs de certaines des étiquettes d'images. Un scenario interactif comme celui-ci offre un compromis intéressant entre la précision, et l'effort d'annotation manuelle requis. Nous explorons les modèles structurés pour la classification multi-étiquette d'images, pour la classification d'image basée sur les attributs, et pour l'optimisation de certaines mesures de rang spécifiques. Enfin, nous explorons les classifieurs par k plus proches voisins, et les classifieurs par plus proche moyenne, pour la classification d'images à grande échelle. Nous proposons des méthodes d'apprentissage de métrique efficaces pour améliorer les performances de classification, et appliquons ces méthodes à une base de plus d'un million d'images d'apprentissage, et d'un millier de classes. Comme les deux méthodes de classification permettent d'incorporer des classes non vues pendant l'apprentissage à un coût presque nul, nous avons également étudié leur performance pour la généralisation. Nous montrons que la classification par plus proche moyenne généralise à partir d'un millier de classes, sur dix mille classes à un coût négligeable, et les performances obtenus sont comparables à l'état de l'art. Classification d'image recherche d'image prédiction de structure apprentissage sans exemple prédiction interactive d'étiquette apprentissage de métriques classification à grande échelle
6	Enhanced image and video representation for visual recognition Jain, Mihir 09 April 2014 (has links) (PDF) L'objectif de cette thèse est d'améliorer les représentations des images et des vidéos dans le but d'obtenir une reconnaissance visuelle accrue, tant pour des entités spécifiques que pour des catégories plus génériques. Les contributions de cette thèse portent, pour l'essentiel, sur des méthodes de description du contenu visuel. Nous proposons des méthodes pour la recherche d'image par le contenu ou par des requêtes textuelles, ainsi que des méthodes pour la reconnaissance et la localisation d'action dans des vidéos. En recherche d'image, les contributions se fondent sur des méthodes à base de plongements de Hamming. Tout d'abord, une méthode de comparaison asymétrique vecteur-à-code est proposée pour améliorer la méthode originale, symétrique et utilisant une comparaison code-à-code. Une méthode de classification fondée sur l'appariement de descripteurs locaux est ensuite proposée. Elle s'appuie sur une classification opérée dans un espace de similarités associées au plongement de Hamming. En reconnaissance d'action, les contributions portent essentiellement sur des meilleures manières d'exploiter et de représenter le mouvement. Finalement, une méthode de localisation est proposée. Elle utilise une partition de la vidéo en super-voxels, qui permet d'effectuer un échantillonnage 2D+t de suites de boîtes englobantes autour de zones spatio-temporelles d'intérêt. Elle s'appuie en particulier sur un critère de similarité associé au mouvement. Toutes les méthodes proposées sont évaluées sur des jeux de données publics. Ces expériences montrent que les méthodes proposées dans cette thèse améliorent l'état de l'art au moment de leur publication. recherche d'image classification d'image reconnaissance d'action vision par ordinateur reconnaissance de formes
7	Apprentissage automatique pour simplifier l’utilisation de banques d’images cardiaques / Machine Learning for Simplifying the Use of Cardiac Image Databases Margeta, Ján 14 December 2015 (has links) L'explosion récente de données d'imagerie cardiaque a été phénoménale. L'utilisation intelligente des grandes bases de données annotées pourrait constituer une aide précieuse au diagnostic et à la planification de thérapie. En plus des défis inhérents à la grande taille de ces banques de données, elles sont difficilement utilisables en l'état. Les données ne sont pas structurées, le contenu des images est variable et mal indexé, et les métadonnées ne sont pas standardisées. L'objectif de cette thèse est donc le traitement, l'analyse et l'interprétation automatique de ces bases de données afin de faciliter leur utilisation par les spécialistes de cardiologie. Dans ce but, la thèse explore les outils d'apprentissage automatique supervisé, ce qui aide à exploiter ces grandes quantités d'images cardiaques et trouver de meilleures représentations. Tout d'abord, la visualisation et l'interprétation d'images est améliorée en développant une méthode de reconnaissance automatique des plans d'acquisition couramment utilisés en imagerie cardiaque. La méthode se base sur l'apprentissage par forêts aléatoires et par réseaux de neurones à convolution, en utilisant des larges banques d'images, où des types de vues cardiaques sont préalablement établies. La thèse s'attache dans un deuxième temps au traitement automatique des images cardiaques, avec en perspective l'extraction d'indices cliniques pertinents. La segmentation des structures cardiaques est une étape clé de ce processus. A cet effet une méthode basée sur les forêts aléatoires qui exploite des attributs spatio-temporels originaux pour la segmentation automatique dans des images 3Det 3D+t est proposée. En troisième partie, l'apprentissage supervisé de sémantique cardiaque est enrichi grâce à une méthode de collecte en ligne d'annotations d'usagers. Enfin, la dernière partie utilise l'apprentissage automatique basé sur les forêts aléatoires pour cartographier des banques d'images cardiaques, tout en établissant les notions de distance et de voisinage d'images. Une application est proposée afin de retrouver dans une banque de données, les images les plus similaires à celle d'un nouveau patient. / The recent growth of data in cardiac databases has been phenomenal. Cleveruse of these databases could help find supporting evidence for better diagnosis and treatment planning. In addition to the challenges inherent to the large quantity of data, the databases are difficult to use in their current state. Data coming from multiple sources are often unstructured, the image content is variable and the metadata are not standardised. The objective of this thesis is therefore to simplify the use of large databases for cardiology specialists withautomated image processing, analysis and interpretation tools. The proposed tools are largely based on supervised machine learning techniques, i.e. algorithms which can learn from large quantities of cardiac images with groundtruth annotations and which automatically find the best representations. First, the inconsistent metadata are cleaned, interpretation and visualisation of images is improved by automatically recognising commonly used cardiac magnetic resonance imaging views from image content. The method is based on decision forests and convolutional neural networks trained on a large image dataset. Second, the thesis explores ways to use machine learning for extraction of relevant clinical measures (e.g. volumes and masses) from3D and 3D+t cardiac images. New spatio-temporal image features are designed andclassification forests are trained to learn how to automatically segment the main cardiac structures (left ventricle and left atrium) from voxel-wise label maps. Third, a web interface is designed to collect pairwise image comparisons and to learn how to describe the hearts with semantic attributes (e.g. dilation, kineticity). In the last part of the thesis, a forest-based machinelearning technique is used to map cardiac images to establish distances and neighborhoods between images. One application is retrieval of the most similar images. L'indexation Recherche d'image par le contenu Analyse des images médicales Informatique décisionnelle IRM cardiaque Indexation Context based image retrieval Medical image analysis Clinical decision support systems Cardiac MRI 004.3
8	Deep learning compact and invariant image representations for instance retrieval / Représentations compactes et invariantes à l'aide de l'apprentissage profond pour la recherche d'images par similarité Morère, Olivier André Luc 08 July 2016 (has links) Nous avons précédemment mené une étude comparative entre les descripteurs FV et CNN dans le cadre de la recherche par similarité d’instance. Cette étude montre notamment que les descripteurs issus de CNN manquent d’invariance aux transformations comme les rotations ou changements d’échelle. Nous montrons dans un premier temps comment des réductions de dimension (“pooling”) appliquées sur la base de données d’images permettent de réduire fortement l’impact de ces problèmes. Certaines variantes préservent la dimensionnalité des descripteurs associés à une image, alors que d’autres l’augmentent, au prix du temps d’exécution des requêtes. Dans un second temps, nous proposons la réduction de dimension emboitée pour l’invariance (NIP), une méthode originale pour la production, à partir de descripteurs issus de CNN, de descripteurs globaux invariants à de multiples transformations. La méthode NIP est inspirée de la théorie pour l’invariance “i-theory”, une théorie mathématique proposée il y a peu pour le calcul de transformations invariantes à des groupes au sein de réseaux de neurones acycliques. Nous montrons que NIP permet d’obtenir des descripteurs globaux compacts (mais non binaires) et robustes aux rotations et aux changements d’échelle, que NIP est plus performants que les autres méthodes à dimensionnalité équivalente sur la plupart des bases de données d’images. Enfin, nous montrons que la combinaison de NIP avec la méthode de hachage RBMH proposée précédemment permet de produire des codes binaires à la fois compacts et invariants à plusieurs types de transformations. La méthode NIP+RBMH, évaluée sur des bases de données d’images de moyennes et grandes échelles, se révèle plus performante que l’état de l’art, en particulier dans le cas de descripteurs binaires de très petite taille (de 32 à 256 bits). / Image instance retrieval is the problem of finding an object instance present in a query image from a database of images. Also referred to as particular object retrieval, this problem typically entails determining with high precision whether the retrieved image contains the same object as the query image. Scale, rotation and orientation changes between query and database objects and background clutter pose significant challenges for this problem. State-of-the-art image instance retrieval pipelines consist of two major steps: first, a subset of images similar to the query are retrieved from the database, and second, Geometric Consistency Checks (GCC) are applied to select the relevant images from the subset with high precision. The first step is based on comparison of global image descriptors: high-dimensional vectors with up to tens of thousands of dimensions rep- resenting the image data. The second step is computationally highly complex and can only be applied to hundreds or thousands of images in practical applications. More discriminative global descriptors result in relevant images being more highly ranked, resulting in fewer images that need to be compared pairwise with GCC. As a result, better global descriptors are key to improving retrieval performance and have been the object of much recent interest. Furthermore, fast searches in large databases of millions or even billions of images requires the global descriptors to be compressed into compact representations. This thesis will focus on how to achieve extremely compact global descriptor representations for large-scale image instance retrieval. After introducing background concepts about supervised neural networks, Restricted Boltzmann Machine (RBM) and deep learning in Chapter 2, Chapter 3 will present the design principles and recent work for the Convolutional Neural Networks (CNN), which recently became the method of choice for large-scale image classification tasks. Next, an original multistage approach for the fusion of the output of multiple CNN is proposed. Submitted as part of the ILSVRC 2014 challenge, results show that this approach can significantly improve classification results. The promising perfor- mance of CNN is largely due to their capability to learn appropriate high-level visual representations from the data. Inspired by a stream of recent works showing that the representations learnt on one particular classification task can transfer well to other classification tasks, subsequent chapters will focus on the transferability of representa- tions learnt by CNN to image instance retrieval… Hachage Réseau neuronal convolutif Descripteurs globaux Invariance I-Theory Image instance retrieval Hashing Global descriptors 004
9	Amélioration de la détection des concepts dans les vidéos en coupant de plus grandes tranches du monde visuel / Cutting the visual world into bigger slices for improved video concept detection Niaz, Usman 08 July 2014 (has links) Les documents visuels comprenant des images et des vidéos sont en croissance rapide sur Internet et dans nos collections personnelles. Cela nécessite une analyse automatique du contenu visuel qui fait appel à la conception de méthodes intelligentes pour correctement indexer, rechercher et récupérer des images et des vidéos. Cette thèse vise à améliorer la détection automatique des concepts dans les vidéos sur Internet. Nos contributions portent sur des différents niveaux dans le cadre de détection de concept et peuvent être divisés en trois parties principales. La première partie se focalise sur l’amélioration du modèle de représentation des vidéos « Bag-of-Words (BOW) » en proposant un nouveau mécanisme de construction qui utilise des étiquettes de concepts et une autre technique qui ajoute un raffinement à la signature BOW basée sur la distribution de ses éléments. Nous élaborons ensuite des méthodes pour intégrer des entités semblables et dissemblables pour construire des modèles de reconnaissance améliorés dans la deuxième partie. A ce stade-là, nous observons l’information potentielle que les concepts partagent et construisons des modèles pour les méta-concepts dont sont dérivés les résultats spécifiques de concepts. Cela améliore la reconnaissance des concepts qui ont peu d’exemples annotés. Enfin, nous concevons certaines méthodes d'apprentissage semi-supervisé pour bénéficier de la quantité importante de données non étiquetées. Nous proposons des techniques pour améliorer l'algorithme de cotraining avec une sélection optimale des classifieurs utilisés. / Visual material comprising images and videos is growing ever so rapidly over the internet and in our personal collections. This necessitates automatic understanding of the visual content which calls for the conception of intelligent methods to correctly index, search and retrieve images and videos. This thesis aims at improving the automatic detection of concepts in the internet videos by exploring all the available information and putting the most beneficial out of it to good use. Our contributions address various levels of the concept detection framework and can be divided into three main parts. The first part improves the Bag of Words (BOW) video representation model by proposing a novel BOW construction mechanism using concept labels and by including a refinement to the BOW signature based on the distribution of its elements. We then devise methods to incorporate knowledge from similar and dissimilar entities to build improved recognition models in the second part. Here we look at the potential information that the concepts share and build models for meta-concepts from which concept specific results are derived. This improves recognition for concepts lacking labeled examples. Lastly we contrive certain semi-supervised learning methods to get the best of the substantial amount of unlabeled data. We propose techniques to improve the semi-supervised cotraining algorithm with optimal view selection. Recherche d'image par le contenu Sac de mots Analyse d'image Indexation video Algorithme co-training Content-based image retrieval CBIR Bag-of-words model Image analysis Video indexing Co-training
10	Apprentissage rapide adapté aux spécificités de l'utilisateur : application à l'extraction d'informations d'images de télédétection Blanchart, Pierre 26 September 2011 (has links) (PDF) Le but des systèmes de recherche d'images est de diriger rapidement l'utilisateur vers des contenus qui sont pertinents par rapport à la requête qu'il a formulée. Après une présentation de la problématique et un état d'art du domaine, cette thèse présente nos contributions dans le cadre de l'apprentissage avec très peu d'exemples qui est propre à l'imagerie satellitaire. Ces contributions se situent principalement autour de l'utilisation de méthodes semi-supervisées pour exploiter l'information contenue dans les données non-labellisées et pallier en quelque sorte la faiblesse et la non-exhaustivité des bases d'apprentissage. Nous présentons deux scénarios d'utilisation de méthodes semi-supervisées. Le premier se place dans le cadre d'un système d'annotation automatique d'images. Le but est alors de détecter les structures inconnues, c'est à dire les ensembles cohérents de données qui ne sont pas représentées dans la base d'apprentissage et ainsi de guider l'utilisateur dans son exploration de la base. Le second scénario concerne les systèmes de recherche interactive d'images. L'idée est d'exploiter une structuration des données, sous la forme d'un clustering par exemple, pour accélérer l'apprentissage (i.e. minimiser le nombre d'itérations de feedback) dans le cadre d'un système avec boucle de pertinence. La nouveauté de nos contributions se situe autour du fait que la plupart des méthodes semi-supervisées ne permettent pas de travailler avec de gros volumes de données comme on en rencontre en imagerie satellitaire ou alors ne sont pas temps-réel ce qui est problématique dans un système avec retour de pertinence où la fluidité des interactions avec l'utilisateur est à privilégier. Un autre problème qui justifie nos contributions est le fait que la plupart des méthodes semi-supervisées font l'hypothèse que la distribution des données labellisées suit la distribution des données non labellisées, hypothèse qui n'est pas vérifiée dans notre cas du fait de la non-exhaustivité des bases d'apprentissage et donc de l'existence de structures inconnues au niveau des données non labellisées. La dernière partie de cette thèse concerne un système de recherche d'objets à l'intérieur d'un schéma de type apprentissage actif. Une stratégie de type "coarse-to-fine" est introduite pour autoriser l'analyse de la base d'images à une taille de patch beaucoup plus "fine" tout en maintenant un nombre raisonnable d'évaluations de la fonction de décision du classificateur utilisé à chaque itération de la boucle d'apprentissage actif. L'idée est d' élaguer de grandes parties de la base de données à une échelle d'analyse dite "grossière'', afin de réserver un traitement plus complexe et plus coûteux sur des zones restreintes et plus prometteuses des images. [SPI] Engineering Sciences apprentissage automatique imagerie satellitaire systèmes d'annotation automatique apprentissage actif apprentissage semi-supervisé recherche d'objets stratégies "coarse-to-fine"

Search results