• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 23
  • 9
  • 1
  • Tagged with
  • 32
  • 32
  • 17
  • 16
  • 16
  • 15
  • 13
  • 11
  • 11
  • 11
  • 11
  • 9
  • 9
  • 7
  • 7
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

Modèles graphiques probabilistes pour la reconnaissance de formes

Barrat, Sabine 04 December 2009 (has links) (PDF)
La croissance rapide d'Internet et de l'information multimédia a suscité un besoin en développement de techniques de recherche d'information multimédia, et en particulier de recherche d'images. On peut distinguer deux tendances. La première, appelée recherche d'images à base de texte, consiste à appliquer des techniques de recherche d'information textuelle à partir d'images annotées. Le texte constitue une caractéristique de haut-niveau, mais cette technique présente plusieurs inconvénients : elle nécessite un travail d'annotation fastidieux. De plus, les annotations peuvent être ambiguës car deux utilisateurs peuvent utiliser deux mots-clés différents pour décrire la même image. Par conséquent, plusieurs approches ont proposé d'utiliser l'ontologie Wordnet, afin de réduire ces ambiguïtés potentielles. La seconde approche, appelée recherche d'images par le contenu, est plus récente. Ces techniques de recherche d'images par le contenu sont basées sur des caractéristiques visuelles (couleur, texture ou forme), calculées automatiquement, et utilisent une mesure de similarité afin de retrouver des images. Cependant, les performances obtenues ne sont pas vraiment acceptables, excepté dans le cas de corpus spécialisés. De façon à améliorer la reconnaissance, une solution consiste à combiner différentes sources d'information : par exemple, différentes caractéristiques visuelles et/ou de l'information sémantique. Or, dans de nombreux problèmes de vision, on dispose rarement d'échantillons d'apprentissage entièrement annotés. Par contre, il est plus facile d'obtenir seulement un sous-ensemble de données annotées, car l'annotation d'un sous-ensemble est moins contraignante pour l'utilisateur. Dans cette direction, cette thèse traite des problèmes de modélisation, classification et annotation d'images. Nous présentons une méthode pour l'optimisation de la classification d'images naturelles, en utilisant une approche de classification d'images basée à la fois sur le contenu des images et le texte associé aux images, et en annotant automatiquement les images non annotées. De plus, nous proposons une méthode de reconnaissance de symboles, en combinant différentes caractéristiques visuelles. L'approche proposée est dérivée de la théorie des modèles graphiques probabilistes et dédiée aux deux tâches de classification d'images naturelles partiellement annotées, et d'annotation. Nous considérons une image comme partiellement annotée si son nombre de mots-clés est inférieur au maximum de mots-clés observés dans la vérité-terrain. Grâce à leur capacité à gérer les données manquantes et à représenter d'éventuelles relations entre mots-clés, les modèles graphiques probabilistes ont été proposés pour représenter des images partiellement annotées. Par conséquent, le modèle que nous proposons ne requiert pas que toutes les images soient annotées : quand une image est partiellement annotée, les mots-clés manquants sont considérés comme des données manquantes. De plus, notre modèle peut étendre automatiquement des annotations existantes à d'autres images partiellement annotées, sans intervention de l'utilisateur. L'incertitude autour de l'association entre un ensemble de mots-clés et une image est représentée par une distribution de probabilité jointe sur le vocabulaire des mots-clés et les caractéristiques visuelles extraites de nos bases d'images. Notre modèle est aussi utilisé pour reconnaître des symboles en combinant différents types de caractéristiques visuelles (caractéristiques discrètes et continues). De plus, de façon à résoudre le problème de dimensionnalité dû à la grande dimension des caractéristiques visuelles, nous avons adapté une méthode de sélection de variables. Enfin, nous avons proposé un modèle de recherche d'images permettant à l'utilisateur de formuler des requêtes sous forme de mots-clés et/ou d'images. Ce modèle intègre un processus de retour de pertinence. Les résultats expérimentaux, obtenus sur de grandes bases d'images complexes, généralistes ou spécialisées, montrent l'intérêt de notre approche. Enfin, notre méthode s'est montrée compétitive avec des modèles de l'état de l'art.
12

Structuration géo-temporelle de données multimédia personnelles en vue de la navigation sur un appareil mobile

Pigeau, Antoine 09 December 2005 (has links) (PDF)
Les travaux de recherche présentés dans cette thèse portent sur l'organisation de collections multimédia personnelles acquises par un appareil mobile. Ce type de données est désormais de plus en plus présent dans la vie courante avec l'apparition d'appareils photographiques numériques, de téléphones mobiles équipés de capteur photographique ou encore de caméras numériques. Le problème posé est ainsi la recherche et l'indexation de ces collections afin de faciliter leur exploration future. Dans notre travail, nous nous sommes focalisés sur la classification de collections d'images personnelles acquises à partir de capteurs photographiques intégrés dans un téléphone portable. Nous avons choisi de traiter la structuration de la collection d'images comme un problème de classification. Notre approche est basée sur la construction de deux partitions distinctes, l'une temporelle et l'autre spatiale, à partir des métadonnées des images : leur date et leur géolocalisation. Les principaux ingrédients de notre approche sont les modèles de mélange gaussien, dont les paramètres sont estimés avec une adaptation de l'algorithme EM, et le critère statistique ICL pour déterminer la complexité des modèles. Un algorithme incrémental d'optimisation du critère ICL est tout d'abord proposé, permettant la construction de partitions non-hiérarchiques de manière automatique. Il est ensuite combiné avec un algorithme agglomératif pour fournir un algorithme hiérarchique incrémental, afin de pouvoir concevoir des résumés de la collection. Enfin nous proposons plusieurs techniques, combinant les partitions obtenues, pour construire des partitions hybrides spatio-temporelles, prenant en compte les contraintes d'IHM sur un appareil mobile.
13

Une méthode hybride pour la classification d'images à grain fin / An hybrid method for fine-grained content based image retrieval

Pighetti, Romaric 28 November 2016 (has links)
La quantité d'images disponible sur Internet ne fait que croître, engendrant un besoin d'algorithmes permettant de fouiller ces images et retrouver de l'information. Les systèmes de recherche d'images par le contenu ont été développées dans ce but. Mais les bases de données grandissant, de nouveaux défis sont apparus. Dans cette thèse, la classification à grain fin est étudiée en particulier. Elle consiste à séparer des images qui sont relativement semblables visuellement mais représentent différents concepts, et à regrouper des images qui sont différentes visuellement mais représentent le même concept. Il est montré dans un premier temps que les techniques classiques de recherche d'images par le contenu rencontrent des difficultés à effectuer cette tâche. Même les techniques utilisant les machines à vecteur de support (SVM), qui sont très performants pour la classification, n'y parviennent pas complètement. Ces techniques n'explorent souvent pas assez l'espace de recherche pour résoudre ce problème. D'autres méthodes, comme les algorithmes évolutionnaires sont également étudiées pour leur capacité à identifier des zones intéressantes de l'espace de recherche en un temps raisonnable. Toutefois, leurs performances restent encore limitées. Par conséquent, l'apport de la thèse consiste à proposer un système hybride combinant un algorithme évolutionnaire et un SVM a finalement été développé. L'algorithme évolutionnaire est utilisé pour construire itérativement un ensemble d'apprentissage pour le SVM. Ce système est évalué avec succès sur la base de données Caltech-256 contenant envieront 30000 images réparties en 256 catégories / Given the ever growing amount of visual content available on the Internet, the need for systems able to search through this content has grown. Content based image retrieval systems have been developed to address this need. But with the growing size of the databases, new challenges arise. In this thesis, the fine grained classification problem is studied in particular. It is first shown that existing techniques, and in particular the support vector machines which are one of the best image classification technique, have some difficulties in solving this problem. They often lack of exploration in their process. Then, evolutionary algorithms are considered to solve the problem, for their balance between exploration and exploitation. But their performances are not good enough either. Finally, an hybrid system combining an evolutionary algorithm and a support vector machine is proposed. This system uses the evolutionary algorithm to iteratively feed the support vector machine with training samples. The experiments conducted on Caltech-256, a state of the art database containing around 30000 images, show very encouraging results
14

Navigation visuelle pour les missions autonomes des petits drones / Visual autonomous navigation for small unmanned aerial vehicles

Le Barz, Cédric 30 June 2015 (has links)
Lors de dette dernière décennie, l'évolution des technologies a permis le développement de drones de taille et de poids réduit aptes à évoluer dans des environnements intérieurs ou urbains. Pour exécuter les missions qui leur sont attribuées, les drones doivent posséder un système de navigation robuste, comprenant, notamment, une fonctionnalité temps réel d'ego-localisation précise dans un repère absolu. Nous proposons de résoudre cette problématique par la mise en correspondance des dernières images acquises avec des images géoréférencées de type Google Streetview.Dans l'hypothèse où il serait possible pour une image requête de retrouver l'image géo-référencée représentant la même scène, nous avons tout d'abord étudié une solution permettant d'affiner la localisation grâce à l'estimation de la pose relative entre ces deux images. Pour retrouver l'image de la base correspondant à une image requête, nous avons ensuite étudié et proposé une méthode hybride exploitant à la fois les informations visuelles et odométriques mettant en oeuvre une chaîne de Markov à états cachés. Les performances obtenues, dépendant de la qualité de la mesure de similarité visuelle, nous avons enfin proposé une solution originale basée sur l'apprentissage supervisé de distances permettant de mesurer les similarités entre les images requête et les images géoréférencées proches de la position supposée. / In this last decade, technology evolution has enabled the development of small and light UAV able to evolve in indoor and urban environments. In order to execute missions assigned to them, UAV must have a robust navigation system, including a precise egolocalization functionality within an absolute reference. We propose to solve this problem by mapping the latest images acquired with geo-referenced images, i.e. Google Streetview images.In a first step, assuming that it is possible for a given query image to retrieve the geo-referenced image depicting the same scene, we study a solution, based on relative pose estimation between images, to refine the location. Then, to retrieve geo-referenced images corresponding to acquired images, we studied and proposed an hybrid method exploiting both visual and odometric information by defining an appropriate Hidden Markov Model (HMM), where states are geographical locations. The quality of achieved performances depending of visual similarities, we finally proposed an original solution based on a supervised metric learning solution. The solution measures similarities between the query images and geo-referenced images close to the putative position, thanks to distances learnt during a preliminary step.
15

Detection of local features invariant to affines transformations

Mikolajczyk, Krystian 15 July 2002 (has links) (PDF)
Une des approches dominantes pour la reconnaissance d'objets est basée sur les caractéristiques locales. La méthode utilise la description locale calculée au voisinage de points d'intérêt. La détection de points d'intérêt est une première étape dans le processus de la mise en correspondance et de la reconnaissance. L'approche par apparences locales a permis d'améliorer et d'accélérer considérablement la recherche d'images dans des bases de données. Dans cette thèse, nous proposons une nouvelle approche pour la détection de points caractéristiques d'une image. Cette approche est invariante aux transformations géométriques et photométriques, qui apparaissent fréquemment entre les images prises dans des conditions différentes. Nous nous concentrons sur le problème d'invariance aux transformations affines. Cette transformation est particulièrement importante parce qu'elle permet de s'affranchir des problèmes de changements perspectives. Les approches précédentes apportent des solutions partielles, car certains paramètres de points d'intérêt ne sont pas estimés de façon invariante aux changements affines. Nous avons proposé une solution générique à ces problèmes. Notre méthode est réellement invariante aux transformations affines, y compris aux changements d'échelle importants. Les images sont caractérisées par des ensembles de descripteurs calculés en des points caractéristiques détectés automatiquement. Une mesure de ressemblance permet d'établir des correspondances entre les points. Ces correspondances sont ensuite utilisées pour calculer la géométrie qui lie les images. Dans le contexte de la recherche d'images les descripteurs sont utilisés pour retrouver des points similaires dans la base et par conséquent des images similaires aux images requêtes. Les résultats expérimentaux pour la mise en correspondance et la recherche d'images montrent que notre approche est très robuste et efficace même dans les cas de changements importants. Plusieurs études comparatives effectuées dans cette thèse montrent l'avantage de cette méthode par rapport aux approches existantes présentées récemment dans la littérature.
16

Représentations visuelles de concepts textuels pour la recherche et l'annotation interactives d'images / Keyword visual representation for interactive image retrieval and image annotation

Nguyen, Nhu Van 09 September 2011 (has links)
En recherche d'images aujourd'hui, nous manipulons souvent de grands volumes d'images, qui peuvent varier ou même arriver en continu. Dans une base d'images, on se retrouve ainsi avec certaines images anciennes et d'autres nouvelles, les premières déjà indexées et possiblement annotées et les secondes en attente d'indexation ou d'annotation. Comme la base n'est pas annotée uniformément, cela rend l'accès difficile par le biais de requêtes textuelles. Nous présentons dans ce travail différentes techniques pour interagir, naviguer et rechercher dans ce type de bases d'images. Premièrement, un modèle d'interaction à court terme est utilisé pour améliorer la précision du système. Deuxièmement, en se basant sur un modèle d'interaction à long terme, nous proposons d'associer mots textuels et caractéristiques visuelles pour la recherche d'images par le texte, par le contenu visuel, ou mixte texte/visuel. Ce modèle de recherche d'images permet de raffiner itérativement l'annotation et la connaissance des images. Nous identifions quatre contributions dans ce travail. La première contribution est un système de recherche multimodale d'images qui intègre différentes sources de données, comme le contenu de l'image et le texte. Ce système permet l'interrogation par l'image, l'interrogation par mot-clé ou encore l'utilisation de requêtes hybrides. La deuxième contribution est une nouvelle technique pour le retour de pertinence combinant deux techniques classiques utilisées largement dans la recherche d'information~: le mouvement du point de requête et l'extension de requêtes. En profitant des images non pertinentes et des avantages de ces deux techniques classiques, notre méthode donne de très bons résultats pour une recherche interactive d'images efficace. La troisième contribution est un modèle nommé "Sacs de KVR" (Keyword Visual Representation) créant des liens entre des concepts sémantiques et des représentations visuelles, en appui sur le modèle de Sac de Mots. Grâce à une stratégie d'apprentissage incrémental, ce modèle fournit l'association entre concepts sémantiques et caractéristiques visuelles, ce qui contribue à améliorer la précision de l'annotation sur l'image et la performance de recherche. La quatrième contribution est un mécanisme de construction incrémentale des connaissances à partir de zéro. Nous ne séparons pas les phases d'annotation et de recherche, et l'utilisateur peut ainsi faire des requêtes dès la mise en route du système, tout en laissant le système apprendre au fur et à mesure de son utilisation. Les contributions ci-dessus sont complétées par une interface permettant la visualisation et l'interrogation mixte textuelle/visuelle. Même si pour l'instant deux types d'informations seulement sont utilisées, soit le texte et le contenu visuel, la généricité du modèle proposé permet son extension vers d'autres types d'informations externes à l'image, comme la localisation (GPS) et le temps. / As regard image retrieval today, we often manipulate large volumes of images, which may vary or even update continuously. In an image database, we end up with both old and new images, the first possibly already indexed and annotated and the latter waiting for indexing or annotation. Since the database is not annotated consistently, it is difficult to use text queries. We present in this work different techniques to interact, navigate and search in this type of image databases. First, a model for short term interaction is used to improve the accuracy of the system. Second, based on a model of long terminteraction, we propose to combine semantic concepts and visual features to search for images by text, visual content or a mix between text and visual content. This model of image retrieval can iteratively refine the annotation of images.We identify four contributions in this work. The first contribution is a system for multimodal retrieval of images which includes different kinds of data, like visual content and text. This system can be queried by images, by keywords or by hybrid text/visual queries. The second contribution is a novel technique of relevance feedback combining 2 classic techniques: query point movement and query expansion. This technique profits for non-pertinent feedback and combines the advantages of both classic techniques and improve performance for interactive image retrieval. The third contribution is a model based on visual representations of keywords (KVR: Keyword Visual Representation) that create links between textand visual content, based on long term interaction. With the strategy of incremental learning, this model provides an association between semantic concepts and visual features that help improve the accuracy of image annotation and image retrieval. Moreover, the visual representation of textual concept gives users the ability to query the system by text queries or mixed queries text / images, even if the image database is only partially annotated. The fourth contribution, under the assumption that knowledge is not available early in most image retrieval systems, is a mechanism for incremental construction of knowledge from scratch. We do not separate phases of retrieval and annotation, and the user can makequeries from the start of the system, while allowing the system to learn incrementally when it is used. The contributions above are completed by an interface for viewing and querying mixing textual and visual content. Although at present only two types of information are used, the text and visual content, the genericity of the proposed model allows its extension to other types of external information, such as location (GPS) and time.
17

Improving image representation using image saliency and information gain / Amélioration de la représentation des images : apport de la saillance et du gain d'information

Le, Huu Ton 23 November 2015 (has links)
De nos jours, avec le développement des nouvelles technologies multimédia, la recherche d’images basée sur le contenu visuel est un sujet de recherche en plein essor avec de nombreux domaines d'application: indexation et recherche d’images, la graphologie, la détection et le suivi d’objets... Un des modèles les plus utilisés dans ce domaine est le sac de mots visuels qui tire son inspiration de la recherche d’information dans des documents textuels. Dans ce modèle, les images sont représentées par des histogrammes de mots visuels à partir d'un dictionnaire visuel de référence. La signature d’une image joue un rôle important car elle détermine la précision des résultats retournés par le système de recherche.Dans cette thèse, nous étudions les différentes approches concernant la représentation des images. Notre première contribution est de proposer une nouvelle méthodologie pour la construction du vocabulaire visuel en utilisant le gain d'information extrait des mots visuels. Ce gain d’information est la combinaison d’un modèle de recherche d’information avec un modèle d'attention visuelle.Ensuite, nous utilisons un modèle d'attention visuelle pour améliorer la performance de notre modèle de sacs de mots visuels. Cette étude de la saillance des descripteurs locaux souligne l’importance d’utiliser un modèle d’attention visuelle pour la description d’une image.La dernière contribution de cette thèse au domaine de la recherche d’information multimédia démontre comment notre méthodologie améliore le modèle des sacs de phrases visuelles. Finalement, une technique d’expansion de requêtes est utilisée pour augmenter la performance de la recherche par les deux modèles étudiés. / Nowadays, along with the development of multimedia technology, content based image retrieval (CBIR) has become an interesting and active research topic with an increasing number of application domains: image indexing and retrieval, face recognition, event detection, hand writing scanning, objects detection and tracking, image classification, landmark detection... One of the most popular models in CBIR is Bag of Visual Words (BoVW) which is inspired by Bag of Words model from Information Retrieval field. In BoVW model, images are represented by histograms of visual words from a visual vocabulary. By comparing the images signatures, we can tell the difference between images. Image representation plays an important role in a CBIR system as it determines the precision of the retrieval results.In this thesis, image representation problem is addressed. Our first contribution is to propose a new framework for visual vocabulary construction using information gain (IG) values. The IG values are computed by a weighting scheme combined with a visual attention model. Secondly, we propose to use visual attention model to improve the performance of the proposed BoVW model. This contribution addresses the importance of saliency key-points in the images by a study on the saliency of local feature detectors. Inspired from the results from this study, we use saliency as a weighting or an additional histogram for image representation.The last contribution of this thesis to CBIR shows how our framework enhances the BoVP model. Finally, a query expansion technique is employed to increase the retrieval scores on both BoVW and BoVP models.
18

Contextualized access to distributed and heterogeneous multimedia data sources / Accès contextualisé aux sources de données multimédias distribuées et hétérogènes

Vilsmaier, Christian 26 September 2014 (has links)
Rendre les données multimédias disponibles en ligne devient moins cher et plus pratique sur une base quotidienne, par exemple par les utilisateurs eux-mêmes. Des phénomènes du Web comme Facebook, Twitter et Flickr bénéficient de cette évolution. Ces phénomènes et leur acceptation accrue conduisent à une multiplication du nombre d’images disponibles en ligne. La taille cumulée de ces images souvent publiques et donc consultables, est de l’ordre de plusieurs zettaoctets. L’exécution d’une requête de similarité sur de tels volumes est un défi que la communauté scientifique commence à cibler. Une approche envisagée pour faire face à ce problème propose d’utiliser un système distribué et hétérogène de recherche d’images basé sur leur contenu (CBIRs). De nombreux problèmes émergent d’un tel scénario. Un exemple est l’utilisation de formats de métadonnées distincts pour décrire le contenu des images; un autre exemple est l’information technique et structurelle inégale. Les métriques individuelles qui sont utilisées par les CBIRs pour calculer la similarité entre les images constituent un autre exemple. Le calcul de bons résultats dans ce contexte s’avère ainsi une tàche très laborieuse qui n’est pas encore scientifiquement résolue. Le problème principalement abordé dans cette thèse est la recherche de photos de CBIRs similaires à une image donnée comme réponse à une requête multimédia distribuée. La contribution principale de cette thèse est la construction d’un réseau de CBIRs sensible à la sémantique des contenus (CBIRn). Ce CBIRn sémantique est capable de collecter et fusionner les résultats issus de sources externes spécialisées. Afin d’être en mesure d’intégrer de telles sources extérieures, prêtes à rejoindre le réseau, mais pas à divulguer leur configuration, un algorithme a été développé capable d’estimer la configuration d’un CBIRS. En classant les CBIRs et en analysant les requêtes entrantes, les requêtes d’image sont exclusivement transmises aux CBIRs les plus appropriés. De cette fac ̧on, les images sans intérêt pour l’utilisateur peuvent être omises à l’avance. Les images retournées cells sont considérées comme similaires par rapport à l’image donnée pour la requête. La faisabilité de l’approche et l’amélioration obtenue par le processus de recherche sont démontrées par un développement prototypique et son évaluation utilisant des images d’ImageNet. Le nombre d’images pertinentes renvoyées par l’approche de cette thèse en réponse à une requête image est supérieur d’un facteur 4.75 par rapport au résultat obtenu par un réseau de CBIRs predéfini. / Making multimedia data available online becomes less expensive and more convenient on a daily basis. This development promotes web phenomenons such as Facebook, Twitter, and Flickr. These phenomena and their increased acceptance in society in turn leads to a multiplication of the amount of available images online. This vast amount of, frequently public and therefore searchable, images already exceeds the zettabyte bound. Executing a similarity search on the magnitude of images that are publicly available and receiving a top quality result is a challenge that the scientific community has recently attempted to rise to. One approach to cope with this problem assumes the use of distributed heterogeneous Content Based Image Retrieval system (CBIRs). Following from this anticipation, the problems that emerge from a distributed query scenario must be dealt with. For example the involved CBIRs’ usage of distinct metadata formats for describing their content, as well as their unequal technical and structural information. An addition issue is the individual metrics that are used by the CBIRs to calculate the similarity between pictures, as well as their specific way of being combined. Overall, receiving good results in this environment is a very labor intensive task which has been scientifically but not yet comprehensively explored. The problem primarily addressed in this work is the collection of pictures from CBIRs, that are similar to a given picture, as a response to a distributed multimedia query. The main contribution of this thesis is the construction of a network of Content Based Image Retrieval systems that are able to extract and exploit the information about an input image’s semantic concept. This so called semantic CBIRn is mainly composed of CBIRs that are configured by the semantic CBIRn itself. Complementarily, there is a possibility that allows the integration of specialized external sources. The semantic CBIRn is able to collect and merge results of all of these attached CBIRs. In order to be able to integrate external sources that are willing to join the network, but are not willing to disclose their configuration, an algorithm was developed that approximates these configurations. By categorizing existing as well as external CBIRs and analyzing incoming queries, image queries are exclusively forwarded to the most suitable CBIRs. In this way, images that are not of any use for the user can be omitted beforehand. The hereafter returned images are rendered comparable in order to be able to merge them to one single result list of images, that are similar to the input image. The feasibility of the approach and the hereby obtained improvement of the search process is demonstrated by a prototypical implementation. Using this prototypical implementation an augmentation of the number of returned images that are of the same semantic concept as the input images is achieved by a factor of 4.75 with respect to a predefined non-semantic CBIRn.
19

Learning compact representations for large scale image search / Apprentissage de représentations compactes pour la recherche d'images à grande échelle

Jain, Himalaya 04 June 2018 (has links)
Cette thèse aborde le problème de la recherche d'images à grande échelle. Pour aborder la recherche d'images à grande échelle, il est nécessaire de coder des images avec des représentations compactes qui peuvent être efficacement utilisées pour comparer des images de manière significative. L'obtention d'une telle représentation compacte peut se faire soit en comprimant des représentations efficaces de grande dimension, soit en apprenant des représentations compactes de bout en bout. Le travail de cette thèse explore et avance dans ces deux directions. Dans notre première contribution, nous étendons les approches de quantification vectorielle structurée telles que la quantification de produit en proposant une représentation somme pondérée de codewords. Nous testons et vérifions les avantages de notre approche pour la recherche approximative du plus proche voisin sur les caractéristiques d'image locales et globales, ce qui est un moyen important d'aborder la recherche d'images à grande échelle. L'apprentissage de la représentation compacte pour la recherche d'images a récemment attiré beaucoup d'attention avec diverses approches basées sur le hachage profond proposées. Dans de telles approches, les réseaux de neurones convolutifs profonds apprennent à coder des images en codes binaires compacts. Dans cette thèse, nous proposons une approche d'apprentissage supervisé profond pour la représentation binaire structurée qui rappelle une approche de quantification vectorielle structurée telle que PQ. Notre approche bénéficie de la recherche asymétrique par rapport aux approches de hachage profond et apporte une nette amélioration de la précision de la recherche au même débit binaire. L'index inversé est une autre partie importante du système de recherche à grande échelle en dehors de la représentation compacte. À cette fin, nous étendons nos idées pour l'apprentissage de la représentation compacte supervisée pour la construction d'index inversés. Dans ce travail, nous abordons l'indexation inversée avec un apprentissage approfondi supervisé et essayons d'unifier l'apprentissage de l'indice inversé et de la représentation compacte. Nous évaluons minutieusement toutes les méthodes proposées sur divers ensembles de données accessibles au public. Nos méthodes surpassent ou sont compétitives avec l'état de l'art. / This thesis addresses the problem of large-scale image search. To tackle image search at large scale, it is required to encode images with compact representations which can be efficiently employed to compare images meaningfully. Obtaining such compact representation can be done either by compressing effective high dimensional representations or by learning compact representations in an end-to-end manner. The work in this thesis explores and advances in both of these directions. In our first contribution, we extend structured vector quantization approaches such as Product Quantization by proposing a weighted codeword sum representation. We test and verify the benefits of our approach for approximate nearest neighbor search on local and global image features which is an important way to approach large scale image search. Learning compact representation for image search recently got a lot of attention with various deep hashing based approaches being proposed. In such approaches, deep convolutional neural networks are learned to encode images into compact binary codes. In this thesis we propose a deep supervised learning approach for structured binary representation which is a reminiscent of structured vector quantization approaches such as PQ. Our approach benefits from asymmetric search over deep hashing approaches and gives a clear improvement for search accuracy at the same bit-rate. Inverted index is another important part of large scale search system apart from the compact representation. To this end, we extend our ideas for supervised compact representation learning for building inverted indexes. In this work we approach inverted indexing with supervised deep learning and make an attempt to unify the learning of inverted index and compact representation. We thoroughly evaluate all the proposed methods on various publicly available datasets. Our methods either outperform, or are competitive with the state-of-the-art.
20

De l'usage des méthodes bas niveau pour la recherche d'image par le contenu

Da Rugna, Jérôme 14 December 2004 (has links) (PDF)
La thématique de ces travaux de thèse est la recherche d'images par le contenu et plus précisément<br />l'apport des méthodes bas niveau.<br />Après avoir discuté des différentes approches existantes, nous rappelons le fossé sémantique<br />entre les attentes de l'utilisateur et ce que proposent réellement les systèmes de recherche. La<br />plupart de ceux-ci reposent sur une étape préalable de segmentation dont la validité et la robustesse<br />se doivent d'être étudiées. Nous proposons alors un protocole d'évaluation objective et un<br />exemple concret de mise en oeuvre. L'originalité consiste à ne pas comparer une segmentation à<br />une référence théorique mais à juger objectivement sa stabilité.<br />La troisième partie de ce document introduit trois contributions ponctuelles susceptibles<br />d'améliorer la chaîne de recherche. Dans un premier temps, un détecteur de flou permet d'extraire<br />une méta-information portée par l'image, les zones nettes a priori de focalisation. Ensuite<br />nous exposons un descripteur basé sur l'extraction de régions émergentes sur le seul critère couleur.<br />Cette extraction, conjuguée avec des distances adaptées, peut permettre par exemple un<br />pré-filtrage couleur en amont de la phase de recherche de similarité proprement dite. Finalement,<br />nous introduisons brièvement une algèbre d'histogrammes pour exploiter au mieux l'information<br />contenue dans ce type de descripteurs, via un langage de requêtes spécifique.

Page generated in 0.0695 seconds