• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 2
  • Tagged with
  • 2
  • 2
  • 2
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Recherche multi-descripteurs dans les fonds photographiques numérisés / Multi-descriptor retrieval in digitalized photographs collections

Bhowmik, Neelanjan 07 November 2017 (has links)
La recherche d’images par contenu (CBIR) est une discipline de l’informatique qui vise à structurer automatiquement les collections d’images selon des critères visuels. Les fonctionnalités proposées couvrent notamment l’accès efficace aux images dans une grande base de données d’images ou l’identification de leur contenu par des outils de détection et de reconnaissance d’objets. Ils ont un impact sur une large gamme de domaines qui manipulent ce genre de données, telles que le multimedia, la culture, la sécurité, la santé, la recherche scientifique, etc.Indexer une image à partir de son contenu visuel nécessite d’abord de produire un résumé visuel de ce contenu pour un usage donné, qui sera l’index de cette image dans la collection. En matière de descripteurs d’images, la littérature est désormais trés riche: plusieurs familles de descripteurs existent, et dans chaque famille de nombreuses approches cohabitent. Bon nombre de descripteurs ne décrivant pas la même information et n’ayant pas les mêmes propriétés d’invariance, il peut être pertinent de les combiner de manière à mieux décrire le contenu de l’image. Cette combinaison peut être mise en oeuvre de différentes manières, selon les descripteurs considérés et le but recherché. Dans cette thése, nous nous concentrons sur la famille des descripteurs locaux, avec pour application la recherche d’images ou d’objets par l’exemple dans une collection d’images. Leurs bonnes propriétés les rendent très populaires pour la recherche, la reconnaissance et la catégorisation d'objets et de scènes. Deux directions de recherche sont étudiées:Combinaison de caractéristiques pour la recherche d’images par l’exemple: Le coeur de la thèse repose sur la proposition d’un modèle pour combiner des descripteurs de bas niveau et génériques afin d’obtenir un descripteur plus riche et adapté à un cas d’utilisation donné tout en conservant la généricité afin d’indexer différents types de contenus visuels. L’application considérée étant la recherche par l’exemple, une autre difficulté majeure est la complexité de la proposition, qui doit correspondre à des temps de récupération réduits, même avec de grands ensembles de données. Pour atteindre ces objectifs, nous proposons une approche basée sur la fusion d'index inversés, ce qui permet de mieux représenter le contenu tout en étant associé à une méthode d’accès efficace.Complémentarité des descripteurs: Nous nous concentrons sur l’évaluation de la complémentarité des descripteurs locaux existant en proposant des critères statistiques d’analyse de leur répartition spatiale dans l'image. Ce travail permet de mettre en évidence une synergie entre certaines de ces techniques lorsqu’elles sont jugées suffisamment complémentaires. Les critères spatiaux sont exploités dans un modèle de prédiction à base de régression linéaire, qui a l'avantage de permettre la sélection de combinaisons de descripteurs optimale pour la base considérée mais surtout pour chaque image de cette base. L'approche est évaluée avec le moteur de recherche multi-index, où il montre sa pertinence et met aussi en lumière le fait que la combinaison optimale de descripteurs peut varier d'une image à l'autre.En outre, nous exploitons les deux propositions précédentes pour traiter le problème de la recherche d'images inter-domaines, correspondant notamment à des vues multi-source et multi-date. Deux applications sont explorées dans cette thèse. La recherche d’images inter-domaines est appliquée aux collections photographiques culturelles numérisées d’un musée, où elle démontre son efficacité pour l’exploration et la valorisation de ces contenus à différents niveaux, depuis leur archivage jusqu’à leur exposition ou ex situ. Ensuite, nous explorons l’application de la localisation basée image entre domaines, où la pose d’une image est estimée à partir d’images géoréférencées, en retrouvant des images géolocalisées visuellement similaires à la requête / Content-Based Image Retrieval (CBIR) is a discipline of Computer Science which aims at automatically structuring image collections according to some visual criteria. The offered functionalities include the efficient access to images in a large database of images, or the identification of their content through object detection and recognition tools. They impact a large range of fields which manipulate this kind of data, such as multimedia, culture, security, health, scientific research, etc.To index an image from its visual content first requires producing a visual summary of this content for a given use, which will be the index of this image in the database. From now on, the literature on image descriptors is very rich; several families of descriptors exist and in each family, a lot of approaches live together. Many descriptors do not describe the same information and do not have the same properties. Therefore it is relevant to combine some of them to better describe the image content. The combination can be implemented differently according to the involved descriptors and to the application. In this thesis, we focus on the family of local descriptors, with application to image and object retrieval by example in a collection of images. Their nice properties make them very popular for retrieval, recognition and categorization of objects and scenes. Two directions of research are investigated:Feature combination applied to query-by-example image retrieval: the core of the thesis rests on the proposal of a model for combining low-level and generic descriptors in order to obtain a descriptor richer and adapted to a given use case while maintaining genericity in order to be able to index different types of visual contents. The considered application being query-by-example, another major difficulty is the complexity of the proposal, which has to meet with reduced retrieval times, even with large datasets. To meet these goals, we propose an approach based on the fusion of inverted indices, which allows to represent the content better while being associated with an efficient access method.Complementarity of the descriptors: We focus on the evaluation of the complementarity of existing local descriptors by proposing statistical criteria of analysis of their spatial distribution. This work allows highlighting a synergy between some of these techniques when judged sufficiently complementary. The spatial criteria are employed within a regression-based prediction model which has the advantage of selecting the suitable feature combinations globally for a dataset but most importantly for each image. The approach is evaluated within the fusion of inverted indices search engine, where it shows its relevance and also highlights that the optimal combination of features may vary from an image to another.Additionally, we exploit the previous two proposals to address the problem of cross-domain image retrieval, where the images are matched across different domains, including multi-source and multi-date contents. Two applications of cross-domain matching are explored. First, cross-domain image retrieval is applied to the digitized cultural photographic collections of a museum, where it demonstrates its effectiveness for the exploration and promotion of these contents at different levels from their archiving up to their exhibition in or ex-situ. Second, we explore the application of cross-domain image localization, where the pose of a landmark is estimated by retrieving visually similar geo-referenced images to the query images
2

On the use of a discriminant approach for handwritten word recognition based on bi-character models / Vers une approche discriminante pour la reconnaissance de mots manuscrits en-ligne utilisant des modèles de bi-caractères

Prum, Sophea 08 November 2013 (has links)
Avec l’avènement des dispositifs nomades tels que les smartphones et les tablettes, la reconnaissance automatique de l’écriture manuscrite cursive à partir d’un signal en ligne est devenue durant les dernières décennies un besoin réel de la vie quotidienne à l’ère numérique. Dans le cadre de cette thèse, nous proposons de nouvelles stratégies pour un système de reconnaissance de mots manuscrits en-ligne. Ce système se base sur une méthode collaborative segmentation/reconnaissance et en utilisant des analyses à deux niveaux : caractère et bi-caractères. Plus précisément, notre système repose sur une segmentation de mots manuscrits en graphèmes afin de créer un treillis à L niveaux. Chaque noeud de ce treillis est considéré comme un caractère potentiel envoyé à un moteur de Reconnaissance de Caractères Isolés (RCI) basé sur un SVM. Pour chaque noeud, ce dernier renvoie une liste de caractères associés à une liste d’estimations de probabilités de reconnaissance. Du fait de la grande diversité des informations résultant de la segmentation en graphèmes, en particulier à cause de la présence de morceaux de caractères et de ligatures, l’injection de chacun des noeuds du treillis dans le RCI engendre de potentielles ambiguïtés au niveau du caractère. Nous proposons de lever ces ambiguïtés en utilisant des modèles de bi-caractères, basés sur une régression logistique dont l’objectif est de vérifier la cohérence des informations à un niveau de reconnaissance plus élevé. Finalement, les résultats renvoyés par le RCI et l’analyse des modèles de bi-caractères sont utilisés dans la phase de décodage pour parcourir le treillis dans le but de trouver le chemin optimal associé à chaque mot dans le lexique. Deux méthodes de décodage sont proposées (recherche heuristique et programmation dynamique), la plus efficace étant basée sur de la programmation dynamique. / With the advent of mobile devices such as tablets and smartphones over the last decades, on-line handwriting recognition has become a very highly demanded service for daily life activities and professional applications. This thesis presents a new approach for on-line handwriting recognition. This approach is based on explicit segmentation/recognition integrated in a two level analysis system: character and bi-character. More specifically, our system segments a handwritten word in a sequence of graphemes to be then used to create a L-levels lattice of graphemes. Each node of the lattice is considered as a character to be submitted to a SVM based Isolated Character Recognizer (ICR). The ICR returns a list of potential character candidates, each of which is associated with an estimated recognition probability. However, each node of the lattice is a combination of various segmented graphemes. As a consequence, a node may contain some ambiguous information that cannot be handled by the ICR at character level analysis. We propose to solve this problem using "bi-character" models based on Logistic Regression, in order to verify the consistency of the information at a higher level of analysis. Finally, the recognition results provided by the ICR and the bi-character models are used in the word decoding stage, whose role is to find the optimal path in the lattice associated to each word in the lexicon. Two methods are presented for word decoding (heuristic search and dynamic programming), and dynamic programming is found to be the most effective.

Page generated in 0.1278 seconds