• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 974
  • 345
  • 112
  • 15
  • 10
  • 8
  • 4
  • 3
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • Tagged with
  • 1550
  • 756
  • 274
  • 259
  • 241
  • 233
  • 231
  • 168
  • 163
  • 155
  • 150
  • 147
  • 141
  • 132
  • 123
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
231

Face recognition using infrared vision

Shoja Ghiass, Reza 20 April 2018 (has links)
Au cours de la dernière décennie, la reconnaissance de visage basée sur l’imagerie infrarouge (IR) et en particulier la thermographie IR est devenue une alternative prometteuse aux approches conventionnelles utilisant l’imagerie dans le spectre visible. En effet l’imagerie (visible et infrarouge) trouvent encore des contraintes à leur application efficace dans le monde réel. Bien qu’insensibles à toute variation d’illumination dans le spectre visible, les images IR sont caractérisées par des défis spécifiques qui leur sont propres, notamment la sensibilité aux facteurs qui affectent le rayonnement thermique du visage tels que l’état émotionnel, la température ambiante, la consommation d’alcool, etc. En outre, il est plus laborieux de corriger l’expression du visage et les changements de poses dans les images IR puisque leur contenu est moins riche aux hautes fréquences spatiales ce qui représente en fait une indication importante pour le calage de tout modèle déformable. Dans cette thèse, nous décrivons une nouvelle méthode qui répond à ces défis majeurs. Concrètement, pour remédier aux changements dans les poses et expressions du visage, nous générons une image synthétique frontale du visage qui est canonique et neutre vis-à-vis de toute expression faciale à partir d’une image du visage de pose et expression faciale arbitraires. Ceci est réalisé par l’application d’une déformation affine par morceaux précédée par un calage via un modèle d’apparence active (AAM). Ainsi, une de nos publications est la première publication qui explore l’utilisation d’un AAM sur les images IR thermiques ; nous y proposons une étape de prétraitement qui rehausse la netteté des images thermiques, ce qui rend la convergence de l’AAM rapide et plus précise. Pour surmonter le problème des images IR thermiques par rapport au motif exact du rayonnement thermique du visage, nous le décrivons celui-ci par une représentation s’appuyant sur des caractéristiques anatomiques fiables. Contrairement aux approches existantes, notre représentation n’est pas binaire ; elle met plutôt l’accent sur la fiabilité des caractéristiques extraites. Cela rend la représentation proposée beaucoup plus robuste à la fois à la pose et aux changements possibles de température. L’efficacité de l’approche proposée est démontrée sur la plus grande base de données publique des vidéos IR thermiques des visages. Sur cette base d’images, notre méthode atteint des performances de reconnaissance assez bonnes et surpasse de manière significative les méthodes décrites précédemment dans la littérature. L’approche proposée a également montré de très bonnes performances sur des sous-ensembles de cette base de données que nous avons montée nous-mêmes au sein de notre laboratoire. A notre connaissance, il s’agit de l’une des bases de données les plus importantes disponibles à l’heure actuelle tout en présentant certains défis. / Over the course of the last decade, infrared (IR) and particularly thermal IR imaging based face recognition has emerged as a promising complement to conventional, visible spectrum based approaches which continue to struggle when applied in the real world. While inherently insensitive to visible spectrum illumination changes, IR images introduce specific challenges of their own, most notably sensitivity to factors which affect facial heat emission patterns, e.g., emotional state, ambient temperature, etc. In addition, facial expression and pose changes are more difficult to correct in IR images because they are less rich in high frequency details which is an important cue for fitting any deformable model. In this thesis we describe a novel method which addresses these major challenges. Specifically, to normalize for pose and facial expression changes we generate a synthetic frontal image of a face in a canonical, neutral facial expression from an image of the face in an arbitrary pose and facial expression. This is achieved by piecewise affine warping which follows active appearance model (AAM) fitting. This is the first work which explores the use of an AAM on thermal IR images; we propose a pre-processing step which enhances details in thermal images, making AAM convergence faster and more accurate. To overcome the problem of thermal IR image sensitivity to the exact pattern of facial temperature emissions we describe a representation based on reliable anatomical features. In contrast to previous approaches, our representation is not binary; rather, our method accounts for the reliability of the extracted features. This makes the proposed representation much more robust both to pose and scale changes. The effectiveness of the proposed approach is demonstrated on the largest public database of thermal IR images of faces on which it achieves satisfying recognition performance and significantly outperforms previously described methods. The proposed approach has also demonstrated satisfying performance on subsets of the largest video database of the world gathered in our laboratory which will be publicly available free of charge in future. The reader should note that due to the very nature of the feature extraction method in our system (i.e., anatomical based nature of it), we anticipate high robustness of our system to some challenging factors such as the temperature changes. However, we were not able to investigate this in depth due to the limits which exist in gathering realistic databases. Gathering the largest video database considering some challenging factors is one of the other contributions of this research.
232

Deep representation learning for visual place recognition

Ali-bey, Amar 22 March 2024 (has links)
Thèse ou mémoire avec insertion d'articles / La navigation autonome a une longue histoire dans la recherche en robotique et attire de plus en plus l'attention de chercheurs et industriels. Actuellement, les véhicules autonomes dépendent largement du Système de Positionnement Global (GPS) pour la localisation. Toutefois, les lacunes du GPS dans les environnements urbains et souterrains rendent la localisation basée sur la vision une alternative intéressante. Cette dernière peut être réalisée au moyen de la Reconnaissance Visuelle de Lieux (RVL). Sujet qui sera traité en profondeur dans cette thèse. La Reconnaissance Visuelle de Lieu est la méthode par laquelle un système identifie un emplacement représenté dans une image requête en la comparant à une base de données préexistante correspondant à des lieux connus. Les techniques traditionnelles de reconnaissance visuelle reposent souvent sur des descripteurs de caractéristiques locales ou globales élaborés à la main, ce qui présente des difficultés inhérentes qui compliquent leur application à grande échelle. L'avènement des réseaux de neurones profonds a montré un potentiel significatif pour améliorer les capacités des méthodes de RVL. Ces réseaux nécessitent de grands ensembles de données pour l'entraînement et des fonctions de perte spécialisées pour l'apprentissage des paramètres, ouvrant ainsi de nouvelles voies pour la recherche et l'innovation dans ce domaine. Cette thèse propose une étude exhaustive de l'apprentissage profond pour la RVL. Elle se concentre sur trois composantes principales : l'ensemble de données d'entraînement, l'architecture du réseau de neurones et le processus d'apprentissage de paramètres. Tout d'abord, un ensemble de données à grande échelle composé de 560 000 images à travers 67 000 lieux, appelé GSV-Cities, est présenté. Cette base de données permet de relever les défis associés à la supervision faible qui entrave les méthodes existantes, ce qui se traduit par une amélioration des performances et une réduction significative du temps d'entraînement. De plus, l'importance des fonctions de perte issues de l'apprentissage de similarité est illustrée, particulièrement lorsqu'elles sont employées avec les étiquettes de haute précision fournies par GSV-Cities. S'ensuit MixVPR, une architecture d'aggrégation basée entièrement sur les perceptrons multicouches. Cette architecture surpasse les méthodes de RVL les plus avancées, et ce, sur plusieurs benchmarks, tant en termes de performances de reconnaissance qu'en efficacité de calcul. Finalement, une nouvelle technique de formation de batches est présentée. Elle s'appuie sur des descripteurs compacts pour échantillonner efficacement des mini-batches hautement informatifs à chaque itération d'entraînement. Cette méthode maintient un niveau élevé de paires et de triplets informatifs tout au long de la phase d'apprentissage, conduisant à une amélioration significative des performances globales. Collectivement, les contributions apportées par cette thèse contribuent à l'avancement de l'état de l'art en matière de reconnaissance visuelle de lieux, et établissent une base solide pour la recherche et le développement futurs dans ce domaine. / Autonomous navigation has a long history in robotics research and has recently attracted a lot of attention from researchers and industrials. Currently, autonomous vehicles depend largely on the Global Positioning System (GPS) for localization, whose limitations in urban and subterrenean settings make vision-based localization an attractive alternative. This can be done by means of Visual Place Recognition (VPR), which is addressed in depth in this thesis. Visual Place Recognition (VPR) is the method by which a system identifies a location depicted in a query image by comparing it to a pre-existing database of visual information corresponding to known locations. Traditional VPR techniques often rely on hand-crafted local or global feature descriptors, which present inherent challenges that complicate their application in large-scale settings. The emergence of deep neural networks has shown significant promise in advancing VPR methods capabilities. Such networks require extensive datasets for training and specialized loss functions for parameter learnin. This opens new avenues for research and innovation in the field of VPR. First, GSV-Cities, a large-scale dataset comprised of 560,000 images across 67,000 places, is introduced. This dataset alleviates the challenge of weak supervision that constrains current methods, leading to improved performance and significantly reduction in training time. The importance of similarity learning loss functions, especially when paired with the accurate labels of GSV-Cities, is also highlighted. Second, MixVPR, a new aggregation technique is presented. It outperforms existing state-of-the-art VPR methods on multiple benchmarks, not just in terms of accuracy but also in computational efficiency. Lastly, a novel batch formation technique is introduced, which utilizes compact proxy descriptors for the efficient sampling of highly informative mini-batches at each training iteration. This method maintains a high level of informative pairs and triplets throughout the training phase, leading to a substantial improvement in overall performance. Collectively, the contributions of this thesis serve to advance the current state-of-the-art in Visual Place Recognition (VPR), and establish a strong foundation for future research.
233

Intégration de connaissances linguistiques pour la reconnaissance de textes manuscrits en-ligne

Quiniou, Solen 17 December 2007 (has links) (PDF)
L'objectif de ces travaux de thèse est de construire un système de reconnaissance de phrases, en se basant sur un système de reconnaissance de mots existant. Pour cela, deux axes de recherche sont abordés : la segmentation des phrases en mots ainsi que l'intégration de connaissances linguistiques pour prendre en compte le contexte des phrases. Nous avons étudié plusieurs types de modèles de langage statistiques, en comparant leurs impacts respectifs sur les performances du système de reconnaissance. Nous avons également recherché la meilleure stratégie pour les intégrer efficacement dans le système de reconnaissance global. Une des orginalités de cette étude est l'ajout d'une représentation des différentes hypothèses de phrases sous forme d'un réseau de confusion, afin de pouvoir détecter et corriger les erreurs de reconnaissance restantes. L'utilisation des technique présentées permet de réduire de façon importante le nombre d'erreurs de reconnaissance, parmi les mots des phrases.
234

Representations en Scattering pour la Reconaissance

Bruna, Joan 06 February 2013 (has links) (PDF)
Ma thèse étudie le problème de la reconnaissance des objets et des textures. Dans ce cadre, il est nécessaire de construire des représentations de signaux avec des propriétés d'invariance et de stabilité qui ne sont pas satisfaites par des approches linéaires. Les opérateurs de Scattering itèrent des décompositions en ondelettes et rectifications avec des modules complexes. Ces opérateurs définissent une transformée non-linéaire avec des propriétés remarquables ; en particulier, elle est localement invariante par translation et Lipschitz continue par rapport à l'action des difféomorphismes. De plus, les opérateurs de Scattering définissent une représentation des processus stationnaires qui capture les moments d'ordre supérieur, et qui peut être estimée avec faible variance à partir d'un petit nombre de réalisations. Dans cette thèse, nous obtenons des nouvelles propriétés mathématiques de la représentation en scattering, et nous montrons leur efficacité pour la reconnaissance des objets et textures. Grâce à sa continuité Lipschitz par rapport à l'action des difféomorphismes, la transformée en scattering est capable de linéariser les petites déformations. Cette propriété peut être exploitée en pratique avec un classificateur génératif affine, qui nous permet d'obtenir l'état de l'art sur la reconnaissance des chiffres manuscrites. Nous étudions ensuite les représentations en Scattering des textures dans le cadre des images et du son. Nous montrons leur capacité à discriminer des phénomènes non-gaussiens avec des estimateurs à faible variance, ce qui nous permet d'obtenir de l'état de l'art pour la reconnaissance des textures. Finalement, nous nous intéressons aux propriétés du Scattering pour l'analyse multifractale. Nous introduisons une renormalisation des coéfficients en Scattering qui permet d'identifier de façon efficace plusieurs paramètres multifractales; en particulier, nous obtenons une nouvelle caractérisation de l'intermittence à partir des coefficients de Scattering ré-normalisés, qui peuvent s'estimer de façon consistante.
235

Modélisation des environnements dynamiques pour la localisation

Decrouez, Marion 07 May 2013 (has links) (PDF)
Les travaux effectués dans cette thèse s'inscrivent dans les problématiques de modélisation d'environnement pour la localisation par vision monoculaire. Nous nous intéressons tout particulièrement à la modélisation des environnements intérieurs dynamiques. Les environnements intérieurs sont constitués d'une multitude d'objets susceptibles d'être déplacés. Ces déplacements modifient de façon notable la structure et l'apparence de l'environnement et perturbent les méthodes actuelles de localisation par vision. Nous présentons dans ces travaux une nouvelle approche pour la modélisation d'un environnement et son évolution au fil du temps. Dans cette approche, nous définissons la scène explicitement comme une structure statique et un ensemble d'objets dynamiques. L'objet est défini comme une entité rigide qu'un utilisateur peut prendre et déplacer et qui est repérable visuellement. Nous présentons tout d'abord comment détecter et apprendre automatiquement les objets d'un environnement dynamique. Alors que les méthodes actuelles de localisation filtrent les incohérences dues aux modifications de la scène, nous souhaitons analyser ces modifications pour extraire des informations supplémentaires. Sans aucune connaissance a priori, un objet est défini comme une structure rigide ayant un mouvement cohérent par rapport à la structure statique de la scène. En associant deux méthodes de localisation par vision reposant sur des paradigmes différents, nous comparons les multiples passages d'une caméra dans un même environnement. La comparaison permet de détecter des objets ayant bougé entre deux passages. Nous pouvons alors, pour chaque objet détecté, apprendre un modèle géométrique et un modèle d'apparence et retenir les positions occupées par l'objet dans les différentes explorations. D'autre part, à chaque nouveau passage, la connaissance de l'environnement est enrichie en mettant à jour les cartes métrique et topologique de la structure statique de la scène. La découverte d'objet par le mouvement repose en grande partie sur un nouvel algorithme de détection de multiples structures entre deux vues que nous proposons dans ces travaux. Etant donné un ensemble de correspondances entre deux vues similaires, l'algorithme, reposant sur le RANSAC, segmente les structures correspondant aux différentes paramétrisations d'un modèle mathématique. La méthode est appliquée à la détection de multiples homographies pour détecter les plans de la scène et à la détection de multiples matrices fondamentales pour détecter les objets rigides en mouvement. La modélisation de l'environnement que nous proposons est utilisée dans une nouvelle formulation de reconnaissance de lieu prenant en compte la connaissance d'objets dynamiques susceptibles d'être présents dans l'environnement. Le modèle du lieu est constitué de l'apparence de la structure statique observée dans ce lieu. Une base de données d'objets est apprise à partir des précédentes observations de l'environnement avec la méthode de découverte par le mouvement. La méthode proposée permet à la fois de détecter les objets mobiles présents dans le lieu et de rejeter les erreurs de détection dues à la présence de ces objets. L'ensemble des approches proposées sont évaluées sur des données synthétiques et réelles. Des résultats qualitatifs et quantitatifs sont présentés tout au long du mémoire.
236

Combining neural-based approaches and linguistic knowledge for text recognition in multimedia documents / Combinaison d'approches neuronales et de connaissances linguistiques pour la reconnaissance de texte dans les documents multimédias

Elagouni, Khaoula 28 May 2013 (has links)
Les travaux de cette thèse portent sur la reconnaissance des indices textuels dans les images et les vidéos. Dans ce cadre, nous avons conçu des prototypes d'OCR (optical character recognition) capables de reconnaître tant des textes incrustés que des textes de scène acquis n'importe où au sein d'images ou de vidéos. Nous nous sommes intéressée à la définition d'approches robustes à la variabilité des textes et aux conditions d'acquisition. Plus précisément, nous avons proposé deux types de méthodes dédiées à la reconnaissance de texte : - une approche fondée sur une segmentation en caractères qui recherche des séparations non linéaires entre les caractères adaptées à la morphologie de ces derniers ; - deux approches se passant de la segmentation en intégrant un processus de scanning multi-échelles ; la première utilise un modèle de graphe pour reconnaître les textes tandis que la seconde intègre un modèle connexionniste récurrent spécifiquement développé pour gérer les contraintes spatiales entre les caractères.Outre les originalités de chacune des approches, deux contributions supplémentaires de ce travail résident dans la définition d'une reconnaissance de caractères fondée sur un modèle de classification neuronale et l'intégration de certaines connaissances linguistiques permettant de tirer profit du contexte lexical. Les différentes méthodes conçues ont été évaluées sur deux bases de documents : une base de textes incrustés dans des vidéos et une base publique de textes de scène. Les expérimentations ont permis de montrer la robustesse des approches et de comparer leurs performances à celles de l'état de l'art, mettant en évidence leurs avantages et leurs limites. / This thesis focuses on the recognition of textual clues in images and videos. In this context, OCR (optical character recognition) systems, able to recognize caption texts as well as natural scene texts captured anywhere in the environment have been designed. Novel approaches, robust to text variability (differentfonts, colors, sizes, etc.) and acquisition conditions (complex background, non uniform lighting, low resolution, etc.) have been proposed. In particular, two kinds of methods dedicated to text recognition are provided:- A segmentation-based approach that computes nonlinear separations between characters well adapted to the localmorphology of images;- Two segmentation-free approaches that integrate a multi-scale scanning scheme. The first one relies on a graph model, while the second one uses a particular connectionist recurrent model able to handle spatial constraints between characters.In addition to the originalities of each approach, two extra contributions of this work lie in the design of a character recognition method based on a neural classification model and the incorporation of some linguistic knowledge that enables to take into account the lexical context.The proposed OCR systems were tested and evaluated on two datasets: a caption texts video dataset and a natural scene texts dataset (namely the public database ICDAR 2003). Experiments have demonstrated the efficiency of our approaches and have permitted to compare their performances to those of state-of-the-art methods, highlighting their advantages and limits.
237

Deep Neural Networks for Large Vocabulary Handwritten Text Recognition / Réseaux de Neurones Profonds pour la Reconnaissance de Texte Manucrit à Large Vocabulaire

Bluche, Théodore 13 May 2015 (has links)
La transcription automatique du texte dans les documents manuscrits a de nombreuses applications, allant du traitement automatique des documents à leur indexation ou leur compréhension. L'une des approches les plus populaires de nos jours consiste à parcourir l'image d'une ligne de texte avec une fenêtre glissante, de laquelle un certain nombre de caractéristiques sont extraites, et modélisées par des Modèles de Markov Cachés (MMC). Quand ils sont associés à des réseaux de neurones, comme des Perceptrons Multi-Couches (PMC) ou Réseaux de Neurones Récurrents de type Longue Mémoire à Court Terme (RNR-LMCT), et à un modèle de langue, ces modèles produisent de bonnes transcriptions. D'autre part, dans de nombreuses applications d'apprentissage automatique, telles que la reconnaissance de la parole ou d'images, des réseaux de neurones profonds, comportant plusieurs couches cachées, ont récemment permis une réduction significative des taux d'erreur.Dans cette thèse, nous menons une étude poussée de différents aspects de modèles optiques basés sur des réseaux de neurones profonds dans le cadre de systèmes hybrides réseaux de neurones / MMC, dans le but de mieux comprendre et évaluer leur importance relative. Dans un premier temps, nous montrons que des réseaux de neurones profonds apportent des améliorations cohérentes et significatives par rapport à des réseaux ne comportant qu'une ou deux couches cachées, et ce quel que soit le type de réseau étudié, PMC ou RNR, et d'entrée du réseau, caractéristiques ou pixels. Nous montrons également que les réseaux de neurones utilisant les pixels directement ont des performances comparables à ceux utilisant des caractéristiques de plus haut niveau, et que la profondeur des réseaux est un élément important de la réduction de l'écart de performance entre ces deux types d'entrées, confirmant la théorie selon laquelle les réseaux profonds calculent des représentations pertinantes, de complexités croissantes, de leurs entrées, en apprenant les caractéristiques de façon automatique. Malgré la domination flagrante des RNR-LMCT dans les publications récentes en reconnaissance d'écriture manuscrite, nous montrons que des PMCs profonds atteignent des performances comparables. De plus, nous avons évalué plusieurs critères d'entrainement des réseaux. Avec un entrainement discriminant de séquences, nous reportons, pour des systèmes PMC/MMC, des améliorations comparables à celles observées en reconnaissance de la parole. Nous montrons également que la méthode de Classification Temporelle Connexionniste est particulièrement adaptée aux RNRs. Enfin, la technique du dropout a récemment été appliquée aux RNR. Nous avons testé son effet à différentes positions relatives aux connexions récurrentes des RNRs, et nous montrons l'importance du choix de ces positions.Nous avons mené nos expériences sur trois bases de données publiques, qui représentent deux langues (l'anglais et le français), et deux époques, en utilisant plusieurs types d'entrées pour les réseaux de neurones : des caractéristiques prédéfinies, et les simples valeurs de pixels. Nous avons validé notre approche en participant à la compétition HTRtS en 2014, où nous avons obtenu la deuxième place. Les résultats des systèmes présentés dans cette thèse, avec les deux types de réseaux de neurones et d'entrées, sont comparables à l'état de l'art sur les bases Rimes et IAM, et leur combinaison dépasse les meilleurs résultats publiés sur les trois bases considérées. / The automatic transcription of text in handwritten documents has many applications, from automatic document processing, to indexing and document understanding. One of the most popular approaches nowadays consists in scanning the text line image with a sliding window, from which features are extracted, and modeled by Hidden Markov Models (HMMs). Associated with neural networks, such as Multi-Layer Perceptrons (MLPs) or Long Short-Term Memory Recurrent Neural Networks (LSTM-RNNs), and with a language model, these models yield good transcriptions. On the other hand, in many machine learning applications, including speech recognition and computer vision, deep neural networks consisting of several hidden layers recently produced a significant reduction of error rates. In this thesis, we have conducted a thorough study of different aspects of optical models based on deep neural networks in the hybrid neural network / HMM scheme, in order to better understand and evaluate their relative importance. First, we show that deep neural networks produce consistent and significant improvements over networks with one or two hidden layers, independently of the kind of neural network, MLP or RNN, and of input, handcrafted features or pixels. Then, we show that deep neural networks with pixel inputs compete with those using handcrafted features, and that depth plays an important role in the reduction of the performance gap between the two kinds of inputs, supporting the idea that deep neural networks effectively build hierarchical and relevant representations of their inputs, and that features are automatically learnt on the way. Despite the dominance of LSTM-RNNs in the recent literature of handwriting recognition, we show that deep MLPs achieve comparable results. Moreover, we evaluated different training criteria. With sequence-discriminative training, we report similar improvements for MLP/HMMs as those observed in speech recognition. We also show how the Connectionist Temporal Classification framework is especially suited to RNNs. Finally, the novel dropout technique to regularize neural networks was recently applied to LSTM-RNNs. We tested its effect at different positions in LSTM-RNNs, thus extending previous works, and we show that its relative position to the recurrent connections is important. We conducted the experiments on three public databases, representing two languages (English and French) and two epochs, using different kinds of neural network inputs: handcrafted features and pixels. We validated our approach by taking part to the HTRtS contest in 2014. The results of the final systems presented in this thesis, namely MLPs and RNNs, with handcrafted feature or pixel inputs, are comparable to the state-of-the-art on Rimes and IAM. Moreover, the combination of these systems outperformed all published results on the considered databases.
238

La lutte inégale pour la reconnaissance

Thalineau, Alain 27 September 2005 (has links) (PDF)
Mon parcours de recherche a pour point de départ deux constats effectués lors de mes travaux de thèse sur les allocataires du R.M.I.. D'une part, l'attente d'une reconnaissance sociale des chômeurs n'est pas systématiquement une attente de reconnaissance par l'emploi. D'autre part, les moins qualifiés d'entre eux attendent plus une reconnaissance de la part de leurs proches que d'autruis généralisés, une attente qui n'est pas uniquement construite en référence à l'emploi. L'objectif a été désormais de repérer les liens pouvant exister entre ces deux constats et de saisir comment les différentes attentes de reconnaissance des chômeurs sont compatibles ou non avec les façons d'agir des intervenants sociaux.
239

EXTENSION DU MODELE PAR SAC DE MOTS VISUELS POUR LA CLASSIFICATION D'IMAGES

Avila, Sandra 14 June 2013 (has links) (PDF)
L'information visuelle, représentée sous la forme d'images ou de vidéos numériques, est devenue si omniprésente dans le monde numérique d'aujourd'hui, qu'elle ne peut plus être considérée comme un "citoyen de seconde zone", par rapport à l'information textuelle. Néanmoins, contrairement aux documents textuels, les images sont constituées de pixels ne portant pas d'information sémantique directement accessible, ajoutant ainsi une difficulté à la tâche d'interprétation. Dans ce contexte, la classification d'images est devenue une tâche critique. En particulier, l'identification automatique d'objets complexes et de concepts sémantiques dans les images, a suscité de nombreux travaux récents, aussi bien en Recherche d'Information, Vision par Ordinateur, Traitement d'Image qu'en Intelligence Artificielle. Dans cette thèse, nous traitons le problème de la représentation des images. Notre objectif est la détection de concepts à partir d'une analyse du contenu visuel des images et des vidéos. Pour cela, nous introduisons une nouvelle représentation qui enrichit le modèle classique par sacs de mots visuels. S'appuyant sur la quantification de descripteurs locaux, et l'agrégation de ces descripteurs quantifiés en un vecteur de caractéristique unique, le modèle par sacs de mots visuels a émergé comme l'approche la plus efficace pour la classification d'images. Nous proposons BossaNova, une nouvelle représentation d'images permettant de conserver plus d'information lors de l'opération d'agrégation (pooling) en exploitant la distribution des distances entre les descripteurs locaux et les mots visuels. L'évaluation expérimentale sur plusieurs bases de données de classification d'images, telles que ImageCLEF Photo Annotation, MIRFLICKR, PASCAL VOC et 15-Scenes, a montré l'intérêt de Bossanova vis-à-vis des techniques traditionnelles, même sans utiliser de combinaisons complexes de multiples descripteurs locaux.
240

La reconnaissance et l'engagement au travail : examen du rôle modérateur de l'estime de soi

Gavrancic, Ana January 2013 (has links)
Les transformations subies par le monde du travail et la pénurie des talents invitent les organisations à réfléchir en profondeur sur les mécanismes qui permettront de susciter l’engagement chez les employés et de bénéficier des effets corolaires qui y sont associés. La reconnaissance est identifiée comme étant un des leviers d’action potentiels, mais aucune étude sérieuse ne s’est penchée sur le lien entre cette variable et les différentes bases et cibles de l’engagement au travail. Par ailleurs, il semblerait que l’estime de soi joue un rôle dans le lien unissant la reconnaissance et l’engagement au travail, mais son rôle demeure inexploré. La présente étude, de nature transversale, vise à mieux comprendre les liens unissant les sources de reconnaissance et le déséquilibre effort/reconnaissance aux différentes bases et cibles de l’engagement au travail. De surcroît, elle cherche à clarifier l’effet potentiellement modérateur de l’estime de soi dans ces relations. Au total, 305 employés d’un établissement hospitalier ont participé à l’étude. Les résultats obtenus ont permis de constater que la reconnaissance, peu importe sa source, est fortement corrélée à l’engagement au travail affectif et normatif, et plus faiblement à l’engagement de continuité envers les différentes cibles. Pour sa part, le déséquilibre effort/reconnaissance est négativement relié à toutes les combinaisons bases/cibles de l’engagement. L’étude a permis de découvrir que l’estime de soi modère seulement quelques liens, notamment celui entre la reconnaissance provenant de l’organisation et l’engagement affectif envers l’organisation, celui entre les trois sources de reconnaissance et l’engagement de continuité envers l’organisation (sacrifices élevés), celui entre le déséquilibre effort/reconnaissance et l’engagement de continuité envers l’organisation (sacrifices élevés), et enfin celui entre le déséquilibre et l’engagement de continuité envers l’équipe de travail. L’ensemble des résultats obtenus illustrent l’importance de faire appel à la reconnaissance provenant de différentes sources afin de susciter des formes désirables d'engagement chez le personnel, alors que le rôle de l’estime de soi demeure secondaire.

Page generated in 0.0191 seconds