• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 216
  • 150
  • 40
  • Tagged with
  • 409
  • 409
  • 409
  • 287
  • 161
  • 112
  • 110
  • 86
  • 80
  • 78
  • 76
  • 72
  • 72
  • 68
  • 64
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
281

VOCUS a visual attention system for object detection and goal-directed search /

Frintrop, Simone. January 1900 (has links)
Thesis (Ph.D.)--University of Bonn, Germany. / Includes bibliographical references and index.
282

VOCUS : a visual attention system for object detection and goal-directed search /

Frintrop, Simone. January 1900 (has links)
Thesis (Ph.D.)--University of Bonn, Germany. / Includes bibliographical references and index. Also issued online.
283

Estimation de l'échelle absolue par vision passive monofocale et application à la mesure 3D de néoplasies en imagerie coloscopique / Absolute Scale Estimation Using Passive Monofocal Vision and its Application to 3D Measurement of Neoplasias in Colonoscopy

Chadebecq, François 04 November 2015 (has links)
La majorité des dispositifs de métrologie basés vision sont équipés de systèmes optiques stéréo ou de systèmes de mesure externes dits actifs. Les méthodes de reconstruction tridimensionnelle (Structure-from-Motion, Shape-from-Shading) applicables à la vision monoculaire souffrent généralement de l’ambiguïté d’échelle. Cette dernière est inhérente au processus d’acquisition d’images qui implique la perte de l’information de profondeur de la scène. La relation entre la taille des objets et la distance de la prise de vue est équivoque.Cette étude a pour objet l’estimation de l’échelle absolue d’une scène par vision passive monofocale. Elle vise à apporter une solution à l’ambiguïté d’échelle uniquement basée vision, pour un système optique monoculaire dont les paramètres internes sont fixes. Elle se destine plus particulièrement à la mesure des lésions en coloscopie. Cette procédure endoscopique (du grec endom : intérieur et scopie : vision) permet l’exploration et l’intervention au sein du côlon à l’aide d’un dispositif flexible (coloscope) embarquant généralement un système optique monofocal. Dans ce contexte, la taille des néoplasies (excroissances anormales de tissu) constitue un critère diagnostic essentiel. Cette dernière est cependant difficile à évaluer et les erreurs d’estimations visuelles peuvent conduire à la définition d’intervalles de temps de surveillance inappropriés. La nécessité de concevoir un système d’estimation de la taille des lésions coloniques constitue la motivation majeure de cette étude. Nous dressons dans la première partie de ce manuscrit un état de l’art synoptique des différents systèmes de mesure basés vision afin de positionner notre étude dans ce contexte. Nous présentons ensuite le modèle de caméra monofocal ainsi que le modèle de formation d’image qui lui a été associé. Ce dernier est la base essentielle des travaux menés dans le cadre de cette thèse. La seconde partie du manuscrit présente la contribution majeure de notre étude. Nous dressons tout d’abord un état de l’art détaillé des méthodes de reconstruction 3D basées sur l’analyse de l’information de flou optique (DfD (Depth-from-Defocus) et DfF (Depth-from-Defocus)). Ces dernières sont des approches passives permettant, sous certaines contraintes d’asservissement de la caméra, de résoudre l’ambiguïté d’échelle. Elles ont directement inspiré le système de mesure par extraction du point de rupture de netteté présenté dans le chapitre suivant. Nous considérons une vidéo correspondant à un mouvement d’approche du système optique face à une région d’intérêt dont on souhaite estimer les dimensions. Notre système de mesure permet d’extraire le point de rupture nette/flou au sein de cette vidéo. Nous démontrons que, dans le cas d’un système optique monofocale, ce point unique correspond à une profondeur de référence pouvant être calibrée. Notre système est composé de deux modules. Le module BET (Blur EstimatingTracking) permet le suivi et l’estimation conjointe de l’information de mise au point d’une région d’intérêt au sein d’une vidéo. Le module BMF (Blur Model Fitting) permet d’extraire de façon robuste le point de rupture de netteté grâce à l’ajustement d’un modèle de flou optique. Une évaluation de notre système appliqué à l’estimation de la taille des lésions coloniques démontre sa faisabilité. Le dernier chapitre de ce manuscrit est consacré à une perspective d’extension de notre approche par une méthode générative. Nous présentons, sous la forme d’une étude théorique préliminaire, une méthode NRSfM (Non-Rigid Structure-from-Motion) permettant la reconstruction à l’échelle de surfaces déformables. Cette dernière permet l’estimation conjointe de cartes de profondeurs denses ainsi que de l’image de la surface aplanie entièrement mise au point. (...) / Vision-based metrology devices generally embed stereoscopic sensors or active measurement systems. Most of the passive 3D reconstruction techniques (Structure-from-Motion, Shape from-Shading) adapted to monocular vision suffer from scale ambiguity. Because the processing of image acquisition implies the loss of the depth information, there is an ambiguous relationship between the depth of a scene and the size of an imaged object. This study deals with the estimation of the absolute scale of a scene using passive monofocal vision. Monofocal vision describes monocular system for which optical parameters are fixed. Such optical systems are notably embedded within endoscopic systems used in colonoscopy. This minimally invasive technique allows endoscopists to explore the colon cavity and remove neoplasias (abnormal growths of tissue). Their size is an essential diagnostic criterion for estimating their rate of malignancy. However, it is difficult to estimate and erroneous visual estimations lead to neoplasias surveillance intervals being inappropriately assigned. The need to design a neoplasia measurement system is the core motivation for our study. In the first part of this manuscript, we review state-of-the-art vision-based metrology devices to provide context for our system. We then introduce monofocal optical systems and the specific image formation model used in our study. The second part deals with the main contribution of our work. We first review in detail state of the art DfD (Depth-from-Defocus) and DfF (Depth-from-Defocus) approaches. They are passive computer vision techniques that enable us to resolve scale ambiguity. Our core contribution is introduced in the following chapter. We define the Infocus-Breakpoint (IB) that allows us to resolve scale from a regular video. The IB is the lower limit of the optical system’s depth of field. Our system relies on two novel technical modules: Blur-Estimating Tracking (BET) and Blur-Model Fitting (BMF). BET allows us to simultaneously track an area of interest and estimate the optical blur information. BMF allows us to robustly extract the IB by fitting an optical blur model to the blur measurement estimated by the BET module. For the optical system is monofocal, the IB corresponds to a reference depth that can be calibrated. In the last chapter, we evaluate our method and propose a neoplasia measurement system adapted to the constraints in colonoscopy examination. The last part of this manuscript is dedicated to a prospect of extension of our method by a generative approach. We present, as a preliminary study, a new NRSfM (Non-Rigid Structure-from-Motion) method allowing the scaled Euclidean 3D reconstruction of deformable surfaces. This approach is based on the simultaneous estimation of dense depth maps corresponding to a set of deformations as well as the in-focus color map of the flattened surface. We first review state-of-the-art methods for 3D reconstruction of deformable surfaces. We then introduce our new generative model as well as an alternation method allowing us to infer it.
284

Supervised Learning Approaches for Automatic Structuring of Videos / Méthodes d'apprentissage supervisé pour la structuration automatique de vidéos

Potapov, Danila 22 July 2015 (has links)
L'Interprétation automatique de vidéos est un horizon qui demeure difficile a atteindre en utilisant les approches actuelles de vision par ordinateur. Une des principales difficultés est d'aller au-delà des descripteurs visuels actuels (de même que pour les autres modalités, audio, textuelle, etc) pour pouvoir mettre en oeuvre des algorithmes qui permettraient de reconnaitre automatiquement des sections de vidéos, potentiellement longues, dont le contenu appartient à une certaine catégorie définie de manière sémantique. Un exemple d'une telle section de vidéo serait une séquence ou une personne serait en train de pêcher; un autre exemple serait une dispute entre le héros et le méchant dans un film d'action hollywoodien. Dans ce manuscrit, nous présentons plusieurs contributions qui vont dans le sens de cet objectif ambitieux, en nous concentrant sur trois tâches d'analyse de vidéos: le résumé automatique, la classification, la localisation temporelle.Tout d'abord, nous introduisons une approche pour le résumé automatique de vidéos, qui fournit un résumé de courte durée et informatif de vidéos pouvant être très longues, résumé qui est de plus adapté à la catégorie de vidéos considérée. Nous introduisons également une nouvelle base de vidéos pour l'évaluation de méthodes de résumé automatique, appelé MED-Summaries, ou chaque plan est annoté avec un score d'importance, ainsi qu'un ensemble de programmes informatiques pour le calcul des métriques d'évaluation.Deuxièmement, nous introduisons une nouvelle base de films de cinéma annotés, appelée Inria Action Movies, constitué de films d'action hollywoodiens, dont les plans sont annotés suivant des catégories sémantiques non-exclusives, dont la définition est suffisamment large pour couvrir l'ensemble du film. Un exemple de catégorie est "course-poursuite"; un autre exemple est "scène sentimentale". Nous proposons une approche pour localiser les sections de vidéos appartenant à chaque catégorie et apprendre les dépendances temporelles entre les occurrences de chaque catégorie.Troisièmement, nous décrivons les différentes versions du système développé pour la compétition de détection d'événement vidéo TRECVID Multimédia Event Detection, entre 2011 et 2014, en soulignant les composantes du système dont l'auteur du manuscrit était responsable. / Automatic interpretation and understanding of videos still remains at the frontier of computer vision. The core challenge is to lift the expressive power of the current visual features (as well as features from other modalities, such as audio or text) to be able to automatically recognize typical video sections, with low temporal saliency yet high semantic expression. Examples of such long events include video sections where someone is fishing (TRECVID Multimedia Event Detection), or where the hero argues with a villain in a Hollywood action movie (Inria Action Movies). In this manuscript, we present several contributions towards this goal, focusing on three video analysis tasks: summarization, classification, localisation.First, we propose an automatic video summarization method, yielding a short and highly informative video summary of potentially long videos, tailored for specified categories of videos. We also introduce a new dataset for evaluation of video summarization methods, called MED-Summaries, which contains complete importance-scorings annotations of the videos, along with a complete set of evaluation tools.Second, we introduce a new dataset, called Inria Action Movies, consisting of long movies, and annotated with non-exclusive semantic categories (called beat-categories), whose definition is broad enough to cover most of the movie footage. Categories such as "pursuit" or "romance" in action movies are examples of beat-categories. We propose an approach for localizing beat-events based on classifying shots into beat-categories and learning the temporal constraints between shots.Third, we overview the Inria event classification system developed within the TRECVID Multimedia Event Detection competition and highlight the contributions made during the work on this thesis from 2011 to 2014.
285

Le mouvement en action : estimation du flot optique et localisation d'actions dans les vidéos / Motion in action : optical flow estimation and action localization in videos

Weinzaepfel, Philippe 23 September 2016 (has links)
Avec la récente et importante croissance des contenus vidéos, la compréhension automatique de vidéos est devenue un problème majeur.Ce mémoire présente plusieurs contributions sur deux tâches de la compréhension automatique de vidéos : l'estimation du flot optique et la localisation d'actions humaines.L'estimation du flot optique consiste à calculer le déplacement de chaque pixel d'une vidéo et fait face à plusieurs défis tels que les grands déplacements non rigides, les occlusions et les discontinuités du mouvement.Nous proposons tout d'abord une méthode pour le calcul du flot optique, basée sur un modèle variationnel qui incorpore une nouvelle méthode d'appariement.L'algorithme d'appariement proposé repose sur une architecture corrélationnelle hiérarchique à plusieurs niveaux et gère les déformations non rigides ainsi que les textures répétitives.Il permet d'améliorer l'estimation du flot en présence de changements d'apparence significatifs et de grands déplacements.Nous présentons également une nouvelle approche pour l'estimation du flot optique basée sur une interpolation dense de correspondances clairsemées tout en respectant les contours.Cette méthode tire profit d'une distance géodésique basée sur les contours qui permet de respecter les discontinuités du mouvement et de gérer les occlusions.En outre, nous proposons une approche d'apprentissage pour détecter les discontinuités du mouvement.Les motifs de discontinuité du mouvement sont prédits au niveau d'un patch en utilisant des forêts aléatoires structurées.Nous montrons expérimentalement que notre approche surclasse la méthode basique construite sur le gradient du flot tant sur des données synthétiques que sur des vidéos réelles.Nous présentons à cet effet une base de données contenant des vidéos d'utilisateurs.La localisation d'actions humaines consiste à reconnaître les actions présentes dans une vidéo, comme `boire' ou `téléphoner', ainsi que leur étendue temporelle et spatiale.Nous proposons tout d'abord une nouvelle approche basée sur les réseaux de neurones convolutionnels profonds.La méthode passe par l'extraction de tubes dépendants de la classe à détecter, tirant parti des dernières avancées en matière de détection et de suivi.La description des tubes est enrichie par des descripteurs spatio-temporels locaux.La détection temporelle est effectuée à l'aide d'une fenêtre glissante à l'intérieur de chaque tube.Notre approche surclasse l'état de l'art sur des bases de données difficiles de localisation d'actions.Deuxièmement, nous présentons une méthode de localisation d'actions faiblement supervisée, c'est-à-dire qui ne nécessite pas l'annotation de boîtes englobantes.Des candidats de localisation d'actions sont calculés en extrayant des tubes autour des humains.Cela est fait en utilisant un détecteur d'humains robuste aux poses inhabituelles et aux occlusions, appris sur une base de données de poses humaines.Un rappel élevé est atteint avec seulement quelques tubes, permettant d'appliquer un apprentissage à plusieurs instances.En outre, nous présentons une nouvelle base de données pour la localisation d'actions humaines.Elle surmonte les limitations des bases existantes, telles la diversité et la durée des vidéos.Notre approche faiblement supervisée obtient des résultats proches de celles totalement supervisées alors qu'elle réduit significativement l'effort d'annotations requis. / With the recent overwhelming growth of digital video content, automatic video understanding has become an increasingly important issue.This thesis introduces several contributions on two automatic video understanding tasks: optical flow estimation and human action localization.Optical flow estimation consists in computing the displacement of every pixel in a video andfaces several challenges including large non-rigid displacements, occlusions and motion boundaries.We first introduce an optical flow approach based on a variational model that incorporates a new matching method.The proposed matching algorithm is built upon a hierarchical multi-layer correlational architecture and effectively handles non-rigid deformations and repetitive textures.It improves the flow estimation in the presence of significant appearance changes and large displacements.We also introduce a novel scheme for estimating optical flow based on a sparse-to-dense interpolation of matches while respecting edges.This method leverages an edge-aware geodesic distance tailored to respect motion boundaries and to handle occlusions.Furthermore, we propose a learning-based approach for detecting motion boundaries.Motion boundary patterns are predicted at the patch level using structured random forests.We experimentally show that our approach outperforms the flow gradient baseline on both synthetic data and real-world videos,including an introduced dataset with consumer videos.Human action localization consists in recognizing the actions that occur in a video, such as `drinking' or `phoning', as well as their temporal and spatial extent.We first propose a novel approach based on Deep Convolutional Neural Network.The method extracts class-specific tubes leveraging recent advances in detection and tracking.Tube description is enhanced by spatio-temporal local features.Temporal detection is performed using a sliding window scheme inside each tube.Our approach outperforms the state of the art on challenging action localization benchmarks.Second, we introduce a weakly-supervised action localization method, ie, which does not require bounding box annotation.Action proposals are computed by extracting tubes around the humans.This is performed using a human detector robust to unusual poses and occlusions, which is learned on a human pose benchmark.A high recall is reached with only several human tubes, allowing to effectively apply Multiple Instance Learning.Furthermore, we introduce a new dataset for human action localization.It overcomes the limitations of existing benchmarks, such as the diversity and the duration of the videos.Our weakly-supervised approach obtains results close to fully-supervised ones while significantly reducing the required amount of annotations.
286

Image-based deformable 3D reconstruction using differential geometry and cartan's connections / Reconstruction 3D déformable basée sur l'image utilisant la géométrie différentielle et les connexions de cartan

Parashar, Shaifali 23 November 2017 (has links)
La reconstruction 3D d’objets à partir de plusieurs images est un objectif important de la vision par ordinateur. Elle a été largement étudiée pour les objets rigides et non rigides (ou déformables). Le Structure-from-Motion (SfM) est un algorithme qui effectue la reconstruction 3D d’objets rigides en utilisant le mouvement visuel entre plusieurs images obtenues à l’aide d’une caméra en mouvement. Le SfM est une solution très précise et stable. La reconstruction 3D déformable a été largement étudiée pour les images monoculaires (obtenues à partir d’une seule caméra) mais reste un problème ouvert. Les méthodes actuelles exploitent des indices visuels tels que le mouvement visuel inter-image et l’ombrage afin de construire un algorithme de reconstruction. Cette thèse se concentre sur l’utilisation du mouvement visuel inter-image pour résoudre ce problème. Deux types de scénarios existent dans la littérature : 1) le Non-Rigid Structure-from-Motion (NRSfM) et 2) le Shape-from-Template (SfT). L’objectif du NRSfM est de reconstruire plusieurs formes d’un objet déformable tel qu’il apparaît dans plusieurs images, alors que le SfT (également appelé reconstruction à partir d’un modèle de référence) utilise une seule image d’un objet déformé et son modèle 3D de référence (une forme 3D texturée de l’objet dans une configuration) pour estimer la forme déformée de l’objet. (...) / Reconstructing the 3D shape of objects from multiple images is an important goal in computer vision and has been extensively studied for both rigid and non-rigid (or deformable) objects. Structure-from-Motion (SfM) is an algorithm that performs the 3D reconstruction of rigid objects using the inter-image visual motion from multiple images obtained from a moving camera. SfM is a very accurate and stable solution. Deformable 3D reconstruction, however, has been widely studied for monocular images (obtained from a single camera) and still remains an open research problem. The current methods exploit visual cues such as the inter-image visual motion and shading in order to formalise a reconstruction algorithm. This thesis focuses on the use of the inter-image visual motion for solving this problem. Two types of scenarios exist in the literature: 1) Non-Rigid Structure-from-Motion (NRSfM) and 2) Shape-from-Template (SfT). The goal of NRSfM is to reconstruct multiple shapes of a deformable object as viewed in multiple images while SfT (also referred to as template-based reconstruction) uses a single image of a deformed object and its 3D template (a textured 3D shape of the object in one configuration) to recover the deformed shape of the object. We propose an NRSfM method to reconstruct the deformable surfaces undergoing isometric deformations (the objects do not stretch or shrink under an isometric deformation) using Riemannian geometry. This allows NRSfM to be expressed in terms of Partial Differential Equations (PDE) and to be solved algebraically. We show that the problem has linear complexity and the reconstruction algorithm has a very low computational cost compared to existing NRSfM methods. This work motivated us to use differential geometry and Cartan’s theory of connections to model NRSfM, which led to the possibility of extending the solution to deformations other than isometry. In fact, this led to a unified theoretical framework for modelling and solving both NRSfM and SfT for various types of deformations. In addition, it also makes it possible to have a solution to SfT which does not require an explicit modelling of deformation. An important point is that most of the NRSfM and SfT methods reconstruct the thin-shell surface of the object. The reconstruction of the entire volume (the thin-shell surface and the interior) has not been explored yet. We propose the first SfT method that reconstructs the entire volume of a deformable object.
287

Synthèse de modèles de plantes et reconstructions de baies à partir d’images / Analysis and 3D reconstruction of natural objects from images

Guénard, Jérôme 04 October 2013 (has links)
Les plantes sont des éléments essentiels du monde qui nous entoure. Ainsi, si l’on veut créer des environnements virtuels qui soient à la fois agréables et réalistes, un effort doit être fait pour modéliser les plantes. Malgré les immenses progrès en vision par ordinateur pour reconstruire des objets de plus en plus compliqués, les plantes restent difficiles à reconstruire à cause de la complexité de leur topologie. Cette thèse se divise en deux grandes parties. La première partie s’intéresse à la modélisation de plantes, biologiquement réalistes, à partir d’une seule image. Nous générons un modèle de plante respectant les contraintes biologiques de son espèce et tel que sa projection soit la plus fidèle possible à l’image. La première étape consiste à extraire de l’image le squelette de la plante. Dans la plupart de nos images, aucune branche n’est visible et les images peuvent être de qualité moyenne. Notre première contribution consiste en une méthode de squelettisation basée sur les champs de vecteurs. Le squelette est extrait suite à un partitionnement non déterministe du feuillage de l’image assurant son réalisme. Dans un deuxième temps, la plante est modélisée en 3D. Notre deuxième contribution est la création de modèles pour différents types de plantes, basée sur les L-systèmes. Puis, un processus d’analyse-par-synthèse permet de choisir le modèle 3D final : plusieurs propositions de squelette sont générées et un processus bayésien permet d’extraire le modèle maximisant le critère a posteriori. Le terme d’attache aux données (vraisemblance) mesure la similarité entre l’image et la reprojection du modèle, la probabilité a priori mesure le réalisme du modèle. Après avoir généré des modèles de plantes, des modèles de fruits doivent être créés. Ayant travaillé principalement sur les pieds de vigne, nous avons développé une méthode pour reconstruire une grappe de raisin à partir d’au moins deux vues. Chaque baie est assimilée à un ellipsoïde de révolution. La méthode obtenue peut être plus généralement adaptée à tout type de fruits assimilables à une quadrique de révolution. La seconde partie de cette thèse s’intéresse à la reconstruction de quadriques de révolution à partir d’une ou plusieurs vues. La reconstruction de quadriques et, en général, la reconstruction de surfaces 3D est un problème très ancien en vision par ordinateur qui a donné lieu à de nombreux travaux. Nous rappelons les notions nécessaires de géométrie projective des quadriques, et de vision par ordinateur puis, nous présentons un état de l’art sur les méthodes existantes sur la reconstruction de surfaces quadratiques. Nous détaillons un premier algorithme permettant de retrouver les images des foyers principaux d’une quadrique de révolution à partir d’une vue « calibrée », c’est-à-dire pour laquelle les paramètres intrinsèques de la caméra sont connus. Puis, nous détaillons comment utiliser ce résultat pour reconstruire, à partir d’un schéma de triangulation linéaire, tout type de quadriques de révolution à partir d’au moins deux vues. Enfin, nous montrons comment il est possible de retrouver la pose 3D d’une quadrique de révolution dont on connaît les paramètres à partir d’un seul contour occultant. Nous évaluons les performances de nos méthodes et montrons quelques applications possibles. / Plants are essential elements of our world. Thus, 3D plant models are necessary to create realistic virtual environments. Mature computer vision techniques allow the reconstruction of 3D objects from images. However, due to the complexity of the topology of plants, dedicated methods for generating 3D plant models must be devised. This thesis is divided into two parts. The first part focuses on the modeling of biologically realistic plants from a single image. We propose to generate a 3D model of a plant, using an analysis-by-synthesis method considering both a priori information of the plant species and a single image. First, a dedicated 2D skeletonisation algorithm generates possible branching structures from the foliage segmentation. Then, we built a 3D generative model based on a parametric model of branching systems taking into account botanical knowledge. The resulting skeleton follows the hierarchical organisation of natural branching structures. Varying parameter values of the generative model (main branching structure of the plant and foliage), we produce a series of candidate models. A Bayesian model optimizes a posterior criterion which is composed of a likelihood function which measures the similarity between the image and the reprojected 3D model and a prior probability measuring the realism of the model. After modeling plant models branching systems and foliage, we propose to model the fruits. As we mainly worked on vines, we propose a method for reconstructing a vine grape from at least two views. Each bay is considered to be an ellipsoid of revolution. The resulting method can be adapted to any type of fruits with a shape similar to a quadric of revolution. The second part of this thesis focuses on the reconstruction of quadrics of revolution from one or several views. Reconstruction of quadrics, and in general, 3D surface reconstruction is a very classical problem in computer vision. First, we recall the necessary background in projective geometry quadrics and computer vision and present existing methods for the reconstruction of quadrics or more generally quadratic surfaces. A first algorithm identifies the images of the principal foci of a quadric of revolution from a "calibrated" view (that is, the intrinsic parameters of the camera are given). Then we show how to use this result to reconstruct, from a linear triangulation scheme, any type of quadrics of revolution from at least two views. Finally, we show that we can derive the 3D pose of a given quadric of revolution from a single occluding contour. We evaluate the performance of our methods and show some possible applications.
288

SEEPROC : un modèle de processeur à chemin de données reconfigurable pour le traitement d'images embarqué / SEEPROC : a reconfigurable data path processor model for embedded image processing

Roudel, Nicolas 18 April 2012 (has links)
Les travaux présentés dans ce manuscrit proposent une architecture de processeur à chemin de données reconfigurable (PCDR) dédiée aux traitements d'images bas niveau. Afin de répondre aux exigences de ce domaine de traitements, le processeur, baptisé SeeProc et basé sur une architecture RISC, intègre dans son chemin de données des unités de calcul spécifiquement dédiées au traitement de données pixeliques sous forme matricielle. Ces unités peuvent être configurées en nombre et en fonctionnalité en fonction de l'application visée. La topologie d'interconnexion du chemin de données est assurée dynamiquement via un dispositif de type crossbar. De plus, pour rendre la programmation de SeeProc accessible à des utilisateurs n'ayant pas de notions d'électronique numérique, un langage assembleur dédié et une méthodologie d'optimisation ont été développés. / The work presented in this manuscript suggest an architecture of a reconfigurable datapath processor (RDP) dedicated to low-level image processing. To meet the requirements of this field, the processor, called SeeProc and based on a RISC architecture, includes in its datapath customs processing elements specifically dedicated to the computation of image data in matrix form. These units can be configured in number and functionality depending on the application. The datapath interconnection topology is provided dynamically using a crossbar device. In addition, to make the programming accessible to users with no knowledge of electronics digital, a dedicated assembly language and an optimization methodology have been developed.
289

A walk through randomness for face analysis in unconstrained environments / Etude des méthodes aléatoires pour l'analyse de visage en environnement non contraint

Dapogny, Arnaud 01 December 2016 (has links)
L'analyse automatique des expressions faciales est une étape clef pour le développement d'interfaces intelligentes ou l'analyse de comportements. Toutefois, celle-ci est rendue difficile par un grand nombre de facteurs, pouvant être d'ordre morphologiques, liés à l'orientation du visage ou à la présence d'occultations. Nous proposons des adaptations des Random Forest permettant d' adresser ces problématiques:- Le développement des Pairwise Conditional Random Forest, consistant en l'apprentissage de modèles à partir de paires d'images expressives. Les arbres sont de plus conditionnés par rapport à l'expression de la première image afin de réduire la variabilité des transitions. De plus, il est possible de conditionner les arbres en rapport avec une estimation de la pose du visage afin de permettre la reconnaissance quel que soit le point de vue considéré.- L'utilisation de réseaux de neurones auto-associatifs pour modéliser localement l'apparence du visage. Ces réseaux fournissent une mesure de confiance qui peut être utilisée dans le but de pondérer des Random Forests définies sur des sous-espaces locaux du visage. Ce faisant, il est possible de fournir une prédiction d'expression robuste aux occultations partielles du visage.- Des améliorations du récemment proposé algorithme des Neural Decision Forests, lesquelles consistent en une procédure d'apprentissage simplifiée, ainsi qu'en une évaluation "greedy" permettant une évaluation plus rapide, avec des applications liées à l'apprentissage en ligne de représentations profondes pour la reconnaissance des expressions, ainsi que l'alignement de points caractéristiques. / Automatic face analysis is a key to the development of intelligent human-computer interaction systems and behavior understanding. However, there exist a number of factors that makes face analysis a difficult problem. This include morphological differences between different persons, head pose variations as well as the possibility of partial occlusions. In this PhD, we propose a number of adaptations of the so-called Random Forest algorithm to specifically adress those problems. Mainly, those improvements consist in:– The development of a Pairwise Conditional Random Forest framework, that consists in training Random Forests upon pairs of expressive images. Pairwise trees are conditionned on the expression label of the first frame of a pair to reduce the ongoing expression transition variability. Additionnally, trees can be conditionned upon a head pose estimate to peform facial expression recognition from an arbitrary viewpoint.– The design of a hierarchical autoencoder network to model the local face texture patterns. The reconstruction error of this network provides a confidence measurement that can be used to weight Randomized decision trees trained on spatially-defined local subspace of the face. Thus, we can provide an expression prediction that is robust to partial occlusions.– Improvements over the very recent Neural Decision Forests framework, that include both a simplified training procedure as well as a new greedy evaluation procedure, that allows to dramatically improve the evaluation runtime, with applications for online learning and, deep learning convolutional neural network-based features for facial expression recognition as well as feature point alignement.
290

Classification d'images et localisation d'objets par des méthodes de type noyau de Fisher / Fisher kernel based models for image classification and object localization

Cinbis, Ramazan Gokberk 22 July 2014 (has links)
Dans cette thèse, nous proposons des modèles et des méthodes dédiés à des taches de compréhension de l'image. En particulier, nous nous penchons sur des approches de type noyau de Fisher pour la classification d'images et la localisation d'objets. Nos études se répartissent en trois chapitres. En premier lieu, nous proposons de nouveaux descripteurs d'images construits sur des modèles non-iid de l'image. Notre point de départ est l'observation que les régions locales d'une image sont souvent supposées indépendentes et identiquement distribuées (iid) dans les modèles de type sacs-de-mots (SdM). Nous introduisons des modèles non-iid en traitant les paramètres du SdM comme des variables latentes, ce qui rend interdépendantes toutes les régions locales. En utilisant le noyau de Fisher, nous encodons une image par le gradient de sa log-vraisemblance par rapport aux hyper-paramètres du modèle. Notre représentation implique naturellement une invariance à certaines transformations, ce qui explique pourquoi de telles approches ont été courronnées de succès. En utilisant l'inférence variationnelle, nous étendons le modèle de base pour inclure un mélange de gaussiennes sur les descripteurs locaux, et un modèle latent de sujets pour capturer la structure co-occurente des mots visuels. Dans un second temps, nous présentons un système de détection d'objet reposant sur la représentation haute-dimension d'images par le vecteur de Fisher. Pour des raisons de complexité en temps et en espace, nous utilisons une méthode récente à base de segmentation pour engendrer des hypothèses de détection indépendantes des classes, ainsi que des techniques de compression. Notre principale contribution est une méthode pour produire des masques de segmentation potentiels, afin de supprimer le bruit du descripteur dû à l'arrière plan. Nous montrons que repondérer les descripteurs locaux de l'image en fonction de ces masques améliore significativement la performance en détection. Troisièmement, nous proposons une approche semi-supervisée pour la localisation d'objets. L'entrainement supervisé usuel de détecteurs d'objets nécessite l'annotation de boites englobantes des instances de ces objets. Ce processus coûteux est évité en apprentissage semi-supervisé, lequel ne nécessite que des étiquettes binaires indiquant la présence ou l'absence des objets. Nous suivons une approche d'apprentissage à instance multiple en alterne itérativement entre entrainer un détecteur et inférer les positions des objets. Notre contribution principale est une procédure multi-état d'apprentissage à instance multiple, qui évite à l'apprentissage de se focaliser prématurément sur des positions d'objets erronnées. Nous montrons que cette procédure est particulièrement importante lorsque des représentations haute-dimensions comme le vecteur de Fisher sont utilisées. Pour finir, nous présentons dans l'appendice de cette thèse notre travail sur l'identification de personnes dans des vidéos télévision non-contrôlées. Nous montrons qu'une distance adaptée au casting peut être apprise sans étiqueter d'exemple d'apprentissage, mais en utilisant des paires de visages au sein d'un même chemin et sur plusieurs chemins se chevauchant temporellement. Nous montrons que la métrique apprise améliore l'identification de chemins de visages, la reconnaissance et les performances en regroupement. / In this dissertation, we propose models and methods targeting image understanding tasks. In particular, we focus on Fisher kernel based approaches for the image classification and object localization problems. We group our studies into the following three main chapters. First, we propose novel image descriptors based on non-i.i.d. image models. Our starting point is the observation that local image regions are implicitly assumed to be identically and independently distributed (i.i.d.) in the bag-of-words (BoW) model. We introduce non-i.i.d. models by treating the parameters of the BoW model as latent variables, which renders all local regions dependent. Using the Fisher kernel framework we encode an image by the gradient of the data log-likelihood with respect to model hyper-parameters. Our representation naturally involves discounting transformations, providing an explanation of why such transformations have proven successful. Using variational inference we extend the basic model to include Gaussian mixtures over local descriptors, and latent topic models to capture the co-occurrence structure of visual words. Second, we present an object detection system based on the high-dimensional Fisher vectors image representation. For computational and storage efficiency, we use a recent segmentation-based method to generate class-independent object detection hypotheses, in combination with data compression techniques. Our main contribution is a method to produce tentative object segmentation masks to suppress background clutter in the features. We show that re-weighting the local image features based on these masks improve object detection performance significantly. Third, we propose a weakly supervised object localization approach. Standard supervised training of object detectors requires bounding box annotations of object instances. This time-consuming annotation process is sidestepped in weakly supervised learning, which requires only binary class labels that indicate the absence/presence of object instances. We follow a multiple-instance learning approach that iteratively trains the detector and infers the object locations. Our main contribution is a multi-fold multiple instance learning procedure, which prevents training from prematurely locking onto erroneous object locations. We show that this procedure is particularly important when high-dimensional representations, such as the Fisher vectors, are used. Finally, in the appendix of the thesis, we present our work on person identification in uncontrolled TV videos. We show that cast-specific distance metrics can be learned without labeling any training examples by utilizing face pairs within tracks and across temporally-overlapping tracks. We show that the obtained metrics improve face-track identification, recognition and clustering performances.

Page generated in 0.1226 seconds