Global ETD Search

321	Reconstruction active par projection de lumière non structurée Martin, Nicolas 04 1900 (has links) Cette thèse porte sur la reconstruction active de modèles 3D à l’aide d’une caméra et d’un projecteur. Les méthodes de reconstruction standards utilisent des motifs de lumière codée qui ont leurs forces et leurs faiblesses. Nous introduisons de nouveaux motifs basés sur la lumière non structurée afin de pallier aux manques des méthodes existantes. Les travaux présentés s’articulent autour de trois axes : la robustesse, la précision et finalement la comparaison des patrons de lumière non structurée aux autres méthodes. Les patrons de lumière non structurée se différencient en premier lieu par leur robustesse aux interréflexions et aux discontinuités de profondeur. Ils sont conçus de sorte à homogénéiser la quantité d’illumination indirecte causée par la projection sur des surfaces difficiles. En contrepartie, la mise en correspondance des images projetées et capturées est plus complexe qu’avec les méthodes dites structurées. Une méthode d’appariement probabiliste et efficace est proposée afin de résoudre ce problème. Un autre aspect important des reconstructions basées sur la lumière non structurée est la capacité de retrouver des correspondances sous-pixels, c’est-à-dire à un niveau de précision plus fin que le pixel. Nous présentons une méthode de génération de code de très grande longueur à partir des motifs de lumière non structurée. Ces codes ont l’avantage double de permettre l’extraction de correspondances plus précises tout en requérant l’utilisation de moins d’images. Cette contribution place notre méthode parmi les meilleures au niveau de la précision tout en garantissant une très bonne robustesse. Finalement, la dernière partie de cette thèse s’intéresse à la comparaison des méthodes existantes, en particulier sur la relation entre la quantité d’images projetées et la qualité de la reconstruction. Bien que certaines méthodes nécessitent un nombre constant d’images, d’autres, comme la nôtre, peuvent se contenter d’en utiliser moins aux dépens d’une qualité moindre. Nous proposons une méthode simple pour établir une correspondance optimale pouvant servir de référence à des fins de comparaison. Enfin, nous présentons des méthodes hybrides qui donnent de très bons résultats avec peu d’images. / This thesis deals with active 3D reconstruction from camera-projector systems. Standard reconstruction methods use coded light patterns that come with their strengths and weaknesses. We introduce unstructured light patterns that feature several improvements compared to the current state of the art. The research presented revolves around three main axes : robustness, precision and comparison of existing unstructured light patterns to existing methods. Unstructured light patterns stand out first and foremost by their robustness to interreflections and depth discontinuities. They are specifically designed to homogenize the indirect lighting generated by their projection on hard to scan surfaces. The downside of these patterns is that matching projected and captured images is not straightforward anymore. A probabilistic correspondence method is formulated to solve this problem efficiently. Another important aspect of reconstruction obtained with unstructured light pat- terns is their ability to recover subpixel correspondences, that is with a precision finer than the pixel level. We present a method to produce long codes using unstructured light. These codes enable us to extract more precise correspondences while requiring less patterns. This contribution makes our method one of the most accurate - yet robust to standard challenges - method of active reconstruction in the domain. Finally, the last part of this thesis adresses the comparison of existing reconstruction methods on several aspects, but mainly on the impact of using less and less patterns on the quality of the reconstruction. While some methods need a fixed number of images, some, like ours, can accommodate fewer patterns in exchange for some quality loss. We devise a simple method to capture an optimal correspondence map that can be used as a groundtruth for comparison purposes. Last, we present several hybrid methods that perform quite well even with few images. Vision 3D Vision par ordinateur Reconstruction active Lumière codée Lumière structurée Lumière non structurée Projecteur Caméra 3D Vision Computer vision Active reconstruction Coded light Structured light Unstructured light Projector Camera
322	Vidéosurveillance intelligente pour la détection de chutes chez les personnes âgées Rougier, Caroline 03 1900 (has links) Les pays industrialisés comme le Canada doivent faire face au vieillissement de leur population. En particulier, la majorité des personnes âgées, vivant à domicile et souvent seules, font face à des situations à risques telles que des chutes. Dans ce contexte, la vidéosurveillance est une solution innovante qui peut leur permettre de vivre normalement dans un environnement sécurisé. L’idée serait de placer un réseau de caméras dans l’appartement de la personne pour détecter automatiquement une chute. En cas de problème, un message pourrait être envoyé suivant l’urgence aux secours ou à la famille via une connexion internet sécurisée. Pour un système bas coût, nous avons limité le nombre de caméras à une seule par pièce ce qui nous a poussé à explorer les méthodes monoculaires de détection de chutes. Nous avons d’abord exploré le problème d’un point de vue 2D (image) en nous intéressant aux changements importants de la silhouette de la personne lors d’une chute. Les données d’activités normales d’une personne âgée ont été modélisées par un mélange de gaussiennes nous permettant de détecter tout événement anormal. Notre méthode a été validée à l’aide d’une vidéothèque de chutes simulées et d’activités normales réalistes. Cependant, une information 3D telle que la localisation de la personne par rapport à son environnement peut être très intéressante pour un système d’analyse de comportement. Bien qu’il soit préférable d’utiliser un système multi-caméras pour obtenir une information 3D, nous avons prouvé qu’avec une seule caméra calibrée, il était possible de localiser une personne dans son environnement grâce à sa tête. Concrêtement, la tête de la personne, modélisée par une ellipsoide, est suivie dans la séquence d’images à l’aide d’un ﬁltre à particules. La précision de la localisation 3D de la tête a été évaluée avec une bibliothèque de séquence vidéos contenant les vraies localisations 3D obtenues par un système de capture de mouvement (Motion Capture). Un exemple d’application utilisant la trajectoire 3D de la tête est proposée dans le cadre de la détection de chutes. En conclusion, un système de vidéosurveillance pour la détection de chutes avec une seule caméra par pièce est parfaitement envisageable. Pour réduire au maximum les risques de fausses alarmes, une méthode hybride combinant des informations 2D et 3D pourrait être envisagée. / Developed countries like Canada have to adapt to a growing population of seniors. A majority of seniors reside in private homes and most of them live alone, which can be dangerous in case of a fall, particularly if the person cannot call for help. Video surveillance is a new and promising solution for healthcare systems to ensure the safety of elderly people at home. Concretely, a camera network would be placed in the apartment of the person in order to automatically detect a fall. When a fall is detected, a message would be sent to the emergency center or to the family through a secure Internet connection. For a low cost system, we must limit the number of cameras to only one per room, which leads us to explore monocular methods for fall detection. We ﬁrst studied 2D information (images) by analyzing the shape deformation during a fall. Normal activities of an elderly person were used to train a Gaussian Mixture Model (GMM) to detect any abnormal event. Our method was tested with a realistic video data set of simulated falls and normal activities. However, 3D information like the spatial localization of a person in a room can be very useful for action recognition. Although a multi-camera system is usually preferable to acquire 3D information, we have demonstrated that, with only one calibrated camera, it is possible to localize a person in his/her environment using the person’s head. Concretely, the head, modeled by a 3D ellipsoid, was tracked in the video sequence using particle ﬁlters. The precision of the 3D head localization was evaluated with a video data set containing the real 3D head localizations obtained with a Motion Capture system. An application example using the 3D head trajectory for fall detection is also proposed. In conclusion, we have conﬁrmed that a video surveillance system for fall detection with only one camera per room is feasible. To reduce the risk of false alarms, a hybrid method combining 2D and 3D information could be considered. Vision par ordinateur Computer vision Vidéo surveillance Videosurveillance Détection de chutes Fall detection Détection de mouvement Motion detection Suivi d’une cible Tracking Analyse de forme Shape analysis Localisation 3D 3D localization
323	Le cinéma omnistéréo ou l'art d'avoir des yeux tout le tour de la tête Chapdelaine-Couture, Vincent 12 1900 (has links) Cette thèse s'intéresse à des aspects du tournage, de la projection et de la perception du cinéma stéréo panoramique, appelé aussi cinéma omnistéréo. Elle s'inscrit en grande partie dans le domaine de la vision par ordinateur, mais elle touche aussi aux domaines de l'infographie et de la perception visuelle humaine. Le cinéma omnistéréo projette sur des écrans immersifs des vidéos qui fournissent de l'information sur la profondeur de la scène tout autour des spectateurs. Ce type de cinéma comporte des défis liés notamment au tournage de vidéos omnistéréo de scènes dynamiques, à la projection polarisée sur écrans très réfléchissants rendant difficile l'estimation de leur forme par reconstruction active, aux distorsions introduites par l'omnistéréo pouvant fausser la perception des profondeurs de la scène. Notre thèse a tenté de relever ces défis en apportant trois contributions majeures. Premièrement, nous avons développé la toute première méthode de création de vidéos omnistéréo par assemblage d'images pour des mouvements stochastiques et localisés. Nous avons mis au point une expérience psychophysique qui montre l'efficacité de la méthode pour des scènes sans structure isolée, comme des courants d'eau. Nous proposons aussi une méthode de tournage qui ajoute à ces vidéos des mouvements moins contraints, comme ceux d'acteurs. Deuxièmement, nous avons introduit de nouveaux motifs lumineux qui permettent à une caméra et un projecteur de retrouver la forme d'objets susceptibles de produire des interréflexions. Ces motifs sont assez généraux pour reconstruire non seulement les écrans omnistéréo, mais aussi des objets très complexes qui comportent des discontinuités de profondeur du point de vue de la caméra. Troisièmement, nous avons montré que les distorsions omnistéréo sont négligeables pour un spectateur placé au centre d'un écran cylindrique, puisqu'elles se situent à la périphérie du champ visuel où l'acuité devient moins précise. / This thesis deals with aspects of shooting, projection and perception of stereo panoramic cinema, also called omnistereo cinema. It falls largely in the field of computer vision, but it also in the areas of computer graphics and human visual perception. Omnistereo cinema uses immersive screens to project videos that provide depth information of a scene all around the spectators. Many challenges remain in omnistereo cinema, in particular shooting omnistereo videos for dynamic scenes, polarized projection on highly reflective screens making difficult the process to recover their shape by active reconstruction, and perception of depth distortions introduced by omnistereo images. Our thesis addressed these challenges by making three major contributions. First, we developed the first mosaicing method of omnistereo videos for stochastic and localized motions. We developed a psychophysical experiment that shows the effectiveness of the method for scenes without isolated structure, such as water flows. We also propose a shooting method that adds to these videos foreground motions that are not as constrained, like a moving actor. Second, we introduced new light patterns that allow a camera and a projector to recover the shape of objects likely to produce interreflections. These patterns are general enough to not only recover the shape of omnistereo screens, but also very complex objects that have depth discontinuities from the viewpoint of the camera. Third, we showed that omnistereo distortions are negligible for a viewer located at the center of a cylindrical screen, as they are in the periphery of the visual field where the human visual system becomes less accurate. cinéma cinema omnistéréo omnistereo immersion immersion panoramique panoramic stéréo stereo vision par ordinateur computer vision perception visuelle visual perception reconstruction active active reconstruction expérience psychophysique psychophysic experiment
324	Fusion de données visuo-inertielles pour l'estimation de pose et l'autocalibrage / Visuo-inertial data fusion for pose estimation and self-calibration Scandaroli, Glauco Garcia 14 June 2013 (has links) Les systèmes multi-capteurs exploitent les complémentarités des différentes sources sensorielles. Par exemple, le capteur visuo-inertiel permet d’estimer la pose à haute fréquence et avec une grande précision. Les méthodes de vision mesurent la pose à basse fréquence mais limitent la dérive causée par l’intégration des données inertielles. Les centrales inertielles mesurent des incréments du déplacement à haute fréquence, ce que permet d’initialiser la vision et de compenser la perte momentanée de celle-ci. Cette thèse analyse deux aspects du problème. Premièrement, nous étudions les méthodes visuelles directes pour l’estimation de pose, et proposons une nouvelle technique basée sur la corrélation entre des images et la pondération des régions et des pixels, avec une optimisation inspirée de la méthode de Newton. Notre technique estime la pose même en présence des changements d’illumination extrêmes. Deuxièmement, nous étudions la fusion des données a partir de la théorie de la commande. Nos résultats principaux concernent le développement d’observateurs pour l’estimation de pose, biais IMU et l’autocalibrage. Nous analysons la dynamique de rotation d’un point de vue non linéaire, et fournissons des observateurs stables dans le groupe des matrices de rotation. Par ailleurs, nous analysons la dynamique de translation en tant que système linéaire variant dans le temps, et proposons des conditions d’observabilité uniforme. Les analyses d’observabilité nous permettent de démontrer la stabilité uniforme des observateurs proposés. La méthode visuelle et les observateurs sont testés et comparés aux méthodes classiques avec des simulations et de vraies données visuo-inertielles. / Systems with multiple sensors can provide information unavailable from a single source, and complementary sensory characteristics can improve accuracy and robustness to many vulnerabilities as well. Explicit pose measurements are often performed either with high frequency or precision, however visuo-inertial sensors present both features. Vision algorithms accurately measure pose at low frequencies, but limit the drift due to integration of inertial data. Inertial measurement units yield incremental displacements at high frequencies that initialize vision algorithms and compensate for momentary loss of sight. This thesis analyzes two aspects of that problem. First, we survey direct visual tracking methods for pose estimation, and propose a new technique based on the normalized crosscorrelation, region and pixel-wise weighting together with a Newton-like optimization. This method can accurately estimate pose under severe illumination changes. Secondly, we investigate the data fusion problem from a control point of view. Main results consist in novel observers for concurrent estimation of pose, IMU bias and self-calibration. We analyze the rotational dynamics using tools from nonlinear control, and provide stable observers on the group of rotation matrices. Additionally, we analyze the translational dynamics using tools from linear time-varying systems, and propose sufficient conditions for uniform observability. The observability analyses allow us to prove uniform stability of the observers proposed. The proposed visual method and nonlinear observers are tested and compared to classical methods using several simulations and experiments with real visuo-inertial data. Estimation d'état Observateurs d'état Observabilité Fonctions de Lyapunov Estimation de pose Calibrage caméra-centrale inertielle Vision par ordinateur State estimation State observers Observability Lyapunov functions Pose estimation Camera-IMU calibration Computer vision
325	Estimation de la vitesse des courants marins à partir de séquences d'images satellitaires / Oceanic currents estimation from satellite image sequences Beyou, Sébastien 12 July 2013 (has links) Cette thèse étudie des méthodes d'assimilation de données par filtrage particulaire à l'estimation d'écoulements fluides observés au travers de séquences d'images. Nous nous appuyons sur un filtre particulaire spécifique dont la distribution de proposition est donnée par un filtre de Kalman d'ensemble, nommé filtre de Kalman d'ensemble pondéré. Deux variations à celui-ci sont introduites et étudiées. La première consiste à utiliser un bruit dynamique (permettant de modéliser l'incertitude du modèle et de séparer les particules entre elles) dont la forme spatiale suit une loi de puissance, cohérente avec la théorie phénoménologique de la turbulence. La deuxième variation repose sur un schéma d'assimilation multi-échelles introduisant un mécanisme de raffinements successifs à partir d'observations à des échelles de plus en plus petites. Ces deux méthodes ont été testées sur des séquences synthétiques et expérimentales d'écoulements 2D incompressibles. Ces résultats montrent un gain important sur l'erreur quadratique moyenne. Elles ont ensuite été testées sur des séquences d'images satellite réelles. Sur les images réelles, une bonne cohérence temporelle est observée, ainsi qu'un bon suivi des structures de vortex. L'assimilation multi-échelles montre un gain visible sur le nombre d'échelles reconstruites. Quelques variations additionnelles sont aussi présentées et testées afin de s'affranchir de problèmes importants rencontrés dans un contexte satellitaire réel. Il s'agit notamment de la prise en compte de données manquantes sur les images de température de surface de l'océan. En dernier lieu, une expérience d'un filtre de Kalman d'ensemble pondéré avec un modèle océanique complet est présentée pour une assimilation de champs de courants de surface en mer d'Iroise, à l'embouchure de la Manche. Quelques autres pistes d'amélioration sont également esquissées et testées. / This thesis studies fluid flows estimation with particle filtering-based assimilation methods imaged using digital cameras. We rely on a specific particle filter, of which the proposal distribution is given by an Ensemble Kalman Filter, namely the Weighted Ensemble Kalman Filter. Two variations of this method are introduced and tested. The first consists in using a dynamical noise (which modelizes the model uncertainty and separates the particles from each others); its spatial form obeys to a power law stemming from the phenomenological theory of the turbulence. The second variation relies on a multiscale assimilation scheme introduicing successive refinements from observations at smaller and smaller scales. These two methods are tested on synthetic and experimental sequences of 2D incompressible flows. Results show an important gain on the Root Mean Square Error. They are then tested on real satellite images. A good temporal coherence and a good tracking of vortex structures are observed on the real images. The multiscale assimilation shows a visible gain on the number of reconstructed scales. Some additional variations are also presented and tested in order to take into account important problems in a real satellite context. The main contribution is the management of missing data areas in the Sea Surface Temperature sequence. Lastly an experiment involving a Weighted Ensemble Kalman Filter with a complete oceanic model is presented for a surface currents fields assimilation in Iroise Sea near the English Channel mouth. Some other improvements are also drawn and tested. Assimilation de données (géophysique) Filtrage de Kalman Dynamique des fluides Vision par ordinateur Méthode de Monte-Carlo Télédétection spatiale Analyse multiéchelles Data assimilation (geophysics) Kalman filtering Fluid dynamics Computer vision Aerospace telemetry Monte Carlo method Multiscale analysis
326	Image processing methods for dynamical intracellular processes analysis in quantitative fluorescence microscopy / Méthodes numériques pour l’analyse de processus intracellulaires dynamiques en microscopie quantitative Roudot, Philippe 22 May 2014 (has links) Nous présentons dans la première partie du document une étude portant sur l'imagerie de temps de vie de fluorescence sur structures dynamiques dans le domaine de fréquence (FD FLIM). Une mesure en FD FLIM est définie par une série d'images présentant une variation d'intensité sinusoïdale. La variation d'un temps de vie se traduit par une variation dans la phase de la sinusoïde décrite par l'intensité. Notre étude comporte deux contributions principales: une modélisation du processus de formation de l'image et du bruit inhérent au système d'acquisition (capteur ICCD) ; une méthode robuste d'estimation du temps vie sur des structures mobiles et des vésicules intracellulaires. Nous présentons ensuite une étude en microscopie de fluorescence portant sur la quantification du transport hétérogène dans un environnement intracellulaire dense. Les transitions entre la diffusion Brownienne dans le cytoplasme et les transports actifs supportés par le cytosquelette sont en effet des scénarios très couramment observés dans des cellules vivantes. Nous montrons que les algorithmes classiques de suivi d'objets nécessaires dans ce contexte, ne sont pas conçus pour détecter les transitions entre ces deux types de mouvement. Nous proposons donc un nouvel algorithme, inspiré de l'algorithme u-track [Jaqaman et al., 2008], qui s'appuie sur plusieurs filtrages de Kalman adaptés à différents types de transport (Brownien, Dirigé ...), indépendamment pour chaque objet suivi. Nous illustrons sur séquences simulées et expérimentales (vimentine, virus) l'aptitude de notre algorithme à détecter des mouvements dirigés rares. / We propose in this manuscript a study of the instrumentation required for the quantification in frequency domain fluorescence lifetime imaging microscopy (FD FLIM). A FD FLIM measurement is defined as a series of images with sinusoidal intensity variations. The fluorescence lifetime is defined as the nanosecond-scale delay between excitation and emission of fluorescence. We propose two main contributions in the area: a modeling of the image process and noise introduced by the acquisition system (ICCD sensor); a robust statistical method for lifetime estimation on moving structures and intracellular vesicles. The second part presents a contribution to the tracking of multiple particles presenting heterogeneous transports in dense conditions. We focus here on the switching between confined diffusion in the cytosol and motor-mediated active transport in random directions. We show that current multiple model filtering and gating strategies fail at estimating unpredictable transitions between Brownian and directed displacements. We propose a new algorithm, based on the u-track algorithm [Jaqaman et al., 2008], based on a set of Kalman filters adapted to several motion types, for each tracked object. The algorithm has been evaluated on simulated and real data (vimentin, virus) data. We show that our method outperforms competing methods in the targeted scenario, but also on more homogeneous types of dynamics challenged by density. Traitement d'images Vision par ordinateur Biologie cellulaire Vidéo-microscopie Fluorescence Temps de vie de fluorescence Suivie automatique de particules Image processing Computer vision Cell biology Time-lapse microscopy Fluorescence Fluorescence lifetime Multiple particle tracking
327	Generic instance segmentation for object-oriented bin-picking / Segmentation en instances génériques pour le dévracage orienté objet Grard, Matthieu 20 May 2019 (has links) Le dévracage robotisé est une tâche industrielle en forte croissance visant à automatiser le déchargement par unité d’une pile d’instances d'objet en vrac pour faciliter des traitements ultérieurs tels que la formation de kits ou l’assemblage de composants. Cependant, le modèle explicite des objets est souvent indisponible dans de nombreux secteurs industriels, notamment alimentaire et automobile, et les instances d'objet peuvent présenter des variations intra-classe, par exemple en raison de déformations élastiques.Les techniques d’estimation de pose, qui nécessitent un modèle explicite et supposent des transformations rigides, ne sont donc pas applicables dans de tels contextes. L'approche alternative consiste à détecter des prises sans notion explicite d’objet, ce qui pénalise fortement le dévracage lorsque l’enchevêtrement des instances est important. Ces approches s’appuient aussi sur une reconstruction multi-vues de la scène, difficile par exemple avec des emballages alimentaires brillants ou transparents, ou réduisant de manière critique le temps de cycle restant dans le cadre d’applications à haute cadence.En collaboration avec Siléane, une entreprise française de robotique industrielle, l’objectif de ce travail est donc de développer une solution par apprentissage pour la localisation des instances les plus prenables d’un vrac à partir d’une seule image, en boucle ouverte, sans modèles d'objet explicites. Dans le contexte du dévracage industriel, notre contribution est double.Premièrement, nous proposons un nouveau réseau pleinement convolutionnel (FCN) pour délinéer les instances et inférer un ordre spatial à leurs frontières. En effet, les méthodes état de l'art pour cette tâche reposent sur deux flux indépendants, respectivement pour les frontières et les occultations, alors que les occultations sont souvent sources de frontières. Plus précisément, l'approche courante, qui consiste à isoler les instances dans des boîtes avant de détecter les frontières et les occultations, se montre inadaptée aux scénarios de dévracage dans la mesure où une région rectangulaire inclut souvent plusieurs instances. A contrario, notre architecture sans détection préalable de régions détecte finement les frontières entre instances, ainsi que le bord occultant correspondant, à partir d'une représentation unifiée de la scène.Deuxièmement, comme les FCNs nécessitent de grands ensembles d'apprentissage qui ne sont pas disponibles dans les applications de dévracage, nous proposons une procédure par simulation pour générer des images d'apprentissage à partir de moteurs physique et de rendu. Plus précisément, des vracs d'instances sont simulés et rendus avec les annotations correspondantes à partir d'ensembles d'images de texture et de maillages auxquels sont appliquées de multiples déformations aléatoires. Nous montrons que les données synthétiques proposées sont vraisemblables pour des applications réelles au sens où elles permettent l'apprentissage de représentations profondes transférables à des données réelles. A travers de nombreuses expériences sur une maquette réelle avec robot, notre réseau entraîné sur données synthétiques surpasse la méthode industrielle de référence, tout en obtenant des performances temps réel. L'approche proposée établit ainsi une nouvelle référence pour le dévracage orienté-objet sans modèle d'objet explicite. / Referred to as robotic random bin-picking, a fast-expanding industrial task consists in robotizing the unloading of many object instances piled up in bulk, one at a time, for further processing such as kitting or part assembling. However, explicit object models are not always available in many bin-picking applications, especially in the food and automotive industries. Furthermore, object instances are often subject to intra-class variations, for example due to elastic deformations.Object pose estimation techniques, which require an explicit model and assume rigid transformations, are therefore not suitable in such contexts. The alternative approach, which consists in detecting grasps without an explicit notion of object, proves hardly efficient when the object geometry makes bulk instances prone to occlusion and entanglement. These approaches also typically rely on a multi-view scene reconstruction that may be unfeasible due to transparent and shiny textures, or that reduces critically the time frame for image processing in high-throughput robotic applications.In collaboration with Siléane, a French company in industrial robotics, we thus aim at developing a learning-based solution for localizing the most affordable instance of a pile from a single image, in open loop, without explicit object models. In the context of industrial bin-picking, our contribution is two-fold.First, we propose a novel fully convolutional network (FCN) for jointly delineating instances and inferring the spatial layout at their boundaries. Indeed, the state-of-the-art methods for such a task rely on two independent streams for boundaries and occlusions respectively, whereas occlusions often cause boundaries. Specifically, the mainstream approach, which consists in isolating instances in boxes before detecting boundaries and occlusions, fails in bin-picking scenarios as a rectangle region often includes several instances. By contrast, our box proposal-free architecture recovers fine instance boundaries, augmented with their occluding side, from a unified scene representation. As a result, the proposed network outperforms the two-stream baselines on synthetic data and public real-world datasets.Second, as FCNs require large training datasets that are not available in bin-picking applications, we propose a simulation-based pipeline for generating training images using physics and rendering engines. Specifically, piles of instances are simulated and rendered with their ground-truth annotations from sets of texture images and meshes to which multiple random deformations are applied. We show that the proposed synthetic data is plausible for real-world applications in the sense that it enables the learning of deep representations transferable to real data. Through extensive experiments on a real-world robotic setup, our synthetically trained network outperforms the industrial baseline while achieving real-time performances. The proposed approach thus establishes a new baseline for model-free object-oriented bin-picking. Vision par ordinateur Dévracage robotisé Apprentissage profond Segmentation en instances Détection des occultations Réseaux entièrement convolutionnels Données d'apprentissage synthétiques Computer vision Robotic bin-picking Deep learning Instance segmentation Occlusion detection Fully convolutional networks Synthetic training data
328	Discriminative image representations using spatial and color information for category-level classification / Représentations discriminantes d'image intégrant information spatiale et couleur pour la classification d'images Khan, Rahat 08 October 2013 (has links) La représentation d'image est au cœur de beaucoup d'algorithmes de vision par ordinateur. Elle intervient notamment dans des tâches de reconnaissance de catégories visuelles comme la classification ou la détection d'objets. Dans ce contexte, la représentation "sac de mot visuel" (Bag of Visual Words ou BoVW en anglais) est l'une des méthodes de référence. Dans cette thèse, nous nous appuyons sur ce modèle pour proposer des représentations d'images discriminantes. Dans la première partie, nous présentons une nouvelle approche simple et efficace pour prendre en compte des informations spatiales dans le modèle BoVW. Son principe est de considérer l'orientation et la longueur de segments formés par des paires de descripteurs similaires. Une notion de "softsimilarité" est introduite pour définir ces relations intra et inter mots visuels. Nous montrons expérimentalement que notre méthode ajoute une information discriminante importante au modèle BoVW et que cette information est complémentaire aux méthodes de l'état de l'art. Ensuite, nous nous focalisons sur la description de l'information couleur. Contrairement aux approches traditionnelles qui s'appuient sur des descriptions invariantes aux changements d'éclairage, nous proposons un descripteur basé sur le pouvoir discriminant. Nos expérimentations permettent de conclure que ce descripteur apprend automatiquement un certain degré d'invariance photométrique tout en surclassant les descripteurs basés sur cette invariance photométrique. De plus, combiné avec un descripteur de forme, le descripteur proposé donne des résultats excellents sur quatre jeux de données particulièrement difficiles. Enfin, nous nous intéressons à la représentation de la couleur à partir de la réflectance multispectrale des surfaces observées, information difficile à extraire sans instruments sophistiqués. Ainsi, nous proposons d'utiliser l'écran et la caméra d'un appareil portable pour capturer des images éclairées par les couleurs primaires de l'écran. Trois éclairages et trois réponses de caméra produisent neuf valeurs pour estimer la réflectance. Les résultats montrent que la précision de la reconstruction spectrale est meilleure que celle estimée avec un seul éclairage. Nous concluons que ce type d'acquisition est possible avec des appareils grand public tels que les tablettes, téléphones ou ordinateurs portables / Image representation is in the heart of many computer vision algorithms. Different computer vision tasks (e.g. classification, detection) require discriminative image representations to recognize visual categories. In a nutshell, the bag-of-visual-words image representation is the most successful approach for object and scene recognition. In this thesis, we mainly revolve around this model and search for discriminative image representations. In the first part, we present a novel approach to incorporate spatial information in the BoVW method. In this framework, we present a simple and efficient way to infuse spatial information by taking advantage of the orientation and length of the segments formed by pairs of similar descriptors. We introduce the notion of soft-similarity to compute intra and inter visual word spatial relationships. We show experimentally that, our method adds important discriminative information to the BoVW method and complementary to the state-of-the-art method. Next, we focus on color description in general. Differing from traditional approaches of invariant description to account for photometric changes, we propose discriminative color descriptor. We demonstrate that such a color description automatically learns a certain degree of photometric invariance. Experiments show that the proposed descriptor outperforms existing photometric invariants. Furthermore, we show that combined with shape descriptor, the proposed color descriptor obtain excellent results on four challenging data sets.Finally, we focus on the most accurate color representation i.e. multispectral reflectance which is an intrinsic property of a surface. Even with the modern era technological advancement, it is difficult to extract reflectance information without sophisticated instruments. To this end, we propose to use the display of the device as an illuminant while the camera captures images illuminated by the red, green and blue primaries of the display. Three illuminants and three response functions of the camera lead to nine response values which are used for reflectance estimation. Results show that the accuracy of the spectral reconstruction improves significantly over the spectral reconstruction based on a single illuminant. We conclude that, multispectral data acquisition is potentially possible with consumer hand-held devices such as tablets, mobiles, and laptops Vision par ordinateur Classification d'images Représentation d'images Sac de mots visuels Descripteur couleur Imagerie multispectrale Informations spatiales Computer vision Image classification Image representation Bag of visual words Color descriptor Multispectral imaging Spatial information
329	Adéquation algorithme-architecture pour les réseaux de neurones à convolution : application à l'analyse de visages embarquée / Algorithm-architecture matching for convolutional neural network : application to embedded facial analysis Mamalet, Franck 06 July 2011 (has links) La prolifération des capteurs d'images dans de nombreux appareils électroniques, et l'évolution des capacités de traitements à proximité de ces capteurs ouvrent un champ d'exploration pour l'implantation et l'optimisation d'algorithmes complexes de traitement d'images afin de proposer des systèmes de vision artificielle embarquée. Ces travaux s'inscrivent dans la problématique dite d'adéquation algorithme-architecture (A3). Ils portent sur une classe d'algorithmes appelée réseau de neurones à convolutions (ConvNet) et ses applications en analyse de visages embarquée. La chaîne d'analyse de visages, introduite par Garcia et al., a été choisie d'une part pour ses performances en taux de détection/reconnaissance au niveau de l'état de l'art, et d'autre part pour son caractère homogène reposant sur des ConvNets. La première contribution de ces travaux porte sur une étude d'adéquation de cette chaîne d'analyse de visages aux processeurs embarqués. Nous proposons plusieurs adaptations algorithmiques des ConvNets, et montrons que celles-ci permettent d'obtenir des facteurs d'accélération importants (jusqu'à 700) sur un processeur embarqué pour mobile, sans dégradation des performances en taux de détection/reconnaissance. Nous présentons ensuite une étude des capacités de parallélisation des ConvNets, au travers des travaux de thèse de N. Farrugia. Une exploration "gros-grain" du parallélisme des ConvNets, suivie d'une étude de l'ordonnancement interne des processeurs élémentaires, conduisent à une architecture parallèle paramétrable, capable de détecter des visages à plus de 10 images VGA par seconde sur FPGA. Nous proposons enfin une extension de ces études à la phase d'apprentissage de ces réseaux de neurones. Nous étudions des restrictions de l'espace des hypothèses d'apprentissage, et montrons, sur un cas d'application, que les capacités d'apprentissage des ConvNets ne sont pas dégradées, et que le temps d'apprentissage peut être réduit jusqu'à un facteur cinq. / Proliferation of image sensors in many electronic devices, and increasing processing capabilities of such sensors, open a field of exploration for the implementation and optimization of complex image processing algorithms in order to provide embedded vision systems. This work is a contribution in the research domain of algorithm-architecture matching. It focuses on a class of algorithms called convolution neural network (ConvNet) and its applications in embedded facial analysis. The facial analysis framework, introduced by Garcia et al., was chosen for its state of the art performances in detection/recognition, and also for its homogeneity based on ConvNets. The first contribution of this work deals with an adequacy study of this facial analysis framework with embedded processors. We propose several algorithmic adaptations of ConvNets, and show that they can lead to significant speedup factors (up to 700) on an embedded processor for mobile phone, without performance degradation. We then present a study of ConvNets parallelization capabilities, through N. Farrugia's PhD work. A coarse-grain parallelism exploration of ConvNets, followed by study of internal scheduling of elementary processors, lead to a parameterized parallel architecture on FPGA, able to detect faces at more than 10 VGA frames per second. Finally, we propose an extension of these studies to the learning phase of neural networks. We analyze several hypothesis space restrictions for ConvNets, and show, on a case study, that classification rate performances are almost the same with a training time divided by up to five. Informatique Vision par ordinateur Analyse de visages Réseaux de neurones à convolution Adéquation algorithme architecture Architecture embarquée Architecture parallèle Apprentissage Computer science Computer vision Facial analysis Convolutional neural netword Alogrithm architecture matching Embedded architecture Parallel architecture Learning 006.370 72
330	Multi-object detection and tracking in video sequences / Détection et suivi multi-objets dans des séquences vidéo Mhalla, Ala 04 April 2018 (has links) Le travail développé dans cette thèse porte sur l'analyse de séquences vidéo. Cette dernière est basée sur 3 taches principales : la détection, la catégorisation et le suivi des objets. Le développement de solutions fiables pour l'analyse de séquences vidéo ouvre de nouveaux horizons pour plusieurs applications telles que les systèmes de transport intelligents, la vidéosurveillance et la robotique. Dans cette thèse, nous avons mis en avant plusieurs contributions pour traiter les problèmes de détection et de suivi d'objets multiples sur des séquences vidéo. Les techniques proposées sont basées sur l’apprentissage profonds et des approches de transfert d'apprentissage. Dans une première contribution, nous abordons le problème de la détection multi-objets en proposant une nouvelle technique de transfert d’apprentissage basé sur le formalisme et la théorie du filtre SMC (Sequential Monte Carlo) afin de spécialiser automatiquement un détecteur de réseau de neurones convolutionnel profond (DCNN) vers une scène cible. Dans une deuxième contribution, nous proposons une nouvelle approche de suivi multi-objets original basé sur des stratégies spatio-temporelles (entrelacement / entrelacement inverse) et un détecteur profond entrelacé, qui améliore les performances des algorithmes de suivi par détection et permet de suivre des objets dans des environnements complexes (occlusion, intersection, fort mouvement). Dans une troisième contribution, nous fournissons un système de surveillance du trafic, qui intègre une extension du technique SMC afin d’améliorer la précision de la détection de jour et de nuit et de spécialiser tout détecteur DCNN pour les caméras fixes et mobiles. Tout au long de ce rapport, nous fournissons des résultats quantitatifs et qualitatifs. Sur plusieurs aspects liés à l’analyse de séquences vidéo, ces travaux surpassent les cadres de détection et de suivi de pointe. En outre, nous avons implémenté avec succès nos infrastructures dans une plate-forme matérielle intégrée pour la surveillance et la sécurité du trafic routier. / The work developed in this PhD thesis is focused on video sequence analysis. Thelatter consists of object detection, categorization and tracking. The development ofreliable solutions for the analysis of video sequences opens new horizons for severalapplications such as intelligent transport systems, video surveillance and robotics.In this thesis, we put forward several contributions to deal with the problems ofdetecting and tracking multi-objects on video sequences. The proposed frameworksare based on deep learning networks and transfer learning approaches.In a first contribution, we tackle the problem of multi-object detection by puttingforward a new transfer learning framework based on the formalism and the theoryof a Sequential Monte Carlo (SMC) filter to automatically specialize a Deep ConvolutionalNeural Network (DCNN) detector towards a target scene. The suggestedspecialization framework is used in order to transfer the knowledge from the sourceand the target domain to the target scene and to estimate the unknown target distributionas a specialized dataset composed of samples from the target domain. Thesesamples are selected according to the importance of their weights which reflectsthe likelihood that they belong to the target distribution. The obtained specializeddataset allows training a specialized DCNN detector to a target scene withouthuman intervention.In a second contribution, we propose an original multi-object tracking frameworkbased on spatio-temporal strategies (interlacing/inverse interlacing) and aninterlaced deep detector, which improves the performances of tracking-by-detectionalgorithms and helps to track objects in complex videos (occlusion, intersection,strong motion).In a third contribution, we provide an embedded system for traffic surveillance,which integrates an extension of the SMC framework so as to improve the detectionaccuracy in both day and night conditions and to specialize any DCNN detector forboth mobile and stationary cameras.Throughout this report, we provide both quantitative and qualitative results.On several aspects related to video sequence analysis, this work outperformsthe state-of-the-art detection and tracking frameworks. In addition, we havesuccessfully implemented our frameworks in an embedded hardware platform forroad traffic safety and monitoring. Intelligence artificielle Vision par ordinateur Transfert d'apprentissage Apprentissage profond Détection multi-objets Spécialisation Suivi par détection Suivi multi-objets Système embarqué Artificial intelligence Computer vision Transfer learning Deep learning Multiobject detection Specialization Tracking-by-detection Multi-object tracking Embedded system

Search results