Global ETD Search

301	Analyse des personnes dans les films stéréoscopiques / Person analysis in stereoscopic movies Seguin, Guillaume 29 April 2016 (has links) Les humains sont au coeur de nombreux problèmes de vision par ordinateur, tels que les systèmes de surveillance ou les voitures sans pilote. Ils sont également au centre de la plupart des contenus visuels, pouvant amener à des jeux de données très larges pour l’entraînement de modèles et d’algorithmes. Par ailleurs, si les données stéréoscopiques font l’objet d’études depuis longtemps, ce n’est que récemment que les films 3D sont devenus un succès commercial. Dans cette thèse, nous étudions comment exploiter les données additionnelles issues des films 3D pour les tâches d’analyse des personnes. Nous explorons tout d’abord comment extraire une notion de profondeur à partir des films stéréoscopiques, sous la forme de cartes de disparité. Nous évaluons ensuite à quel point les méthodes de détection de personne et d’estimation de posture peuvent bénéficier de ces informations supplémentaires. En s’appuyant sur la relative facilité de la tâche de détection de personne dans les films 3D, nous développons une méthode pour collecter automatiquement des exemples de personnes dans les films 3D afin d’entraîner un détecteur de personne pour les films non 3D. Nous nous concentrons ensuite sur la segmentation de plusieurs personnes dans les vidéos. Nous proposons tout d’abord une méthode pour segmenter plusieurs personnes dans les films 3D en combinant des informations dérivées des cartes de profondeur avec des informations dérivées d’estimations de posture. Nous formulons ce problème comme un problème d’étiquetage de graphe multi-étiquettes, et notre méthode intègre un modèle des occlusions pour produire une segmentation multi-instance par plan. Après avoir montré l’efficacité et les limitations de cette méthode, nous proposons un second modèle, qui ne repose lui que sur des détections de personne à travers la vidéo, et pas sur des estimations de posture. Nous formulons ce problème comme la minimisation d’un coût quadratique sous contraintes linéaires. Ces contraintes encodent les informations de localisation fournies par les détections de personne. Cette méthode ne nécessite pas d’information de posture ou des cartes de disparité, mais peut facilement intégrer ces signaux supplémentaires. Elle peut également être utilisée pour d’autres classes d’objets. Nous évaluons tous ces aspects et démontrons la performance de cette nouvelle méthode. / People are at the center of many computer vision tasks, such as surveillance systems or self-driving cars. They are also at the center of most visual contents, potentially providing very large datasets for training models and algorithms. While stereoscopic data has been studied for long, it is only recently that feature-length stereoscopic ("3D") movies became widely available. In this thesis, we study how we can exploit the additional information provided by 3D movies for person analysis. We first explore how to extract a notion of depth from stereo movies in the form of disparity maps. We then evaluate how person detection and human pose estimation methods perform on such data. Leveraging the relative ease of the person detection task in 3D movies, we develop a method to automatically harvest examples of persons in 3D movies and train a person detector for standard color movies. We then focus on the task of segmenting multiple people in videos. We first propose a method to segment multiple people in 3D videos by combining cues derived from pose estimates with ones derived from disparity maps. We formulate the segmentation problem as a multi-label Conditional Random Field problem, and our method integrates an occlusion model to produce a layered, multi-instance segmentation. After showing the effectiveness of this approach as well as its limitations, we propose a second model which only relies on tracks of person detections and not on pose estimates. We formulate our problem as a convex optimization one, with the minimization of a quadratic cost under linear equality or inequality constraints. These constraints weakly encode the localization information provided by person detections. This method does not explicitly require pose estimates or disparity maps but can integrate these additional cues. Our method can also be used for segmenting instances of other object classes from videos. We evaluate all these aspects and demonstrate the superior performance of this new method. Vision par ordinateur Films 3D Détection de personne Estimation de pose Segmentation vidéo Segmentation multi-instance Computer vision 3D movies Person detection Pose estimation Video segmentation Instance-level segmentation 004
302	Learning representations for robust audio-visual scene analysis / Apprentissage de représentations pour l'analyse robuste de scènes audiovisuelles Parekh, Sanjeel 18 March 2019 (has links) L'objectif de cette thèse est de concevoir des algorithmes qui permettent la détection robuste d’objets et d’événements dans des vidéos en s’appuyant sur une analyse conjointe de données audio et visuelle. Ceci est inspiré par la capacité remarquable des humains à intégrer les caractéristiques auditives et visuelles pour améliorer leur compréhension de scénarios bruités. À cette fin, nous nous appuyons sur deux types d'associations naturelles entre les modalités d'enregistrements audiovisuels (réalisés à l'aide d'un seul microphone et d'une seule caméra), à savoir la corrélation mouvement/audio et la co-occurrence apparence/audio. Dans le premier cas, nous utilisons la séparation de sources audio comme application principale et proposons deux nouvelles méthodes dans le cadre classique de la factorisation par matrices non négatives (NMF). L'idée centrale est d'utiliser la corrélation temporelle entre l'audio et le mouvement pour les objets / actions où le mouvement produisant le son est visible. La première méthode proposée met l'accent sur le couplage flexible entre les représentations audio et de mouvement capturant les variations temporelles, tandis que la seconde repose sur la régression intermodale. Nous avons séparé plusieurs mélanges complexes d'instruments à cordes en leurs sources constituantes en utilisant ces approches.Pour identifier et extraire de nombreux objets couramment rencontrés, nous exploitons la co-occurrence apparence/audio dans de grands ensembles de données. Ce mécanisme d'association complémentaire est particulièrement utile pour les objets où les corrélations basées sur le mouvement ne sont ni visibles ni disponibles. Le problème est traité dans un contexte faiblement supervisé dans lequel nous proposons un framework d’apprentissage de représentation pour la classification robuste des événements audiovisuels, la localisation des objets visuels, la détection des événements audio et la séparation de sources.Nous avons testé de manière approfondie les idées proposées sur des ensembles de données publics. Ces expériences permettent de faire un lien avec des phénomènes intuitifs et multimodaux que les humains utilisent dans leur processus de compréhension de scènes audiovisuelles. / The goal of this thesis is to design algorithms that enable robust detection of objectsand events in videos through joint audio-visual analysis. This is motivated by humans’remarkable ability to meaningfully integrate auditory and visual characteristics forperception in noisy scenarios. To this end, we identify two kinds of natural associationsbetween the modalities in recordings made using a single microphone and camera,namely motion-audio correlation and appearance-audio co-occurrence.For the former, we use audio source separation as the primary application andpropose two novel methods within the popular non-negative matrix factorizationframework. The central idea is to utilize the temporal correlation between audio andmotion for objects/actions where the sound-producing motion is visible. The firstproposed method focuses on soft coupling between audio and motion representationscapturing temporal variations, while the second is based on cross-modal regression.We segregate several challenging audio mixtures of string instruments into theirconstituent sources using these approaches.To identify and extract many commonly encountered objects, we leverageappearance–audio co-occurrence in large datasets. This complementary associationmechanism is particularly useful for objects where motion-based correlations are notvisible or available. The problem is dealt with in a weakly-supervised setting whereinwe design a representation learning framework for robust AV event classification,visual object localization, audio event detection and source separation.We extensively test the proposed ideas on publicly available datasets. The experimentsdemonstrate several intuitive multimodal phenomena that humans utilize on aregular basis for robust scene understanding. Apprentissage statistique Traitement du signal audio Vision par ordinateur Analyse en variables latentes Séparation de sources Statistical learning Audio signal processing Computer vision Latent variable analysis Source separation
303	Reconnaissance rapide et précise d'actions humaines à partir de caméras RGB-D. / Fast and accurate human action recognition using RGB-D cameras Ghorbel, Enjie 12 October 2017 (has links) ARécemment, les caméras RGB-D ont été introduites sur le marché et ont permis l’exploration de nouvelles approches de reconnaissance d’actions par l’utilisation de deux modalités autres que les images RGB, à savoir, les images de profondeur et les séquences de squelette. Généralement, ces approches ont été évaluées en termes de taux de reconnaissance. Cette thèse s’intéresse principalement à la reconnaissance rapide d’actions à partir de caméras RGB-D. Le travail a été focalisé sur une amélioration conjointe de la rapidité de calcul et du taux de reconnaissance en vue d’une application temps-réel. Dans un premier temps, nous menons une étude comparative des méthodes existantes de reconnaissance d’actions basées sur des caméras RGB-D en utilisant les deux critères énoncés : le taux de reconnaissance et la rapidité de calcul. Suite aux conclusions résultant de cette étude, nous introduisons un nouveau descripteur de mouvement, à la fois précis et rapide, qui se base sur l’interpolation par splines cubiques de valeurs cinématiques du squelette, appelé Kinematic Spline Curves (KSC). De plus, afin de pallier les effets négatifs engendrés par la variabilité anthropométrique, la variation d’orientation et la variation de vitesse, des méthodes de normalisation spatiale et temporelle rapide ont été proposées. Les expérimentations menées sur quatre bases de données prouvent la précision et la rapidité de ce descripteur. Dans un second temps, un deuxième descripteur appelé Hiearchical Kinematic Coavarince(HKC) est introduit. Ce dernier est proposé dans l’optique de résoudre la question de reconnaissance rapide en ligne. Comme ce descripteur n’appartient pas à un espace euclidien, mais à l’espace des matrices Symétriques semi-Définies Positives (SsDP), nous adaptons les méthodes de classification à noyau par l’introduction d’une distance inspirée de la distance Log-Euclidienne, que nous appelons distance Log-Euclidienne modifiée. Cette extension nous permet d’utiliser des classifieurs adaptés à l’espace de caractéristiques (SPsD).Une étude expérimentale montre l’efficacité de cette méthode non seulement en termes de rapidité de calcul et de précision, mais également en termes de latence observationnelle. Ces conclusions prouvent que cette approche jointe à une méthode de segmentation d’actions pourrait s’avérer adaptée à la reconnaissance en ligne et ouvrent ainsi de nouvelles perspectives pour nos travaux futurs. / The recent availability of RGB-D cameras has renewed the interest of researchers in the topic of human action recognition. More precisely, several action recognition methods have been proposed based on the novel modalities provided by these cameras, namely, depth maps and skeleton sequences. These approaches have been mainly evaluated in terms of recognition accuracy. This thesis aims to study the issue of fast action recognition from RGB-D cameras. It focuses on proposing an action recognition method realizing a trade-off between accuracy and latency for the purpose of applying it in real-time scenarios. As a first step, we propose a comparative study of recent RGB-D based action recognition methods using the two cited criteria: accuracy of recognition and rapidity of execution. Then, oriented by the conclusions stated thanks to this comparative study, we introduce a novel, fast and accurate human action descriptor called Kinematic Spline Curves (KSC).This latter is based on the cubic spline interpolation of kinematic values. Moreover, fast spatialand temporal normalization are proposed in order to overcome anthropometric variability, orientation variation and rate variability. The experiments carried out on four different benchmarks show the effectiveness of this approach in terms of execution time and accuracy. As a second step, another descriptor is introduced, called Hierarchical Kinematic Covariance(HKC). This latter is proposed in order to solve the issue of fast online action recognition. Since this descriptor does not belong to a Euclidean space, but is an element of the space of Symmetric Positive semi-definite (SPsD) matrices, we adapt kernel classification methods by the introduction of a novel distance called Modified Log-Euclidean, which is inspiredfrom Log-Euclidean distance. This extension allows us to use suitable classifiers to the feature space SPsD of matrices. The experiments prove the efficiency of our method, not only in terms of rapidity of calculation and accuracy, but also in terms of observational latency. These conclusions show that this approach combined with an action segmentation method could be appropriate to online recognition, and consequently, opens up new prospects for future works. Reconnaissance de formes Apprentissage automatique Vision par ordinateur Interaction homme-machine Pattern recognition systems Machine learning Computer vision Human-machine systems Human-computer interaction 006.4
304	Video-projected augmented reality : Photometric compensation for static and dynamic concealment / Réalité augmentée vidéoprojetée : compensation photométrique pour l'effacement statique et dynamique Bokaris, Panagiotis-Alexandros 25 November 2016 (has links) Cette thèse développe de nouvelles approches pour l'effacement et la révélation de la présence humaine en utilisant des techniques de réalité augmentée. Elle se concentre sur les systèmes projecteur-caméra (ProCams) et leur application dans les «projections intelligentes», où le contenu virtuel projeté est adapté en fonction de l'environnement. Nous nous appuyons sur les travaux antérieurs sur la compensation photométrique pour projeter sur une surface colorée fixe qui permet au spectateur d'observer la même image telle qu'elle apparaîtrait sur une surface blanche. Malgré les différentes méthodes de compensation des couleurs qui ont été proposées au cours de décennie, la compensation appliquée à monde réel avec des couleurs saturées et vives est encore une question ouverte. L'objectif principal de ce travail est la compensation photométrique sur un objet 3D en mouvement en utilisant un ProCam, ce qui est un scénario considérablement plus difficile. Une nouvelle méthode pour la compensation de couleur à l'aide d'une image d'entrée unique est proposée. Elle consiste à estimer la réflectance spectrale de la surface afin de compenser celle-ci en supposant que les réponses du projecteur sont connues ou mesurées précédemment. Cette méthode a été entièrement développée sur GPU pour permettre une compensation en temps réel. Les méthodes antérieures sur la compensation couleur sont discutées et comparées afin d'évaluer la performance de notre technique. L'étalonnage photométrique et géométrique précis d'un ProCam est essentiel pour une compensation précise. Une nouvelle technique de calibration géométrique entre un capteur de profondeur et un ProCam est présentée dans le but de réaliser la projection sur un objet en mouvement. Une calibration photométrique est décrite pour la transformation des valeurs RGB de la caméra et du projecteur (dépendantes du périphérique) vers l'espace couleur CIE XYZ 1931 (indépendantes du périphérique). Le potentiel artistique des techniques de réalité augmentée proposées est en outre exploré à travers l'installation interactive artistique “Gardien du Temple”. La révélation et l'effacement ont toujours été un terrain d'expérimentation commun aux artistes et aux scientifiques. Cette installation audiovisuelle utilise la réalité augmentée pour effacer la présence d'un poème écrit sur un tapis invitant le spectateur à le révéler. Dans de telles applications, la précision et la robustesse des méthodes utilisées sont cruciales. Cette installation artistique a donc permis de tester et d'évaluer les travaux de cette thèse dans un contexte collaboratif et exigeant. / This thesis develops new approaches for human presence concealment and revelation using augmented reality techniques. It focuses on projector-camera systems (ProCams) and their application in “smart projections”, where the projected virtual content is adapted according to the environment. One previously-studied problem is the photometric compensation for projecting on a colored fixed surface that allows the viewer to observe the same image as it would appear on a white surface. Despite the various methods for color compensation that have been proposed the last decade, compensation on a real-world surface with saturated colors and sharp color boundaries is still an open issue. The main objective of this work is the color compensation on a moving 3D object using a ProCam, which is a dramatically more challenging scenario. A novel method for color compensation using a single input frame is proposed. It consists in estimating the spectral reflectance of the surface in order to compensate for it under the assumption that the projector responses are known or previously measured. This method was fully developed on GPU to enable real-time compensation. Previous methods on color compensation are discussed and compared in order to evaluate the performance of our technique. The accurate photometric and geometric calibration of a ProCam is essential for precise compensation. A new geometric calibration technique between a depth sensor and a ProCam is presented in order to make the projection on a moving object feasible. A photometric calibration is described for the transformation of the device-dependent camera and projector values to the device-independent CIE XYZ 1931 color space. The artistic potential of the proposed augmented reality techniques is further explored through the interactive art installation “Gardien du Temple”. Revelation and concealment has always been a common experimentation ground for both artists and scientists. This audio visual installation uses augmented reality to hide the presence of a written poem on a carpet inviting the spectator to reveal it. In such applications, the accuracy and robust performance of the methods employed is crucial and, thus, it offered a challenging ground for testing and evaluation. Réalité augmentée Vision par ordinateur Traitement d'image Projecteur-Caméra Compensation photométrique ProCam Augmented reality Computer vision Image processing Projector-Camera Photometric compensation ProCam
305	Inpainting de modèles 3D pour la réalité diminuée : "couper/coller" réaliste pour l'aménagement d'intérieur / Inpainting of 3D models applied to the Diminished Reality : realistic "Cut/Paste" for indoor arrangement Fayer, Julien 19 April 2019 (has links) Par opposition à la Réalité Augmentée qui consiste à ajouter des éléments virtuels à un environnement réel, la Réalité Diminuée consiste à supprimer des éléments réels d'un environnement. Le but est d'effectuer un rendu visuel d'une scène 3D où les éléments "effacés" ne sont plus présents : la difficulté consiste à créer une image de sorte que la diminution ne soit pas perceptible par l'utilisateur. Il faut donc venir compléter la scène initialement cachée par ces éléments, en effectuant une opération d'inpainting qui prenne en compte la géométrie de la pièce, sa texture (structurée ou non), et la luminosité ambiante de l'environnement. Par exemple, l’œil humain est sensible à la régularité d'une texture. L'un des objectifs d'Innersense, entreprise spécialisée dans l'aménagement virtuel d’intérieurs, est de développer un produit capable d'enlever des éléments présents dans une pièce d'intérieur. Une fois la suppression virtuelle des meubles existants effectuée , il sera alors possible d'ajouter des meubles virtuels dans l'espace laissé vacant. L'objectif de cette thèse CIFRE est donc de mettre en place un scénario de réalité diminuée pouvant être exécuté sur un système mobile (tablette IOS ou Android) qui génère des images photo-réalistes de la scène diminuée. Pour cela, à partir d’un modèle géométrique de la pièce d'intérieur que l'on veut altérer, nous adaptons et améliorons des procédures d'effacement d'éléments d'une image appelées inpainting dans une image 2D. Ensuite, nous appliquons ces techniques dans le contexte 3D intérieur pour tenir compte de la géométrie de la scène. Enfin, nous analysons la luminosité pour augmenter le réalisme des zones complétées.Dans cette thèse, nous rappelons d'abord les différents travaux académiques et les solutions industrielles existantes. Nous évoquons leurs avantages et leurs limites. Nous abordons ensuite les différentes techniques d'inpainting existantes pour introduire notre première contribution qui propose d'adapter une des méthodes de l’état de l’art pour prendre en compte de la structure du motif de la texture. La problématique de la luminosité est ensuite abordée en proposant un processus qui traite séparément la texture et la variation de la luminosité. Nous présentons ensuite une troisième contribution qui propose un critère de confiance basé sur des considérations radiométriques pour sélectionner une information selon sa qualité dans le processus d'inpainting. Nous proposons une dernière contribution basée sur la complétion de texture de modèles 3D non planaires reconstruits à partir de peu d’images et donc présentant une texture incomplète. Enfin, nous montrons les applications développées grâce à ces travaux dans le contexte des scènes d'intérieur considérées par Innersense / In contrast to Augmented Reality, which consists in adding virtual elements to a real environment,Diminished Reality consists in removing real elements from an environment. The goal is to visuallyrender a 3D scene where the "deleted" elements are no longer present: the difficulty is to createan image so that the processing is not perceptible to the user. It is therefore necessary tocomplete the scene initially hidden by these elements, by performing an inpainting operation thattakes into account the geometry of the part, its texture (structured or not), and the ambientbrightness of the environment. For example, the human eye is sensitive to the regularity of atexture. One of the objectives of Innersense, a company specializing in virtual interior design, is todevelop a product that can remove elements from an interior room. Once the virtual removal ofexisting furniture has been completed, it will then be possible to add virtual furniture in the vacantspace. The objective of this CIFRE thesis is therefore to set up a scenario of diminished realitythat can be executed on a mobile system (IOS or Android tablet) that generates photorealisticimages of the diminished scene. To do this, based on a geometric model of the interior part thatwe want to alter, we adapt and improve procedures for erasing elements of an image calledinpainting in a 2D image. Then, we apply these techniques in the 3D indoor context to take intoaccount the geometry of the scene. Finally, we analyze the brightness to increase the realism ofthe completed areas. In this thesis, we first review the various academic works and existingindustrial solutions. We discuss their advantages and limitations. We then discuss the differentexisting inpainting techniques to introduce our first contribution which proposes to adapt one of thestate of the art methods to take into account the structure of the texture pattern. The problem ofbrightness is then discussed by proposing a process that deals separately with texture andvariation of brightness. We then present a third contribution that proposes a confidence criterionbased on radiometric considerations to select information according to its quality in the inpaintingprocess. We propose a last contribution based on the texture completion of non-planar 3D modelsreconstructed from few images and therefore presenting an incomplete texture. Finally, we showthe applications developed through this work in the context of the interior scenes considered byInnersense. Réalité diminuée Traitement d'images rgb Vision par ordinateur Réalité augmentée Inpainting Diminished reality Rgb images processing Computer vision Augmented reality Inpainting
306	Approche automatique à base de traitement d'images pour l'analyse comportementale de piétons âgés lors de la traversée d'une rue / Automatic image processing based approach for elder pedestrians’ behavior analysis when crossing a street Mansouri, Nabila 08 December 2017 (has links) Le trafic routier est devenu de plus en plus intense. Une telle situation avec le manque de prudence des piétons constituent deux causes majeures de l’augmentation des accidents routiers. En France, 16% des accidents de la route en 2016 impliquent au moins un piéton et chaque année, environ de 800 piétons sont tués dans un accident de la circulation. De plus, la part des plus de 65 ans dans la mortalité piétonne est en hausse de 13% entre 2014 et 2016. Ainsi, par ce projet de thèse nous proposons une approche probabiliste pour inférer le type de comportement (à risque ou sécurisé) des piétons lors de la traversé de la rue. Cette approche se compose de 2 couches principales : Une couche basse, basée sur les techniques de vision par ordinateur, pour la collecte des paramètres des piétons, du trafic et des aménagements urbains et une couche haute, basée sur le Réseau Bayésien (RB), pour l’inférence du type de comportement. Plusieurs contributions et améliorations sont proposées pour la construction d’une telle approche que ce soit au niveau de la couche basse (techniques de détection et de suivi utilisées) ou au niveau de la couche haute (gestion des incertitudes des capteurs de vision et la mise en relation des paramètres hétérogènes et variées). / Road traffic has become more and more intense. Such as situation with thelack of attention of pedestrians are the two major causes of the increase in road accidents. In France, 16% of road accidents in 2016 involve at least one pedestrian and each year about 800 pedestrians are killed in a traffic accident. In addition, the proportion of pedestrian deaths having over 65 years old is up to 13% between 2014 and 2016. In fact, this thesis proposes a probabilistic approach to recognize pedestrians’ behavior (risky or secure) when crossing the street. This approach consists of two main layers: a low layer, based on computer vision techniques, for collecting pedestrian and traffic parameters and a high layer, based on the Bayesian Network, for behavior prediction. Several contributions and improvements are proposed for the construction of such an approach, whether at the level of the low layer (detection and tracking process) or at the level of the upper layer (management of the uncertainties of the vision sensors and the correlation of heterogeneous and varied parameters). Sécurité routière Its Vision par ordinateur Détection Suivi Rb Gestion d’incertitude Road security Its Computer vision Detection Tracking Bn Uncertainty management
307	Vers des modèles synergiques de l’estimation du mouvement en vision biologique et artificielle / Towards synergistic models of motion information processing in biological and artificial vision Medathati, Naga Venkata Kartheek 13 December 2016 (has links) Dans cette thèse, nous avons étudié le problème de l'estimation de mouvement chez les mammifères et nous proposons que passer à l’échelle des modèles ancrés dans la biologie pour les applications du monde réel peut nous donner de nouvelles perspectives en vision biologique. En utilisant un modèle classique qui décrit l'activité des neurones dans les aires corticales V1 et MT du cerveau des primates, nous avons proposé une architecture montante pour l'estimation de mouvement et l’avons évaluée sur des exemples de référence de vision par ordinateur (une première pour ce type de modèles), révélant des lacunes telles que le manque de sélectivité au niveau des frontières de mouvement et l'absence d'association spatiale du champ de vitesses. Pour y remédier, nous avons proposé deux extensions, une stratégie d’intégration modulée par la forme pour minimiser les erreurs aux discontinuités de texture et un schéma de régression pour le décodage. Ces extensions ont amélioré la précision de l'estimation, mais aussi souligné à nouveau le débat sur le rôle des différents types de cellules dans le codage mouvement, par exemple le rôle relatif des cellules “pattern” par rapport aux cellules “component”. Pour comprendre cela, nous avons utilisé un modèle de champs neuronaux représentant une population de cellules MT pour comprendre le rôle des récurrences. Nos résultats montrent qu'une variété de comportements peuvent être reproduits, ils expliquent les changements dynamiques en fonction des stimuli, et nous conduisent à remettre en cause les régimes élevés d'inhibition généralement choisis dans la littérature. / In this thesis, we studied the problem of motion estimation in mammals and propose that scaling up models rooted in biology for real world applications can give us fresh insights into the biological vision. Using a classic model that describes the activity of directionally-selective neurons in V1 and MT areas of macaque brain, we proposed a feedforward V1-MT architecture for motion estimation and benchmarked it on computer vision datasets (first publicly available evaluation for this kind of models), revealing interesting shortcomings such as lack of selectivity at motion boundaries and lack of spatial association of the flow field. To address these, we proposed two extensions, a form modulated pooling strategy to minimize errors at texture boundaries and a regression based decoding scheme. These extensions improved estimation accuracy but also reemphasized the debate about the role of different cell types (characterized by their tuning curves) in encoding motion, for example relative role of pattern cells versus component cells. To understand this, we used a phenomenological neural fields model representative of a population of directionally tuned MT cells to check whether different tuning behaviors could be reproduced by a recurrently interacting population or if we need different types of cells explicitly. Our results indicated that a variety of tuning behavior can be reproduced by a minimal network, explaining dynamical changes in the tuning with change of stimuli leading us to question the high inhibition regimes typically considered by models in the literature. Flux optique Perception du mouvement Dynamique MT Théorie de la bifurcation Optical flow Motion perception MT dynamics Bifurcation theory Neural fields Biologically inspired computer vision
308	Résolution variable et information privilégiée pour la reconnaissance d'images / Varying resolution and privileged information for image recognition Chevalier, Marion 02 December 2016 (has links) La classification des images revêt un intérêt majeur dans de nombreuses tâches de reconnaissance visuelle, en particulier pour la reconnaissance de véhicules au sol via les systèmes aéroportés, où les images traitées sont de faible résolution du fait de la large distance entre le porteur et la scène observée. Durant l'apprentissage, des données complémentaires peuvent être disponibles, qu'il s'agisse de connaissances sur les conditions de prise de vue ou de la version haute-résolution des images. Dans nos travaux, on s'intéresse au problème de la reconnaissance d'images faiblement résolues en prenant en compte des informations complémentaires pendant l'apprentissage. On montre d'abord l'intérêt des réseaux convolutionnels profonds pour la reconnaissance d'images faiblement résolues, en proposant notamment une architecture apprise sur les données. D'autre part, on s'appuie sur le cadre de l'apprentissage avec information privilégiée pour bénéficier des données d'entraînement complémentaires, ici les versions haute-résolution des images. Nous proposons deux méthodes d'intégration de l'information privilégiée dans l'apprentissage des réseaux de neurones. Notre premier modèle s'appuie sur ces données complémentaires pour calculer un niveau de difficulté absolue, attribuant un poids important aux images les plus facilement reconnaissables. Notre deuxième modèle introduit une contrainte de similitude entre les modèles appris sur chaque type de données. On valide expérimentalement nos deux modèles dans plusieurs cas d'application, notamment dans un contexte orienté grain-fin et sur une base de données contenant du bruit d'annotation. / Image classification has a prominent interest in numerous visual recognition tasks, particularly for vehicle recognition in airborne systems, where the images have a low resolution because of the large distance between the system and the observed scene. During the training phase, complementary data such as knowledge on the position of the system or high-resolution images may be available. In our work, we focus on the task of low-resolution image classification while taking into account supplementary information during the training phase. We first show the interest of deep convolutional networks for the low-resolution image recognition, especially by proposing an architecture learned on the targeted data. On the other hand, we rely on the framework of learning using privileged information to benefit from the complementary training data, here the high-resolution versions of the images. We propose two novel methods for integrating privileged information in the learning phase of neural networks. Our first model relies on these complementary data to compute an absolute difficulty level, assigning a large weight to the most easily recognized images. Our second model introduces a similarity constraint between the networks learned on each type of data. We experimentally validate our models on several application cases, especially in a fine-grained oriented context and on a dataset containing annotation noise. Vision par ordinateur Apprentissage automatique Information privilégiée Reconnaissance d'images Faible résolution Computer vision Machine learning Low-resolution 004
309	Weakly supervised learning for visual recognition / Apprentissage faiblement supervisé pour la reconnaissance visuelle Durand, Thibaut 20 September 2017 (has links) Cette thèse s'intéresse au problème de la classification d'images, où l'objectif est de prédire si une catégorie sémantique est présente dans l'image, à partir de son contenu visuel. Pour analyser des images de scènes complexes, il est important d'apprendre des représentations localisées. Pour limiter le coût d'annotation pendant l'apprentissage, nous nous sommes intéressé aux modèles d'apprentissage faiblement supervisé. Dans cette thèse, nous proposons des modèles qui simultanément classifient et localisent les objets, en utilisant uniquement des labels globaux pendant l'apprentissage. L'apprentissage faiblement supervisé permet de réduire le cout d'annotation, mais en contrepartie l'apprentissage est plus difficile. Le problème principal est comment agréger les informations locales (e.g. régions) en une information globale (e.g. image). La contribution principale de cette thèse est la conception de nouvelles fonctions de pooling (agrégation) pour l'apprentissage faiblement supervisé. En particulier, nous proposons une fonction de pooling « max+min », qui unifie de nombreuses fonctions de pooling. Nous décrivons comment utiliser ce pooling dans le framework Latent Structured SVM ainsi que dans des réseaux de neurones convolutifs. Pour résoudre les problèmes d'optimisation, nous présentons plusieurs solveurs, dont certains qui permettent d'optimiser une métrique d'ordonnancement (ranking) comme l'Average Precision. Expérimentalement, nous montrons l'intérêt nos modèles par rapport aux méthodes de l'état de l'art, sur dix bases de données standard de classification d'images, incluant ImageNet. / This thesis studies the problem of classification of images, where the goal is to predict if a semantic category is present in the image, based on its visual content. To analyze complex scenes, it is important to learn localized representations. To limit the cost of annotation during training, we have focused on weakly supervised learning approaches. In this thesis, we propose several models that simultaneously classify and localize objects, using only global labels during training. The weak supervision significantly reduces the cost of full annotation, but it makes learning more challenging. The key issue is how to aggregate local scores - e.g. regions - into global score - e.g. image. The main contribution of this thesis is the design of new pooling functions for weakly supervised learning. In particular, we propose a “max + min” pooling function, which unifies many pooling functions. We describe how to use this pooling in the Latent Structured SVM framework as well as in convolutional networks. To solve the optimization problems, we present several solvers, some of which allow to optimize a ranking metric such as Average Precision. We experimentally show the interest of our models with respect to state-of-the-art methods, on ten standard image classification datasets, including the large-scale dataset ImageNet. Vision par ordinateur Intelligence artificielle Apprentissage profond Apprentissage faiblement supervisé Classification d'images Reconnaissaissance visuelle Computer vision Machine learning Classification of images 006.3
310	Conception d’un algorithme de vision par ordinateur « top-down » dédié à la reconnaissance des sillons corticaux / Design of a top-down computer vision algorithm dedicated to the recognition of cortical sulci Borne, Léonie 01 October 2019 (has links) Les plissements du cortex caractérisent de manière unique chaque être humain. Ils apparaissent pendant le dernier trimestre de grossesse, c’est-à-dire pendant la mise en place de l’architecture cérébrale. Les motifs de ces plis sont impactés par les spécificités de cette architecture propres à chaque individu. Ils pourraient donc dévoiler les signatures de certaines anomalies du développement à l’origine de pathologies psychiatriques. Le laboratoire d’analyse d’images de Neurospin développe depuis 25 ans un programme de recherche visant à mettre en évidence de telles signatures grâce à la conception d’outils de vision par ordinateur dédiés qu’il diffuse à la communauté (http://brainvisa.info).Cette thèse a permis l’émergence d’une nouvelle génération d’outils basés sur des techniques d’apprentissage automatique. Le premier outil proposé classifie automatiquement des motifs locaux de plissements du cortex, un problème qui n’avait jamais été abordé jusqu’ici. Le second outil vise l’étiquetage automatique des sillons corticaux en modélisant des mécanismes de reconnaissance « top-down » nécessaires pour pallier les faiblesses des démarches « bottom-up » développées jusqu’à présent. Ainsi, en plus d'avoir des taux de reconnaissances plus élevés et un temps d’exécution plus court, le nouveau modèle proposé est robuste aux erreurs de sous-segmentation, ce qui est l'une des plus grandes faiblesses de l'ancien système. Pour réaliser ces deux outils, plusieurs algorithmes d'apprentissage automatique ont été implémentés et comparés. Ces algorithmes s'inspirent d'une part des méthodes multi-atlas, en particulier de l'approche par patch, qui sont largement utilisées pour la segmentation anatomique d'images médicales et d'autre part des méthodes d'apprentissage profond qui révolutionnent aujourd'hui le monde de la vision par ordinateur. Les travaux de cette thèse confirment l'incroyable efficacité des techniques d'apprentissage profond pour s'adapter à des problèmes complexes. Cependant, les performances obtenues avec ces techniques sont généralement équivalentes à celles des approches par patch, voire moins bonnes si la base de données d'apprentissage est restreinte. Ce qui fait de l'apprentissage profond un outil particulièrement intéressant en pratique n'est autre que sa rapidité d'exécution, d'autant plus pour l'analyse des bases de données colossales aujourd'hui disponibles. / We are seven billion humans with unique cortical folding patterns. The cortical folding process occurs during the last trimester of pregnancy, during the emergence of cortical architecture. The folding patterns are impacted by architectural features specific to each individual. Hence, they could reveal signatures of abnormal developments that can lead to psychiatric syndroms. For the last 25 years, the image analysis lab of Neurospin has been designing dedicated computer vision tools to tackle the research of such signatures. The resulting tools are distributed to the community (http://brainvisa.info).This thesis has resulted in the emergence of a new generation of tools based on machine learning techniques. The first proposed tool automatically classifies local patterns of cortical folds, a problem that had never been addressed before. The second tool aims at the automatic labeling of cortical sulci by modeling the top-down recognition mechanisms necessary to overcome weaknesses of the current bottom-up systems. Thus, in addition to having higher recognition rates and shorter execution time, the proposed new model is robust to sub-segmentation errors, which is one of the greatest weaknesses of the old system. To realize these two tools, several machine learning algorithms were implemented and compared. These algorithms are inspired on the one hand by multi-atlas methods, in particular the patch approach, which are widely used for the anatomical segmentation of medical images and on the other hand by the deep learning methods that are revolutionizing the world of computer vision. The work of this thesis confirms the incredible effectiveness of deep learning techniques to adapt well to complex problems. However, the performances obtained with these techniques are generally equivalent to those of patch approaches, or even worse if the training database is limited. What makes deep learning a particularly interesting tool in practice is its fast execution, especially for the analysis of the huge databases now available. Sillons corticaux Apprentissage profond Apprentissage par patch Segmentation Reconnaissance de formes Vision par ordinateur Cortical sulci Deep learning Patch learning Segmentation Pattern recognition Computer vision

Search results