1 |
Exploiting scene context for on-line object tracking in unconstrained environments / Exploitation du contexte de scène pour le suivi d’objet en ligne dans des environnements non contraintsMoujtahid, Salma 03 November 2016 (has links)
Avec le besoin grandissant pour des modèles d’analyse automatiques de vidéos, le suivi visuel d’objets est devenu une tache primordiale dans le domaine de la vision par ordinateur. Un algorithme de suivi dans un environnement non contraint fait face à de nombreuses difficultés: changements potentiels de la forme de l’objet, du fond, de la luminosité, du mouvement de la camera, et autres. Dans cette configuration, les méthodes classiques de soustraction de fond ne sont pas adaptées, on a besoin de méthodes de détection d’objet plus discriminantes. De plus, la nature de l’objet est a priori inconnue dans les méthodes de tracking génériques. Ainsi, les modèles d’apparence d’objets appris off-ligne ne peuvent être utilisés. L’évolution récente d’algorithmes d’apprentissage robustes a permis le développement de nouvelles méthodes de tracking qui apprennent l’apparence de l’objet de manière en ligne et s’adaptent aux variables contraintes en temps réel. Dans cette thèse, nous démarrons par l’observation que différents algorithmes de suivi ont différentes forces et faiblesses selon l’environnement et le contexte. Afin de surmonter les variables contraintes, nous démontrons que combiner plusieurs modalités et algorithmes peut améliorer considérablement la performance du suivi global dans les environnements non contraints. Plus concrètement, nous introduisant dans un premier temps un nouveau framework de sélection de trackers utilisant un critère de cohérence spatio-temporel. Dans ce framework, plusieurs trackers indépendants sont combinés de manière parallèle, chacun d’entre eux utilisant des features bas niveau basée sur différents aspects visuels complémentaires tel que la couleur, la texture. En sélectionnant de manière récurrente le tracker le plus adaptée à chaque trame, le système global peut switcher rapidement entre les différents tracker selon les changements dans la vidéo. Dans la seconde contribution de la thèse, le contexte de scène est utilisé dans le mécanisme de sélection de tracker. Nous avons conçu des features visuelles, extrait de l’image afin de caractériser les différentes conditions et variations de scène. Un classifieur (réseau de neurones) est appris grâce à ces features de scène dans le but de prédire à chaque instant le tracker qui performera le mieux sous les conditions de scènes données. Ce framework a été étendu et amélioré d’avantage en changeant les trackers individuels et optimisant l’apprentissage. Finalement, nous avons commencé à explorer une perspective intéressante où, au lieu d’utiliser des features conçu manuellement, nous avons utilisé un réseau de neurones convolutif dans le but d’apprendre automatiquement à extraire ces features de scène directement à partir de l’image d’entrée et prédire le tracker le plus adapté. Les méthodes proposées ont été évaluées sur plusieurs benchmarks publiques, et ont démontré que l’utilisation du contexte de scène améliore la performance globale du suivi d’objet. / With the increasing need for automated video analysis, visual object tracking became an important task in computer vision. Object tracking is used in a wide range of applications such as surveillance, human-computer interaction, medical imaging or vehicle navigation. A tracking algorithm in unconstrained environments faces multiple challenges : potential changes in object shape and background, lighting, camera motion, and other adverse acquisition conditions. In this setting, classic methods of background subtraction are inadequate, and more discriminative methods of object detection are needed. Moreover, in generic tracking algorithms, the nature of the object is not known a priori. Thus, off-line learned appearance models for specific types of objects such as faces, or pedestrians can not be used. Further, the recent evolution of powerful machine learning techniques enabled the development of new tracking methods that learn the object appearance in an online manner and adapt to the varying constraints in real time, leading to very robust tracking algorithms that can operate in non-stationary environments to some extent. In this thesis, we start from the observation that different tracking algorithms have different strengths and weaknesses depending on the context. To overcome the varying challenges, we show that combining multiple modalities and tracking algorithms can considerably improve the overall tracking performance in unconstrained environments. More concretely, we first introduced a new tracker selection framework using a spatial and temporal coherence criterion. In this algorithm, multiple independent trackers are combined in a parallel manner, each of them using low-level features based on different complementary visual aspects like colour, texture and shape. By recurrently selecting the most suitable tracker, the overall system can switch rapidly between different tracking algorithms with specific appearance models depending on the changes in the video. In the second contribution, the scene context is introduced to the tracker selection. We designed effective visual features, extracted from the scene context to characterise the different image conditions and variations. At each point in time, a classifier is trained based on these features to predict the tracker that will perform best under the given scene conditions. We further improved this context-based framework and proposed an extended version, where the individual trackers are changed and the classifier training is optimised. Finally, we started exploring one interesting perspective that is the use of a Convolutional Neural Network to automatically learn to extract these scene features directly from the input image and predict the most suitable tracker.
|
2 |
Adéquation algorithme-architecture pour les réseaux de neurones à convolution : application à l'analyse de visages embarquée / Algorithm-architecture matching for convolutional neural network : application to embedded facial analysisMamalet, Franck 06 July 2011 (has links)
La prolifération des capteurs d'images dans de nombreux appareils électroniques, et l'évolution des capacités de traitements à proximité de ces capteurs ouvrent un champ d'exploration pour l'implantation et l'optimisation d'algorithmes complexes de traitement d'images afin de proposer des systèmes de vision artificielle embarquée. Ces travaux s'inscrivent dans la problématique dite d'adéquation algorithme-architecture (A3). Ils portent sur une classe d'algorithmes appelée réseau de neurones à convolutions (ConvNet) et ses applications en analyse de visages embarquée. La chaîne d'analyse de visages, introduite par Garcia et al., a été choisie d'une part pour ses performances en taux de détection/reconnaissance au niveau de l'état de l'art, et d'autre part pour son caractère homogène reposant sur des ConvNets. La première contribution de ces travaux porte sur une étude d'adéquation de cette chaîne d'analyse de visages aux processeurs embarqués. Nous proposons plusieurs adaptations algorithmiques des ConvNets, et montrons que celles-ci permettent d'obtenir des facteurs d'accélération importants (jusqu'à 700) sur un processeur embarqué pour mobile, sans dégradation des performances en taux de détection/reconnaissance. Nous présentons ensuite une étude des capacités de parallélisation des ConvNets, au travers des travaux de thèse de N. Farrugia. Une exploration "gros-grain" du parallélisme des ConvNets, suivie d'une étude de l'ordonnancement interne des processeurs élémentaires, conduisent à une architecture parallèle paramétrable, capable de détecter des visages à plus de 10 images VGA par seconde sur FPGA. Nous proposons enfin une extension de ces études à la phase d'apprentissage de ces réseaux de neurones. Nous étudions des restrictions de l'espace des hypothèses d'apprentissage, et montrons, sur un cas d'application, que les capacités d'apprentissage des ConvNets ne sont pas dégradées, et que le temps d'apprentissage peut être réduit jusqu'à un facteur cinq. / Proliferation of image sensors in many electronic devices, and increasing processing capabilities of such sensors, open a field of exploration for the implementation and optimization of complex image processing algorithms in order to provide embedded vision systems. This work is a contribution in the research domain of algorithm-architecture matching. It focuses on a class of algorithms called convolution neural network (ConvNet) and its applications in embedded facial analysis. The facial analysis framework, introduced by Garcia et al., was chosen for its state of the art performances in detection/recognition, and also for its homogeneity based on ConvNets. The first contribution of this work deals with an adequacy study of this facial analysis framework with embedded processors. We propose several algorithmic adaptations of ConvNets, and show that they can lead to significant speedup factors (up to 700) on an embedded processor for mobile phone, without performance degradation. We then present a study of ConvNets parallelization capabilities, through N. Farrugia's PhD work. A coarse-grain parallelism exploration of ConvNets, followed by study of internal scheduling of elementary processors, lead to a parameterized parallel architecture on FPGA, able to detect faces at more than 10 VGA frames per second. Finally, we propose an extension of these studies to the learning phase of neural networks. We analyze several hypothesis space restrictions for ConvNets, and show, on a case study, that classification rate performances are almost the same with a training time divided by up to five.
|
Page generated in 0.0247 seconds