• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 8
  • 7
  • 1
  • Tagged with
  • 16
  • 16
  • 16
  • 10
  • 5
  • 5
  • 5
  • 5
  • 4
  • 4
  • 4
  • 3
  • 3
  • 3
  • 3
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Robust visual detection and tracking of complex objects : applications to space autonomous rendez-vous and proximity operations / Détection et suivi visuels robustes d'objets complexes : applications au rendezvous spatial autonome

Petit, Antoine 19 December 2013 (has links)
Dans cette thèse nous étudions le fait de localiser complètement un objet connu par vision artificielle, en utilisant une caméra monoculaire, ce qui constitue un problème majeur dans des domaines comme la robotique. Une attention particulière est ici portée sur des applications de robotique spatiale, dans le but de concevoir un système de localisation visuelle pour des opérations de rendez-vous spatial autonome. Deux composantes principales du problème sont abordées: celle de la localisation initiale de l'objet ciblé, puis celle du suivi de cet objet image par image, donnant la pose complète entre la caméra et l'objet, connaissant le modèle 3D de l'objet. Pour la détection, l'estimation de pose est basée sur une segmentation de l'objet en mouvement et sur une procédure probabiliste d'appariement et d'alignement basée contours de vues synthétiques de l'objet avec une séquence d'images initiales. Pour la phase de suivi, l'estimation de pose repose sur un algorithme de suivi basé modèle 3D, pour lequel nous proposons trois différents types de primitives visuelles, dans l'idée de décrire l'objet considéré par ses contours, sa silhouette et par un ensemble de points d'intérêts. L'intégrité du système de localisation est elle évaluée en propageant l'incertitude sur les primitives visuelles. Cette incertitude est par ailleurs utilisée au sein d'un filtre de Kalman linéaire sur les paramètres de vitesse. Des tests qualitatifs et quantitatifs ont été réalisés, sur des données synthétiques et réelles, avec notamment des conditions d'image difficiles, montrant ainsi l'efficacité et les avantages des différentes contributions proposées, et leur conformité avec un contexte de rendez vous spatial. / In this thesis, we address the issue of fully localizing a known object through computer vision, using a monocular camera, what is a central problem in robotics. A particular attention is here paid on space robotics applications, with the aims of providing a unified visual localization system for autonomous navigation purposes for space rendezvous and proximity operations. Two main challenges of the problem are tackled: initially detecting the targeted object and then tracking it frame-by-frame, providing the complete pose between the camera and the object, knowing the 3D CAD model of the object. For detection, the pose estimation process is based on the segmentation of the moving object and on an efficient probabilistic edge-based matching and alignment procedure of a set of synthetic views of the object with a sequence of initial images. For the tracking phase, pose estimation is handled through a 3D model-based tracking algorithm, for which we propose three different types of visual features, pertinently representing the object with its edges, its silhouette and with a set of interest points. The reliability of the localization process is evaluated by propagating the uncertainty from the errors of the visual features. This uncertainty besides feeds a linear Kalman filter on the camera velocity parameters. Qualitative and quantitative experiments have been performed on various synthetic and real data, with challenging imaging conditions, showing the efficiency and the benefits of the different contributions, and their compliance with space rendezvous applications.
2

Détection d’objets en mouvement à l’aide d’une caméra mobile / Moving objects detection with a moving camera

Chapel, Marie-Neige 22 September 2017 (has links)
La détection d'objets mobiles dans des flux vidéo est une étape essentielle pour de nombreux algorithmes de vision par ordinateur. Cette tâche se complexifie lorsque la caméra utilisée est en mouvement. En effet, l'environnement capté par ce type de caméra apparaît en mouvement et il devient plus difficile de distinguer les objets qui effectuent réellement un mouvement de ceux qui constituent la partie statique de la scène. Dans cette thèse, nous apportons des contributions au problème de détection d'objets mobiles dans le flux vidéo d'une caméra mobile. L'idée principale qui nous permet de distinguer les éléments mobiles de ceux qui sont statiques repose sur un calcul de distance dans l'espace 3D. Les positions 3D de caractéristiques extraites des images sont estimées par triangulation puis leurs mouvements 3D sont analysés pour réaliser un étiquetage éparse statique/mobile de ces points. Afin de rendre la détection robuste au bruit, l'analyse des mouvements 3D des caractéristiques est comparée à d'autres points précédemment estimés statiques. Une mesure de confiance, mise à jour au cours du temps, est utilisée pour déterminer l'étiquette à attribuer à chacun des points. Nos contributions ont été appliquées à des jeux de données virtuelles (issus du projet Previz 2) et réelles (reconnus dans la communauté [Och+14]) et les comparaisons ont été réalisées avec l'état de l'art. Les résultats obtenus montrent que la contrainte 3D proposée dans cette thèse, couplée à une analyse statistique et temporelle des mouvements, permet de détecter des éléments mobiles dans le flux vidéo d'une caméra en mouvement et ce même dans des cas complexes où les mouvements apparents de la scène ne sont pas uniformes / Moving objects detection in video streams is a commonly used technique in many computer vision algorithms. The detection becomes more complex when the camera is moving. The environment observed by this type of camera appeared moving and it is more difficult to distinguish the objects which are in movement from the others that composed the static part of the scene. In this thesis we propose contributions for the detection of moving objects in the video stream of a moving camera. The main idea to differenciate between moving and static objects based on 3D distances. 3D positions of feature points extracted from images are estimated by triangulation and then their 3D motions are analyzed in order to provide a sparse static/moving labeling. To provide a more robust detection, the analysis of the 3D motions is compared to those of feature points previously estimated static. A confidance value updated over time is used to decide on labels to attribute to each point.We make experiments on virtual (from the Previz project 1) and real datasets (known by the community [Och+14]) and we compare the results with the state of the art. The results show that our 3D constraint coupled with a statistical and temporal analysis of motions allow to detect moving elements in the video stream of a moving camera even in complex cases where apparent motions of the scene are not similars
3

Analyse automatique de la circulation automobile par vidéosurveillance routière / Automatic traffic analysis in video sequences

Intawong, Kannikar 27 September 2017 (has links)
Cette thèse s’inscrit dans le contexte de l’analyse vidéo du trafic routier. Dans certaines grandes villes, des centaines de caméras produisent de très grandes quantités de données, impossible à manipuler sans traitement automatique. Notre principal objectif est d'aider les opérateurs humains en analysant automatiquement les données vidéo. Pour aider les contrôleurs de la circulation à prendre leurs décisions, il est important de connaître en temps réel, l'état du trafic (nombre de véhicules et vitesse des véhicules sur chaque segment de voie), mais aussi de disposer de statistiques temporelles tout au long de la journée, de la semaine, de la saison ou de l'année. Les caméras ont été déployées depuis longtemps pour le trafic et pour d'autres fins de surveillance, car elles fournissent une source d'information riche pour la compréhension humaine. L'analyse vidéo peut désormais apporter une valeur ajoutée aux caméras en extrayant automatiquement des informations pertinentes. De cette façon, la vision par ordinateur et l'analyse vidéo deviennent de plus en plus importantes pour les systèmes de transport intelligents (intelligent transport systems : ITSs). L’une des problématiques abordées dans cette thèse est liée au comptage automatique de véhicules. Pour être utile, un système de surveillance vidéo doit être entièrement automatique et capable de fournir, en temps réel, l'information qui concerne le comportement de l'objet dans la scène. Nous pouvons obtenir ces renseignements sur la détection et le suivi des objets en mouvement dans les vidéos, ce qui a été un domaine largement étudié. Néanmoins, la plupart des systèmes d'analyse automatique par vidéo ont des difficultés à gérer les situations particulières. Aujourd'hui, il existe de nombreux défis à résoudre tels que les occultations entre les différents objets, les arrêts longs, les changements de luminosité, etc… qui conduisent à des trajectoires incomplètes. Dans la chaîne de traitements que nous proposons, nous nous sommes concentrés sur l'extraction automatique de statistiques globales dans les scènes de vidéosurveillance routière. Notre chaîne de traitements est constituée par les étapes suivantes : premièrement, nous avons évalué différentes techniques de segmentation de vidéos et de détection d'objets en mouvement. Nous avons choisi une méthode de segmentation basée sur une version paramétrique du mélange de gaussiennes appliquée sur une hiérarchie de blocs, méthode qui est considérée actuellement comme l'un des meilleurs procédés pour la détection d'objets en mouvement. Nous avons proposé une nouvelle méthodologie pour choisir les valeurs optimales des paramètres d’un algorithme permettant d’améliorer la segmentation d’objets en utilisant des opérations morphologiques. Nous nous sommes intéressés aux différents critères permettant d’évaluer la qualité d’une segmentation, résultant d’un compromis entre une bonne détection des objets en mouvement, et un faible nombre de fausses détections, par exemple causées par des changements d’illumination, des reflets ou des bruits d’acquisition. Deuxièmement, nous effectuons une classification des objets, basée sur les descripteurs de Fourier, et nous utilisons ces descripteurs pour éliminer les objets de type piétons ou autres et ne conserver que les véhicules. Troisièmement, nous utilisons un modèle de mouvement et un descripteur basé sur les couleurs dominantes pour effectuer le suivi des objets extraits. En raison des difficultés mentionnées ci-dessus, nous obtenons des trajectoires incomplètes, qui donneraient une information de comptage erronée si elles étaient exploitées directement. Nous proposons donc d’agréger les données partielles des trajectoires incomplètes et de construire une information globale sur la circulation des véhicules dans la scène. Notre approche permet la détection des points d’entrée et de sortie dans les séquences d’images. Nous avons testé nos algorithmes sur des données privées provenant... / This thesis is written in the context of video traffic analysis. In several big cities, hundreds of cameras produce very large amounts of data, impossible to handle without automatic processing. Our main goal is to help human operators by automatically analyzing video data. To help traffic controllers make decisions, it is important to know the traffic status in real time (number of vehicles and vehicle speed on each path), but also to dispose of traffic statistics along the day, week, season or year. The cameras have been deployed for a long time for traffic and other monitoring purposes, because they provide a rich source of information for human comprehension. Video analysis can automatically extract relevant information. Computer vision and video analysis are becoming more and more important for Intelligent Transport Systems (ITSs). One of the issues addressed in this thesis is related to automatic vehicle counting. In order to be useful, a video surveillance system must be fully automatic and capable of providing, in real time, information concerning the behavior of the objects in the scene. We can get this information by detection and tracking of moving objects in videos, a widely studied field. However, most automated video analysis systems do not easily manage particular situations.Today, there are many challenges to be solved, such as occlusions between different objects, long stops of an object in the scene, luminosity changes, etc., leading to incomplete trajectories of moving objects detected in the scene. We have concentrated our work on the automatic extraction of global statistics in the scenes. Our workflow consists of the following steps: first, we evaluated different methods of video segmentation and detection of moving objects. We have chosen a segmentation method based on a parametric version of the Mixture of Gaussians, applied to a hierarchy of blocks, which is currently considered one of the best methods for the detection of moving objects. We proposed a new methodology to choose the optimal parameter values of an algorithm to improve object segmentation by using morphological operations. We were interested in the different criteria for evaluating the segmentation quality, resulting from a compromise between a good detection of moving objects, and a low number of false detections, for example caused by illumination changes, reflections or acquisition noises. Secondly, we performed an objects classification, based on Fourier descriptors, and we use these descriptors to eliminate pedestrian or other objects and retain only vehicles. Third, we use a motion model and a descriptor based on the dominant colors to track the extracted objects. Because of the difficulties mentioned above, we obtain incomplete trajectories, which, exploited as they are, give incorrect counting information. We therefore proposed to aggregate the partial data of the incomplete trajectories and to construct a global information on the vehicles circulation in the scene. Our approach allows to detect input and output points in image sequences. We tested our algorithms on private data from the traffic control center in Chiang Mai City, Thailand, as well as on MIT public video data. On this last dataset, we compared the performance of our algorithms with previously published articles using the same data. In several situations, we illustrate the improvements made by our method in terms of location of input / output zones, and in terms of vehicle counting.
4

Gestion de données manquantes dans des cascades de boosting : application à la détection de visages / Management of missing data in boosting cascades : application to face detection

Bouges, Pierre 06 December 2012 (has links)
Ce mémoire présente les travaux réalisés dans le cadre de ma thèse. Celle-ci a été menée dans le groupe ISPR (ImageS, Perception systems and Robotics) de l’Institut Pascal au sein de l’équipe ComSee (Computers that See). Ces travaux s’inscrivent dans le cadre du projet Bio Rafale initié par la société clermontoise Vesalis et financé par OSEO. Son but est d’améliorer la sécurité dans les stades en s’appuyant sur l’identification des interdits de stade. Les applications des travaux de cette thèse concernent la détection de visages. Elle représente la première étape de la chaîne de traitement du projet. Les détecteurs les plus performants utilisent une cascade de classifieurs boostés. La notion de cascade fait référence à une succession séquentielle de plusieurs classifieurs. Le boosting, quant à lui, représente un ensemble d’algorithmes d’apprentissage automatique qui combinent linéairement plusieurs classifieurs faibles. Le détecteur retenu pour cette thèse utilise également une cascade de classifieurs boostés. L’apprentissage d’une telle cascade nécessite une base d’apprentissage ainsi qu’un descripteur d’images. Cette description des images est ici assurée par des matrices de covariance. La phase d’apprentissage d’un détecteur d’objets détermine ces conditions d’utilisation. Une de nos contributions est d’adapter un détecteur à des conditions d’utilisation non prévues par l’apprentissage. Les adaptations visées aboutissent à un problème de classification avec données manquantes. Une formulation probabiliste de la structure en cascade est alors utilisée pour incorporer les incertitudes introduites par ces données manquantes. Cette formulation nécessite l’estimation de probabilités a posteriori ainsi que le calcul de nouveaux seuils à chaque niveau de la cascade modifiée. Pour ces deux problèmes, plusieurs solutions sont proposées et de nombreux tests sont effectués pour déterminer la meilleure configuration. Enfin, les applications suivantes sont présentées : détection de visages tournés ou occultés à partir d’un détecteur de visages de face. L’adaptation du détecteur aux visages tournés nécessite l’utilisation d’un modèle géométrique 3D pour ajuster les positions des sous-fenêtres associées aux classifieurs faibles. / This thesis has been realized in the ISPR group (ImageS, Perception systems and Robotics) of the Institut Pascal with the ComSee team (Computers that See). My research is involved in a project called Bio Rafale. It was created by the compagny Vesalis in 2008 and it is funded by OSEO. Its goal is to improve the security in stadium using identification of dangerous fans. The applications of these works deal with face detection. It is the first step in the process chain of the project. Most efficient detectors use a cascade of boosted classifiers. The term cascade refers to a sequential succession of several classifiers. The term boosting refers to a set of learning algorithms that linearly combine several weak classifiers. The detector selected for this thesis also uses a cascade of boosted classifiers. The training of such a cascade needs a training database and an image feature. Here, covariance matrices are used as image feature. The limits of an object detector are fixed by its training stage. One of our contributions is to adapt an object detector to handle some of its limits. The proposed adaptations lead to a problem of classification with missing data. A probabilistic formulation of a cascade is then used to incorporate the uncertainty introduced by the missing data. This formulation involves the estimation of a posteriori probabilities and the computation of new rejection thresholds at each level of the modified cascade. For these two problems, several solutions are proposed and extensive tests are done to find the best configuration. Finally, our solution is applied to the detection of turned or occluded faces using just an uprigth face detector. Detecting the turned faces requires the use of a 3D geometric model to adjust the position of the subwindow associated with each weak classifier.
5

Object Detection in Dynamic Background / Détection d’objets dans un fond dynamique

Ali, Imtiaz 05 March 2012 (has links)
La détection et la reconnaissance d’objets dans des vidéos numériques est l’un des principaux challenges dans de nombreuses applications de vidéo surveillance. Dans le cadre de cette thèse, nous nous sommes attaqué au problème difficile de la segmentation d’objets dans des vidéos dont le fond est en mouvement permanent. Il s’agit de situations qui se produisent par exemple lorsque l’on filme des cours d’eau, ou le ciel,ou encore une scène contenant de la fumée, de la pluie, etc. Il s’agit d’un sujet assez peu étudié dans la littérature car très souvent les scènes traitées sont plutôt statiques et seules quelques parties bougent, telles que les feuillages par exemple, ou les seuls mouvements sont des changements de luminosité. La principale difficulté dans le cadre des scènes dont le fond est en mouvement est de différencier le mouvement de l’objet du mouvement du fond qui peuvent parfois être très similaires. En effet, par exemple, un objet dans une rivière peut se déplacer à la même allure que l’eau. Les algorithmes de la littérature extrayant des champs de déplacement échouent alors et ceux basés sur des modélisations de fond génèrent de très nombreuses erreurs. C’est donc dans ce cadre compliqué que nous avons tenté d’apporter des solutions.La segmentation d’objets pouvant se baser sur différents critères : couleur, texture,forme, mouvement, nous avons proposé différentes méthodes prenant en compte un ou plusieurs de ces critères.Dans un premier temps, nous avons travaillé dans un contexte bien précis qui était celui de la détection des bois morts dans des rivières. Ce problème nous a été apporté par des géographes avec qui nous avons collaboré dans le cadre du projet DADEC (Détection Automatique de Débris pour l’Aide à l’Etude des Crues). Dans ce cadre, nous avons proposé deux méthodes l’une dite " naïve " basée sur la couleur des objets à détecter et sur leur mouvement et l’autre, basée sur une approche probabiliste mettant en oeuvre une modélisation de la couleur de l’objet et également basée sur leur déplacement. Nous avons proposé une méthode pour le comptage des bois morts en utilisant les résultats des segmentations.Dans un deuxième temps, supposant la connaissance a priori du mouvement des objets,dans un contexte quelconque, nous avons proposé un modèle de mouvement de l’objet et avons montré que la prise en compte de cet a priori de mouvement permettait d’améliorer nettement les résultats des segmentations obtenus par les principaux algorithmes de modélisation de fond que l’on trouve dans la littérature.Enfin, dans un troisième temps, en s’inspirant de méthodes utilisées pour caractériser des textures 2D, nous avons proposé un modèle de fond basé sur une approche fréquentielle.Plus précisément, le modèle prend en compte non seulement le voisinage spatial d’un pixel mais également le voisinage temporel de ce dernier. Nous avons appliqué la transformée de Fourier locale au voisinage spatiotemporel d’un pixel pour construire un modèle de fond.Nous avons appliqué nos méthodes sur plusieurs vidéos, notamment les vidéos du projet DADEC, les vidéos de la base DynTex, des vidéos synthétiques et des vidéos que nous avons faites. / Moving object detection is one of the main challenges in many video monitoring applications.In this thesis, we address the difficult problem that consists in object segmentation when background moves permanently. Such situations occur when the background contains water flow, smoke or flames, snowfall, rainfall etc. Object detection in moving background was not studied much in the literature so far. Video backgrounds studied in the literature are often composed of static scenes or only contain a small portion of moving regions (for example, fluttering leaves or brightness changes). The main difficulty when we study such situations is to differentiate the objects movements and the background movements that may be almost similar. For example, an object in river moves at the same speed as water. Therefore, motion-based techniques of the literature, relying on displacements vectors in the scene, may fail to discriminate objects from the background, thus generating a lot of false detections. In this complex context, we propose some solutions for object detection.Object segmentation can be based on different criteria including color, texture, shape and motion. We propose various methods taking into account one or more of these criteria.We first work on the specific context of wood detection in rivers. It is a part of DADEC project (Détection Automatique de Débris pour l’Aide à l’Etude des Crues) in collaboration with geographers. We propose two approaches for wood detection: a naïve method and the probabilistic image model. The naïve approach is based on binary decisions based on object color and motion, whereas the probabilistic image model uses wood intensity distribution with pixel motion. Such detection methods are used fortracking and counting pieces of wood in rivers.Secondly, we consider a context in which we suppose a priori knowledge about objectmotion is available. Hence, we propose to model and incorporate this knowledge into the detection process. We show that combining this prior motion knowledge with classical background model improves object detection rate.Finally, drawing our inspiration from methods used for 2D texture representation, we propose to model moving backgrounds using a frequency-based approach. More precisely, the model takes into account the spatial neighborhoods of pixels but also their temporal neighborhoods. We apply local Fourier transform on the obtained regions in order to extract spatiotemporal color patterns.We apply our methods on multiple videos, including river videos under DADEC project, image sequences from the DynTex video database, several synthetic videos andsome of our own made videos. We compare our object detection results with the existing methods for real and synthetic videos quantitatively as well as qualitatively
6

Étude et amélioration du suivi tridimensionnel des flux d’air dans une pièce de bâtiment / Study and enhancement of the 3d tracking of airflow in buildings

Rezig, Sawsen 13 July 2017 (has links)
Les travaux réalisés dans le cadre de cette thèse visent à décrire une approche Lagrangienne de caractérisation de flux d’air par suivi de particules, nous avons implémenté un système de caméras synchronisées pour l’acquisition des images de bulles de savon remplies à l’hélium. L’approche développée pour le calcul des trajectoires des particules est basée sur une méthode multi-échelle de détection de points intérêt et de reconstruction 3D. Le système permet ainsi de réaliser un suivi tridimensionnel et fournir une description des flux d’air présents dans une pièce à grande échelle. / In this thesis, we describe an approach for Lagrangian characterizing of airflows using particle tracking velocimetry, a camera system was implemented here and Helium filled bubbles images were acquired in a synchronized way. We developed a new system for particle trajectories calculation based on a multi-scale image processing technique and well-known 3D reconstruction methods. Our system allows tracking particles in 3D space and providing yet a global description of airflows in large-scale environment.The application is supposed to improve the optimization of ventilation in building rooms in order to reduce energy consumption by optimal positioning and shaping of air diffusers. A major constraint here is to preserve human comfort
7

Feature extraction and selection for background modeling and foreground detection / Extraction et sélection de caractéristiques pour la détection d’objets mobiles dans des vidéos

Pacheco Do Espirito Silva, Caroline 10 May 2017 (has links)
Dans ce manuscrit de thèse, nous présentons un descripteur robuste pour la soustraction d’arrière-plan qui est capable de décrire la texture à partir d’une séquence d’images. Ce descripteur est moins sensible aux bruits et produit un histogramme court, tout en préservant la robustesse aux changements d’éclairage. Un autre descripteur pour la reconnaissance dynamique des textures est également proposé. Le descripteur permet d’extraire non seulement des informations de couleur, mais aussi des informations plus détaillées provenant des séquences vidéo. Enfin, nous présentons une approche de sélection de caractéristiques basée sur le principe d'apprentissage par ensemble qui est capable de sélectionner les caractéristiques appropriées pour chaque pixel afin de distinguer les objets de premier plan de l’arrière plan. En outre, notre proposition utilise un mécanisme pour mettre à jour l’importance relative de chaque caractéristique au cours du temps. De plus, une approche heuristique est utilisée pour réduire la complexité de la maintenance du modèle d’arrière-plan et aussi sa robustesse. Par contre, cette méthode nécessite un grand nombre de caractéristiques pour avoir une bonne précision. De plus, chaque classificateur de base apprend un ensemble de caractéristiques au lieu de chaque caractéristique individuellement. Pour compenser ces limitations, nous avons amélioré cette approche en proposant une nouvelle méthodologie pour sélectionner des caractéristiques basées sur le principe du « wagging ». Nous avons également adopté une approche basée sur le concept de « superpixel » au lieu de traiter chaque pixel individuellement. Cela augmente non seulement l’efficacité en termes de temps de calcul et de consommation de mémoire, mais aussi la qualité de la détection des objets mobiles. / In this thesis, we present a robust descriptor for background subtraction which is able to describe texture from an image sequence. The descriptor is less sensitive to noisy pixels and produces a short histogram, while preserving robustness to illumination changes. Moreover, a descriptor for dynamic texture recognition is also proposed. This descriptor extracts not only color information, but also a more detailed information from video sequences. Finally, we present an ensemble for feature selection approach that is able to select suitable features for each pixel to distinguish the foreground objects from the background ones. Our proposal uses a mechanism to update the relative importance of each feature over time. For this purpose, a heuristic approach is used to reduce the complexity of the background model maintenance while maintaining the robustness of the background model. However, this method only reaches the highest accuracy when the number of features is huge. In addition, each base classifier learns a feature set instead of individual features. To overcome these limitations, we extended our previous approach by proposing a new methodology for selecting features based on wagging. We also adopted a superpixel-based approach instead of a pixel-level approach. This does not only increases the efficiency in terms of time and memory consumption, but also can improves the segmentation performance of moving objects.
8

Robust low-rank and sparse decomposition for moving object detection : from matrices to tensors / Détection d’objets mobiles dans des vidéos par décomposition en rang faible et parcimonieuse : de matrices à tenseurs

Cordolino Sobral, Andrews 11 May 2017 (has links)
Dans ce manuscrit de thèse, nous introduisons les avancées récentes sur la décomposition en matrices (et tenseurs) de rang faible et parcimonieuse ainsi que les contributions pour faire face aux principaux problèmes dans ce domaine. Nous présentons d’abord un aperçu des méthodes matricielles et tensorielles les plus récentes ainsi que ses applications sur la modélisation d’arrière-plan et la segmentation du premier plan. Ensuite, nous abordons le problème de l’initialisation du modèle de fond comme un processus de reconstruction à partir de données manquantes ou corrompues. Une nouvelle méthodologie est présentée montrant un potentiel intéressant pour l’initialisation de la modélisation du fond dans le cadre de VSI. Par la suite, nous proposons une version « double contrainte » de l’ACP robuste pour améliorer la détection de premier plan en milieu marin dans des applications de vidéo-surveillance automatisées. Nous avons aussi développé deux algorithmes incrémentaux basés sur tenseurs afin d’effectuer une séparation entre le fond et le premier plan à partir de données multidimensionnelles. Ces deux travaux abordent le problème de la décomposition de rang faible et parcimonieuse sur des tenseurs. A la fin, nous présentons un travail particulier réalisé en conjonction avec le Centre de Vision Informatique (CVC) de l’Université Autonome de Barcelone (UAB). / This thesis introduces the recent advances on decomposition into low-rank plus sparse matrices and tensors, as well as the main contributions to face the principal issues in moving object detection. First, we present an overview of the state-of-the-art methods for low-rank and sparse decomposition, as well as their application to background modeling and foreground segmentation tasks. Next, we address the problem of background model initialization as a reconstruction process from missing/corrupted data. A novel methodology is presented showing an attractive potential for background modeling initialization in video surveillance. Subsequently, we propose a double-constrained version of robust principal component analysis to improve the foreground detection in maritime environments for automated video-surveillance applications. The algorithm makes use of double constraints extracted from spatial saliency maps to enhance object foreground detection in dynamic scenes. We also developed two incremental tensor-based algorithms in order to perform background/foreground separation from multidimensional streaming data. These works address the problem of low-rank and sparse decomposition on tensors. Finally, we present a particular work realized in conjunction with the Computer Vision Center (CVC) at Autonomous University of Barcelona (UAB).
9

Vision stéréoscopique temps-réel pour la navigation autonome d'un robot en environnement dynamique / Real-time stereovision for autonomous robot navigation in dynamic environment

Derome, Maxime 22 June 2017 (has links)
L'objectif de cette thèse est de concevoir un système de perception stéréoscopique embarqué, permettant une navigation robotique autonome en environnement dynamique (i.e. comportant des objets mobiles). Pour cela, nous nous sommes imposé plusieurs contraintes : 1) Puisque l'on souhaite pouvoir naviguer en terrain inconnu et en présence de tout type d'objets mobiles, nous avons adopté une approche purement géométrique. 2) Pour assurer une couverture maximale du champ visuel nous avons choisi d'employer des méthodes d'estimation denses qui traitent chaque pixel de l'image. 3) Puisque les algorithmes utilisés doivent pouvoir s'exécuter en embarqué sur un robot, nous avons attaché le plus grand soin à sélectionner ou concevoir des algorithmes particulièrement rapides, pour nuire au minimum à la réactivité du système. La démarche présentée dans ce manuscrit et les contributions qui sont faites sont les suivantes. Dans un premier temps, nous étudions plusieurs algorithmes d’appariement stéréo qui permettent d'estimer une carte de disparité dont on peut déduire, par triangulation, une carte de profondeur. Grâce à cette évaluation nous mettons en évidence un algorithme qui ne figure pas sur les benchmarks KITTI, mais qui offre un excellent compromis précision/temps de calcul. Nous proposons également une méthode pour filtrer les cartes de disparité. En codant ces algorithmes en CUDA pour profiter de l’accélération des calculs sur cartes graphiques (GPU), nous montrons qu’ils s’exécutent très rapidement (19ms sur les images KITTI, sur GPU GeForce GTX Titan).Dans un deuxième temps, nous souhaitons percevoir les objets mobiles et estimer leur mouvement. Pour cela nous calculons le déplacement du banc stéréo par odométrie visuelle pour pouvoir isoler dans le mouvement apparent 2D ou 3D (estimé par des algorithmes de flot optique ou de flot de scène) la part induite par le mouvement propre à chaque objet. Partant du constat que seul l'algorithme d'estimation du flot optique FOLKI permet un calcul en temps-réel, nous proposons plusieurs modifications de celui-ci qui améliorent légèrement ses performances au prix d'une augmentation de son temps de calcul. Concernant le flot de scène, aucun algorithme existant ne permet d'atteindre la vitesse d'exécution souhaitée, nous proposons donc une nouvelle approche découplant structure et mouvement pour estimer rapidement le flot de scène. Trois algorithmes sont proposés pour exploiter cette décomposition structure-mouvement et l’un d’eux, particulièrement efficace, permet d'estimer très rapidement le flot de scène avec une précision relativement bonne. A notre connaissance, il s'agit du seul algorithme publié de calcul du flot de scène capable de s'exécuter à cadence vidéo sur les données KITTI (10Hz).Dans un troisième temps, pour détecter les objets en mouvement et les segmenter dans l'image, nous présentons différents modèles statistiques et différents résidus sur lesquels fonder une détection par seuillage d'un critère chi2. Nous proposons une modélisation statistique rigoureuse qui tient compte de toutes les incertitudes d'estimation, notamment celles de l'odométrie visuelle, ce qui n'avait pas été fait à notre connaissance dans le contexte de la détection d'objets mobiles. Nous proposons aussi un nouveau résidu pour la détection, en utilisant la méthode par prédiction d’image qui permet de faciliter la propagation des incertitudes et l'obtention du critère chi2. Le gain apporté par le résidu et le modèle d'erreur proposés est démontré par une évaluation des algorithmes de détection sur des exemples tirés de la base KITTI. Enfin, pour valider expérimentalement notre système de perception en embarqué sur une plateforme robotique, nous implémentons nos codes sous ROS et certains codes en CUDA pour une accélération sur GPU. Nous décrivons le système de perception et de navigation utilisé pour la preuve de concept qui montre que notre système de perception, convient à une application embarquée. / This thesis aims at designing an embedded stereoscopic perception system that enables autonomous robot navigation in dynamic environments (i.e. including mobile objects). To do so, we need to satisfy several constraints: 1) We want to be able to navigate in unknown environment and with any type of mobile objects, thus we adopt a geometric approach. 2) We want to ensure the best possible coverage of the field of view, so we employ dense methods that process every pixel in the image. 3) The algorithms must be compliant with an embedded platform, therefore we must carefully design the algorithms so they are fast enough to keep a certain level of reactivity. The approach presented in this thesis manuscript and the contributions are summarized below. First, we study several stereo matching algorithms that estimate a disparity map from which we can deduce a depth map, by triangulation. This comparative study highlights one algorithm that is not in the KITTI benchmarks, but that gives a great accuracy/processing time tradeoff. We also propose a filtering method to post-process the disparity maps. By coding these algorithm in CUDA to benefit from hardware acceleration on Graphics Processing Unit, we show that they can perform very fast (19ms on KITTI images, with a GPU GeForce GTX Titan).Second, we want to detect mobile objects and estimate their motion. To do so we compute the stereo rig motion using visual odometry, in order to isolate the part induced by moving objects in the 2D or 3D apparent motion (estimated by optical flow or scene flow algorithms). Considering that the only optical flow algorithm able to perform in real-time is FOLKI, we propose several modifications of it to slightly improve its performances at the cost of a slower processing time. Regarding the scene flow estimation, existing algorithms cannot reach the desired computation speed, so we propose a new approach by decoupling structure and motion for a fast scene flow estimation. Three algorithms are proposed to use this structure-motion decomposition, and one of them, particularly efficient, enables very fast scene flow computing with a relatively good accuracy. To our knowledge it is the only published scene flow algorithm able to perform at framerate on KITTI dataset (10 Hz).Third, to detect moving objects and segment them in the image, we show several statistical models and residual quantities on which we can base the detection by thresholding a chi2 criterion. We propose a rigorous statistical modeling that takes into account all the uncertainties occurring during the estimation, in particular during the visual odometry, which had not been done to our knowledge, in the context of moving object detection. We also propose a new residual quantity for the detection, using an image prediction approach to facilitate uncertainty propagation and the chi2 criterion modeling. The benefit brought by the proposed residual quantity and error model is demonstrated by evaluating detection algorithms on a samples of annotated KITTI data. Finally, we implement our algorithms on ROS to run the perception system on en embedded platform, and we code some algorithms in CUDA to accelerate the computing using GPU. We describe the perception and the navigation system that we use for the experimental validation. We show in our experiments that the proposed stereovision perception system is suitable for embedded robotic applications.
10

Détection de tableaux dans des documents : une étude de TableBank

Yockell, Eugénie 04 1900 (has links)
L’extraction d’information dans des documents est une nécessité, particulièrement dans notre ère actuelle où il est commun d’employer un téléphone portable pour photographier des documents ou des factures. On trouve aussi une utilisation répandue de documents PDF qui nécessite de traiter une imposante quantité de documents digitaux. Par leur nature, les données des documents PDF sont complexes à extraire, nécessitant d’être analysés comme des images. Dans cette recherche, on se concentre sur une information particulière à prélever: des tableaux. En effet, les tableaux retrouvés dans les docu- ments représentent une entité significative, car ils contiennent des informations décisives. L’utilisation de modèles neuronaux pour performer des extractions automatiques permet considérablement d’économiser du temps et des efforts. Dans ce mémoire, on définit les métriques, les modèles et les ensembles de données utilisés pour la tâche de détection de tableaux. On se concentre notamment sur l’étude des ensembles de données TableBank et PubLayNet, en soulignant les problèmes d’an- notations présents dans l’ensemble TableBank. On relève que différentes combinaisons d’ensembles d’entraînement avec TableBank et PubLayNet semblent améliorer les perfor- mances du modèle Faster R-CNN, ainsi que des méthodes d’augmentations de données. On compare aussi le modèle de Faster R-CNN avec le modèle CascadeTabNet pour la détection de tableaux où ce premier demeure supérieur. D’autre part, on soulève un enjeu qui est peu discuté dans la tâche de détection d’objets, soit qu’il existe une trop grande quantité de métriques. Cette problématique rend la comparaison de modèles ardue. On génère ainsi les résultats de modèles selon plusieurs métriques afin de démontrer qu’elles conduisent généralement vers différents modèles gagnants, soit le modèle ayant les meilleures performances. On recommande aussi les métriques les plus pertinentes à observer pour la détection de tableaux, c’est-à- dire APmedium/APmedium, Pascal AP85 ou COCO AP85 et la métrique de TableBank. / Extracting information from documents is a necessity, especially in today’s age where it is common to use a cell phone to photograph documents or invoices. There is also the widespread use of PDF documents that requires processing a large amount of digital documents. Due to their nature, the data in PDF documents are complex to retrieve, needing to be analyzed as images. In this research, we focus on a particular information to be extracted: tables. Indeed, the tables found in documents represent a significant entity, as they contain decisive information. The use of neural networks to perform automatic retrieval saves time and effort. In this research, the metrics, models and datasets used for the table detection task are defined. In particular, we focus on the study of the TableBank and PubLayNet datasets, highlighting the problems of annotations present in the TableBank set. We point out that different combinations of training sets using TableBank and PubLayNet appear to improve the performance of the Faster R-CNN model, as well as data augmentation methods. We also compare the Faster R-CNN model with the CascadeTabNet model for table detection where the former remains superior. In addition, we raise an issue that is not often discussed in the object detection task, namely that there are too many metrics. This problem makes model comparison difficult. We therefore generate results from models with several metrics in order to demonstrate the influence of these metrics in defining the best performing model. We also recommend the most relevant metrics to observe for table detection, APmedium/APmedium, Pascal AP85 or COCO AP85 and the TableBank metric.

Page generated in 0.073 seconds