Spelling suggestions: "subject:"egmentation dde mouvement"" "subject:"egmentation dee mouvement""
1 |
Hierarchical motion-based video analysis with applications to video post-production / Analyse de vidéo par décomposition hiérarchique du mouvement appliquée à la post-production vidéoPérez Rúa, Juan Manuel 04 December 2017 (has links)
Nous présentons dans ce manuscrit les méthodes développées et les résultats obtenus dans notre travail de thèse sur l'analyse du contenu dynamique de scène visuelle. Nous avons considéré la configuration la plus fréquente de vision par ordinateur, à savoir caméra monoculaire et vidéos naturelles de scène extérieure. Nous nous concentrons sur des problèmes importants généraux pour la vision par ordinateur et d'un intérêt particulier pour l'industrie cinématographique, dans le cadre de la post-production vidéo. Les problèmes abordés peuvent être regroupés en deux catégories principales, en fonction d'une interaction ou non avec les utilisateurs : l'analyse interactive du contenu vidéo et l'analyse vidéo entièrement automatique. Cette division est un peu schématique, mais elle est en fait liée aux façons dont les méthodes proposées sont utilisées en post-production vidéo. Ces deux grandes approches correspondent aux deux parties principales qui forment ce manuscrit, qui sont ensuite subdivisées en chapitres présentant les différentes méthodes que nous avons proposées. Néanmoins, un fil conducteur fort relie toutes nos contributions. Il s'agit d'une analyse hiérarchique compositionnelle du mouvement dans les scènes dynamiques. Nous motivons et expliquons nos travaux selon l'organisation du manuscrit résumée ci-dessous. Nous partons de l'hypothèse fondamentale de la présence d'une structure hiérarchique de mouvement dans la scène observée, avec un objectif de compréhension de la scène dynamique. Cette hypothèse s'inspire d'un grand nombre de recherches scientifiques sur la vision biologique et cognitive. Plus précisément, nous nous référons à la recherche sur la vision biologique qui a établi la présence d'unités sensorielles liées au mouvement dans le cortex visuel. La découverte de ces unités cérébrales spécialisées a motivé les chercheurs en vision cognitive à étudier comment la locomotion des animaux (évitement des obstacles, planification des chemins, localisation automatique) et d'autres tâches de niveau supérieur sont directement influencées par les perceptions liées aux mouvements. Fait intéressant, les réponses perceptuelles qui se déroulent dans le cortex visuel sont activées non seulement par le mouvement lui-même, mais par des occlusions, des désocclusions, une composition des mouvements et des contours mobiles. En outre, la vision cognitive a relié la capacité du cerveau à appréhender la nature compositionnelle du mouvement dans l'information visuelle à une compréhension de la scène de haut niveau, comme la segmentation et la reconnaissance d'objets. / The manuscript that is presented here contains all the findings and conclusions of the carried research in dynamic visual scene analysis. To be precise, we consider the ubiquitous monocular camera computer vision set-up, and the natural unconstrained videos that can be produced by it. In particular, we focus on important problems that are of general interest for the computer vision literature, and of special interest for the film industry, in the context of the video post-production pipeline. The tackled problems can be grouped in two main categories, according to the whether they are driven user interaction or not : user-assisted video processing tools and unsupervised tools for video analysis. This division is rather synthetic but it is in fact related to the ways the proposed methods are used inside the video post-production pipeline. These groups correspond to the main parts that form this manuscript, which are subsequently formed by chapters that explain our proposed methods. However, a single thread ties together all of our findings. This is, a hierarchical analysis of motion composition in dynamic scenes. We explain our exact contributions, together with our main motivations, and results in the following sections. We depart from a hypothesis that links the ability to consider a hierarchical structure of scene motion, with a deeper level of dynamic scene understanding. This hypothesis is inspired by plethora of scientific research in biological and psychological vision. More specifically, we refer to the biological vision research that established the presence of motion-related sensory units in the visual cortex. The discovery of these specialized brain units motivated psychological vision researchers to investigate how animal locomotion (obstacle avoidance, path planning, self-localization) and other higher-level tasks are directly influenced by motion-related percepts. Interestingly, the perceptual responses that take place in the visual cortex are activated not only by motion itself, but by occlusions, dis-occlusions, motion composition, and moving edges. Furthermore, psychological vision have linked the brain's ability to understand motion composition from visual information to high level scene understanding like object segmentation and recognition.
|
2 |
Analyse sémantique d'un trafic routier dans un contexte de vidéo-surveillance / semantic analysis of road trafic in a context of video-surveillanceBrulin, Mathieu 25 October 2012 (has links)
Les problématiques de sécurité, ainsi que le coût de moins en moins élevé des caméras numériques, amènent aujourd'hui à un développement rapide des systèmes de vidéosurveillance. Devant le nombre croissant de caméras et l'impossibilité de placer un opérateur humain devant chacune d'elles, il est nécessaire de mettre en oeuvre des outils d'analyse capables d'identifier des évènements spécifiques. Le travail présenté dans cette thèse s'inscrit dans le cadre d'une collaboration entre le Laboratoire Bordelais de Recherche en Informatique (LaBRI) et la société Adacis. L'objectif consiste à concevoir un système complet de vidéo-surveillance destiné à l'analyse automatique de scènes autoroutières et la détection d'incidents. Le système doit être autonome, le moins supervisé possible et doit fournir une détection en temps réel d'un évènement.Pour parvenir à cet objectif, l'approche utilisée se décompose en plusieurs étapes. Une étape d'analyse de bas-niveau, telle que l'estimation et la détection des régions en mouvement, une identification des caractéristiques d'un niveau sémantique plus élevé, telles que l'extraction des objets et la trajectoire des objets, et l'identification d'évènements ou de comportements particuliers, tel que le non respect des règles de sécurité. Les techniques employées s'appuient sur des modèles statistiques permettant de prendre en compte les incertitudes sur les mesures et observations (bruits d'acquisition, données manquantes, ...).Ainsi, la détection des régions en mouvement s'effectue au travers la modélisation de la couleur de l'arrière-plan. Le modèle statistique utilisé est un modèle de mélange de lois, permettant de caractériser la multi-modalité des valeurs prises par les pixels. L'estimation du flot optique, de la différence de gradient et la détection d'ombres et de reflets sont employées pour confirmer ou infirmer le résultat de la segmentation.L'étape de suivi repose sur un filtrage prédictif basé sur un modèle de mouvement à vitesse constante. Le cas particulier du filtrage de Kalman (filtrage tout gaussien) est employé, permettant de fournir une estimation a priori de la position des objets en se basant sur le modèle de mouvement prédéfini.L'étape d'analyse de comportement est constituée de deux approches : la première consiste à exploiter les informations obtenues dans les étapes précédentes de l'analyse. Autrement dit, il s'agit d'extraire et d'analyser chaque objet afin d'en étudier son comportement. La seconde étape consiste à détecter les évènements à travers une coupe du volume 2d+t de la vidéo. Les cartes spatio-temporelles obtenues sont utilisées pour estimer les statistiques du trafic, ainsi que pour détecter des évènements telles que l'arrêt des véhicules.Pour aider à la segmentation et au suivi des objets, un modèle de la structure de la scène et de ses caractéristiques est proposé. Ce modèle est construit à l'aide d'une étape d'apprentissage durant laquelle aucune intervention de l'utilisateur n'est requise. La construction du modèle s'effectue à travers l'analyse d'une séquence d'entraînement durant laquelle les contours de l'arrière-plan et les trajectoires typiques des véhicules sont estimés. Ces informations sont ensuite combinées pour fournit une estimation du point de fuite, les délimitations des voies de circulation et une approximation des lignes de profondeur dans l'image. En parallèle, un modèle statistique du sens de direction du trafic est proposé. La modélisation de données orientées nécessite l'utilisation de lois de distributions particulières, due à la nature périodique de la donnée. Un mélange de lois de type von-Mises est utilisée pour caractériser le sens de direction du trafic. / Automatic traffic monitoring plays an important role in traffic surveillance. Video cameras are relatively inexpensive surveillance tools, but necessitate robust, efficient and automated video analysis algorithms. The loss of information caused by the formation of images under perspective projection made the automatic task of detection and tracking vehicles a very challenging problem, but essential to extract a semantic interpretation of vehicles behaviors. The work proposed in this thesis comes from a collaboration between the LaBRI (Laboratoire Bordelais de Recherche en Informatique) and the company Adacis. The aim is to elaborate a complete video-surveillance system designed for automatic incident detection.To reach this objective, traffic scene analysis proceeds from low-level processing to high-level descriptions of the traffic, which can be in a wide variety of type: vehicles entering or exiting the scene, vehicles collisions, vehicles' speed that are too fast or too low, stopped vehicles or objects obstructing part of the road... A large number of road traffic monitoring systems are based on background subtraction techniques to segment the regions of interest of the image. Resulted regions are then tracked and trajectories are used to extract a semantic interpretation of the vehicles behaviors.The motion detection is based on a statistical model of background color. The model used is a mixture model of probabilistic laws, which allows to characterize multimodal distributions for each pixel. Estimation of optical flow, a gradient difference estimation and shadow and highlight detection are used to confirm or invalidate the segmentation results.The tracking process is based on a predictive filter using a motion model with constant velocity. A simple Kalman filter is employed, which allow to predict state of objets based on a \textit{a priori} information from the motion model.The behavior analysis step contains two approaches : the first one consists in exploiting information from low-level and mid-level analysis. Objects and their trajectories are analysed and used to extract abnormal behavior. The second approach consists in analysing a spatio-temporal slice in the 3D video volume. The extracted maps are used to estimate statistics about traffic and are used to detect abnormal behavior such as stopped vehicules or wrong way drivers.In order to help the segmentaion and the tracking processes, a structure model of the scene is proposed. This model is constructed using an unsupervised learning step. During this learning step, gradient information from the background image and typical trajectories of vehicles are estimated. The results are combined to estimate the vanishing point of the scene, the lanes boundaries and a rough depth estimation is performed. In parallel, a statistical model of the trafic flow direction is proposed. To deal with periodic data, a von-Mises mixture model is used to characterize the traffic flow direction.
|
3 |
Le mouvement projectif : théorie et applications pour l'autocalibrage et la segmentation du mouvementDemirdjian, David 12 July 2000 (has links) (PDF)
La vision stéréoscopique apparaît dans de nombreuses applications comme le moyen le plus évident pour obtenir des informations tridimensionnelles à partir d'images. Les approches employées reposent généralement sur des modèles euclidiens et nécessitent un étalonnage fort des systèmes stéréoscopiques utilisés, ce qui implique que les paramètres internes des caméras ainsi que la position relative entre les caméras doivent être connues. Or un étalonnage fort et précis nécessite généralement une intervention humaine. Cependant une aide extérieure n'est pas toujours possible et l'utilisation de systèmes faiblement étalonnés (systèmes dont seule la géométrie épipolaire est connue) apparaît alors comme une alternative. Un étalonnage faible est très facile à obtenir mais la difficulté est qu'alors les informations tridimensionnelles obtenues sont projectives et non plus euclidiennes. Ce document s'inscrit dans une approche basée sur un étalonnage faible et s'intéresse à l'étude d'un système stéréoscopique faiblement étalonné évoluant dans un environnement a priori inconnu. Il montre comment, en pratique, on peut tirer partie du mouvement d'un système stéréoscopique pour remonter à la structure métrique de la scène (par auto-étalonnage) et détecter des objets en mouvement. L'espace projectif est utilisé ici pour représenter l'information visuelle issue du système. En particulier, on étudie les transformations projectives 3D -appelées également homographies 3D- qui relient les reconstructions projectives d'une scène rigide. On s'intéresse au problème d'estimation de ces homographies 3D et on montre comment celles-ci entrent en jeu dans des applications telles que l'auto-étalonnage ou la segmentation du mouvement
|
4 |
Development of a new technique for objective assessment of gestures in mini-invasive surgery / Développement d'une nouvelle technique pour l'évaluation objective des gestes en chirurgie mini-invasiveCifuentes Quintero, Jenny Alexandra 03 July 2015 (has links)
L'une des tâches les plus difficiles de l'enseignement en chirurgie, consiste à expliquer aux étudiants quelles sont les amplitudes des forces et des couples à appliquer pour guider les instruments au cours d'une opération. Ce problème devient plus important dans le domaine de la chirurgie mini-invasive (MIS) où la perception de profondeur est perdue et le champ visuel est réduit. Pour cette raison, l'évaluation de l'habileté chirurgicale associée est devenue un point capital dans le processus d'apprentissage en médecine. Des problèmes évidents de subjectivité apparaissent dans la formation des médecins, selon l'instructeur. De nombreuses études et rapports de recherches concernent le développement de techniques automatisées d'évaluation du geste. La première partie du travail présenté dans cette thèse introduit une nouvelle méthode de classification de gestes médicaux 3D reposant sur des modèles cinématiques et biomécaniques. Celle-ci analyse de manière qualitative mais aussi quantitative les mouvements associés aux tâches effectuées. La classification du geste est réalisée en utilisant un paramétrage reposant sur la longueur d'arc pour calculer la courbure pour chaque trajectoire. Les avantages de cette approche sont l'indépendance du temps, un système de repérage absolu et la réduction du nombre de données. L'étude inclue l'analyse expérimentale de plusieurs gestes, obtenus avec plusieurs types de capteurs et réalisés par différents sujets. La deuxième partie de ce travail se concentre sur la classification reposant sur les données cinématiques et dynamiques. En premier lieu, une expression empirique, entre la géométrie du mouvement et les données cinématiques, sert à calculer une nouvelle variable appelée vitesse affine. Les expériences conduites dans ce travail de thèse montrent la nature constante de cette grandeur lorsque les gestes médicaux sont simples et identiques. Une dernière technique de classification a été implémentée en utilisant un calcul de l'énergie utilisée au cours de chaque segment du geste. Cette méthode a été validée expérimentalement en utilisant six caméras et un laparoscope instrumenté. La position 3-D de l'extrémité de l'effecteur a été enregistrée, pour plusieurs participants, en utilisant le logiciel OptiTrack Motive et des marqueurs réfléchissants montés sur le laparoscope. Les mesures de force et de couple, d'autre part, ont été acquises à l'aide des capteurs fixés sur l'outil et situés entre la pointe et la poignée de l'outil afin de capturer l'interaction entre le participant et le matériau manipulé. Les résultats expérimentaux présentent une bonne corrélation entre les valeurs de l'énergie et les compétences chirurgicales des participants impliqués dans ces expériences. / One of the most difficult tasks in surgical education is to teach students what is the optimal magnitude of forces and torques to guide the instrument during operation. This problem becomes even more relevant in the field of Mini Invasive Surgery (MIS), where the depth perception is lost and visual field is reduced. In this way, the evaluation of surgical skills involved in this field becomes in a critical point in the learning process. Nowadays, this assessment is performed by expert surgeons observation in different operating rooms, making evident subjectivity issues in the results depending on the trainer in charge of the task. Research works around the world have focused on the development of the automated evaluation techniques, that provide an objective feedback during the learning process. Therefore, first part of this thesis describe a new method of classification of 3D medical gestures based on biomechanical models (kinematics). This new approach analyses medical gestures based on the smoothness and quality of movements related to the tasks performed during the medical training. Thus, gesture classification is accomplished using an arc length parametrization to compute the curvature for each trajectory. The advantages of this approach are mainly oriented towards time and location independence and problem simplification. The study included several gestures that were performed repeatedly by different subjects; these data sets were acquired, also, with three different devices. Second part of this work is focused in a classification technique based on kinematic and dynamic data. In first place, an empirical expression between movement geometry and kinematic data is used to compute a different variable called the affine velocity. Experiments carried out in this work show the constant nature of this feature in basic medical gestures. In the same way, results proved an adequate classification based on this computation. Parameters found in previous experiments were taken into account to study movements more complex. Likewise, affine velocity was used to perform a segmentation of pick and release tasks, and the classification stage was completed using an energy computation, based on dynamic data, for each segment. Final experiments were performed using six video cameras and an instrumented laparoscope. The 3-D position of the end effector was recorded, for each participant, using the OptiTrack Motive Software and reflective markers mounted on the laparoscope. Force and torque measurements, on the other hand, were acquired using force and torque sensors attached to the instrument and located between the tool tip and the handle of the tool in order to capture the interaction between participant and the manipulated material. Results associated to these experiments present a correlation between the energy values and the surgical skills of the participants involved in these experiments.
|
Page generated in 0.1558 seconds