Spelling suggestions: "subject:"disision rar ordinateur"" "subject:"disision rar ordinateurs""
191 |
Modélisation des environnements dynamiques pour la localisationDecrouez, Marion 07 May 2013 (has links) (PDF)
La thèse s'inscrit dans le domaine de la vision par ordinateur. Il s'agit, dans un environnement intérieur inconnu, partiellement connu ou connu de trouver la position et l'orientation d'une camera mobile en temps réel à partir d'une séquence vidéo prise par cette même camera. Le sujet implique également la reconstruction 3D de l'environnement. Les algorithmes de vision seront implémentés et testés sur des plateformes massivement parallèles. Processing the video sequence of a indoor camera in motion we have to find the position and angle of the camera in real time. We will use a single prime lens camera. It may involve an unknown, partially known or well known environment. A big part of the computation is the 3D reconstruction of the scene. The algorithms used to locate the camera will be implemented and tested on GPU.
|
192 |
Vision based motion generation for humanoid robotsStasse, Olivier 04 April 2013 (has links) (PDF)
Ce manuscrit présente mes activités de recherche sur les comportements basés vision pour des robots complexes comme les robots humanoïdes. La question scientifique sous-jacente qui structure ce travail est la suivante: " Quels sont les processus de décisions qui permettent à un robot humanoïde de générer des mouvements en temps réel basés sur des informations visuelles ?" Au football, les êtres humains peuvent décider de frapper une balle alors qu'ils courent et que tous les autres joueurs sont constamment en train de bouger. Reformuler comme un problème d'optimisation pour un robot humanoïde, trouver une solution pour un tel comportement est généralement très difficile du point de vue calculatoire. Par exemple, le problème de la recherche visuelle a été démontré comme étant NP-complet. La première partie de ce travail concerne la génération de mouvements temps réel. Partant des contraintes générales qu'un robot humanoïde doit remplir pour générer un mouvement faisable, des problèmes fondamentaux sont présentés. A partir de ceux-ci, plusieurs contributions permettant à un robot humanoïde de réagira à des changements de l'environnement sont présentés. Ils concernent la génération de la marche, les mouvements corps complets pour éviter des obstacles, et la planification de pas en temps réel dans des environnements contraints. La deuxième partie de ce travail concerne l'acquisition temps-réel de connaissance sur l'environnement à partir de la vision par ordinateur. Deux comportements principaux sont considérés: la recherche visuelle et la construction d'un modèle visuel d'un objet. Ils sont considérés tout en prenant compte le modèle du capteur, le coût du mouvement, les contraintes mécaniques du robot, la géométrie de l'environnement ainsi que les limitations du processus de vision. De plus des contributions sur le couplage de l'auto-localisation basé cartes avec la marche, la génération de pas basé sur l'asservissement visuel seront présentés. Finalement les technologies centrales développées dans les contextes précédents ont été utilisées dans différentes applications: l'interaction homme-robot, la téléopération, l'analyse de mouvement humains. Basé sur le retour d'expérience de plusieurs démonstrateurs intégrés sur le robot humanoïde HRP-2, la dernière partie de cette thèse proposent des pistes pour des idées permettant de lever les verrous technologiques actuels de la robotique humanoïde.
|
193 |
Modèles structurés pour la reconnaissance d'actions dans des vidéos réalistesGaidon, Adrien 25 October 2012 (has links) (PDF)
Cette thèse décrit de nouveaux modèles pour la reconnaissance de catégories d'actions comme "ouvrir une porte" ou "courir" dans des vidéos réalistes telles que les films. Nous nous intéressons tout particulièrement aux propriétés structurelles des actions : comment les décomposer, quelle en est la structure caractéristique et comment utiliser cette information afin de représenter le contenu d'une vidéo. La difficulté principale à laquelle nos modèles s'attellent réside dans la satisfaction simultanée de deux contraintes antagonistes. D'une part, nous devons précisément modéliser les aspects discriminants d'une action afin de pouvoir clairement identifier les différences entre catégories. D'autre part, nos représentations doivent être robustes en conditions réelles, c'est-à-dire dans des vidéos réalistes avec de nombreuses variations visuelles en termes d'acteurs, d'environnements et de points de vue. Dans cette optique, nous proposons donc trois modèles précis et robustes à la fois, qui capturent les relations entre parties d'actions ainsi que leur contenu. Notre approche se base sur des caractéristiques locales --- notamment les points d'intérêts spatio-temporels et le flot optique --- et a pour objectif d'organiser l'ensemble des descripteurs locaux décrivant une vidéo. Nous proposons aussi des noyaux permettant de comparer efficacement les représentations structurées que nous introduisons. Bien que nos modèles se basent tous sur les principes mentionnés ci-dessus, ils différent de par le type de problème traité et la structure sur laquelle ils reposent. Premièrement, nous proposons de modéliser une action par une séquence de parties temporelles atomiques correspondant à une décomposition sémantique. De plus, nous décrivons comment apprendre un modèle flexible de la structure temporelle dans le but de localiser des actions dans des vidéos de longue durée. Deuxièmement, nous étendons nos idées à l'estimation et à la représentation de la structure spatio-temporelle d'activités plus complexes. Nous décrivons un algorithme d'apprentissage non supervisé permettant de dégager automatiquement une décomposition hiérarchique du contenu dynamique d'une vidéo. Nous utilisons la structure arborescente qui en résulte pour modéliser une action de manière hiérarchique. Troisièmement, au lieu de comparer des modèles structurés, nous explorons une autre alternative : directement comparer des modèles de structure. Pour cela, nous représentons des actions de courte durée comme des séries temporelles en haute dimension et étudions comment la dynamique temporelle d'une action peut être utilisée pour améliorer les performances des modèles non structurés formant l'état de l'art en reconnaissance d'actions. Dans ce but, nous proposons un noyau calculant de manière efficace la similarité entre les dépendances temporelles respectives de deux actions. Nos trois approches et leurs assertions sont à chaque fois validées par des expériences poussées sur des bases de données publiques parmi les plus difficiles en reconnaissance d'actions. Nos résultats sont significativement meilleurs que ceux de l'état de l'art, illustrant ainsi à quel point la structure des actions est importante afin de bâtir des modèles précis et robustes pour la reconnaissance d'actions dans des vidéos réalistes.
|
194 |
Système de calibration de caméra localisation de forme polyédrique par vision monoculaireChateauneuf, Michel 29 November 2002 (has links) (PDF)
Dans le domaine de l'automobile, Peugeot-Citroën, Renault et Daimler-Benz ainsi que de nombreux laboratoires ont fortement contribué à l'étude et à la recherche de systèmes de sécurité active. Ainsi, grâce au programme EUREKA Prometheus, ils ont pu présenter des prototypes capables de reconnaître les différentes composantes d'un environnement routier (obstacles, véhicules, piétons, panneaux routiers).<br /><br />Mon souhait est de développer un système d'assistance à la conduite permettant de détecter, de reconnaître et de localiser des panneaux routiers par vision monoculaire en étant capable de répondre aux contraintes temps réel de l'environnement dynamique. Cette thèse propose quelques contributions notamment une méthode de calibration de caméra complémentaire aux méthodes classiques permettant d'estimer les paramètres intrinsèques de la caméra.<br /><br />La localisation tridimensionnelle des formes polyédriques à partir de leurs projections sur un plan image est présentée au travers de deux contributions, l'une basée sur la résolution d'un système non linéaire par des techniques d'optimisation, l'autre basée sur la rétroprojection par géométrie projective inverse.<br /><br />Nous aborderons ensuite les traitements d'images utilisés afin d'extraire de l'image brute des informations qualitatives et quantitatives avec une contribution sur la segmentation des images<br />couleurs en temps réel.
|
195 |
Suivi multi-capteurs de cibles multiples en vision par ordinateur, appliqué à un véhicule dans un environnement routier /Hutber, David. January 1900 (has links)
Th. doct.--Sci. de l'ingénieur--Nice-Sophia Antipolis, 1995. / 1996 d'après la déclaration du dépôt légal. Contient des textes en anglais. Bibliogr. p. 239-248. Résumé en français et en anglais.
|
196 |
Contributions à la localisation de personnes par vision monoculaire embarquée / Contributions to the localization of persons by embedded monocular visionElloumi, Wael 06 December 2012 (has links)
Une des techniques alternatives au GPS pour le développement d’un système d’assistance à la navigationpédestre en milieux urbains est la vision embarquée. La localisation du porteur de la caméra s’appuie alorssur l’estimation de la pose à partir des images acquises au cours du cheminement. En s’inspirant destravaux antérieurs sur la navigation autonome de robots, cette thèse explore deux approches dans le cadrespécifique de la localisation pédestre. La première méthode de localisation s’appuie sur des appariementsde primitives images avec une cartographie 3D pré-estimée de l’environnement. Elle permet une estimationprécise de la pose complète de la caméra (6 ddl), mais les expérimentations montrent des limitationscritiques de robustesse et temps de calcul liées à l’étape de mise en correspondance. Une solutionalternative est proposée en utilisant les points de fuite. L’orientation de la caméra (3ddl) est estimée defaçon robuste et rapide par le suivi de 3 points de fuites orthogonaux dans une séquence vidéo. L’algorithmedéveloppé permet une localisation pédestre indoor en deux étapes : une phase d’apprentissage hors lignedéfinit un itinéraire de référence en sélectionnant des images clef au long du parcours, puis, en phase delocalisation, une position approximative mais réaliste du porteur est estimée en temps réel en comparant lesorientations de la caméra dans l’image courante et celle de référence. / One of the alternative techniques to GPS for the development of pedestrian navigation assistive systems inurban environments is embedded vision. The walker localization is, then, based on the camera poseestimation from images acquired during the path. Inspired by previous work on autonomous navigation ofmobile robots, this thesis explores two approaches in the specific context of pedestrian localization. The firstlocalization method is based on image primitive matching with a pre-estimated 3D map of the environment. Itallows an accurate estimate of the complete pose of the camera (6 dof), but experiments show criticallimitations of robustness and computation time related to the matching step. An alternative solution isproposed using vanishing points. Robust and fast camera orientation (3 dof) is estimated by tracking threeorthogonal vanishing points in a video sequence. The developed algorithm allows indoor pedestrianlocalization in two steps: an off-line learning step defines a reference path by selecting key frames along theway, then, in localization step, an approximate but realistic position of the walker is estimated in real time bycomparing the orientation of the camera in the current image and that of reference.
|
197 |
Détection et estimation de pose d'instances d'objet rigide pour la manipulation robotisée / Detection and pose estimation of instances of a rigid object for robotic bin-pickingBrégier, Romain 11 June 2018 (has links)
La capacité à détecter des objets dans une scène et à estimer leur pose constitue un préalable essentiel à l'automatisation d'un grand nombre de tâches, qu'il s'agisse d'analyser automatiquement une situation, de proposer une expérience de réalité augmentée, ou encore de permettre à un robot d'interagir avec son environnement.Dans cette thèse, nous nous intéressons à cette problématique à travers le scénario du dévracage industriel, dans lequel il convient de détecter des instances d'un objet rigide au sein d'un vrac et d'estimer leur pose -- c'est-à-dire leur position et orientation -- à des fins de manipulation robotisée.Nous développons pour ce faire une méthode basée sur l'exploitation d'une image de profondeur, procédant par agrégation d'hypothèses générées par un ensemble d'estimateurs locaux au moyen d'une forêt de décision.La pose d'un objet rigide est usuellement modélisée sous forme d'une transformation rigide 6D dans la littérature. Cette représentation se révèle cependant inadéquate lorsqu'il s'agit de traiter des objets présentant des symétries, pourtant nombreux parmi les objets manufacturés.Afin de contourner ces difficultés, nous introduisons une formulation de la notion de pose compatible avec tout objet rigide physiquement admissible, et munissons l'espace des poses d'une distance quantifiant la longueur du plus petit déplacement entre deux poses. Ces notions fournissent un cadre théorique rigoureux à partir duquel nous développons des outils permettant de manipuler efficacement le concept de pose, et constituent le socle de notre approche du problème du dévracage.Les standards d'évaluation utilisés dans l'état de l'art souffrant de certaines limitations et n'étant que partiellement adaptés à notre contexte applicatif, nous proposons une méthodologie d'évaluation adaptée à des scènes présentant un nombre variable d'instances d'objet arbitraire, potentiellement occultées. Nous mettons celle-ci en œuvre sur des données synthétiques et réelles, et montrons la viabilité de la méthode proposée, compatible avec les problématiques de temps de cycle, de performance et de simplicité de mise en œuvre du dévracage industriel. / Visual object detection and estimation of their poses -- i.e. position and orientation for a rigid object -- is of utmost interest for automatic scene understanding.In this thesis, we address this topic through the bin-picking scenario, in which instances of a rigid object have to be automatically detected and localized in bulk, so as to be manipulated by a robot for various industrial tasks such as machine feeding, assembling, packing, etc.To this aim, we propose a novel method for object detection and pose estimation given an input depth image, based on the aggregation of local predictions through an Hough forest technique, that is suitable with industrial constraints of performance and ease of use.Overcoming limitations of existing approaches that assume objects not to have any proper symmetries, we develop a theoretical and practical framework enabling us to consider any physical rigid object, thanks to a novel definition of the notion of pose and an associated distance.This framework provides tools to deal with poses efficiently for operations such as pose averaging or neighborhood queries, and is based on rigorous mathematical developments.Evaluation benchmarks used in the literature are not very representative of our application scenario and suffer from some intrinsic limitations, therefore we formalize a methodology suited for scenes in which many object instances, partially occluded, in arbitrary poses may be considered. We apply this methodology on real and synthetic data, and demonstrate the soundness of our approach compared to the state of the art.
|
198 |
Perception multimodale de l'homme pour l'interaction Homme-Robot / Human multimodal perception for human-robot interactionMollaret, Christophe 03 December 2015 (has links)
Cette thèse porte sur la perception multimodale de l'homme pour l'Interaction Homme-Robot (IHR). Elle a été financée par le projet ANR Contint RIDDLE (2012 - 2015). Ce projet est centré sur le développement d'un robot d'assistance pour les personnes âgées atteintes de troubles cognitifs légers. Celui-ci a pour but de répondre à un besoin grandissant d'aide à domicile envers les personnes âgées vivant seules. En effet, la population vieillissant de plus en plus, on estime qu'environ 33% des français auront plus de 60 ans en 2060. L'enjeu est donc de programmer un robot interactif (via ses capacités perceptuelles) capable d'apprendre la relation entre l'usager et un sous-ensemble d'objets du quotidien de ce dernier, soit des objets pertinents, présents ou possiblement égarés dans l'espace partagé du robot et de l'usager. Dans ce cadre, il reste de nombreux verrous à lever, notamment en termes de : (i) perception conjointe de l'homme et de son environnement, (ii) d'intégration sur un système robotisé, (iii) de validation par des scénarii mettant en jeu le robot et une personne âgée en interaction avec quelques objets usuels. La finalité du projet est de voir le robot répondre aux interrogations relatives à une dizaine d'objets courants (définis par une étude préliminaire sur une population qui se plaint de troubles cognitifs) par des actions appropriées. Par exemple, le robot signalera l'emplacement d'un objet en se déplaçant vers lui, en le saisissant ou en donnant des indications orales quant à sa position si l'objet n'est pas atteignable. Le projet RIDDLE est multipartenaire : il regroupe la société Magellium, le Gérontopôle de Toulouse, l'équipe MINC du LAAS-CNRS et l'entreprise Aldebaran Robotics dont le robot doit servir de plateforme pour les démonstrations finales. Cette thèse a été co-encadrée par Frédéric Lerasle et Isabelle Ferrané respectivement enseignants-chercheurs dans les équipes RAP du LAAS-CNRS et SAMoVA de l'IRIT-UPS. Lors de ce projet, nous avons, en partenariat avec le gérontopôle, défini un scénario robotique regroupant trois phases principales. Une phase de monitoring où le robot se trouve loin de l'utilisateur et l'observe de sa position, en attente d'une demande d'interaction, une phase d'interaction proximale où le robot se trouve proche de l'utilisateur et interagit avec lui, et enfin la transition qui permet au robot de passer d'une phase à l'autre. Ce scénario est donc construit de manière à créer un robot d'interaction proactif mais non-intrusif. Le caractère non-intrusif est matérialisé par la phase de monitoring. La proactivité est, quant à elle, matérialisée par la création d'un détecteur d'intentionnalité permettant au robot de comprendre de manière non-verbale la volonté de l'utilisateur de communiquer avec lui. Les contributions scientifiques de cette thèse recoupent divers aspects du projet : le scénario robotique, le détecteur d'intentionnalité, une technique de filtrage par essaim de particules, et enfin une technique bayésienne d'amélioration du taux d'erreur de mot à partir d'informations de distance. Cette thèse est divisée en quatre chapitres. Le premier traite du détecteur d'intentionnalité, le deuxième de la technique de filtrage développée, le troisième de la phase d'interaction proximale et des techniques employées, et enfin le dernier chapitre est centré sur les implémentations robotiques. / This work is about human multimodal perception for human-robot interaction (HRI). This work was financed by the RIDDLE ANR Contint project (2012-2015). This project focuses on the development of an assisting robot for the elderly who experience small losses of memory. This project aims at coping with a growing need in human care for elder people living alone. Indeed in France, the population is aging and around 33% of the estimated population will be more than 60 years old by 2060. The goal is therefore to program an interactive robot (with perceptive capabilities), which would be able to learn the relationship between the user and a set of selected objects in their shared environment. In this field, lots of problems remain in terms of : (i) shared human-environment perception, (ii) integration on a robotic platform, and (iii) the validation of some scenarii about usual objects that involve both the robot and the elderly. The aim is to see the robot answer the user's interrogations about ten objects (defined by a preliminary study) with appropriate actions. For example, the robot will indicate the position of an object by moving towards it, grapping it or giving oral indications if it is not reachable. The RIDDLE project was formed by a consortium, with Magellium, the gerontology center of Toulouse, the MINC team from the LAAS-CNRS laboratory and Aldebaran Robotics. The final demonstrations will be led on the Rom´eo platform. This thesis has been co-directed by Fr´ed´eric Lerasle and Isabelle Ferran´e, respectively from the RAP team of LAAS-CNRS and the SAMoVA team of IRIT. Along the project, in partnership with the gerontology center, a robot scenario was determined following three major steps. During the first one -the "Monitoring step"- the robot is far from the user and waits for an intention of interaction. A "Proximal interaction step" is reached when the robot interacts with the user from a close position. Finally, the last step : the "Transition" allows the robot to move to reach the two previous ones. This scenario was built in order to create a not-intrusive proactive robot. This non-intrusiveness is materialized by the "monitoring step". The proactivity is achieved by the creation of a detector of user intention, allowing the robot to understand non-verbal information about the user's will to communicate with it. The scientific contributions of this thesis include various aspects : robotic scenarii, the detector of user intention, a filtering technique based on particle swarm optimization algorithm, and finally a Baysian scheme built to improve the word error rate given distance information. This thesis is divided in four chapters. The first one is about the detector of user intention. The second chapter moves on to the filtering technique. The third chapter will focus on the proximal interaction and the employed techniques, and finally the last chapter will deal with the robotic implementations.
|
199 |
Localisation et cartographie visuelles simultanées en milieu intérieur et en temps réel / Visual SLAM in indoor environmentDecrouez, Marion 07 May 2013 (has links)
La thèse s'inscrit dans le domaine de la vision par ordinateur. Il s'agit, dans un environnement intérieur inconnu, partiellement connu ou connu de trouver la position et l'orientation d'une camera mobile en temps réel à partir d'une séquence vidéo prise par cette même camera. Le sujet implique également la reconstruction 3D de l'environnement. Les algorithmes de vision seront implémentés et testés sur des plateformes massivement parallèles. Processing the video sequence of a indoor camera in motion we have to find the position and angle of the camera in real time. We will use a single prime lens camera. It may involve an unknown, partially known or well known environment. A big part of the computation is the 3D reconstruction of the scene. The algorithms used to locate the camera will be implemented and tested on GPU. / In this thesis, we explore the problem of modeling an unknown environment using monocular vision for localization applications. We focus in modeling dynamic indoor environments. Many objects in indoor environments are likely to be moved. These movements significantly affect the structure and appearance of the environment and disrupt the existing methods of visual localization. We present in this work a new approach for modeling the environment and its evolution with time. We define explicitly the scene as a static structure and a set of dynamic objects. The object is defined as a rigid entity that a user can take, move and that is visually detectable. First, we show how to automatically discover new objects in a dynamic environment. Existing methods of visual localization simply ignore the inconsistencies due to changes in the scene. We aim to analyze these changes to extract additional information. Without any prior knowledge, an object is a set of points with coherent motion relative to the static structure of the scene. We combine two methods of visual localization to compare various explorations in the same environment taken at different time. The comparison enables to detect objects that have moved between the two shots. For each object, a geometric model and an appearance model are learned. Moreover, we extend the scene model while updating the metrical map and the topological map of the static structure of the environment. Object discovery using motion is based on a new algorithm of multiple structures detection in an image pair. Given a set of correspondences between two views, the method based on RANSAC extracts the different structures corresponding to different model parameterizations seen in the data. The method is applied to homography estimation to detect planar structures and to fundamental matrix estimation to detect structures that have been shifted one from another. Our approach for dynamic scene modeling is applied in a new formulation of place recognition to take into account the presence of dynamic objects in the environment. The model of the place consists in an appearance model of the static structure observed in that place. An object database is learned from previous observations in the environment with the method of object discovery using motion. The place recognition we propose detects the dynamic objects seen in the place and rejects the false detection due to these objects. The different methods described in this dissertation are tested on synthetic and real data. Qualitative and quantitative results are presented throughout the dissertation.
|
200 |
Modèles structurés pour la reconnaissance d'actions dans des vidéos réalistes / Structured Models for Action Recognition in Real-word VideosGaidon, Adrien 25 October 2012 (has links)
Cette thèse décrit de nouveaux modèles pour la reconnaissance de catégories d'actions comme "ouvrir une porte" ou "courir" dans des vidéos réalistes telles que les films. Nous nous intéressons tout particulièrement aux propriétés structurelles des actions : comment les décomposer, quelle en est la structure caractéristique et comment utiliser cette information afin de représenter le contenu d'une vidéo. La difficulté principale à laquelle nos modèles s'attellent réside dans la satisfaction simultanée de deux contraintes antagonistes. D'une part, nous devons précisément modéliser les aspects discriminants d'une action afin de pouvoir clairement identifier les différences entre catégories. D'autre part, nos représentations doivent être robustes en conditions réelles, c'est-à-dire dans des vidéos réalistes avec de nombreuses variations visuelles en termes d'acteurs, d'environnements et de points de vue. Dans cette optique, nous proposons donc trois modèles précis et robustes à la fois, qui capturent les relations entre parties d'actions ainsi que leur contenu. Notre approche se base sur des caractéristiques locales --- notamment les points d'intérêts spatio-temporels et le flot optique --- et a pour objectif d'organiser l'ensemble des descripteurs locaux décrivant une vidéo. Nous proposons aussi des noyaux permettant de comparer efficacement les représentations structurées que nous introduisons. Bien que nos modèles se basent tous sur les principes mentionnés ci-dessus, ils différent de par le type de problème traité et la structure sur laquelle ils reposent. Premièrement, nous proposons de modéliser une action par une séquence de parties temporelles atomiques correspondant à une décomposition sémantique. De plus, nous décrivons comment apprendre un modèle flexible de la structure temporelle dans le but de localiser des actions dans des vidéos de longue durée. Deuxièmement, nous étendons nos idées à l'estimation et à la représentation de la structure spatio-temporelle d'activités plus complexes. Nous décrivons un algorithme d'apprentissage non supervisé permettant de dégager automatiquement une décomposition hiérarchique du contenu dynamique d'une vidéo. Nous utilisons la structure arborescente qui en résulte pour modéliser une action de manière hiérarchique. Troisièmement, au lieu de comparer des modèles structurés, nous explorons une autre alternative : directement comparer des modèles de structure. Pour cela, nous représentons des actions de courte durée comme des séries temporelles en haute dimension et étudions comment la dynamique temporelle d'une action peut être utilisée pour améliorer les performances des modèles non structurés formant l'état de l'art en reconnaissance d'actions. Dans ce but, nous proposons un noyau calculant de manière efficace la similarité entre les dépendances temporelles respectives de deux actions. Nos trois approches et leurs assertions sont à chaque fois validées par des expériences poussées sur des bases de données publiques parmi les plus difficiles en reconnaissance d'actions. Nos résultats sont significativement meilleurs que ceux de l'état de l'art, illustrant ainsi à quel point la structure des actions est importante afin de bâtir des modèles précis et robustes pour la reconnaissance d'actions dans des vidéos réalistes. / This dissertation introduces novel models to recognize broad action categories --- like "opening a door" and "running" --- in real-world video data such as movies and internet videos. In particular, we investigate how an action can be decomposed, what is its discriminative structure, and how to use this information to accurately represent video content. The main challenge we address lies in how to build models of actions that are simultaneously information-rich --- in order to correctly differentiate between different action categories --- and robust to the large variations in actors, actions, and videos present in real-world data. We design three robust models capturing both the content of and the relations between action parts. Our approach consists in structuring collections of robust local features --- such as spatio-temporal interest points and short-term point trajectories. We also propose efficient kernels to compare our structured action representations. Even if they share the same principles, our methods differ in terms of the type of problem they address and the structure information they rely on. We, first, propose to model a simple action as a sequence of meaningful atomic temporal parts. We show how to learn a flexible model of the temporal structure and how to use it for the problem of action localization in long unsegmented videos. Extending our ideas to the spatio-temporal structure of more complex activities, we, then, describe a large-scale unsupervised learning algorithm used to hierarchically decompose the motion content of videos. We leverage the resulting tree-structured decompositions to build hierarchical action models and provide an action kernel between unordered binary trees of arbitrary sizes. Instead of structuring action models, we, finally, explore another route: directly comparing models of the structure. We view short-duration actions as high-dimensional time-series and investigate how an action's temporal dynamics can complement the state-of-the-art unstructured models for action classification. We propose an efficient kernel to compare the temporal dependencies between two actions and show that it provides useful complementary information to the traditional bag-of-features approach. In all three cases, we conducted thorough experiments on some of the most challenging benchmarks used by the action recognition community. We show that each of our methods significantly outperforms the related state of the art, thus highlighting the importance of structure information for accurate and robust action recognition in real-world videos.
|
Page generated in 0.0982 seconds