• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 216
  • 150
  • 40
  • Tagged with
  • 409
  • 409
  • 409
  • 287
  • 161
  • 112
  • 110
  • 86
  • 80
  • 78
  • 76
  • 72
  • 72
  • 68
  • 64
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
201

Localisation absolue centimétrique par photogrammétrie aéroportée et GPS embarqués sur drone / Centimetric absolute localization using Unmanned Aerial Vehicles with airborne photogrammetry and on-board GPS

Daakir, Mehdi 11 December 2017 (has links)
Au cours de la dernière décennie, les drones ont été largement utilisés dans les domaines des applications civiles. La photogrammétrie aéroportée a trouvé place dans ces applications comme une solution efficace de modélisation 3D mais aussi comme un outil de mesure. Vinci-Construction-Terrassement est une entreprise privée spécialisée dans le secteur des Travaux Publics qui intègre les drones et la photogrammétrie comme une solution de cartographie et de métrologie de ses chantiers. Cet outil est très efficace, par exemple, pour le calcul des volumes de stocks ou pour le suivi temporel de zones spécifiques avec un risque de glissement de terrain. Le but de ce travail est d’arriver à un géo-référencement direct des images acquises par la caméra lors du vol en s’appuyant uniquement sur un récepteur GPS embarqué. Le système utilisé doit être de faible coût et par conséquent le traitement des données est adapté à cette contrainte / Over the last decade, drones have been largely used for civil applications. Airborne photogrammetry has found place in these applications as a modeling and a measuring tool. Vinci-Construction-Terrassement is a private company of public building and works sector that integrates drones and photogrammetry as a mapping solution and metrology investigation on its sites. This tool is very efficient for the calculation of stock volumes for instance, or for time tracking of specific areas with risk of landslides. The aim of the present work is to do direct georeferencing of images acquired by the camera leaning on an embedded GPS receiver. The UAS used needs to be low cost and therefore data processing is adapted to this constraint
202

Contributions to active visual estimation and control of robotic systems / Contributions à la perception active et à la commande de systèmes robotiques

Spica, Riccardo 11 December 2015 (has links)
L'exécution d'une expérience scientifique est un processus qui nécessite une phase de préparation minutieuse et approfondie. Le but de cette phase est de s'assurer que l'expérience donne effectivement le plus de renseignements possibles sur le processus que l'on est en train d'observer, de manière à minimiser l'effort (en termes, par exemple, du nombre d'essais ou de la durée de chaque expérience) nécessaire pour parvenir à une conclusion digne de confiance. De manière similaire, la perception est un processus actif dans lequel l'agent percevant (que ce soit un humain, un animal ou un robot) fait de son mieux pour maximiser la quantité d'informations acquises sur l'environnement en utilisant ses capacités de détection et ses ressources limitées. Dans de nombreuses applications robotisées, l'état d'un robot peut être partiellement récupéré par ses capteurs embarqués. Des schémas d'estimation peuvent être exploités pour récupérer en ligne les «informations manquantes» et les fournir à des planificateurs/contrôleurs de mouvement, à la place des états réels non mesurables. Cependant, l'estimation doit souvent faire face aux relations non linéaires entre l'environnement et les mesures des capteurs qui font que la convergence et la précision de l'estimation sont fortement affectées par la trajectoire suivie par le robot/capteur. Par exemple, les techniques de commande basées sur la vision, telles que l'Asservissement Visuel Basé-Image (IBVS), exigent normalement une certaine connaissance de la structure 3-D de la scène qui ne peut pas être extraite directement à partir d'une seule image acquise par la caméra. On peut exploiter un processus d'estimation (“Structure from Motion - SfM”) pour reconstruire ces informations manquantes. Toutefois, les performances d'un estimateur SfM sont grandement affectées par la trajectoire suivie par la caméra pendant l'estimation, créant ainsi un fort couplage entre mouvement de la caméra (nécessaire pour, par exemple, réaliser une tâche visuelle) et performance/précision de l'estimation 3-D. À cet égard, une contribution de cette thèse est le développement d'une stratégie d'optimisation en ligne de trajectoire qui permet de maximiser le taux de convergence d'un estimateur SfM affectant (activement) le mouvement de la caméra. L'optimisation est basée sur des conditions classiques de persistance d'excitation utilisée en commande adaptative pour caractériser le conditionnement d'un problème d'estimation. Cette mesure est aussi fortement liée à la matrice d'information de Fisher employée dans le cadre d'estimation probabiliste à des fins similaires. Nous montrons aussi comment cette technique peut être couplé avec l'exécution simultanée d'une tâche d'asservissement visuel en utilisant des techniques de résolution et de maximisation de la redondance. Tous les résultats théoriques présentés dans cette thèse sont validés par une vaste campagne expérimentale en utilisant un robot manipulateur équipé d'une caméra embarquée. / As every scientist and engineer knows, running an experiment requires a careful and thorough planning phase. The goal of such a phase is to ensure that the experiment will give the scientist as much information as possible about the process that she/he is observing so as to minimize the experimental effort (in terms of, e.g., number of trials, duration of each experiment and so on) needed to reach a trustworthy conclusion. Similarly, perception is an active process in which the perceiving agent (be it a human, an animal or a robot) tries its best to maximize the amount of information acquired about the environment using its limited sensor capabilities and resources. In many sensor-based robot applications, the state of a robot can only be partially retrieved from his on-board sensors. State estimation schemes can be exploited for recovering online the “missing information” then fed to any planner/motion controller in place of the actual unmeasurable states. When considering non-trivial cases, however, state estimation must often cope with the nonlinear sensor mappings from the observed environment to the sensor space that make the estimation convergence and accuracy strongly affected by the particular trajectory followed by the robot/sensor. For instance, when relying on vision-based control techniques, such as Image-Based Visual Servoing (IBVS), some knowledge about the 3-D structure of the scene is needed for a correct execution of the task. However, this 3-D information cannot, in general, be extracted from a single camera image without additional assumptions on the scene. One can exploit a Structure from Motion (SfM) estimation process for reconstructing this missing 3-D information. However performance of any SfM estimator is known to be highly affected by the trajectory followed by the camera during the estimation process, thus creating a tight coupling between camera motion (needed to, e.g., realize a visual task) and performance/accuracy of the estimated 3-D structure. In this context, a main contribution of this thesis is the development of an online trajectory optimization strategy that allows maximization of the converge rate of a SfM estimator by (actively) affecting the camera motion. The optimization is based on the classical persistence of excitation condition used in the adaptive control literature to characterize the well-posedness of an estimation problem. This metric, however, is also strongly related to the Fisher information matrix employed in probabilistic estimation frameworks for similar purposes. We also show how this technique can be coupled with the concurrent execution of a IBVS task using appropriate redundancy resolution and maximization techniques. All of the theoretical results presented in this thesis are validated by an extensive experimental campaign run using a real robotic manipulator equipped with a camera in-hand.
203

Application d'un langage de programmation de type flot de données à la synthèse haut-niveau de système de vision en temps-réel sur matériel reconfigurable / Application of a dataflow programming language to the high level synthesis of real time vision systems on reconfigurable hardware

Ahmed, Sameer 24 January 2013 (has links)
Les circuits reconfigurables de type FPGA (Field Programmable Gate Arrays) peuvent désormais surpasser les processeurs généralistes pour certaines applications offrant un fort degré de parallélisme intrinsèque. Ces circuits sont traditionnellement programmés en utilisant des langages de type HDL (Hardware Description Languages), comme Verilog et VHDL. L'usage de ces langages permet d'exploiter au mieux les performances offertes par ces circuits mais requiert des programmeurs une très bonne connaissance des techniques de conception numérique. Ce pré-requis limite fortement l'utilisation des FPGA par la communauté des concepteurs de logiciel en général. Afin de pallier cette limitation, un certain nombre d'outils de plus haut niveau ont été développés, tant dans le monde industriel qu'académique. Parmi les approches proposées, celles fondées sur une transformation plus ou moins automatique de langages de type C ou équivalent, largement utilisés dans le domaine logiciel, ont été les plus explorées. Malheureusement, ces approches ne permettent pas, en général, d'obtenir des performances comparables à celles issues d'une formulation directe avec un langage de type HDL, en raison, essentiellement, de l'incapacité de ces langages à exprimer le parallélisme intrinsèque des applications. Une solution possible à ce problème passe par un changement du modèle de programmation même. Dans le contexte qui est le notre, le modèle flot de données apparaît comme un bon candidat. Cette thèse explore donc l'adoption d'un modèle de programmation flot de données pour la programmation de circuits de type FPGA. Plus précisément, nous évaluons l'adéquation de CAPH, un langage orienté domaine (Domain Specific Language) à la description et à l'implantation sur FPGA d'application opérant à la volée des capteurs (stream processing applications). L'expressivité du langage et l'efficacité du code généré sont évaluées expérimentalement en utilisant un large spectre d'applications, allant du traitement d'images bas niveau (filtrage, convolution) à des applications de complexité réaliste telles que la détection de mouvement, l'étiquetage en composantes connexes ou l'encodage JPEG. / Field Programmable Gate Arrays (FPGAs) are reconfigurable devices which can outperform General Purpose Processors (GPPs) for applications exhibiting parallelism. Traditionally, FPGAs are programmed using Hardware Description Languages (HDLs) such as Verilog and VHDL. Using these languages generally offers the best performances but the programmer must be familiar with digital design. This creates a barrier for the software community to use FPGAs and limits their adoption as a computing solution. To make FPGAs accessible to both software and hardware programmers, a number of tools have been proposed both by academia and industry providing high-level programming environment. A widely used approach is to convert C-like languages to HDLs, making it easier for software programmers to use FPGAs. But these approaches generally do not provide performances on the par with those obtained with HDL languages. The primary reason is the inability of C-like approaches to express parallelism. Our claim is that in order to have a high level programming language for FPGAs as well as not to compromise on performance, a shift in programming paradigm is required. We think that the Dataflowow / actor programming model is a good candidate for this. This thesis explores the adoption of Dataflow / actor programming model for programming FPGAs. More precisely, we assess the suitability of CAPH, a domain-specific language based on this programming model for the description and implementation of stream-processing applications on FPGAs. The expressivity of the language and the efficiency of the generated code are assessed experimentally using a set of test bench applications ranging from very simple applications (basic image filtering) to more complex realistic applications such as motion detection, Connected Component Labeling (CCL) and JPEG encoder.
204

La photogrammétrie rapprochée au service de l'archéologie préventive / Close range photogrammetry for survey in preventive archaeology

Samaan, Mariam 20 June 2016 (has links)
Le développement des appareils photos numériques, de la puissance de calcul des ordinateurs, les travaux de recherche en photogrammétrie et vision par ordinateur ont abouti à l’émergence récente de solutions opérationnelles permettant de construire de manière automatique des modèles 3D à partir de prises de vues à recouvrements multiples (multi stéréoscopiques).Par exemple, en prenant les « bonnes » photos, il est aujourd’hui possible de réaliser en quelques heures de calcul et quelques minutes d’interaction opérateur, des ortho-photos rigoureuses qui, il y a quelques années, auraient demandé des jours de restitution. Ces méthodes commencent à être répandues parmi certains acteurs du relevé patrimonial (architectes ou archéologues) et une économie commence même à se construire autour de services de modélisation 3D.Cependant ces méthodes restent loin d’être pleinement acceptées par la majorité des utilisateurs potentiels. Parmi les freins liés à la diffusion de ces techniques auprès des scientifiques du patrimoine, la méconnaissance des règles d’acquisition photographique permettant de tirer un parti optimum des outils de modélisation par photo.L’objectif de ce travail de thèse est de réaliser un travail de transfert et d’accompagnent effectif des outils du monde de la technologie et de l’informatique vers celui des utilisateurs dans le domaine du patrimoine. De manière plus spécifique, la thématique d’application choisie est celle de l’archéologie préventive, dans laquelle les contraintes de budget et de calendrier pour la réalisation des fouilles rendent particulièrement intéressantes les méthodes de relevé par photo.Nos travaux ont exclusivement porté sur la mise au point de méthodes photogrammétriques à partir de protocoles d’acquisition d’images fiables et légers, ainsi que de traitements adaptés à chaque étape de la chaîne de calcul.Le choix de traiter tel ou tel type d’objet dans le cadre de nos travaux est indépendant de toute classification des nombreuses spécialités de l’archéologie, mais est plutôt lié à un cadrage méthodologique, préférant multiplier les protocoles expérimentaux de documentation de petits artéfacts plutôt que de diversifier le type de vestiges à documenter. Au-delà du cas des petits artéfacts, les problématiques soulevées par la documentation d’une fouille archéologique comme site « vivant » ont aussi été partiellement abordées. Des méthodes de relevé capables d’enregistrer de manière exhaustive l’ensemble des objets découverts tout en les associant à une stratigraphie particulière ont en effet été étudiées / The development of digital cameras, the computational power of computers, photogrammetry and computer vision research has led to the recent emergence of operational solutions for building automatically 3D models from shooting multiple overlays (stereoscopic multi).For example, taking the "good" photos, it is now possible to achieve in a few hours of calculation and a few minutes of operator interaction, rigorous ortho-photos that, there a few years have asked for days restitution. These methods are starting to be widespread among some in the heritage survey (architects or archaeologists) and an economy even starting to build around 3D modeling services.However, these methods are far from being fully accepted by the majority of potential users. Among the brakes associated with the dissemination of these techniques to the scientific heritage, ignorance of the rules of photographic acquisition to take optimum advantage of modeling tools per photo.The objective of this thesis is to do a job transfer and accompany the actual world of technology tools and IT to the users in the field of heritage. More specifically, the theme chosen for application is that of preventive archeology, in which the constraints of budget and timetable for the completion of excavations make it particularly interesting methods identified by photograph.Our work has focused exclusively on the development of photogrammetric methods from acquiring reliable and lightweight image protocols and treatments for each stage of the calculation chain.The choice to treat a particular type of object in the context of our work is independent of any classification of the many specialties of archeology, but is instead linked to a methodological framework, preferring multiply experimental protocols documentation rather small artifacts that diversify the type remains to be documented. Beyond the case of small artifacts, the issues raised by the documentation of an archaeological dig as a site "living" were also partially addressed. Survey methods capable of recording exhaustively all objects discovered while linking to a particular stratigraphy have indeed been studied
205

Détection en temps-réel des outils chirurgicaux dans des vidéos 2D de neurochirurgie par modélisation de forme globale et d'apparence locale / Real-time detection of surgical tools in 2D neurosurgical videos by modelling global shape and local appearance

Bouget, David 27 May 2015 (has links)
Bien que devenant un environnement de plus en plus riche technologiquement, la salle opératoire reste un endroit où la sécurité des patients n'est pas assurée à 100% comme le montre le nombre toujours conséquent d'erreurs chirurgicales. La nécessité de développer des systèmes intelligents au bloc opératoire apparait comme croissante. Un des éléments clés pour ce type de système est la reconnaissance du processus chirurgical, passant par une identification précise des outils chirurgicaux utilisés. L'objectif de cette thèse a donc porté sur la détection en temps-réel des outils chirurgicaux dans des vidéos 2D provenant de microscopes. Devant l'absence de jeux de données de référence, qui plus est dans un contexte neurochirurgical, la première contribution de la thèse a donc été la création d'un nouvel ensemble d'images de chirurgies du cerveau et du rachis cervical, mis à disposition en ligne. Comme seconde contribution, deux approches différentes ont été proposées permettant de détecter des outils chirurgicaux via des techniques d'analyse d'image. Tout d'abord, le SquaresChnFtrs adapté, basé sur une des méthodes de détection de piétons les plus performantes de la littérature. Notre deuxième méthode, le ShapeDetector, est une approche à deux niveaux n'utilisant aucune contrainte ou hypothèse a priori sur le nombre, la position, ou la forme des outils dans l'image. Par rapport aux travaux précédents du domaine, nous avons choisi de représenter les détections potentielles par des polygones plutôt que par des rectangles, obtenant ainsi des détections plus précises. Pour intégration dans des systèmes médicaux, une optimisation de la vitesse de calcul a été effectuée via un usage optimal du CPU, du GPU, et de méthodes ad-hoc. Pour des vidéos de résolution 612x480 pixels, notre ShapeDetector est capable d'effectuer les détections à une vitesse maximale de 8 Hz. Pour la validation de nos méthodes, nous avons pris en compte trois paramètres: la position globale, la position de l'extrémité, et l'orientation des détections. Les méthodes ont été classées et comparées avec des méthodes de référence compétitives. Pour la détection des tubes d'aspiration, nous avons obtenu un taux de manqué de 15% pour un taux de faux positifs par image de 0.1, comparé à un taux de manqué de 55% pour le SquaresChnFtrs adapté. L'orientation future du travail devra porter sur l'intégration des informations 3D, l'amélioration de la couche de labélisation sémantique, et la classification des outils chirurgicaux. Pour finir, un enrichissement du jeu de données et des annotations de plus haute précision seront nécessaires. / Despite modern-life technological advances and tremendous progress made in surgical techniques including MIS, today's OR is facing many challenges remaining yet to be addressed. The development of CAS systems integrating the SPM methodology was born as a response from the medical community, with the long-term objective to create surgical cockpit systems. Being able to identify surgical tools in use is a key component for systems relying on the SPM methodology. Towards that end, this thesis work has focused on real-time surgical tool detection from microscope 2D images. From the review of the literature, no validation data-sets have been elected as benchmarks by the community. In addition, the neurosurgical context has been addressed only once. As such, the first contribution of this thesis work consisted in the creation of a new surgical tool data-set, made freely available online. Two methods have been proposed to tackle the surgical tool detection challenge. First, the adapted SquaresChnFtrs, evolution of one of the best computer vision state-of-the-art approach for pedestrian detection. Our second contribution, the ShapeDetector, is fully data-driven and performs detection without the use of prior knowledge regarding the number, shape, and position of tools in the image. Compared to previous works, we chose to represent candidate detections with bounding polygons instead of bounding boxes, hence providing more fitting results. For integration into medical systems, we performed different code optimization through CPU and GPU use. Speed gain and accuracy loss from the use of ad-hoc optimization strategies have been thoroughly quantified to find an optimal trade-off between speed and accuracy. Our ShapeDetector is running in-between 5 and 8Hz for 612x480 pixel video sequences.We validated our approaches using a detailed methodology covering the overall tool location, tip position, and orientation. Approaches have been compared and ranked conjointly with a set of competitive baselines. For suction tube detections, we achieved a 15% miss-rate at 0.1 FPPI, compared to a 55% miss-rate for the adapted SquaresChnFtrs. Future works should be directed toward the integration of 3D feature extraction to improve detection performance but also toward the refinement of the semantic labelling step. Coupling the tool detection task to the tool classification in one single framework should be further investigated. Finally, increasing the data-set in diversity, number of tool classes, and detail of annotations is of interest.
206

Commande prédictive pour la réalisation de tâches d'asservissement visuel successives / Predictive control for the achievement of successive visual servoing tasks

Cazy, Nicolas 29 November 2016 (has links)
On rencontre aujourd'hui la vision par ordinateur employée pour la réalisation de nombreuses applications de la robotique moderne. L'un des axes de recherche actuel qui tend à améliorer ces systèmes est centré sur la commande. L'objectif est de proposer des schémas de commande originaux permettant de lier efficacement les informations mesurées par les capteurs de vision aux actions que l'on souhaite réaliser avec les robots. C'est dans cet aspect que s'inscrit ce document en apportant de nouvelles méthodes à la commande robotique classique faisant intervenir la vision, l'asservissement visuel. Le cas de pertes d'informations visuelles pendant la réalisation d'une tâche d'asservissement visuel est étudié. Dans ce sens, deux méthodes de prédiction qui permettent à la tâche d'être réalisée malgré ces pertes sont présentées. Puis une méthode inédite de correction est proposée. Celle-ci permet d'obtenir de meilleurs résultats de prédiction qu'une méthode classique, comme le démontrent des résultats obtenus en simulation et en condition réelle. Enfin, dans le contexte de la réalisation de plusieurs tâches d'asservissement visuel successives, une nouvelle méthode est présentée. Celle-ci exploite les caractéristiques d'un schéma de commande utilisé depuis quelques dizaines d'années dans l'industrie et la recherche, la commande prédictive basée modèle. Des résultats obtenus en simulation proposent de visualiser les effets de cette méthode sur le comportement d'un drone qui embarque une caméra. / The computer vision is used for the achievement of many applications of modern robotics. One of the current research topics that aims to improve these systems is focused on command. The objective consists to propose original control schemes to effectively link the information measured by the vision sensor to the actions that are to be achieved with the robots. This document is part of this look by bringing new methods to classical robotic control involving vision, the visual servoing.The case of visual information losses during the achievement of a visual servoing task is studied. In this sense, two prediction methods that allow the task to be achieved despite these losses are presented. Then a new method of correction is proposed. This provides better prediction results than a conventional method, as shown by the results obtained in simulation and in real conditions.Finally, in the context of the achievement of several successive visual servoing tasks, a new method is presented. This exploits the characteristics of a control scheme used for several decades in industry and research, model based predictive control. The results obtained in simulation propose to see the effect of this method on the behavior of a drone that embeds a camera.
207

Aggregation framework and patch-based representation for optical flow / Schéma d'agrégation et représentations par patchs pour le flot optique

Fortun, Denis 10 July 2014 (has links)
Nous nous intéressons dans cette thèse au problème de l'estimation dense du mouvement dans des séquences d'images, également désigné sous le terme de flot optique. Les approches usuelles exploitent une paramétrisation locale ou une régularisation globale du champ de déplacement. Nous explorons plusieurs façons de combiner ces deux stratégies, pour surmonter leurs limitations respectives. Nous nous plaçons dans un premier temps dans un cadre variationnel global, et considérons un filtrage local du terme de données. Nous proposons un filtrage spatialement adaptatif, optimisé conjointement au mouvement, pour empêcher le sur-lissage induit par le filtrage spatialement constant. Dans une seconde partie, nous proposons un cadre générique d'agrégation pour l'estimation du flot optique. Sous sa forme générale, il consiste en une estimation locale de candidats de mouvements, suivie de leur combinaison à l'étape d'agrégation avec un modèle global. Ce schéma permet une estimation efficace des grands déplacements et des discontinuités de mouvement. Nous développons également une méthode générique de gestion des occultations. Notre méthode est validée par une analyse expérimentale conséquente sur des bases de données de référence en vision par ordinateur. Nous démontrons la supériorité de notre méthode par rapport à l'état de l'art sur les séquences présentant de grands déplacements. La dernière partie de la thèse est consacrée à l'adaptation des approches précédentes à des problématiques d'imagerie biologique. Les changements locaux importants d'intensité observés en imagerie de fluorescence sont estimés et compensé par une adaptation de notre schéma d'agrégation. Nous proposons également une méthode variationnelle avec filtrage local dédiée au cas de mouvements diffusifs de particules. / This thesis is concerned with dense motion estimation in image sequences, also known as optical flow. Usual approaches exploit either local parametrization or global regularization of the motion field. We explore several ways to combine these two strategies, to overcome their respective limitations. We first address the problem in a global variational framework, and consider local filtering of the data term. We design a spatially adaptive filtering optimized jointly with motion, to prevent over-smoothing induced by the spatially constant approach. In a second part, we propose a generic two-step aggregation framework for optical flow estimation. The most general form is a local computation of motion candidates, combined in the aggregation step through a global model. Large displacements and motion discontinuities are efficiently recovered with this scheme. We also develop a generic exemplar-based occlusion handling to deal with large displacements. Our method is validated with extensive experiments in computer vision benchmarks. We demonstrate the superiority of our method over state-of-the-art on sequences with large displacements. Finally, we adapt the previous methods to biological imaging issues. Estimation and compensation of large local intensity changes frequently occurring in fluorescence imaging are efficiently estimated and compensated with an adaptation of our aggregation framework. We also propose a variational method with local filtering dedicated to the case of diffusive motion of particles.
208

Vers une reconnaissance des activités humaines non supervisées et des gestes dans les vidéos / Toward unsupervised human activity and gesture recognition in videos

Negin, Farhood 15 October 2018 (has links)
L’objectif principal de cette thèse est de proposer un framework complet pour une découverte, modélisation et reconnaissance automatiques des activités humaines dans les vidéos. Afin de modéliser et de reconnaître des activités dans des vidéos à long terme, nous proposons aussi un framework qui combine des informations perceptuelles globales et locales issues de la scène, et qui construit, en conséquence, des modèles d’activités hiérarchiques. Dans la première catégorie du framework, un classificateur supervisé basé sur le vecteur de Fisher est formé et les étiquettes sémantiques prédites sont intégrées dans les modèles hiérarchiques construits. Dans la seconde catégorie, pour avoir un framework complètement non supervisé, plutôt que d’incorporer les étiquettes sémantiques, les codes visuels formés sont stockés dans les modèles. Nous évaluons les frameworks sur deux ensembles de données réalistes sur les activités de la vie quotidienne enregistrées auprés des patients dans un environnement hospitalier. Pour modéliser des mouvements fins du corps humain, nous proposons quatre différents frameworks de reconnaissance de gestes où chaque framework accepte une ou une combinaison de différentes modalités de données en entrée. Nous évaluons les frameworks développés dans le contexte du test de diagnostic médical, appelé Praxis. Nous proposons un nouveau défi dans la reconnaissance gestuelle qui consiste à obtenir une opinion objective sur les performances correctes et incorrectes de gestes très similaires. Les expériences montrent l’efficacité de notre approche basée sur l’apprentissage en profondeur dans la reconnaissance des gestes et les tâches d’évaluation de la performance. / The main goal of this thesis is to propose a complete framework for automatic discovery, modeling and recognition of human activities in videos. In order to model and recognize activities in long-term videos, we propose a framework that combines global and local perceptual information from the scene and accordingly constructs hierarchical activity models. In the first variation of the framework, a supervised classifier based on Fisher vector is trained and the predicted semantic labels are embedded in the constructed hierarchical models. In the second variation, to have a completely unsupervised framework, rather than embedding the semantic labels, the trained visual codebooks are stored in the models. Finally, we evaluate the proposed frameworks on two realistic Activities of Daily Living datasets recorded from patients in a hospital environment. Furthermore, to model fine motions of human body, we propose four different gesture recognition frameworks where each framework accepts one or combination of different data modalities as input. We evaluate the developed frameworks in the context of medical diagnostic test namely Praxis. Praxis test is a gesture-based diagnostic test, which has been accepted as a diagnostically indicative of cortical pathologies such as Alzheimer’s disease. We suggest a new challenge in gesture recognition, which is to obtain an objective opinion about correct and incorrect performances of very similar gestures. The experiments show effectiveness of our deep learning based approach in gesture recognition and performance assessment tasks.
209

Analyzing and introducing structures in deep convolutional neural networks / Analyse et structuration des réseaux de neurones convolutifs profonds

Oyallon, Edouard 06 October 2017 (has links)
Cette thèse étudie des propriétés empiriques des réseaux de neurones convolutifs profonds, et en particulier de la transformée en Scattering. En effet, l’analyse théorique de ces derniers est difficile et représente jusqu’à ce jour un défi : les couches successives de neurones ont la capacité de réaliser des opérations complexes, dont la nature est encore inconnue, via des algorithmes d’apprentissages dont les garanties de convergences ne sont pas bien comprises. Pourtant, ces réseaux de neurones sont de formidables outils pour s’attaquer à une grande variété de tâches difficiles telles la classification d’images, ou plus simplement effectuer des prédictions. La transformée de Scattering est un opérateur mathématique, non-linéaire dont les spécifications sont inspirées par les réseaux convolutifs. Dans ce travail, elle est appliquée sur des images naturelles et obtient des résultats compétitifs avec les architectures non-supervisées. En plaçant un réseau de neurones convolutifs supervisés à la suite du Scattering, on obtient des performances compétitives sur ImageNet2012, qui est le plus grand jeux de donnée d’images étiquetées accessibles aux chercheurs. Cela nécessite d’implémenter un algorithme efficace sur carte graphique. Dans un second temps, cette thèse s’intéresse aux propriétés des couches à différentes profondeurs. On montre qu’un phénomène de réduction de dimensionnalité progressif à lieu et on s’intéresse aux propriétés de classifications supervisées lorsqu’on varie des hyper paramètres de ces réseaux. Finalement, on introduit une nouvelle classe de réseaux convolutifs, dont les opérateurs sont structurés par des groupes de symétries du problème de classification. / This thesis studies empirical properties of deep convolutional neural networks, and in particular the Scattering Transform. Indeed, the theoretical analysis of the latter is hard and until now remains a challenge: successive layers of neurons have the ability to produce complex computations, whose nature is still unknown, thanks to learning algorithms whose convergence guarantees are not well understood. However, those neural networks are outstanding tools to tackle a wide variety of difficult tasks, like image classification or more formally statistical prediction. The Scattering Transform is a non-linear mathematical operator whose properties are inspired by convolutional networks. In this work, we apply it to natural images, and obtain competitive accuracies with unsupervised architectures. Cascading a supervised neural networks after the Scattering permits to compete on ImageNet2012, which is the largest dataset of labeled images available. An efficient GPU implementation is provided. Then, this thesis focuses on the properties of layers of neurons at various depths. We show that a progressive dimensionality reduction occurs and we study the numerical properties of the supervised classification when we vary the hyper parameters of the network. Finally, we introduce a new class of convolutional networks, whose linear operators are structured by the symmetry groups of the classification task.
210

Stéréovision Omnidirectionnelle Large Entraxe pour la Supervision d'Intersections Routières / Wide-baseline Omnidirectional Stereovision for Intersection Monitoring

Datondji, Sokèmi René Emmanuel 03 October 2017 (has links)
La surveillance visuelle des objets dynamiques dans les carrefours routiers a été un sujet de recherche majeur au sein des communautés de vision par ordinateur et de transports intelligents, ces dernières années. De nombreux projets ont été menés afin d’améliorer la sécurité dans le contexte très particulier des carrefours. Notre analyse approfondie de l’état de l’art révèle que la majorité des systèmes en bord de voie, utilisent la vision monoculaire. Dans cette thèse, nous présentons un systèmenon-intrusif, de stéréovision-fisheye à large entraxe. Le dispositif proposé est particulièrement adapté aux carrefours ruraux ou sans signalisation. Notre objectif principal est la localisation des véhicules afin de reconstruire leurs trajectoires. Pour ce faire, l’estimation de la calibration extrinsèque entre les caméras est nécessaire afin d’effectuer des analyses à l’échelle métrique. Cette tâche s’avère très complexe dans notre configuration de déploiement. En effet la grande distance entre les caméras, la différence de vue et la forte présence de végétation, rendent inapplicables les méthodes de calibration qui requièrent la mise en correspondance d’images de mires. Il est donc nécessaire d’avoir une solution indépendante de la géométrie de la scène. Ainsi, nous proposons une méthode automatique reposant sur l’idée que les véhicules mobiles peuvent être utilisés comme objets dynamiques de calibration. Il s’agit d’une approche de type Structure à partir du Mouvement, découplée en l’estimation de la rotation extrinsèque à partir de points de fuite, suivie du calcul de la translation extrinsèque à l’échelle absolue par mise en correspondance de plans virtuels. Afin de généraliser notre méthode, nous adoptons le modèle de caméra sphérique sous l’hypothèse d’un mouvement plan. Des expérimentations conduites en laboratoire, puis dans des carrefours en Normandie, permettent de valider notre approche. Les paramètres extrinsèques sont alors directement exploités pour la trajectographie métrique des véhicules, en vue d’évaluer le risque et procéder à un diagnostic des intersections rurales. / Visual surveillance of dynamic objects at road intersections has been an active research topic in the computer vision and intelligent transportations systems communities, over the past decades. Several projects have been carried out in order to enhance the safety of drivers in the special context of intersections. Our extensive review of related studies revealedthat most roadside systems are based on monocular vision and provide output results generally in the image domain. In this thesis, we introduce a non-intrusive, wide-baseline stereoscopic system composed of fisheye cameras, perfectly suitable for rural or unsignalized intersections. Our main goal is to achieve vehicle localization and metric trajectory estimation in the world frame. For this, accurate extrinsic calibration is required to compute metric information. But the task is quite challenging in this configuration, because of the wide-baseline, the strong view difference between the cameras, and the important vegetation. Also, pattern-based methods are hardly feasible without disrupting the traffic. Therefore, we propose a points-correspondence-free solution. Our method is fully-automatic and based on a joint analysis of vehicles motion and appearance, which areconsidered as dynamic calibration objects. We present a Structure-from-Motion approach decoupled into the estimation of the extrinsic rotation from vanishing points, followed by the extrinsic translation at scale from a virtual-plane matching strategy. For generalization purposes we adopt the spherical camera model under the assumption of planar motion. Extensive experiments both in the lab and at rural intersections in Normandy allow to validate our work, leading to accurate vehicle motion analysis for risk assessment and safety diagnosis at rural intersections.

Page generated in 0.4466 seconds