• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 214
  • 149
  • 39
  • Tagged with
  • 405
  • 405
  • 405
  • 286
  • 161
  • 111
  • 109
  • 86
  • 80
  • 78
  • 76
  • 72
  • 72
  • 68
  • 64
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
201

La photogrammétrie rapprochée au service de l'archéologie préventive / Close range photogrammetry for survey in preventive archaeology

Samaan, Mariam 20 June 2016 (has links)
Le développement des appareils photos numériques, de la puissance de calcul des ordinateurs, les travaux de recherche en photogrammétrie et vision par ordinateur ont abouti à l’émergence récente de solutions opérationnelles permettant de construire de manière automatique des modèles 3D à partir de prises de vues à recouvrements multiples (multi stéréoscopiques).Par exemple, en prenant les « bonnes » photos, il est aujourd’hui possible de réaliser en quelques heures de calcul et quelques minutes d’interaction opérateur, des ortho-photos rigoureuses qui, il y a quelques années, auraient demandé des jours de restitution. Ces méthodes commencent à être répandues parmi certains acteurs du relevé patrimonial (architectes ou archéologues) et une économie commence même à se construire autour de services de modélisation 3D.Cependant ces méthodes restent loin d’être pleinement acceptées par la majorité des utilisateurs potentiels. Parmi les freins liés à la diffusion de ces techniques auprès des scientifiques du patrimoine, la méconnaissance des règles d’acquisition photographique permettant de tirer un parti optimum des outils de modélisation par photo.L’objectif de ce travail de thèse est de réaliser un travail de transfert et d’accompagnent effectif des outils du monde de la technologie et de l’informatique vers celui des utilisateurs dans le domaine du patrimoine. De manière plus spécifique, la thématique d’application choisie est celle de l’archéologie préventive, dans laquelle les contraintes de budget et de calendrier pour la réalisation des fouilles rendent particulièrement intéressantes les méthodes de relevé par photo.Nos travaux ont exclusivement porté sur la mise au point de méthodes photogrammétriques à partir de protocoles d’acquisition d’images fiables et légers, ainsi que de traitements adaptés à chaque étape de la chaîne de calcul.Le choix de traiter tel ou tel type d’objet dans le cadre de nos travaux est indépendant de toute classification des nombreuses spécialités de l’archéologie, mais est plutôt lié à un cadrage méthodologique, préférant multiplier les protocoles expérimentaux de documentation de petits artéfacts plutôt que de diversifier le type de vestiges à documenter. Au-delà du cas des petits artéfacts, les problématiques soulevées par la documentation d’une fouille archéologique comme site « vivant » ont aussi été partiellement abordées. Des méthodes de relevé capables d’enregistrer de manière exhaustive l’ensemble des objets découverts tout en les associant à une stratigraphie particulière ont en effet été étudiées / The development of digital cameras, the computational power of computers, photogrammetry and computer vision research has led to the recent emergence of operational solutions for building automatically 3D models from shooting multiple overlays (stereoscopic multi).For example, taking the "good" photos, it is now possible to achieve in a few hours of calculation and a few minutes of operator interaction, rigorous ortho-photos that, there a few years have asked for days restitution. These methods are starting to be widespread among some in the heritage survey (architects or archaeologists) and an economy even starting to build around 3D modeling services.However, these methods are far from being fully accepted by the majority of potential users. Among the brakes associated with the dissemination of these techniques to the scientific heritage, ignorance of the rules of photographic acquisition to take optimum advantage of modeling tools per photo.The objective of this thesis is to do a job transfer and accompany the actual world of technology tools and IT to the users in the field of heritage. More specifically, the theme chosen for application is that of preventive archeology, in which the constraints of budget and timetable for the completion of excavations make it particularly interesting methods identified by photograph.Our work has focused exclusively on the development of photogrammetric methods from acquiring reliable and lightweight image protocols and treatments for each stage of the calculation chain.The choice to treat a particular type of object in the context of our work is independent of any classification of the many specialties of archeology, but is instead linked to a methodological framework, preferring multiply experimental protocols documentation rather small artifacts that diversify the type remains to be documented. Beyond the case of small artifacts, the issues raised by the documentation of an archaeological dig as a site "living" were also partially addressed. Survey methods capable of recording exhaustively all objects discovered while linking to a particular stratigraphy have indeed been studied
202

Détection en temps-réel des outils chirurgicaux dans des vidéos 2D de neurochirurgie par modélisation de forme globale et d'apparence locale / Real-time detection of surgical tools in 2D neurosurgical videos by modelling global shape and local appearance

Bouget, David 27 May 2015 (has links)
Bien que devenant un environnement de plus en plus riche technologiquement, la salle opératoire reste un endroit où la sécurité des patients n'est pas assurée à 100% comme le montre le nombre toujours conséquent d'erreurs chirurgicales. La nécessité de développer des systèmes intelligents au bloc opératoire apparait comme croissante. Un des éléments clés pour ce type de système est la reconnaissance du processus chirurgical, passant par une identification précise des outils chirurgicaux utilisés. L'objectif de cette thèse a donc porté sur la détection en temps-réel des outils chirurgicaux dans des vidéos 2D provenant de microscopes. Devant l'absence de jeux de données de référence, qui plus est dans un contexte neurochirurgical, la première contribution de la thèse a donc été la création d'un nouvel ensemble d'images de chirurgies du cerveau et du rachis cervical, mis à disposition en ligne. Comme seconde contribution, deux approches différentes ont été proposées permettant de détecter des outils chirurgicaux via des techniques d'analyse d'image. Tout d'abord, le SquaresChnFtrs adapté, basé sur une des méthodes de détection de piétons les plus performantes de la littérature. Notre deuxième méthode, le ShapeDetector, est une approche à deux niveaux n'utilisant aucune contrainte ou hypothèse a priori sur le nombre, la position, ou la forme des outils dans l'image. Par rapport aux travaux précédents du domaine, nous avons choisi de représenter les détections potentielles par des polygones plutôt que par des rectangles, obtenant ainsi des détections plus précises. Pour intégration dans des systèmes médicaux, une optimisation de la vitesse de calcul a été effectuée via un usage optimal du CPU, du GPU, et de méthodes ad-hoc. Pour des vidéos de résolution 612x480 pixels, notre ShapeDetector est capable d'effectuer les détections à une vitesse maximale de 8 Hz. Pour la validation de nos méthodes, nous avons pris en compte trois paramètres: la position globale, la position de l'extrémité, et l'orientation des détections. Les méthodes ont été classées et comparées avec des méthodes de référence compétitives. Pour la détection des tubes d'aspiration, nous avons obtenu un taux de manqué de 15% pour un taux de faux positifs par image de 0.1, comparé à un taux de manqué de 55% pour le SquaresChnFtrs adapté. L'orientation future du travail devra porter sur l'intégration des informations 3D, l'amélioration de la couche de labélisation sémantique, et la classification des outils chirurgicaux. Pour finir, un enrichissement du jeu de données et des annotations de plus haute précision seront nécessaires. / Despite modern-life technological advances and tremendous progress made in surgical techniques including MIS, today's OR is facing many challenges remaining yet to be addressed. The development of CAS systems integrating the SPM methodology was born as a response from the medical community, with the long-term objective to create surgical cockpit systems. Being able to identify surgical tools in use is a key component for systems relying on the SPM methodology. Towards that end, this thesis work has focused on real-time surgical tool detection from microscope 2D images. From the review of the literature, no validation data-sets have been elected as benchmarks by the community. In addition, the neurosurgical context has been addressed only once. As such, the first contribution of this thesis work consisted in the creation of a new surgical tool data-set, made freely available online. Two methods have been proposed to tackle the surgical tool detection challenge. First, the adapted SquaresChnFtrs, evolution of one of the best computer vision state-of-the-art approach for pedestrian detection. Our second contribution, the ShapeDetector, is fully data-driven and performs detection without the use of prior knowledge regarding the number, shape, and position of tools in the image. Compared to previous works, we chose to represent candidate detections with bounding polygons instead of bounding boxes, hence providing more fitting results. For integration into medical systems, we performed different code optimization through CPU and GPU use. Speed gain and accuracy loss from the use of ad-hoc optimization strategies have been thoroughly quantified to find an optimal trade-off between speed and accuracy. Our ShapeDetector is running in-between 5 and 8Hz for 612x480 pixel video sequences.We validated our approaches using a detailed methodology covering the overall tool location, tip position, and orientation. Approaches have been compared and ranked conjointly with a set of competitive baselines. For suction tube detections, we achieved a 15% miss-rate at 0.1 FPPI, compared to a 55% miss-rate for the adapted SquaresChnFtrs. Future works should be directed toward the integration of 3D feature extraction to improve detection performance but also toward the refinement of the semantic labelling step. Coupling the tool detection task to the tool classification in one single framework should be further investigated. Finally, increasing the data-set in diversity, number of tool classes, and detail of annotations is of interest.
203

Commande prédictive pour la réalisation de tâches d'asservissement visuel successives / Predictive control for the achievement of successive visual servoing tasks

Cazy, Nicolas 29 November 2016 (has links)
On rencontre aujourd'hui la vision par ordinateur employée pour la réalisation de nombreuses applications de la robotique moderne. L'un des axes de recherche actuel qui tend à améliorer ces systèmes est centré sur la commande. L'objectif est de proposer des schémas de commande originaux permettant de lier efficacement les informations mesurées par les capteurs de vision aux actions que l'on souhaite réaliser avec les robots. C'est dans cet aspect que s'inscrit ce document en apportant de nouvelles méthodes à la commande robotique classique faisant intervenir la vision, l'asservissement visuel. Le cas de pertes d'informations visuelles pendant la réalisation d'une tâche d'asservissement visuel est étudié. Dans ce sens, deux méthodes de prédiction qui permettent à la tâche d'être réalisée malgré ces pertes sont présentées. Puis une méthode inédite de correction est proposée. Celle-ci permet d'obtenir de meilleurs résultats de prédiction qu'une méthode classique, comme le démontrent des résultats obtenus en simulation et en condition réelle. Enfin, dans le contexte de la réalisation de plusieurs tâches d'asservissement visuel successives, une nouvelle méthode est présentée. Celle-ci exploite les caractéristiques d'un schéma de commande utilisé depuis quelques dizaines d'années dans l'industrie et la recherche, la commande prédictive basée modèle. Des résultats obtenus en simulation proposent de visualiser les effets de cette méthode sur le comportement d'un drone qui embarque une caméra. / The computer vision is used for the achievement of many applications of modern robotics. One of the current research topics that aims to improve these systems is focused on command. The objective consists to propose original control schemes to effectively link the information measured by the vision sensor to the actions that are to be achieved with the robots. This document is part of this look by bringing new methods to classical robotic control involving vision, the visual servoing.The case of visual information losses during the achievement of a visual servoing task is studied. In this sense, two prediction methods that allow the task to be achieved despite these losses are presented. Then a new method of correction is proposed. This provides better prediction results than a conventional method, as shown by the results obtained in simulation and in real conditions.Finally, in the context of the achievement of several successive visual servoing tasks, a new method is presented. This exploits the characteristics of a control scheme used for several decades in industry and research, model based predictive control. The results obtained in simulation propose to see the effect of this method on the behavior of a drone that embeds a camera.
204

Aggregation framework and patch-based representation for optical flow / Schéma d'agrégation et représentations par patchs pour le flot optique

Fortun, Denis 10 July 2014 (has links)
Nous nous intéressons dans cette thèse au problème de l'estimation dense du mouvement dans des séquences d'images, également désigné sous le terme de flot optique. Les approches usuelles exploitent une paramétrisation locale ou une régularisation globale du champ de déplacement. Nous explorons plusieurs façons de combiner ces deux stratégies, pour surmonter leurs limitations respectives. Nous nous plaçons dans un premier temps dans un cadre variationnel global, et considérons un filtrage local du terme de données. Nous proposons un filtrage spatialement adaptatif, optimisé conjointement au mouvement, pour empêcher le sur-lissage induit par le filtrage spatialement constant. Dans une seconde partie, nous proposons un cadre générique d'agrégation pour l'estimation du flot optique. Sous sa forme générale, il consiste en une estimation locale de candidats de mouvements, suivie de leur combinaison à l'étape d'agrégation avec un modèle global. Ce schéma permet une estimation efficace des grands déplacements et des discontinuités de mouvement. Nous développons également une méthode générique de gestion des occultations. Notre méthode est validée par une analyse expérimentale conséquente sur des bases de données de référence en vision par ordinateur. Nous démontrons la supériorité de notre méthode par rapport à l'état de l'art sur les séquences présentant de grands déplacements. La dernière partie de la thèse est consacrée à l'adaptation des approches précédentes à des problématiques d'imagerie biologique. Les changements locaux importants d'intensité observés en imagerie de fluorescence sont estimés et compensé par une adaptation de notre schéma d'agrégation. Nous proposons également une méthode variationnelle avec filtrage local dédiée au cas de mouvements diffusifs de particules. / This thesis is concerned with dense motion estimation in image sequences, also known as optical flow. Usual approaches exploit either local parametrization or global regularization of the motion field. We explore several ways to combine these two strategies, to overcome their respective limitations. We first address the problem in a global variational framework, and consider local filtering of the data term. We design a spatially adaptive filtering optimized jointly with motion, to prevent over-smoothing induced by the spatially constant approach. In a second part, we propose a generic two-step aggregation framework for optical flow estimation. The most general form is a local computation of motion candidates, combined in the aggregation step through a global model. Large displacements and motion discontinuities are efficiently recovered with this scheme. We also develop a generic exemplar-based occlusion handling to deal with large displacements. Our method is validated with extensive experiments in computer vision benchmarks. We demonstrate the superiority of our method over state-of-the-art on sequences with large displacements. Finally, we adapt the previous methods to biological imaging issues. Estimation and compensation of large local intensity changes frequently occurring in fluorescence imaging are efficiently estimated and compensated with an adaptation of our aggregation framework. We also propose a variational method with local filtering dedicated to the case of diffusive motion of particles.
205

Vers une reconnaissance des activités humaines non supervisées et des gestes dans les vidéos / Toward unsupervised human activity and gesture recognition in videos

Negin, Farhood 15 October 2018 (has links)
L’objectif principal de cette thèse est de proposer un framework complet pour une découverte, modélisation et reconnaissance automatiques des activités humaines dans les vidéos. Afin de modéliser et de reconnaître des activités dans des vidéos à long terme, nous proposons aussi un framework qui combine des informations perceptuelles globales et locales issues de la scène, et qui construit, en conséquence, des modèles d’activités hiérarchiques. Dans la première catégorie du framework, un classificateur supervisé basé sur le vecteur de Fisher est formé et les étiquettes sémantiques prédites sont intégrées dans les modèles hiérarchiques construits. Dans la seconde catégorie, pour avoir un framework complètement non supervisé, plutôt que d’incorporer les étiquettes sémantiques, les codes visuels formés sont stockés dans les modèles. Nous évaluons les frameworks sur deux ensembles de données réalistes sur les activités de la vie quotidienne enregistrées auprés des patients dans un environnement hospitalier. Pour modéliser des mouvements fins du corps humain, nous proposons quatre différents frameworks de reconnaissance de gestes où chaque framework accepte une ou une combinaison de différentes modalités de données en entrée. Nous évaluons les frameworks développés dans le contexte du test de diagnostic médical, appelé Praxis. Nous proposons un nouveau défi dans la reconnaissance gestuelle qui consiste à obtenir une opinion objective sur les performances correctes et incorrectes de gestes très similaires. Les expériences montrent l’efficacité de notre approche basée sur l’apprentissage en profondeur dans la reconnaissance des gestes et les tâches d’évaluation de la performance. / The main goal of this thesis is to propose a complete framework for automatic discovery, modeling and recognition of human activities in videos. In order to model and recognize activities in long-term videos, we propose a framework that combines global and local perceptual information from the scene and accordingly constructs hierarchical activity models. In the first variation of the framework, a supervised classifier based on Fisher vector is trained and the predicted semantic labels are embedded in the constructed hierarchical models. In the second variation, to have a completely unsupervised framework, rather than embedding the semantic labels, the trained visual codebooks are stored in the models. Finally, we evaluate the proposed frameworks on two realistic Activities of Daily Living datasets recorded from patients in a hospital environment. Furthermore, to model fine motions of human body, we propose four different gesture recognition frameworks where each framework accepts one or combination of different data modalities as input. We evaluate the developed frameworks in the context of medical diagnostic test namely Praxis. Praxis test is a gesture-based diagnostic test, which has been accepted as a diagnostically indicative of cortical pathologies such as Alzheimer’s disease. We suggest a new challenge in gesture recognition, which is to obtain an objective opinion about correct and incorrect performances of very similar gestures. The experiments show effectiveness of our deep learning based approach in gesture recognition and performance assessment tasks.
206

Analyzing and introducing structures in deep convolutional neural networks / Analyse et structuration des réseaux de neurones convolutifs profonds

Oyallon, Edouard 06 October 2017 (has links)
Cette thèse étudie des propriétés empiriques des réseaux de neurones convolutifs profonds, et en particulier de la transformée en Scattering. En effet, l’analyse théorique de ces derniers est difficile et représente jusqu’à ce jour un défi : les couches successives de neurones ont la capacité de réaliser des opérations complexes, dont la nature est encore inconnue, via des algorithmes d’apprentissages dont les garanties de convergences ne sont pas bien comprises. Pourtant, ces réseaux de neurones sont de formidables outils pour s’attaquer à une grande variété de tâches difficiles telles la classification d’images, ou plus simplement effectuer des prédictions. La transformée de Scattering est un opérateur mathématique, non-linéaire dont les spécifications sont inspirées par les réseaux convolutifs. Dans ce travail, elle est appliquée sur des images naturelles et obtient des résultats compétitifs avec les architectures non-supervisées. En plaçant un réseau de neurones convolutifs supervisés à la suite du Scattering, on obtient des performances compétitives sur ImageNet2012, qui est le plus grand jeux de donnée d’images étiquetées accessibles aux chercheurs. Cela nécessite d’implémenter un algorithme efficace sur carte graphique. Dans un second temps, cette thèse s’intéresse aux propriétés des couches à différentes profondeurs. On montre qu’un phénomène de réduction de dimensionnalité progressif à lieu et on s’intéresse aux propriétés de classifications supervisées lorsqu’on varie des hyper paramètres de ces réseaux. Finalement, on introduit une nouvelle classe de réseaux convolutifs, dont les opérateurs sont structurés par des groupes de symétries du problème de classification. / This thesis studies empirical properties of deep convolutional neural networks, and in particular the Scattering Transform. Indeed, the theoretical analysis of the latter is hard and until now remains a challenge: successive layers of neurons have the ability to produce complex computations, whose nature is still unknown, thanks to learning algorithms whose convergence guarantees are not well understood. However, those neural networks are outstanding tools to tackle a wide variety of difficult tasks, like image classification or more formally statistical prediction. The Scattering Transform is a non-linear mathematical operator whose properties are inspired by convolutional networks. In this work, we apply it to natural images, and obtain competitive accuracies with unsupervised architectures. Cascading a supervised neural networks after the Scattering permits to compete on ImageNet2012, which is the largest dataset of labeled images available. An efficient GPU implementation is provided. Then, this thesis focuses on the properties of layers of neurons at various depths. We show that a progressive dimensionality reduction occurs and we study the numerical properties of the supervised classification when we vary the hyper parameters of the network. Finally, we introduce a new class of convolutional networks, whose linear operators are structured by the symmetry groups of the classification task.
207

Stéréovision Omnidirectionnelle Large Entraxe pour la Supervision d'Intersections Routières / Wide-baseline Omnidirectional Stereovision for Intersection Monitoring

Datondji, Sokèmi René Emmanuel 03 October 2017 (has links)
La surveillance visuelle des objets dynamiques dans les carrefours routiers a été un sujet de recherche majeur au sein des communautés de vision par ordinateur et de transports intelligents, ces dernières années. De nombreux projets ont été menés afin d’améliorer la sécurité dans le contexte très particulier des carrefours. Notre analyse approfondie de l’état de l’art révèle que la majorité des systèmes en bord de voie, utilisent la vision monoculaire. Dans cette thèse, nous présentons un systèmenon-intrusif, de stéréovision-fisheye à large entraxe. Le dispositif proposé est particulièrement adapté aux carrefours ruraux ou sans signalisation. Notre objectif principal est la localisation des véhicules afin de reconstruire leurs trajectoires. Pour ce faire, l’estimation de la calibration extrinsèque entre les caméras est nécessaire afin d’effectuer des analyses à l’échelle métrique. Cette tâche s’avère très complexe dans notre configuration de déploiement. En effet la grande distance entre les caméras, la différence de vue et la forte présence de végétation, rendent inapplicables les méthodes de calibration qui requièrent la mise en correspondance d’images de mires. Il est donc nécessaire d’avoir une solution indépendante de la géométrie de la scène. Ainsi, nous proposons une méthode automatique reposant sur l’idée que les véhicules mobiles peuvent être utilisés comme objets dynamiques de calibration. Il s’agit d’une approche de type Structure à partir du Mouvement, découplée en l’estimation de la rotation extrinsèque à partir de points de fuite, suivie du calcul de la translation extrinsèque à l’échelle absolue par mise en correspondance de plans virtuels. Afin de généraliser notre méthode, nous adoptons le modèle de caméra sphérique sous l’hypothèse d’un mouvement plan. Des expérimentations conduites en laboratoire, puis dans des carrefours en Normandie, permettent de valider notre approche. Les paramètres extrinsèques sont alors directement exploités pour la trajectographie métrique des véhicules, en vue d’évaluer le risque et procéder à un diagnostic des intersections rurales. / Visual surveillance of dynamic objects at road intersections has been an active research topic in the computer vision and intelligent transportations systems communities, over the past decades. Several projects have been carried out in order to enhance the safety of drivers in the special context of intersections. Our extensive review of related studies revealedthat most roadside systems are based on monocular vision and provide output results generally in the image domain. In this thesis, we introduce a non-intrusive, wide-baseline stereoscopic system composed of fisheye cameras, perfectly suitable for rural or unsignalized intersections. Our main goal is to achieve vehicle localization and metric trajectory estimation in the world frame. For this, accurate extrinsic calibration is required to compute metric information. But the task is quite challenging in this configuration, because of the wide-baseline, the strong view difference between the cameras, and the important vegetation. Also, pattern-based methods are hardly feasible without disrupting the traffic. Therefore, we propose a points-correspondence-free solution. Our method is fully-automatic and based on a joint analysis of vehicles motion and appearance, which areconsidered as dynamic calibration objects. We present a Structure-from-Motion approach decoupled into the estimation of the extrinsic rotation from vanishing points, followed by the extrinsic translation at scale from a virtual-plane matching strategy. For generalization purposes we adopt the spherical camera model under the assumption of planar motion. Extensive experiments both in the lab and at rural intersections in Normandy allow to validate our work, leading to accurate vehicle motion analysis for risk assessment and safety diagnosis at rural intersections.
208

Processing and learning deep neural networks on chip / Traitement et apprentissage des réseaux de neurones profonds sur puce

Boukli Hacene, Ghouthi 03 October 2019 (has links)
Dans le domaine de l'apprentissage machine, les réseaux de neurones profonds sont devenus la référence incontournable pour un très grand nombre de problèmes. Ces systèmes sont constitués par un assemblage de couches, lesquelles réalisent des traitements élémentaires, paramétrés par un grand nombre de variables. À l'aide de données disponibles pendant une phase d'apprentissage, ces variables sont ajustées de façon à ce que le réseau de neurones réponde à la tâche donnée. Il est ensuite possible de traiter de nouvelles données. Si ces méthodes atteignent les performances à l'état de l'art dans bien des cas, ils reposent pour cela sur un très grand nombre de paramètres, et donc des complexités en mémoire et en calculs importantes. De fait, ils sont souvent peu adaptés à l'implémentation matérielle sur des systèmes contraints en ressources. Par ailleurs, l'apprentissage requiert de repasser sur les données d'entraînement plusieurs fois, et s'adapte donc difficilement à des scénarios où de nouvelles informations apparaissent au fil de l'eau. Dans cette thèse, nous nous intéressons dans un premier temps aux méthodes permettant de réduire l'impact en calculs et en mémoire des réseaux de neurones profonds. Nous proposons dans un second temps des techniques permettant d'effectuer l'apprentissage au fil de l'eau, dans un contexte embarqué. / In the field of machine learning, deep neural networks have become the inescapablereference for a very large number of problems. These systems are made of an assembly of layers,performing elementary operations, and using a large number of tunable variables. Using dataavailable during a learning phase, these variables are adjusted such that the neural networkaddresses the given task. It is then possible to process new data.To achieve state-of-the-art performance, in many cases these methods rely on a very largenumber of parameters, and thus large memory and computational costs. Therefore, they are oftennot very adapted to a hardware implementation on constrained resources systems. Moreover, thelearning process requires to reuse the training data several times, making it difficult to adapt toscenarios where new information appears on the fly.In this thesis, we are first interested in methods allowing to reduce the impact of computations andmemory required by deep neural networks. Secondly, we propose techniques for learning on thefly, in an embedded context.
209

Modélisation et apprentissage de relations spatiales pour la reconnaissance et l’interprétation d’images / Modeling and learning spatial relations for image recognition and understanding

Clément, Michaël 26 September 2017 (has links)
Ces dernières années, la quantité de données visuelles produites par divers types de capteurs est en augmentation permanente. L'interprétation et l'indexation automatique de telles données constituent des défis importants pour les domaines liés à la reconnaissance de formes et la vision par ordinateur. Dans ce contexte, la position relative des différents objets d'intérêt composant les images représente une information particulièrement importante pour interpréter leur contenu. Les relations spatiales sont en effet porteuses d'une sémantique riche, qui est fortement liée à la perception humaine. Les travaux de recherche présentés dans cette thèse proposent ainsi d'explorer différentes approches génériques de description de l'information spatiale, en vue de les intégrer dans des systèmes de reconnaissance et d'interprétation d'images de haut niveau. Tout d'abord, nous présentons une approche pour la description de configurations spatiales complexes, où les objets peuvent être imbriqués les uns dans les autres. Cette notion est formalisée par deux nouvelles relations spatiales, nommées enlacement et entrelacement. Nous proposons un modèle qui permet de décrire et de visualiser ces configurations avec une granularité directionnelle. Ce modèle est validé expérimentalement pour des applications en imagerie biomédicale, en télédétection et en analyse d'images de documents. Ensuite, nous présentons un cadre d'apprentissage de relations spatiales composites à partir d'ensembles d'images. Inspirée des approches par sacs de caractéristiques visuelles, cette stratégie permet de construire des vocabulaires de configurations spatiales apparaissant dans les images, à différentes échelles. Ces caractéristiques structurelles peuvent notamment être combinées avec des descriptions locales, conduisant ainsi à des représentations hybrides et complémentaires. Les résultats expérimentaux obtenus sur différentes bases d'images structurées permettent d'illustrer l'intérêt de cette approche pour la reconnaissance et la classification d'images. / In recent years, the amount of visual data produced by various types of sensors has been continuously increasing. The automatic interpretation and indexation of such data constitute an important challenge in the fields of pattern recognition and computer vision. In this context, the relative position of the different objects of interest depicted in images represents particularly important information for the interpretation of their content. Spatial relations indeed carry rich semantics that are strongly tied with human perception. The research work presented in this thesis thus proposes to explore different generic approaches to the description of spatial information, in order to integrate them in high-level image recognition and understanding systems. First, we present an approach for the description of complex spatial configurations, where objects can be imbricated in each other. This notion is formalized by two novel spatial relations, namely enlacement and interlacement. We propose a model to describe and to visualize these configurations with directional granularity. This model is experimentally validated for applications in biomedical imaging, remote sensing and document image analysis. Then, we present a framework for learning composite spatial relations from image datasets. Inspired by bags of visual features approaches, this strategy allows to build vocabularies of spatial configurations occurring across images, at different scales. These structural features can notably be combined with local descriptions, leading to hybrid and complementary representations. Experimental results obtained for different datasets of structured images highlight the interest of this approach for image recognition and classification tasks.
210

Learning Image-to-Surface Correspondence / Apprentissage de Correspondances Image-Surface

Guler, Riza Alp 08 March 2019 (has links)
Cette thèse se concentre sur le développement demodèles de représentation dense d’objets 3-D àpartir d’images. L’objectif de ce travail estd’améliorer les modèles surfaciques 3-D fournispar les systèmes de vision par ordinateur, enutilisant de nouveaux éléments tirés des images,plutôt que les annotations habituellementutilisées, ou que les modèles basés sur unedivision de l’objet en différents parties.Des réseaux neuronaux convolutifs (CNNs) sontutilisés pour associer de manière dense les pixelsd’une image avec les coordonnées 3-D d’unmodèle de l’objet considéré. Cette méthodepermet de résoudre très simplement unemultitude de tâches de vision par ordinateur,telles que le transfert d’apparence, la localisationde repères ou la segmentation sémantique, enutilisant la correspondance entre une solution surle modèle surfacique 3-D et l’image 2-Dconsidérée. On démontre qu’une correspondancegéométrique entre un modèle 3-D et une imagepeut être établie pour le visage et le corpshumains. / This thesis addresses the task of establishing adense correspondence between an image and a 3Dobject template. We aim to bring vision systemscloser to a surface-based 3D understanding ofobjects by extracting information that iscomplementary to existing landmark- or partbasedrepresentations.We use convolutional neural networks (CNNs)to densely associate pixels with intrinsiccoordinates of 3D object templates. Through theestablished correspondences we effortlesslysolve a multitude of visual tasks, such asappearance transfer, landmark localization andsemantic segmentation by transferring solutionsfrom the template to an image. We show thatgeometric correspondence between an imageand a 3D model can be effectively inferred forboth the human face and the human body.

Page generated in 0.0909 seconds