• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 24
  • 14
  • 2
  • Tagged with
  • 39
  • 39
  • 17
  • 17
  • 14
  • 13
  • 12
  • 10
  • 10
  • 9
  • 9
  • 9
  • 8
  • 7
  • 6
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
21

DE L'ABEILLE AU ROBOT : LA RÉGULATION DU FLUX OPTIQUE. Contrôle conjoint de vitesse et d'évitements d'obstacles latéraux pour véhicules totalement actionnés.

Serres, Julien 11 July 2008 (has links) (PDF)
Nous avons conçu un pilote automatique, dénommé LORA (Lateral Optic flow Regulation Autopilot), qui s'inspire de la vision du mouvement des insectes ailés. Il se compose de deux régulateurs de flux optique interdépendants, chacun contrôlant un degré de liberté de translation : un régulateur de flux optique bilatéral contrôle la vitesse du robot, tandis qu'un régulateur de flux optique unilatéral lui permet d'éviter les obstacles latéraux. Des expériences de simulation montrent qu'un robot totalement actionné, équipé du seul pilote automatique LORA, franchit sans collision un corridor droit, fuselé, ou même non stationnaire. Le robot n'a besoin que d'une paire d'yeux latéraux mesurant les flux optiques droit et gauche et ne fait appel à aucun autre capteur, ni de vitesse, ni de distance. LORA est destiné à équiper un aéroglisseur miniature de 0,8 kg, doté de deux yeux élémentaires (à 2 pixels) et rendu totalement actionné par l'adjonction de deux propulseurs latéraux. Nous avons identifié tous les paramètres dynamiques de ce robot avant de les inclure dans les simulations. Ce travail constitue un premier pas vers un système de guidage agile et léger pour micro-aéronefs. La genèse du pilote automatique LORA a suivi trois étapes : LORA I, LORA II et LORA III, enrichies progressivement par l'analyse parallèle du comportement d'abeilles entraînées à pénétrer dans divers corridors pour y butiner un nectar artificiel. L'enregistrement vidéo à haute résolution et l'analyse statistique de trajectoires d'abeilles dans divers environnements ont permis de mettre à jour les ressorts du système visuo-moteur sous-jacent. Ainsi notre travail remet en question l'hypothèse d'" équilibrage des flux optiques latéraux ", proposée voici 20 ans pour expliquer " la réaction de centrage " de l'abeille dans un corridor. Bien que ce comportement ait inspiré maints roboticiens dans le monde, il apparaît en fait comme un cas particulier d'un comportement beaucoup plus général de l'insecte : le suivi de paroi. Le va-et-vient permanent biologie-robotique qui a animé notre travail offre aujourd'hui des retombées dans les deux camps. Il permet de comprendre comment un insecte de 100 mg peut naviguer sans SONAR, ni RADAR, ni LIDAR, ni GPS, et offre aux véhicules autonomes la possibilité de se comporter pareillement, sans avoir à mesurer ni vitesse ni distance.
22

Etude du mouvement dans les séquences d'images par analyse d'ondelettes et modélisation markovienne hiérarchique. Application à la détection d'obstacles dans un milieu routier

Demonceaux, Cédric 17 December 2004 (has links) (PDF)
Ce travail a pour objectif de détecter les obstacles sur la route à partir d'une caméra montée sur un véhicule. Étant donné les contraintes que nous nous sommes fixées, un état de l'art des différentes méthodes existantes sur ce sujet montre que seule une analyse du mouvement dans les sé- quences d'images peut résoudre ce problème. En effet, cette méthode doit permettre de détecter tout type d'obstacles sur tout type de routes avec une seule caméra. Pour ce faire, nous avons développé une nouvelle méthode d'estimation de mouvement paramétrique par analyse d'ondelettes de l'équation de contrainte du flot optique (E.C.M.A.). Cette méthode multi- résolution nous a permis de contourner le problème de l'aliasage temporel inhérent à l'E.C.M.A.. Nous avons ensuite proposé de résoudre le problème de la détection de mouvement dans une scène filmée à par- tir d'une caméra mobile à l'aide d'une modélisation markovienne hiérarchique déduite de façon naturelle de l'estimation multi-résolution du mouvement. Puis, nous avons introduit une méthode de segmenta- tion au sens du mouvement entre deux images sans connaissance a priori et sans hypothèse de présence de mouvement dominant grâce à un raffinement successif de la segmentation d'une échelle grossière de l'image à l'échelle la plus fine. Chaque méthode (estimation, détection et segmentation) a été validée expérimentalement sur des séquences synthétiques et réelles. Enfin, celles-ci ont été adaptées au problème concret visé par cette thèse : la détection d'obstacles dans un milieu routier. L'utilisation d'ondelettes et de champs de Markov hiérarchiques aboutit à des solutions peu coûteuses en temps de calcul.
23

Le mouvement en action : estimation du flot optique et localisation d'actions dans les vidéos / Motion in action : optical flow estimation and action localization in videos

Weinzaepfel, Philippe 23 September 2016 (has links)
Avec la récente et importante croissance des contenus vidéos, la compréhension automatique de vidéos est devenue un problème majeur.Ce mémoire présente plusieurs contributions sur deux tâches de la compréhension automatique de vidéos : l'estimation du flot optique et la localisation d'actions humaines.L'estimation du flot optique consiste à calculer le déplacement de chaque pixel d'une vidéo et fait face à plusieurs défis tels que les grands déplacements non rigides, les occlusions et les discontinuités du mouvement.Nous proposons tout d'abord une méthode pour le calcul du flot optique, basée sur un modèle variationnel qui incorpore une nouvelle méthode d'appariement.L'algorithme d'appariement proposé repose sur une architecture corrélationnelle hiérarchique à plusieurs niveaux et gère les déformations non rigides ainsi que les textures répétitives.Il permet d'améliorer l'estimation du flot en présence de changements d'apparence significatifs et de grands déplacements.Nous présentons également une nouvelle approche pour l'estimation du flot optique basée sur une interpolation dense de correspondances clairsemées tout en respectant les contours.Cette méthode tire profit d'une distance géodésique basée sur les contours qui permet de respecter les discontinuités du mouvement et de gérer les occlusions.En outre, nous proposons une approche d'apprentissage pour détecter les discontinuités du mouvement.Les motifs de discontinuité du mouvement sont prédits au niveau d'un patch en utilisant des forêts aléatoires structurées.Nous montrons expérimentalement que notre approche surclasse la méthode basique construite sur le gradient du flot tant sur des données synthétiques que sur des vidéos réelles.Nous présentons à cet effet une base de données contenant des vidéos d'utilisateurs.La localisation d'actions humaines consiste à reconnaître les actions présentes dans une vidéo, comme `boire' ou `téléphoner', ainsi que leur étendue temporelle et spatiale.Nous proposons tout d'abord une nouvelle approche basée sur les réseaux de neurones convolutionnels profonds.La méthode passe par l'extraction de tubes dépendants de la classe à détecter, tirant parti des dernières avancées en matière de détection et de suivi.La description des tubes est enrichie par des descripteurs spatio-temporels locaux.La détection temporelle est effectuée à l'aide d'une fenêtre glissante à l'intérieur de chaque tube.Notre approche surclasse l'état de l'art sur des bases de données difficiles de localisation d'actions.Deuxièmement, nous présentons une méthode de localisation d'actions faiblement supervisée, c'est-à-dire qui ne nécessite pas l'annotation de boîtes englobantes.Des candidats de localisation d'actions sont calculés en extrayant des tubes autour des humains.Cela est fait en utilisant un détecteur d'humains robuste aux poses inhabituelles et aux occlusions, appris sur une base de données de poses humaines.Un rappel élevé est atteint avec seulement quelques tubes, permettant d'appliquer un apprentissage à plusieurs instances.En outre, nous présentons une nouvelle base de données pour la localisation d'actions humaines.Elle surmonte les limitations des bases existantes, telles la diversité et la durée des vidéos.Notre approche faiblement supervisée obtient des résultats proches de celles totalement supervisées alors qu'elle réduit significativement l'effort d'annotations requis. / With the recent overwhelming growth of digital video content, automatic video understanding has become an increasingly important issue.This thesis introduces several contributions on two automatic video understanding tasks: optical flow estimation and human action localization.Optical flow estimation consists in computing the displacement of every pixel in a video andfaces several challenges including large non-rigid displacements, occlusions and motion boundaries.We first introduce an optical flow approach based on a variational model that incorporates a new matching method.The proposed matching algorithm is built upon a hierarchical multi-layer correlational architecture and effectively handles non-rigid deformations and repetitive textures.It improves the flow estimation in the presence of significant appearance changes and large displacements.We also introduce a novel scheme for estimating optical flow based on a sparse-to-dense interpolation of matches while respecting edges.This method leverages an edge-aware geodesic distance tailored to respect motion boundaries and to handle occlusions.Furthermore, we propose a learning-based approach for detecting motion boundaries.Motion boundary patterns are predicted at the patch level using structured random forests.We experimentally show that our approach outperforms the flow gradient baseline on both synthetic data and real-world videos,including an introduced dataset with consumer videos.Human action localization consists in recognizing the actions that occur in a video, such as `drinking' or `phoning', as well as their temporal and spatial extent.We first propose a novel approach based on Deep Convolutional Neural Network.The method extracts class-specific tubes leveraging recent advances in detection and tracking.Tube description is enhanced by spatio-temporal local features.Temporal detection is performed using a sliding window scheme inside each tube.Our approach outperforms the state of the art on challenging action localization benchmarks.Second, we introduce a weakly-supervised action localization method, ie, which does not require bounding box annotation.Action proposals are computed by extracting tubes around the humans.This is performed using a human detector robust to unusual poses and occlusions, which is learned on a human pose benchmark.A high recall is reached with only several human tubes, allowing to effectively apply Multiple Instance Learning.Furthermore, we introduce a new dataset for human action localization.It overcomes the limitations of existing benchmarks, such as the diversity and the duration of the videos.Our weakly-supervised approach obtains results close to fully-supervised ones while significantly reducing the required amount of annotations.
24

Vision stéréoscopique temps-réel pour la navigation autonome d'un robot en environnement dynamique / Real-time stereovision for autonomous robot navigation in dynamic environment

Derome, Maxime 22 June 2017 (has links)
L'objectif de cette thèse est de concevoir un système de perception stéréoscopique embarqué, permettant une navigation robotique autonome en environnement dynamique (i.e. comportant des objets mobiles). Pour cela, nous nous sommes imposé plusieurs contraintes : 1) Puisque l'on souhaite pouvoir naviguer en terrain inconnu et en présence de tout type d'objets mobiles, nous avons adopté une approche purement géométrique. 2) Pour assurer une couverture maximale du champ visuel nous avons choisi d'employer des méthodes d'estimation denses qui traitent chaque pixel de l'image. 3) Puisque les algorithmes utilisés doivent pouvoir s'exécuter en embarqué sur un robot, nous avons attaché le plus grand soin à sélectionner ou concevoir des algorithmes particulièrement rapides, pour nuire au minimum à la réactivité du système. La démarche présentée dans ce manuscrit et les contributions qui sont faites sont les suivantes. Dans un premier temps, nous étudions plusieurs algorithmes d’appariement stéréo qui permettent d'estimer une carte de disparité dont on peut déduire, par triangulation, une carte de profondeur. Grâce à cette évaluation nous mettons en évidence un algorithme qui ne figure pas sur les benchmarks KITTI, mais qui offre un excellent compromis précision/temps de calcul. Nous proposons également une méthode pour filtrer les cartes de disparité. En codant ces algorithmes en CUDA pour profiter de l’accélération des calculs sur cartes graphiques (GPU), nous montrons qu’ils s’exécutent très rapidement (19ms sur les images KITTI, sur GPU GeForce GTX Titan).Dans un deuxième temps, nous souhaitons percevoir les objets mobiles et estimer leur mouvement. Pour cela nous calculons le déplacement du banc stéréo par odométrie visuelle pour pouvoir isoler dans le mouvement apparent 2D ou 3D (estimé par des algorithmes de flot optique ou de flot de scène) la part induite par le mouvement propre à chaque objet. Partant du constat que seul l'algorithme d'estimation du flot optique FOLKI permet un calcul en temps-réel, nous proposons plusieurs modifications de celui-ci qui améliorent légèrement ses performances au prix d'une augmentation de son temps de calcul. Concernant le flot de scène, aucun algorithme existant ne permet d'atteindre la vitesse d'exécution souhaitée, nous proposons donc une nouvelle approche découplant structure et mouvement pour estimer rapidement le flot de scène. Trois algorithmes sont proposés pour exploiter cette décomposition structure-mouvement et l’un d’eux, particulièrement efficace, permet d'estimer très rapidement le flot de scène avec une précision relativement bonne. A notre connaissance, il s'agit du seul algorithme publié de calcul du flot de scène capable de s'exécuter à cadence vidéo sur les données KITTI (10Hz).Dans un troisième temps, pour détecter les objets en mouvement et les segmenter dans l'image, nous présentons différents modèles statistiques et différents résidus sur lesquels fonder une détection par seuillage d'un critère chi2. Nous proposons une modélisation statistique rigoureuse qui tient compte de toutes les incertitudes d'estimation, notamment celles de l'odométrie visuelle, ce qui n'avait pas été fait à notre connaissance dans le contexte de la détection d'objets mobiles. Nous proposons aussi un nouveau résidu pour la détection, en utilisant la méthode par prédiction d’image qui permet de faciliter la propagation des incertitudes et l'obtention du critère chi2. Le gain apporté par le résidu et le modèle d'erreur proposés est démontré par une évaluation des algorithmes de détection sur des exemples tirés de la base KITTI. Enfin, pour valider expérimentalement notre système de perception en embarqué sur une plateforme robotique, nous implémentons nos codes sous ROS et certains codes en CUDA pour une accélération sur GPU. Nous décrivons le système de perception et de navigation utilisé pour la preuve de concept qui montre que notre système de perception, convient à une application embarquée. / This thesis aims at designing an embedded stereoscopic perception system that enables autonomous robot navigation in dynamic environments (i.e. including mobile objects). To do so, we need to satisfy several constraints: 1) We want to be able to navigate in unknown environment and with any type of mobile objects, thus we adopt a geometric approach. 2) We want to ensure the best possible coverage of the field of view, so we employ dense methods that process every pixel in the image. 3) The algorithms must be compliant with an embedded platform, therefore we must carefully design the algorithms so they are fast enough to keep a certain level of reactivity. The approach presented in this thesis manuscript and the contributions are summarized below. First, we study several stereo matching algorithms that estimate a disparity map from which we can deduce a depth map, by triangulation. This comparative study highlights one algorithm that is not in the KITTI benchmarks, but that gives a great accuracy/processing time tradeoff. We also propose a filtering method to post-process the disparity maps. By coding these algorithm in CUDA to benefit from hardware acceleration on Graphics Processing Unit, we show that they can perform very fast (19ms on KITTI images, with a GPU GeForce GTX Titan).Second, we want to detect mobile objects and estimate their motion. To do so we compute the stereo rig motion using visual odometry, in order to isolate the part induced by moving objects in the 2D or 3D apparent motion (estimated by optical flow or scene flow algorithms). Considering that the only optical flow algorithm able to perform in real-time is FOLKI, we propose several modifications of it to slightly improve its performances at the cost of a slower processing time. Regarding the scene flow estimation, existing algorithms cannot reach the desired computation speed, so we propose a new approach by decoupling structure and motion for a fast scene flow estimation. Three algorithms are proposed to use this structure-motion decomposition, and one of them, particularly efficient, enables very fast scene flow computing with a relatively good accuracy. To our knowledge it is the only published scene flow algorithm able to perform at framerate on KITTI dataset (10 Hz).Third, to detect moving objects and segment them in the image, we show several statistical models and residual quantities on which we can base the detection by thresholding a chi2 criterion. We propose a rigorous statistical modeling that takes into account all the uncertainties occurring during the estimation, in particular during the visual odometry, which had not been done to our knowledge, in the context of moving object detection. We also propose a new residual quantity for the detection, using an image prediction approach to facilitate uncertainty propagation and the chi2 criterion modeling. The benefit brought by the proposed residual quantity and error model is demonstrated by evaluating detection algorithms on a samples of annotated KITTI data. Finally, we implement our algorithms on ROS to run the perception system on en embedded platform, and we code some algorithms in CUDA to accelerate the computing using GPU. We describe the perception and the navigation system that we use for the experimental validation. We show in our experiments that the proposed stereovision perception system is suitable for embedded robotic applications.
25

Le signal monogène couleur : théorie et applications / The Color Monogenic Signal : theory and applications

Demarcq, Guillaume 10 December 2010 (has links)
Dans cette thèse, une nouvelle représentation des images couleur basée sur une généralisation du signal analytique est introduite. En utilisant l'analogie entre les conditions de Cauchy-Riemann, qui définissent le caractère holomorphe d'une fonction, et l'équation de Dirac dans l'algèbre de Clifford R_{5,0}, un système d'équations dont la solution est le signal monogène couleur est obtenu. Ce signal est notamment basé sur des noyaux de Riesz ainsi que de Poisson 2D, et une représentation polaire, basée sur un produit géométrique, peut lui être associée. Les applications envisagées reposent majoritairement sur cette représentation polaire et sur les informations de couleur et de structures locales s'y rattachant. Des problématiques liées au flot optique couleur, à la segmentation couleur multi-échelle, au suivi d'objets couleur et à la détection de points d'intérêt sont abordées. En ce qui concerne le flot optique, nous nous intéressons à l'extraction du mouvement d'objets d'une certaine couleur en remplaçant la contrainte de conservation de l'intensité par une contrainte de conservation d'angles. Pour la segmentation, une méthode de détection de contours basée sur de la géométrie différentielle et plus particulièrement sur la première forme fondamentale d'une surface, est proposée afin de déterminer les contours d'objets d'une couleur choisie. Pour le suivi d'objets, nous définissons un nouveau critère de similarité utilisant le produit géométrique que nous insérons dans un filtrage particulaire. Enfin, nous resituons la définition du détecteur de Harris dans le cadre de la géométrie différentielle en faisant le lien entre ce dernier et une version "relaxée" du discriminant du polynôme caractéristique de la première forme fondamentale. Ensuite nous proposons une nouvelle version multi-échelle de ce détecteur en traitant le paramètre d'échelle comme une variable d'une variété de dimension 3. / In this thesis, a novel framework for color image processing is introduced based on the generalization of the analytic signal. Using the analogy between the Cauchy-Riemann conditions and the Dirac equation in the Clifford algebra R_{5,0}, a system of equations which leads to the color monogenic signal is obtained. This latter is based on the Riesz and 2D Poisson kernels, and a polar representation based on the geometric product can be associated to this signal. Some applications using color and local structure information provided by the polar representation are presented. Namely, color optical flow, color segmentation, color object tracking and points of interest are developed. Extraction of optical flow in a chosen color is obtained by replacing the brightness constancy assumption by an angle constancy. Edge detection is based on the first fundamental form from differential geometry in order to segment object in a predefined color. Object tracking application uses a new similarity criterion defined by geometric product of block of vectors. This latter is viewed as the likelyhood measure of a particle filter. Last part of the thesis is devoted to the definition of the Harris detector in the framework of differential geometry and a link between this definition and a relaxed version of the characteristic polynomial discriminant of the first fundamental form is given. In this context, a new scale-space detector is provided as the result of handling the scale parameter as a variable in a 3-manifold.
26

Contributions aux problèmes de l'étalonnage extrinsèque d'affichages semi-transparents pour la réalité augmentée et de la mise en correspondance dense d'images / Contributions to the problems of extrinsic calibration semitransparent displays for augmented reality and dense mapping images

Braux-Zin, Jim 26 September 2014 (has links)
La réalité augmentée consiste en l'insertion d'éléments virtuels dans une scène réelle, observée à travers un écran. Les systèmes de réalité augmentée peuvent prendre des formes différentes pour obtenir l'équilibre désiré entre trois critères : précision, latence et robustesse. On identifie trois composants principaux : localisation, reconstruction et affichage. Nous nous concentrons sur l'affichage et la reconstruction. Pour certaines applications, l'utilisateur ne peut être isolé de la réalité. Nous proposons un système sous forme de "tablette augmentée" avec un écran semi transparent, au prix d'un étalonnage adapté. Pour assurer l'alignement entre augmentations et réalité, il faut connaître les poses relatives de l'utilisateur et de la scène observée par rapport à l'écran. Deux dispositifs de localisation sont nécessaires et l'étalonnage consiste à calculer la pose de ces dispositifs par rapport à l'écran. Le protocole d'étalonnage est le suivant : l'utilisateur renseigne les projections apparentes dans l'écran de points de référence d'un objet 3D connu ; les poses recherchées minimisent la distance 2D entre ces projections et celles calculées par le système. Ce problème est non convexe et difficile à optimiser. Pour obtenir une estimation initiale, nous développons une méthode directe par l'étalonnage intrinsèque et extrinsèque de caméras virtuelles. Ces dernières sont définies par leurs centres optiques, confondus avec les positions de l'utilisateur, ainsi que leur plan focal, constitué par l'écran. Les projections saisies par l'utilisateur constituent alors les observations 2D des points de référence dans ces caméras virtuelles. Un raisonnement symétrique permet de considérer des caméras virtuelles centrées sur les points de référence de l'objet, "observant" les positions de l'utilisateur. Ces estimations initiales sont ensuite raffinées par ajustement de faisceaux. La reconstruction 3D est basée sur la triangulation de correspondances entre images. Ces correspondances peuvent être éparses lorsqu'elles sont établies par détection, description et association de primitives géométriques ou denses lorsqu'elles sont établies par minimisation d'une fonction de coût sur toute l'image. Un champ dense de correspondance est préférable car il permet une reconstruction de surface, utile notamment pour une gestion réaliste des occultations en réalité augmentée. Les méthodes d'estimation d'un tel champ sont basées sur une optimisation variationnelle, précise mais sensible aux minimums locaux et limitée à des images peu différentes. A l'opposé, l'emploi de descripteurs discriminants peut rendre les correspondances éparses très robustes. Nous proposons de combiner les avantages des deux approches par l'intégration d'un coût basé sur des correspondances éparses de primitives à une méthode d'estimation variationnelle dense. Cela permet d'empêcher l'optimisation de tomber dans un minimum local sans dégrader la précision. Notre terme basé correspondances éparses est adapté aux primitives à coordonnées non entières, et peut exploiter des correspondances de points ou de segments tout en filtrant implicitement les correspondances erronées. Nous proposons aussi une détection et gestion complète des occultations pour pouvoir mettre en correspondance des images éloignées. Nous avons adapté et généralisé une méthode locale de détection des auto-occultations. Notre méthode produit des résultats compétitifs avec l'état de l'art, tout en étant plus simple et plus rapide, pour les applications de flot optique 2D et de stéréo à large parallaxe. Nos contributions permettent d'appliquer les méthodes variationnelles à de nouvelles applications sans dégrader leur performance. Le faible couplage des modules permet une grande flexibilité et généricité. Cela nous permet de transposer notre méthode pour le recalage de surfaces déformables avec des résultats surpassant l'état de l'art, ouvrant de nouvelles perspectives. / Augmented reality is the process of inserting virtual elements into a real scene, observed through a screen. Augmented Reality systems can take different forms to get the desired balance between three criteria: accuracy, latency and robustness. Three main components can be identified: localization, reconstruction and display. The contributions of this thesis are focused on display and reconstruction. Most augmented reality systems use non-transparent screens as they are widely available. However, for critical applications such as surgery or driving assistance, the user cannot be ever isolated from reality. We answer this problem by proposing a new “augmented tablet” system with a semi-transparent screen. Such a system needs a suitable calibration scheme:to correctly align the displayed augmentations and reality, one need to know at every moment the poses of the user and the observed scene with regard to the screen. Two tracking devices (user and scene) are thus necessary, and the system calibration aims to compute the pose of those devices with regard to the screen. The calibration process set up in this thesis is as follows: the user indicates the apparent projections in the screen of reference points from a known 3D object ; then the poses to estimate should minimize the 2D on-screen distance between those projections and the ones computed by the system. This is a non-convex problem difficult to solve without a sane initialization. We develop a direct estimation method by computing the extrinsic parameters of virtual cameras. Those are defined by their optical centers which coincide with user positions, and their common focal plane consisting of the screen plane. The user-entered projections are then the 2D observations of the reference points in those virtual cameras. A symmetrical thinking allows one to define virtual cameras centered on the reference points, and “looking at” the user positions. Those initial estimations can then be refined with a bundle adjustment. Meanwhile, 3D reconstruction is based on the triangulation of matches between images. Those matches can be sparse when computed by detection and description of image features or dense when computed through the minimization of a cost function of the whole image. A dense correspondence field is better because it makes it possible to reconstruct a 3D surface, useful especially for realistic handling of occlusions for augmented reality. However, such a field is usually estimated thanks to variational methods, minimizing a convex cost function using local information. Those methods are accurate but subject to local minima, thus limited to small deformations. In contrast, sparse matches can be made very robust by using adequately discriminative descriptors. We propose to combine the advantages of those two approaches by adding a feature-based term into a dense variational method. It helps prevent the optimization from falling into local minima without degrading the end accuracy. Our feature-based term is suited to feature with non-integer coordinates and can handle point or line segment matches while implicitly filtering false matches. We also introduce comprehensive handling of occlusions so as to support large deformations. In particular, we have adapted and generalized a local method for detecting selfocclusions. Results on 2D optical flow and wide-baseline stereo disparity estimation are competitive with the state of the art, with a simpler and most of the time faster method. This proves that our contributions enables new applications of variational methods without degrading their accuracy. Moreover, the weak coupling between the components allows great flexibility and genericness. This is the reason we were able to also transpose the proposed method to the problem of non-rigid surface registration and outperforms the state of the art methods.
27

Techniques variationnelles et calcul parallèle en imagerie : Estimation du flot optique avec luminosité variable en petits et larges déplacements / Variational techniques and parallel computing in computer vision : Optical flow estimation with varying illumination in small and large displacements

Gilliocq-Hirtz, Diane 07 July 2016 (has links)
Le travail présenté dans cette thèse porte sur l'estimation du flot optique par méthodes variationnelles en petits et en grands déplacements. Nous proposons un modèle basé sur la combinaison locale-globale à laquelle nous ajoutons la prise en compte des variations de la luminosité. La particularité de ce manuscrit réside dans l'utilisation de la méthode des éléments finis pour la résolution des équations. En effet, cette méthode se fait pour le moment très rare dans le domaine du flot optique. Grâce à ce choix de résolution, nous proposons d'implémenter un contrôle local de la régularisation ainsi qu'une adaptation de maillage permettant d'affiner la solution au niveau des arêtes de l'image. Afin de réduire les temps de calcul, nous parallélisons les programmes. La première méthode implémentée est la méthode parallèle en temps appelée pararéel. En couplant un solveur grossier et un solveur fin, cet algorithme permet d'accélérer les calculs. Pour pouvoir obtenir un gain de temps encore plus important et également traiter les séquences en haute définition, nous utilisons ensuite une méthode de décomposition de domaine. Combinée au solveur massivement parallèle MUMPS, cette méthode permet un gain de temps de calcul significatif. Enfin, nous proposons de coupler la méthode de décomposition de domaine et le pararéel afin de profiter des avantages de chacune. Dans une seconde partie, nous appliquons tous ces modèles dans le cas de l'estimation du flot optique en grands déplacements. Nous proposons de nous servir du pararéel afin de traiter la non-linéarité de ce problème. Nous terminons par un exemple concret d'application du flot optique en restauration de films. / The work presented in this thesis focuses on the estimation of the optical flow through variational methods in small and large displacements. We propose a model based on the combined local-global strategy to which we add the consideration of brightness intensity variations. The particularity of this manuscript is the use of the finite element method to solve the equations. Indeed, for now, this method is really rare in the field of the optical flow. Thanks to this choice of resolution, we implement an adaptive control of the regularization and a mesh adaptation to refine the solution on the edges of the image. To reduce computation times, we parallelize the programs. The first method implemented is a parallel in time method called parareal. By combining a coarse and a fine solver, this algorithm speeds up the computations. To save even more time and to also be able to handle high resolution sequences, we then use a domain decomposition method. Combined with the massively parallel solver MUMPS, this method allows a significant reduction of computation times. Finally, we propose to couple the domain decomposition method and the parareal to have the benefits of both methods. In the second part, we apply all these models to the case of the optical flow estimation in large displacements. We use the parareal method to cope with the non-linearity of the problem. We end by a concrete example of application of the optical flow in film restoration.
28

Total variational optical flow for robust and accurate bladder image mosaicing / Calcul du flot optique dans une approche variationnelle totale pour le mosaïquage robuste et précis d’images de la vessie

Ali, Sharib 04 January 2016 (has links)
La cystoscopie est l’examen de référence pour le diagnostic et le traitement du cancer de la vessie. Le champ de vue (CdV) réduit des endoscopes complique le diagnostic et le suivi des lésions. Les mosaïques d’images sont une solution à ce problème car elles visualisent des CdV étendus. Toutefois, pour la vessie, le mosaïque d’images est un véritable défi à cause du faible contraste dans les images, des textures peu prononcées, de la variabilité intra- et inter-patient et des changements d’illumination dans les séquences. Ce défi est également à relever dans d’autres modalités endoscopiques ou dans des scènes non médicales comme les vidéos sous-marines. Dans cette thèse, une énergie variationnelle totale a d’abord été minimisée à l’aide d’un algorithme primal-dual du premier ordre pour obtenir un flot optique fournissant une correspondance dense et précise entre les points homologues des paires d’images. Les correspondances sont ensuite utilisées pour déterminer les paramètres des transformations requises pour le placement des images dans le repère global de la mosaïque. Les méthodes proposées pour l’estimation du flot optique dense incluent un terme d’attache aux données qui minimise le nombre des vecteurs aberrants et un terme de régularisation conçu pour préserver les discontinuités du champ devecteurs. Un algorithme de flot optique qui est robuste vis-à-vis de changements d’illumination importants (et utilisable pour différentes modalités) a également été développé dans ce contexte. La précision et la robustesse des méthodes de recalage proposées ont été testées sur des jeux de données (de flot optique) publiquement accessibles et sur des fantômes de vessies et de la peau. Des résultats sur des données patients acquises avec des cystoscopes rigides et flexibles, en lumière blanche ou en fluorescence, montrent la robustesse des algorithmes proposés. Ces résultats sont complétés par ceux obtenus pour d’autres séquences endoscopiques réelles de dermatoscopie, de scène sous-marine et de données d’exploration spatiale. / Cystoscopy is the reference procedure for the diagnosis and treatment of bladder cancer. The small field of view (FOV) of endoscopes makes both the diagnosis and follow-up of lesions difficult. Image mosaics are a solution to this problem since they visualize large FOVs of the bladder scene. However, due to low contrast, weak texture, inter- and intra-patient texture variability and illumination changes in these image sequences, the task of image mosaicing becomes challenging. This is also a major concern in other endoscopic data and non-medical scenes like underwater videos. In this thesis, a total variational energy has been first minimized using a first-order primal-dual algorithm in convex optimization to obtain optical flow vector fields giving a dense and accurate correspondence between homologous points of the image pairs. The correspondences are then used to obtain transformation parameters for registering the images to one global mosaic coordinate system. The proposed methods for dense optical flow estimation include a data-term which is modeled to minimize at most the outliers and a regularizer which is designed to preserve at their best the flow field discontinuities. An optical flow algorithm, which is robust to strong illumination changes (and which suits to different modalities), has also been developed in this framework. The registration accuracy and robustness of the proposed methods are tested on both publicly available datasets for optical flow estimation and on simulated bladder and skin phantoms. Results on patient data acquired with rigid and flexible cystoscopes under the white light and the fluorescence modality show the robustness of the proposed approaches. These results are also complemented with those of other real endoscopic data, dermoscopic sequences, underwater scenes and space exploration data.
29

Modélisation et calcul du flot de scène stéréoscopique par une méthode variationnelle

Huguet, Frédéric 30 April 2009 (has links) (PDF)
En vision par ordinateur, le flot de scène représente le déplacement des points d'une surface située dans une scène 3D quelconque, entre deux instants consécutifs. Il s'agit donc d'un champ vectoriel 3D. Celui-ci est particulièrement utile dans l'analyse des déformations d'une surface quelconque, observée par un système d'au moins deux caméras. <br />Cette thèse traite de l'estimation du flot de scène et d'une application dans le domaine de la géophysique. Elle s'est déroulée dans le cadre de l'ACI GEOLSTEREO, en collaboration étroite avec le laboratoire Geosciences Azur, situé à Sophia Antipolis (06, UMR 6526 - CNRS - UNSA - UPMC- IRD). <br /><br />Nous proposons d'estimer le flot de scène en couplant l'évaluation du flot optique dans les séquences d'images associées à chaque caméra, à l'estimation de la correspondance stéréo dense entre les images. De plus, notre approche évalue, en même temps que le flot de scène, les occultations à la fois en flot optique et en stéréo. Nous obtenons au final un système d'EDP couplant le flot optique et la stéréo, que nous résolvons numériquement à l'aide d'un algorithme multirésolution original.<br />Alors que les précédentes méthodes variationnelles estimaient la reconstrution 3D au temps $t$ et le flot de scène séparément, notre méthode estime les deux simultanément. Nous présentons des résultats numériques sur des séquences synthétiques avec leur vérité terrain, et nous comparons également la précision du flot de scène projeté dans une caméra avec une méthode récente et performante d'estimation variationnelle du flot optique. Des résultats sont présentés sur une séquence stéréo réelle, se rapportant à un mouvement non rigide et à de larges discontinuités. <br /><br />Enfin, nous présentons l'approche originale de modélisation physique 3D utilisée au laboratoire Geosciences Azur. Nous décrivons la mise en place du dispositif stéréoscopique associé, ainsi que le déroulement de l'expérience. Des résultats de reconstruction 3D, d'estimation du flot de scène, et de suivi de la déformation d'une surface sont montrés dans le chapitre 4 de la thèse.
30

Méthodes par ensembles de niveaux et modes conditionnels itérés pour la segmentation vidéo

Ranchin, Florent 10 December 2004 (has links) (PDF)
Cette thèse est consacrée à l'étude d'un problème de vision par ordinateur et de deux problèmes de vidéo surveillance. Nous proposons une méthode de détection d'objets en mouvement dans une séquence vidéo basée sur une détermination préalable du mouvement apparent et sur un problème d'optimisation de forme. Pour d'autres modèles de détection et de suivi d'objets en mouvement, nous proposons d'appliquer l'algorithme discret des modes conditionnels itérés réputé très rapide et qui permet de réduire le temps de calcul des algorithmes continus lorsqu'il leur est combiné. En vidéo surveillance, on cherche d'une part à estimer la densité d'une foule et d'autre part à détecter des comportements anormaux dans l'environnement du métro parisien. Nous proposons une estimation de la densité d'une foule basée sur un calcul de courbure sur l'image. La détection de comportements anormaux s'effectue par une recherche des modes dans l'histogramme des directions du mouvement apparent.

Page generated in 0.4541 seconds