Global ETD Search

31	Contributions à la vision par ordinateur tridimensionnelle Borianne, Paul-Louis. Latombe, Jean-Claude. January 2008 (has links) Reproduction de : Thèse de 3e cycle : informatique : Grenoble, INPG : 1984. / Titre provenant de l'écran-titre. Bibliogr. p. 105-109.
32	Détection et suivi d'objets en mouvement dans des scènes complexes application à la surveillance des conducteurs / Bugeau, Aurélie Pérez, Patrick January 2007 (has links) (PDF) Thèse doctorat : Traitement du signal et télécommunications : Rennes 1 : 2007. / Bibliogr. p. 167-176.
33	Reconstruction 3D par vision active codée : application à la vision endoscopique Albitar, Chadif Graebling, Pierre January 2009 (has links) (PDF) Thèse de doctorat : Electronique, électrotechnique, automatique. Vision et robotique : Strasbourg : 2009. / Titre provenant de l'écran-titre. Bibliogr. 8 p.
34	Localisation et cartographie simultanées en vision monoculaire et en temps réel basé sur les structures planes Servant, Fabien Marchand, Éric January 2009 (has links) (PDF) Thèse doctorat : Informatique : Rennes 1 : 2009. / Titre provenant de la page du titre du document électronique. Bibliogr. p. [153]-160.
35	Analyse de trajectoires vidéos à l'aide de modélisations markoviennes pour l'interprétation de contenus Hervieu, Alexandre Le Cadre, Jean-Pierre Bouthémy, Patrick January 2009 (has links) (PDF) Thèse doctorat : Traitement du signal et télécommunications : Rennes 1 : 2009. / Titre provenant de la page du titre du document électronique. Bibliogr. p. [225]-243.
36	Modèles markoviens en vision par ordinateur : application à l'interprétation des images sismiques / Barraquand, Jerôme. January 1988 (has links) Thèse--Informatique--Nice, 1988. / Bibliogr. p. 216-223.
37	Modélisation 4D à partir de plusieurs caméras / 4D modeling from mutli-camera setup Letouzey, Antoine 30 July 2012 (has links) Les systèmes multi-caméras permettent de nos jours d'obtenir à la fois des flux d'images couleur mais aussi des flux de modèles 3D. Ils permettent ainsi l'étude de scènes complexes à la fois de par les éléments qui la composent mais aussi de par les mouvements et les déformations que subissent ces éléments au fil du temps. Une des principales limitations de ces données est le manque de cohérence temporelle entre les observations obtenues à deux instants de temps successifs. Les travaux présentés dans cette thèse proposent des pistes pour retrouver cette cohérence temporelle. Dans un premier temps nous nous sommes penchés sur le problème de l'estimation de champs de déplacement denses à la surface des objets de la scène. L'approche que nous proposons permet de combiner efficacement des informations photométriques provenant des caméras avec des informations géométriques. Cette méthode a été étendue, par la suite, au cas de systèmes multi-caméras hybrides composés de capteurs couleurs et de profondeur (tel que le capteur kinect). Dans un second temps nous proposons une méthode nouvelle permettant l'apprentissage de la vraie topologie d'une scène dynamique au fil d'une séquence de données 4D (3D + temps). Ces travaux permettent de construire au fur et à mesure des observations un modèle de référence de plus en plus complet de la scène observée. / Nowadays mutli-camera setups allow the acquisition of both color image streams and 3D models streams. Thus permitting the study of complex scenes. These scenes can be composed of any number of non-rigid objects moving freely. One of the main limitations of such data is its lack of temporal coherence between two consecutive observations. The work presented in this thesis consider this issue and propose novel methods to recover this temporal coherence. First we present a new approach that computes at each frame a dense motion field over the surface of the scene (i.e. Scene Flow), gathering both photometric and geometric information. We then extend this approach to hybrid multi-camera setups composed of color and depth sensor (such as the kinect sensor). Second, we introduce "Progressive Shape Models", a new method that allows to gather topology information over a complete sequence of 3D models and incrementally build a complete and coherent surface template. Vision par ordinateur Modélisation Surfaces Computer vision Modeling Motion Mesh
38	Distortion-aware transformer for depth estimation and object detection Shili, Ichrak 23 September 2024 (has links) Les objectifs fisheye offrent un champ de vision plus large que les objectifs à sténopé, ce qui les rend largement utilisés dans diverses applications. Cependant, ces derniers créent des distorsions importantes dans les images, ce qui pose des défis pour les modèles de vision par ordinateur standards. Les approches actuelles conçues pour gérer la distorsion sont souvent spécifiques à un objectif et ont du mal à généraliser à différents objectifs sans ajustement. DarSwin [3], un encodeur transformer qui raisonne sur la distorsion (distortion-aware) en intégrant la courbe de projection de l'objectif, atteint des capacités de généralisation améliorées en classification. Ce mémoire étend DarSwin à l'estimation de profondeur monoculaire avec DarSwin-Unet, une nouvelle architecture encodeur-décodeur, inspirée de Swin-Unet [5], et qui s'adapte à la distorsion. L'évaluation sur le jeu de données synthétique fisheye Matterport3D démontre la robustesse de DarSwin-Unet face à toutes les distorsions par rapport aux autres approches. Le mémoire explore également l'extension de DarSwin à la détection d'objets en utilisant deux variantes de transformers de détection, DINO [71] et AdaMixer [16], sur le jeu de données Woodscape [70]. Contrairement aux modèles utilisant un backbone Swin [40], les modèles avec un backbone DarSwin ne dépendent pas de l'augmentation de données, confirmant ainsi la robustesse de DarSwin. / Fisheye lenses offer a wider field-of-view (FoV) than pinhole lenses, making them widely used in diverse applications. However, their significant distortions introduce challenges for standard computer vision models. Current approaches designed to handle distortion are often lens-specific and struggle to generalize across different lenses without fine-tuning. DarSwin [3], a distortion-aware encoder-only transformer that incorporates the lens projection curve, achieves enhanced generalization capabilities in classification. This thesis extends DarSwin to monocular depth estimation with DarSwin-Unet, a novel distortion-aware encoder-decoder architecture inspired by Swin-Unet [5]. Evaluation on the synthetic fisheye Matterport3D dataset demonstrates DarSwin-Unet's robustness across all distortions compared to other baselines. Further exploration involves extending DarSwin to object detection using two variants of detection transformers, DINO [71] and AdaMixer [16], on theWoodscape dataset [70]. Unlike models with a Swin [40] backbone, models with a DarSwin backbone show no overfitting in the absence of data augmentation, further highlighting DarSwin's robustness. Fish-eyes. Vision par ordinateur. Reconnaissance d'objets (Informatique)
39	Détection de la pose d'objets enchevêtrés avec des surfaces spéculaires pour la saisie robotique autonome à faible coût Ruel, Jean-Christophe 21 October 2024 (has links) L'objectif de ce projet de recherche est de développer une méthode de vision numérique à faible coût pour effectuer la saisie autonome robotique sur des objets spéculaires. Plus spécifiquement, l'étude se concentre sur l'estimation de la pose à six degrés de liberté et la détection d'objets ayant des surfaces spéculaires dans un amas d'objets. Dans ce travail, des composants matériels et logiciels sont développés. Le matériel développé est composé d'une caméra et d'un anneau multiflash synchronisés. Les objets détectés peuvent être dépourvus de textures, de couleurs et peuvent avoir des surfaces spéculaires. Une contribution notable de cette étude réside dans l'amélioration de l'algorithme Fast Directional Chamfer Matching. Les résultats mettent en évidence la faisabilité de la méthode pour détecter et estimer la pose d'objets dotés de surfaces réfléchissantes, particulièrement ceux présentant plusieurs symétries. / The objective of this research project is to develop an affordable digital vision method for autonomously grasping specular objects. Specifically, the study focuses on estimating pose with six degrees of freedom and detecting objects with specular surfaces within a cluster of items. Both hardware and software components are developed for this purpose. The hardware consists of a camera and a synchronized multiflash ring. Detected objects may lack textures and colors but may possess specular surfaces. A significant contribution of this study lies in refining the Fast Directional Chamfer Matching algorithm. The results underscore the method's feasibility in detecting and estimating the pose of objects with reflective surfaces, particularly those with multiple symmetries. Vision par ordinateur. Matériaux réfléchissants. Réflexion spéculaire. Robotique.
40	Single view depth estimation from train images Hadhri, Tesnim 02 February 2024 (has links) L'estimation de la profondeur consiste à calculer la distance entre différents points de la scène et la caméra. Savoir à quelle distance un objet donné est de la caméra permettrait de comprendre sa représentation spatiale. Les anciennes méthodes ont utilisé des paires d'images stéréo pour extraire la profondeur. Pour avoir une paire d'images stéréo, nous avons besoin d'une paire de caméras calibrées. Cependant, il est plus simple d'avoir une seule image étant donnée qu'aucun calibrage de caméra n'est alors nécessaire. C'est pour cette raison que les méthodes basées sur l'apprentissage sont apparues. Ils estiment la profondeur à partir d'une seule image. Les premières solutions des méthodes basées sur l'apprentissage ont utilisé la vérité terrain de la profondeur durant l'apprentissage. Cette vérité terrain est généralement acquise à partir de capteurs tels que Kinect ou Lidar. L'acquisition de profondeur est coûteuse et difficile, c'est pourquoi des méthodes auto-supervisées se sont apparues naturellement comme une solution. Ces méthodes ont montré de bons résultats pour l'estimation de la profondeur d'une seule image. Dans ce travail, nous proposons d'estimer des cartes de profondeur d'images prises du point de vue des conducteurs de train. Pour ce faire, nous avons proposé d'utiliser les contraintes géométriques et les paramètres standards des rails pour extraire la carte de profondeur à entre les rails, afin de la fournir comme signal de supervision au réseau. Il a été démontré que la carte de profondeur fournie au réseau résout le problème de la profondeur des voies ferrées qui apparaissent généralement comme des objets verticaux devant la caméra. Cela a également amélioré les résultats de l'estimation de la profondeur des séquences des trains. Au cours de ce projet, nous avons d'abord choisi certaines séquences de trains et déterminé leurs distances focales pour calculer la carte de profondeur de la voie ferrée. Nous avons utilisé ce jeu de données et les distances focales calculées pour affiner un modèle existant « Monodepth2 » pré-entrainé précédemment sur le jeu de données Kitti. / Depth prediction is the task of computing the distance of different points in the scene from the camera. Knowing how far away a given object is from the camera would make it possible to understand its spatial representation. Early methods have used stereo pairs of images to extract depth. To have a stereo pair of images, we need a calibrated pair of cameras. However, it is simpler to have a single image as no calibration or synchronization is needed. For this reason, learning-based methods, which estimate depth from monocular images, have been introduced. Early solutions of learning-based problems have used ground truth depth for training, usually acquired from sensors such as Kinect or Lidar. Acquiring depth ground truth is expensive and difficult which is why self-supervised methods, which do not acquire such ground truth for fine-tuning, has appeared and have shown promising results for single image depth estimation. In this work, we propose to estimate depth maps for images taken from the train driver viewpoint. To do so, we propose to use geometry constraints and rails standard parameters to extract the depth map inside the rails, to provide it as a supervisory signal to the network. To this end, we first gathered a train sequences dataset and determined their focal lengths to compute the depth map inside the rails. Then we used this dataset and the computed focal lengths to finetune an existing model "Monodepth2" trained previously on the Kitti dataset. We show that the ground truth depth map provided to the network solves the problem of depth of the rail tracks which otherwise appear as standing objects in front of the camera. It also improves the results of depth estimation of train sequences. Perception de la profondeur. Profondeur de champ (Photographie) Vision par ordinateur.

Search results