• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 24
  • 11
  • 4
  • Tagged with
  • 40
  • 40
  • 15
  • 15
  • 14
  • 13
  • 12
  • 11
  • 11
  • 9
  • 8
  • 7
  • 7
  • 7
  • 7
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Robustness of multimodal 3D object detection using deep learning approach for autonomous vehicles / Robustness of multimodal 3D object detection using deep learning approach fo autonomous vehicles

Ramezani, Pooya 15 April 2021 (has links)
Dans cette thèse, nous étudions la robustesse d’un modèle multimodal de détection d’objets en 3D dans le contexte de véhicules autonomes. Les véhicules autonomes doivent détecter et localiser avec précision les piétons et les autres véhicules dans leur environnement 3D afin de conduire sur les routes en toute sécurité. La robustesse est l’un des aspects les plus importants d’un algorithme dans le problème de la perception 3D pour véhicules autonomes. C’est pourquoi, dans cette thèse, nous avons proposé une méthode pour évaluer la robustesse d’un modèle de détecteur d’objets en 3D. À cette fin, nous avons formé un détecteur d’objets 3D multimodal représentatif sur trois ensembles de données différents et nous avons effectué des tests sur des ensembles de données qui ont été construits avec précision pour démontrer la robustesse du modèle formé dans diverses conditions météorologiques et de luminosité. Notre méthode utilise deux approches différentes pour construire les ensembles de données proposés afin d’évaluer la robustesse. Dans une approche, nous avons utilisé des images artificiellement corrompues et dans l’autre, nous avons utilisé les images réelles dans des conditions météorologiques et de luminosité extrêmes. Afin de détecter des objets tels que des voitures et des piétons dans les scènes de circulation, le modèle multimodal s’appuie sur des images et des nuages de points 3D. Les approches multimodales pour la détection d’objets en 3D exploitent différents capteurs tels que des caméras et des détecteurs de distance pour détecter les objets d’intérêt dans l’environnement. Nous avons exploité trois ensembles de données bien connus dans le domaine de la conduite autonome, à savoir KITTI, nuScenes et Waymo. Nous avons mené des expériences approfondies pour étudier la méthode proposée afin d’évaluer la robustesse du modèle et nous avons fourni des résultats quantitatifs et qualitatifs. Nous avons observé que la méthode que nous proposons peut mesurer efficacement la robustesse du modèle. / In this thesis, we study the robustness of a multimodal 3D object detection model in the context of autonomous vehicles. Self-driving cars need to accurately detect and localize pedestrians and other vehicles in their 3D surrounding environment to drive on the roads safely. Robustness is one of the most critical aspects of an algorithm in the self-driving car 3D perception problem. Therefore, in this work, we proposed a method to evaluate a 3D object detector’s robustness. To this end, we have trained a representative multimodal 3D object detector on three different datasets. Afterward, we evaluated the trained model on datasets that we have proposed and made to assess the robustness of the trained models in diverse weather and lighting conditions. Our method uses two different approaches for building the proposed datasets for evaluating the robustness. In one approach, we used artificially corrupted images, and in the other one, we used the real images captured in diverse weather and lighting conditions. To detect objects such as cars and pedestrians in the traffic scenes, the multimodal model relies on images and 3D point clouds. Multimodal approaches for 3D object detection exploit different sensors such as camera and range detectors for detecting the objects of interest in the surrounding environment. We leveraged three well-known datasets in the domain of autonomous driving consist of KITTI, nuScenes, and Waymo. We conducted extensive experiments to investigate the proposed method for evaluating the model’s robustness and provided quantitative and qualitative results. We observed that our proposed method can measure the robustness of the model effectively.
2

Asservissement visuel d'un éclairage opératoire / Visual servoing of a surgical light

Gauvin, Aurélien 05 June 2012 (has links)
Les travaux présentés dans ce manuscrit traitent de l’asservissement visuel d’un éclairage opératoire. Il s’agit d’une thèse CIFRE soutenue par l’entreprise MAQUET SAS et en collaboration avec le Laboratoire PRISME de l’Université d’Orléans. Les éclairages opératoires offrent à l’équipe chirurgicale des conditions d’éclairement suffisantes pour leur permettre d’accomplir leurs gestes. Leur positionnement est difficile en cours d’intervention et engendre fréquemment des heurts entre les membres de l’équipe. Les solutions déjà développées pour résoudre ce problème ne donnent pas satisfaction en raison de l’interaction forte entre le système et l’équipe chirurgicale. Nous proposons dans cette étude un éclairage opératoire asservi visuellement ne nécessitant pas d’information explicite, et opérationnel quel que soit le type de chirurgie. Il s’agit d’un système "intelligent" autrement dit capable de désigner de lui-même la zone où éclairer et "autonome", c’est-à-dire apte à se déplacer seul une fois les coordonnées de la cible connues. Ces deux points constituent la problématique de cette étude. Pour rendre "intelligent" l’éclairage opératoire, nous proposons un processus de désignation basé sur la reconnaissance d’objets spécifiques : le sang, la peau, les champs stériles et les instruments. Pour ce faire nous utilisons une fusion des attributs forme, couleur et mouvement basée sur le cadre crédibiliste. Nous résolvons les problèmes d’inhomogénéité de l’image dus à la puissance de l’éclairement par l’ajout d’une étape de fusion intermédiaire. Une fois l’ensemble des objets reconnus, nous procédons à la désignation de la zone à éclairer à l’aide de la théorie de la décision. L’autonomie du système est quant à elle assurée par une boucle d’asservissement visuel 2D, qui permet de faire converger l’éclairage vers la zone précédemment désignée. Nous avons réalisé au cours de cette étude un prototype quia permis de valider l’approche dans des conditions réelles. / The work presented in this manuscript is related to the visual servoing of a surgical light. This is a collaborative study between MAQUET SAS and PRISM laboratory (University of Orléans). Surgical light provides the surgical team enough lighting to perform their activities. The positioning of this equipment during the operation is arduous and leads frequently to disagreement between members of the team. Solutions already developed to solve this problem do not offer satisfaction in reason of the high interaction between the system and the team. This work aims to propose a surgical light visually served which do not require explicit information and which is operational whatever the kind of surgery. It consists in an "intelligent" system able to designate by itself the region where the surgeon is working on, and which is also "autonomous", that is to say the system can move to this target. These two points correspond to the problematic of this study. To make the operating light "intelligent" we propose an architecture based on the recognition of specific objects : blood, skin, steriled field, instruments. To achieve this we fuse shape, color and movement attributes. We solve the inhomogeneity problem of images due to high illumination thanks to an intermediate fusion step. Once all the objects are recognized we carry out the designation thanks to the decision theory. The "autonomous" part of the system consists in a 2D visual servoing loop that makes possible the convergence of the surgical light to the region of interest. A prototype has been realized during this work, which enabled us to validate the proposed approach in a real environment.
3

Deep learning based semi-supervised video anomaly detection

Baradaran, Mohammad 16 January 2024 (has links)
Thèse ou mémoire avec insertion d'articles / La détection d'anomalies vidéo (DAV) est une tâche cruciale de vision par ordinateur pour diverses applications du monde réel telles que la vidéosurveillance, le contrôle qualité, etc. Avec la rareté des données d'anomalies étiquetées et la nature ouverte des définitions d'anomalies, il y a eu une croissance d'intérêt des chercheurs pour l'exploration de méthodes semi-supervisées de détection d'anomalies vidéo. Ces méthodes utilisent une tâche proxy pour ajuster un modèle sur des échantillons normaux, en tenant compte de leurs caractéristiques d'apparence et de mouvement. Les anomalies sont par conséquent détectées en mesurant l'écart des échantillons de test par rapport au modèle normal formé. Cette thèse est dédiée à l'avancement de ce domaine, englobant quatre composantes distinctes. Dans la partie initiale, nous menons une étude approfondie sur les méthodes DAV semi-supervisées de pointe existantes afin d'examiner leurs points forts et leurs défis. Pour compléter notre examen, nous effectuons également des expériences pour mieux comprendre les capacités et les limites des approches existantes. Les résultats de cette étude servent de source de motivation et mettent en lumière l'orientation de notre recherche. Cette étude est publiée sous la forme d'un article de synthèse (MTAP2023). Lors de l'analyse des méthodes existantes, il devient évident qu'elles ne tiennent pas suffisamment compte de la classe des objets lorsqu'il s'agit de détecter des anomalies d'apparence. Inspirés par ce besoin, nous proposons, dans la deuxième partie, une méthode DAV basée sur l'apprentissage en profondeur et sensible aux classes d'objets. C'est une méthode à deux flux qui modélise et détecte les anomalies de mouvement et d'apparence dans différentes branches. Dans la branche apparence, nous introduisons une approche basée sur la distillation des connaissances qui utilise une méthode de segmentation sémantique pré-entraînée (Mask-RCNN) pour former un réseau étudiant dédié à la segmentation sémantique avec des objets normaux. Par conséquent, en mesurant l'écart entre les sorties des réseaux enseignant et étudiant, nous dérivons un score d'anomalie pour la branche d'apparence. La branche de mouvement, d'autre part, traduit une image brute en sa carte de magnitude de flux optique correspondante, pour modéliser les mouvements normaux et détecter les anomalies associées. L'approche de modélisation de mouvement proposée atténue le risque de généralisation aux anomalies, améliorant ainsi la fiabilité et la précision du processus de détection. Les résultats de cette étude ont été publiés sous forme d'article de conférence (CRV 2022). Dans la troisième partie, nous proposons une méthode de détection d'anomalies vidéo basée sur l'apprentissage multi-tâches visant à tirer parti des avantages de la combinaison de plusieurs tâches proxy complémentaires pour améliorer les performances de détection d'anomalies. Différentes tâches complémentaires sont proposées en tenant compte de leurs capacités et insuffisances à détecter différents cas d'anomalies. De plus, nous proposons une nouvelle tâche proxy de prédiction de carte de segmentation sémantique future pour la détection d'anomalies vidéo qui bénéficie des capacités de prédiction de trames futures et de tâches de segmentation sémantique pour la détection d'anomalies de mouvement et d'apparence. De plus, pour améliorer encore la détection des anomalies de mouvement, nous intégrons la tâche de prédiction de l'amplitude du flux optique à partir d'une trame brute dans une autre branche. Finalement, pour relever les défis rencontrés dans notre méthode précédente, nous proposons plusieurs mécanismes d'attention pour engager des informations contextuelles dans la modélisation de mouvement, conduisant à une amélioration des performances. Les résultats de cette étude ont été publiés sous forme d'article de conférence (CVPRW 2023). Dans la dernière partie, nous relevons un autre défi dans la modélisation du mouvement. Tant dans nos méthodes proposées que dans d'autres méthodes existantes, les modèles de mouvement à long terme n'ont pas été efficacement pris en compte pour la détection d'anomalies vidéo. Pour remédier à cette limitation, nous proposons une nouvelle tâche proxy pour la détection d'anomalies vidéo : la prédiction vidéo future à partir d'une seule image. Cette méthode prend en compte les modèles de mouvement à long terme en plus des modèles à court terme pour la détection d'anomalies vidéo et relève le défi de la généralisation aux mouvements anormaux. Cette étude donne des résultats significatifs. Les résultats démontrent que la formulation de DAV comme une prédiction d'images plus éloignées dans le futur (au lieu de l'image suivante immédiate) entraîne une plus grande disparité entre les normales et les anomalies et donc une amélioration des performances. Les résultats de cette étude sont acceptés sous forme d'article de conférence (ISVC 2023). Nos résultats qualitatifs et quantitatifs ainsi que des études d'ablation sur des ensembles de données de référence tels que les ensembles de données ShanghaiTech, UCSD-Ped1 et UCSD-Ped2 démontrent le succès de chaque contribution de notre thèse dans la réalisation de leurs objectifs respectifs. / Video anomaly detection (VAD) is a crucial computer vision task for various real-world applications such as video surveillance, quality control, etc. With the scarcity of labeled anomaly data and the open-ended nature of anomaly definitions, there has been a growing interest among researchers in exploring semi-supervised methods for video anomaly detection. These methods employ a proxy-task to fit a model on normal samples, taking into account their appearance and motion features. Anomalies are consequently detected by measuring the deviation of test samples from the trained normal model. This thesis is dedicated to advancing this field, encompassing four distinct components. In the initial part, we conduct an in-depth study on existing state-of-the-art semi-supervised VAD methods to examine their strong points and challenges. To supplement our review, we also conduct experiments to gain deeper insights into the capabilities and limitations of existing approaches. The outcomes of this study serve as a source of motivation and highlights the direction of our research. This study is published as a review paper (MTAP2023). Upon analyzing the existing methods, it becomes apparent that they do not adequately consider the object class when it comes to detecting appearance anomalies. Inspired by this need, we propose, in the second part, a two-stream object class-aware deep learning based VAD method that models and detects motion and appearance anomalies in different network branches. In the appearance branch, we introduce a knowledge-distillation-based approach that utilizes a pre-trained semantic segmentation method (Mask-RCNN) to train a student network dedicated to semantic segmentation with normal objects. Consequently, by measuring the disparity between the outputs of the teacher and student networks, we derive an anomaly score for the appearance branch. Motion branch, on the other hand, translates a raw frame to its corresponding optical flow magnitude map, to model normal motions and detect related anomalies. The proposed motion modeling approach, mitigates the risk of generalization to anomalies, thus enhancing the reliability and precision of the detection process. Results of this study is published as a conference paper (CRV 2022). In the third part, we put forth a multi-task learning based video anomaly detection method aimed at leveraging the benefits of combining multiple complementary proxy-tasks to enhance anomaly detection performance. Different complementary tasks are suggested taking into ac count their abilities and shortcomings in detecting different anomaly cases. Moreover, we propose a novel proxy-task of future semantic segmentation map prediction for video anomaly detection which benefits from the abilities of future frame prediction and semantic segmentation tasks for motion and appearance anomaly detection. Additionally, to further enhance the detection of motion anomalies, we incorporate the task of optical flow magnitude prediction from a raw frame in another branch. Finally, to address the challenges encountered in our previous method, we propose multiple attention mechanisms to engage context information in motion modeling, leading to performance improvement. Results of this study is published as a conference paper (CVPRW 2023). As the final part, we tackle another challenge in motion modeling. Both in our proposed methods and other existing methods, long-term motion patterns have not been effectively considered for video anomaly detection. To address this limitation, we put forward a novel proxy-task for video anomaly detection: future video prediction from a single frame. This method considers long-term motion patterns in addition to short-term ones for video anomaly detection and addresses the challenge of generalization to abnormal motion. This study yields significant findings. The results demonstrate that formulating VAD as a prediction of farther frames in the future (instead of the immediate next frame) results in a larger disparity between normals and anomalies and hence in improved performance. Results of this study is accepted as a conference paper (ISVC 2023). Our qualitative and quantitative results along with ablation studies on benchmark datasets such as ShanghaiTech, UCSD-Ped1 and UCSD-Ped2 datasets demonstrate the success of each contribution of our thesis in achieving their respective goals.
4

Deep learning for object detection in robotic grasping contexts

Mercier, Jean-Philippe 12 August 2021 (has links)
Dans la dernière décennie, les approches basées sur les réseaux de neurones convolutionnels sont devenus les standards pour la plupart des tâches en vision numérique. Alors qu'une grande partie des méthodes classiques de vision étaient basées sur des règles et algorithmes, les réseaux de neurones sont optimisés directement à partir de données d'entraînement qui sont étiquetées pour la tâche voulue. En pratique, il peut être difficile d'obtenir une quantité su sante de données d'entraînement ou d'interpréter les prédictions faites par les réseaux. Également, le processus d'entraînement doit être recommencé pour chaque nouvelle tâche ou ensemble d'objets. Au final, bien que très performantes, les solutions basées sur des réseaux de neurones peuvent être difficiles à mettre en place. Dans cette thèse, nous proposons des stratégies visant à contourner ou solutionner en partie ces limitations en contexte de détection d'instances d'objets. Premièrement, nous proposons d'utiliser une approche en cascade consistant à utiliser un réseau de neurone comme pré-filtrage d'une méthode standard de "template matching". Cette façon de faire nous permet d'améliorer les performances de la méthode de "template matching" tout en gardant son interprétabilité. Deuxièmement, nous proposons une autre approche en cascade. Dans ce cas, nous proposons d'utiliser un réseau faiblement supervisé pour générer des images de probabilité afin d'inférer la position de chaque objet. Cela permet de simplifier le processus d'entraînement et diminuer le nombre d'images d'entraînement nécessaires pour obtenir de bonnes performances. Finalement, nous proposons une architecture de réseau de neurones ainsi qu'une procédure d'entraînement permettant de généraliser un détecteur d'objets à des objets qui ne sont pas vus par le réseau lors de l'entraînement. Notre approche supprime donc la nécessité de réentraîner le réseau de neurones pour chaque nouvel objet. / In the last decade, deep convolutional neural networks became a standard for computer vision applications. As opposed to classical methods which are based on rules and hand-designed features, neural networks are optimized and learned directly from a set of labeled training data specific for a given task. In practice, both obtaining sufficient labeled training data and interpreting network outputs can be problematic. Additionnally, a neural network has to be retrained for new tasks or new sets of objects. Overall, while they perform really well, deployment of deep neural network approaches can be challenging. In this thesis, we propose strategies aiming at solving or getting around these limitations for object detection. First, we propose a cascade approach in which a neural network is used as a prefilter to a template matching approach, allowing an increased performance while keeping the interpretability of the matching method. Secondly, we propose another cascade approach in which a weakly-supervised network generates object-specific heatmaps that can be used to infer their position in an image. This approach simplifies the training process and decreases the number of required training images to get state-of-the-art performances. Finally, we propose a neural network architecture and a training procedure allowing detection of objects that were not seen during training, thus removing the need to retrain networks for new objects.
5

Apprentissage a contrario et architecture efficace pour la détection d'évènements visuels significatifs

Burrus, Nicolas 08 December 2008 (has links) (PDF)
Pour assurer la robustesse d'un algorithme de détection, il est nécessaire de maîtriser son point de fonctionnement, et en particulier son taux de fausses alarmes. Cette tâche est particulièrement difficile en vision artificielle à cause de la grande variabilité des images naturelles, qui amène généralement à introduire des paramètres choisis a priori qui limitent la portée et la validité des algorithmes. Récemment, l'approche statistique a contrario a montré sa capacité à détecter des structures visuelles sans autre paramètre libre que le nombre moyen de fausses alarmes tolérées, en recherchant des entités dont certaines propriétés sont statistiquement trop improbables pour être le fruit du hasard. Les applications existantes reposent toutefois sur un cadre purement analytique qui requiert un travail important de modélisation, rend difficile l'utilisation de caractéristiques multiples et limite l'utilisation d'heuristiques de recherche dirigées par les données. Nous proposons dans cette thèse d'assouplir ces restrictions en ayant recours à de l'apprentissage pour les quantités non calculables analytiquement. Nous illustrons l'intérêt de la démarche à travers trois applications : la détection de segments, la segmentation en régions homogènes et la détection d'objets à partir d'une base de photos. Pour les deux premières applications, nous montrons que des seuils de détection robustes peuvent être appris à partir d'images de bruit blanc. Pour la dernière, nous montrons que quelques exemples d'images naturelles ne contenant pas d'objets de la base suffisent pour obtenir un algorithme de détection fiable. Enfin, nous remarquons que la monotonicité du raisonnement a contrario permet d'intégrer incrémentalement des informations partielles. Cette propriété nous conduit à proposer une architecture "anytime" pour la détection d'objets, c'est-à-dire capable de fournir des détections progressivement au cours de son exécution, en commençant par les objets les plus saillants.
6

Descripteurs couleur locaux invariants aux conditions d'acquisition / Invariant local colour descriptors of acquisitioned conditions

Song, Xiaohu 08 December 2011 (has links)
La mise au point de descripteurs locaux discriminants est aujourd’hui une priorité dans de nombreuses applications comme la reconnaissance d’objets, le suivi d’objets, la reconstruction 3D ou l’estimation de mouvement. La problématique réside dans le fait que ces descripteurs doivent être invariants aux conditions d’acquisition tout en conservant un pouvoir discriminant important. Dans ce contexte, nous nous sommes intéressés à l’invariance des descripteurs locaux de la littérature. Nous les avons notamment catégorisés en fonction des hypothèses sur lesquelles repose leur invariance. Ensuite, nous avons proposé des descripteurs locaux qui exploitent l’information de couleur dans les images. Nous avons montré que cette information peut être très pertinente lorsqu’elle est combinée à une information spatiale, à condition que son degré d’invariance soit contrôlé et adapté aux applications considérées. Ainsi, nous avons proposé un ensemble de descripteurs locaux couleur avec des degrés d’invariance différents. Ainsi, nous introduisons tout d’abord deux nouveaux descripteurs qui caractérisent les distributions spatiales des couleurs dans les régions analysées. L’idée originale consiste à appliquer des transformations affines entre les coordonnées spatiales des pixels et leurs coordonnées couleur. En effet, chaque pixel étant caractérisé par 5 valeurs, 2 coordonnées spatiales xy dans l’image et 3 composantes couleur RVB, nous proposons de rechercher une transformation affine qui permet de transformer les coordonnées xy de tous les pixels de la région concernée en coordonnées RVB de ces pixels. Nous montrons que l’application de cette transformation aux coordonnées xy fournit des coordonnées dans l’espace RVB qui a un double avantage. D’une part, les coordonnées d’un seul pixel dépendent à la fois de toutes les couleurs présentes dans la région mais aussi de leur répartition spatiale. Quelques coordonnées permettent donc de résumer efficacement le contenu de la région. D’autre part, ces coordonnées présente une invariance totale à toute transformation affine appliquée dans l’espace image 2D(invariance géométrique) et comme elles sont homogènes à des coordonnées couleur, nous pouvons leur procurer une invariance photométrique en leur appliquant des transformations affines particulières. Nous montrons que le degré d’invariance peut être contrôlé en fonction des besoins de l’application. Ces coordonnées nous permettent de définir le descripteur IVC (Image Vers Couleur). De manière similaire, nous évaluons une transformation affine de l’espace couleur à l’espace image et appliquons cette transformation aux coordonnées couleur. Les coordonnées obtenues par cette transformation sont invariantes à toute transformation affine appliquée dans l’espace couleur, elles présentent donc un degré d’invariance élevé aux variations photométriques. Ces coordonnées nous permettent de constituer le descripteur CVI (Couleur Vers Image). Nous montrons que ces deux descripteurs fournissent de très bons résultats dans le cadre de la reconnaissance d’objet et présentent une telle complémentarité que le descripteur obtenu par concaténation de IVC et CVI fournit de meilleurs résultats que la plupart des descripteurs couleur parus dans la littérature. Ensuite, nous proposons un descripteur qui présente un degré d’invariance plus élevé que les deux précédents puisqu’il n’est pas sensible aux transformations non-linéaires des couleurs modélisées par des fonctions croissantes appliquées indépendamment sur chaque composante couleur. Pour cela, nous exploitons les mesures de rang des pixels dans les images. De plus, nous utilisons les corrélations entre mesures de rang obtenues pour différentes composantes couleur. Ceci nous a permis de proposer un descripteur lui aussi très compact qui présente un degré d’invariance photométrique assez élevé. Enfin, nous abordons le problème de la caractérisation locale d’images par auto-similarités / Pas de résumé fourni en anglais
7

Reconnaissance de catégories d'objets et d'instances d'objets à l'aide de représentations locales

Nowak, Eric 17 March 2008 (has links) (PDF)
La reconnaissance d'objets est l'un des domaines d'étude les plus actifs de la vision par ordinateur. Il faut distinguer la reconnaissance de catégories d'objets génériques (une voiture en général, un piéton en général) et la reconnaissance d'instances d'objets particuliers (la voiture de M. Dupont, M. Dupont lui-même). Cette thèse aborde les deux sujets. Nous utilisons pour cela des représentations d'objets par parties, ce qui signifie que l'image à analyser n'est pas considérée dans son ensemble de manière rigide, mais plutôt comme un ensemble de régions locales, ce qui apporte une grande robustesse à la reconnaissance. Nous nous intéressons spécifiquement à la reconnaissance d'objets décrits par sacs-demots. Cela signifie que les relations géométriques entre les régions locales décrivant une image sont ignorées. Nous étudions en particulier l'influence des différentes composantes de la classification d'images par sac-de-mots, et nous montrons que le facteur le plus influent est la quantité de régions locales sélectionnées, et pour cette raison nous proposons une sélection aléatoire et en grande quantité de régions locales dans les images à décrire. Dans le contexte de la thèse CIFRE effectuée en partenariat avec l'INRIA et Bertin Technologies, nous analysons la performance des méthodes sac-de-mots pour la reconnaissance des véhicules militaires en imagerie infra-rouge. Nous montrons que les paramètres algorithmiques se comportent comme en imagerie visible. Nous effectuons aussi une étude des paramètres opérationnels, telle que la distance cible-caméra, et montrons que les paramètres sensibles sont les occultations et la présence de fond texturé quand les cibles sont détourées avec une faible précision. Nous étudions aussi le compromis entre performance et temps de calcul, et proposons une méthode de sélection de primitives adaptées aux classifieurs hiérarchiquesmulti-classes, qui fournissent un meilleur compromis performance / temps de calcul que la selection de primitives pour classifieurs plats. Les trois études précédentes traitent de la reconnaissance de catégories d'objets. Nous nous intéressons aussi à la reconnaissance d'instances d'objets, et proposons une mesure de similarité destinée à des instances d'objets jamais vus lors d'une phase d'apprentissage. Cette mesure est basée sur la quantification par des arbres extrêmement aléatoires de paires de régions locales correspondantes sélectionnées dans les deux images à comparer. Toutes ces études sont validées par des expérimentations importantes sur des bases de données publiques, et nous obtenons à chaque fois des résultats aussi bons, sinon meilleurs, que ceux de l'état de l'art.
8

Non-rigid image alignment for object recognition

Duchenne, Olivier 29 November 2012 (has links) (PDF)
La vision permet aux animaux de recueillir une information riche et détaillée sur leur environnent proche ou lointain. Les machines ont aussi accès à cette information riche via leurs caméras. Mais, elles n'ont pas encore le logiciel adéquat leur permettant de la traiter pour transformer les valeurs brutes des pixels de l'image en information plus utile telle que la nature, la position, et la fonction des objets environnants. Voilà une des raisons pour laquelle il leur est difficile de se mouvoir dans un environnement inconnu, et d'interagir avec les humains ou du matériel dans des scénarios non-planifiés. Cependant, la conception de ce logiciel comporte de multiples défis. Parmi ceux-ci, il est difficile de comparer deux images entre elles, par exemple, afin que la machine puisse reconnaître que ce qu'elle voit est similaire à une image qu'elle a déjà vue et identifiée. Une des raisons de cette difficulté est que la machine ne sait pas, a priori, quelles parties des deux images se correspondent, et ne sait donc pas quoi comparer avec quoi. Cette thèse s'attaque à ce problème et propose une série d'algorithmes permettant de trouver les parties correspondantes entre plusieurs images, ou en d'autre terme d'aligner les images. La première méthode proposée permet d'apparier ces parties de manière cohérente en prenant en compte les interactions entre plus de deux d'entre elles. Le deuxième algorithme proposé applique avec succès une méthode d'alignement pour déterminer la catégorie d'un objet centré dans une image. Le troisième est optimisé pour la vitesse et tente de détecter un objet d'une catégorie donné où qu'il soit dans l'image.
9

Asservissement visuel d'un éclairage opératoire

Gauvin, Aurélien 05 June 2012 (has links) (PDF)
Les travaux présentés dans ce manuscrit traitent de l'asservissement visuel d'un éclairage opératoire. Il s'agit d'une thèse CIFRE soutenue par l'entreprise MAQUET SAS et en collaboration avec le Laboratoire PRISME de l'Université d'Orléans. Les éclairages opératoires offrent à l'équipe chirurgicale des conditions d'éclairement suffisantes pour leur permettre d'accomplir leurs gestes. Leur positionnement est difficile en cours d'intervention et engendre fréquemment des heurts entre les membres de l'équipe. Les solutions déjà développées pour résoudre ce problème ne donnent pas satisfaction en raison de l'interaction forte entre le système et l'équipe chirurgicale. Nous proposons dans cette étude un éclairage opératoire asservi visuellement ne nécessitant pas d'information explicite, et opérationnel quel que soit le type de chirurgie. Il s'agit d'un système "intelligent" autrement dit capable de désigner de lui-même la zone où éclairer et "autonome", c'est-à-dire apte à se déplacer seul une fois les coordonnées de la cible connues. Ces deux points constituent la problématique de cette étude. Pour rendre "intelligent" l'éclairage opératoire, nous proposons un processus de désignation basé sur la reconnaissance d'objets spécifiques : le sang, la peau, les champs stériles et les instruments. Pour ce faire nous utilisons une fusion des attributs forme, couleur et mouvement basée sur le cadre crédibiliste. Nous résolvons les problèmes d'inhomogénéité de l'image dus à la puissance de l'éclairement par l'ajout d'une étape de fusion intermédiaire. Une fois l'ensemble des objets reconnus, nous procédons à la désignation de la zone à éclairer à l'aide de la théorie de la décision. L'autonomie du système est quant à elle assurée par une boucle d'asservissement visuel 2D, qui permet de faire converger l'éclairage vers la zone précédemment désignée. Nous avons réalisé au cours de cette étude un prototype quia permis de valider l'approche dans des conditions réelles.
10

Non-rigid image alignment for object recognition / Alignement élastique d’images pour la reconnaissance d’objet

Duchenne, Olivier 29 November 2012 (has links)
La vision permet aux animaux de recueillir une information riche et détaillée sur leur environnent proche ou lointain. Les machines ont aussi accès à cette information riche via leurs caméras. Mais, elles n'ont pas encore le logiciel adéquat leur permettant de la traiter pour transformer les valeurs brutes des pixels de l'image en information plus utile telle que la nature, la position, et la fonction des objets environnants. Voilà une des raisons pour laquelle il leur est difficile de se mouvoir dans un environnement inconnu, et d'interagir avec les humains ou du matériel dans des scénarios non-planifiés. Cependant, la conception de ce logiciel comporte de multiples défis. Parmi ceux-ci, il est difficile de comparer deux images entre elles, par exemple, afin que la machine puisse reconnaître que ce qu'elle voit est similaire à une image qu'elle a déjà vue et identifiée. Une des raisons de cette difficulté est que la machine ne sait pas, a priori, quelles parties des deux images se correspondent, et ne sait donc pas quoi comparer avec quoi. Cette thèse s'attaque à ce problème et propose une série d'algorithmes permettant de trouver les parties correspondantes entre plusieurs images, ou en d'autre terme d'aligner les images. La première méthode proposée permet d'apparier ces parties de manière cohérente en prenant en compte les interactions entre plus de deux d'entre elles. Le deuxième algorithme proposé applique avec succès une méthode d'alignement pour déterminer la catégorie d'un objet centré dans une image. Le troisième est optimisé pour la vitesse et tente de détecter un objet d'une catégorie donné où qu'il soit dans l'image. / Seeing allows animals and people alike to gather information from a distance, often with high spatial and temporal resolution. Machines have access to this rich pool of information thanks to their cameras. But, they still do not have the software to process it, in order to transform the raw pixel values into useful information such as nature, position, and function of the surrounding objects. That is one of the reasons why it is still difficult for them to naviguate in an unknown environment and interract with people and objects in an un-planned fashion. However, the design of such a software implies many challenges. Among them, it is hard to compare two images, for insance, in order to recognize that the seen image is similar to another which has been previously seen and identified. One of the difficulties here is that the software cannot know --a priori-- which parts of the two images match. So, it cannot know which parts it should compare. This thesis tackles that problem, and presents a set of algorithm to find correspondences in images, or in other words, to align them. The first proposed method match parts in images, in a coherent fachion, taking into account higher order interactions between more than to of them. The second proposed algorithm apply with success alignment technique to discover the category of an object centered in an image. The third one is optimized for speed and try to detect objects of a given category, which can be anywhere in an image.

Page generated in 0.0854 seconds