• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 69
  • 34
  • 19
  • Tagged with
  • 125
  • 125
  • 125
  • 125
  • 108
  • 108
  • 66
  • 65
  • 60
  • 58
  • 55
  • 45
  • 40
  • 25
  • 24
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
41

Optimization convexe pour cosegmentation

Joulin, Armand 17 December 2012 (has links) (PDF)
Les hommes et la plupart des animaux ont une capacité naturelle à voir le monde et à le comprendre sans effort. La simplicité apparente avec laquelle un humain perçoit ce qui l'entoure suggère que le processus impliqué ne nécessite pas, dans une certaine mesure, un haut degré de réflexion. Cette observation suggère que notre perception visuelle du monde peut être simulée sur un ordinateur. La vision par ordinateur est le domaine de la recherche consacré au problème de la création d'une forme de perception visuelle pour des ordinateurs. Les premiers travaux dans ce domaine remontent aux années cinquante, mais la puissance de calcul des ordinateurs de cette époque ne permettait pas de traiter et d'analyser les données visuelles nécessaires à l'elaboration d'une perception visuelle virtuelle. Ce n'est que récemment que la puissance de calcul et la capacité de stockage ont permis à ce domaine de vrai- ment émerger. Depuis maintenant deux décennies, la vision par ordinateur a permis de répondre à problèmes pratiques ou industrielles comme par exemple, la détection des visages, de personnes au comportement suspect dans une foule ou de défauts de fabrication dans des chaînes de production. En revanche, en ce qui concerne l'émergence d'une perception visuelle virtuelle non spécifique à une tâche donnée, peu de progrès ont été réalisés et la communauté est toujours confrontée à des problèmes fondamentaux. Un de ces problèmes est de segmenter une image ou une video en régions porteuses de sens, ou en d'autres termes, en objets ou actions. La segmentation de scène est non seulement naturelle pour les humains, mais aussi essentielle pour comprendre pleinement son environnement. Malheureusement elle est aussi extrêmement difficile à reproduire sur un ordinateur. Une des raisons est qu'il n'existe pas de définition claire de ce qu'est une région "significative". En effet, en fonction de la scène ou de la situation, une région peut avoir des interprétations différentes. Par exemple, étant donnée une scène se passant dans la rue, on peut considérer que distinguer un piéton est important dans cette situation, par contre ses vêtements ne le semblent pas nécessairement. Si maintenant nous considérons une scène ayant lieu pendant un défilé de mode, un vêtement devient un élément important, donc une région significative. Dans cette thèse, nous nous concentrons sur ce problème de segmentation et nous l'abordons sous un angle particulier afin d'éviter cette difficulté fondamentale. Nous allons considérer la segmentation comme un problème d'apprentissage faible- ment supervisé, c'est-à-dire qu'au lieu de segmenter des images selon une certaine définition prédéfinie de régions "significatives", nous développons des méthodes per- mettant de segmenter simultanément un ensemble d'images en régions qui apparais- sent régulièrement. En d'autres termes, nous définissons une région "significative" d'un point de vue statistique: Ce sont les régions qui apparaissent régulièrement dans l'ensemble des images données. Pour cela nous concevons des modèles ayant une portée qui va au-delà de l'application à la vision. Notre approche prend ses racines dans l'apprentissage statistique, dont l'objectif est de concevoir des méthodes efficaces pour extraire et/ou apprendre des motifs récurrents dans des jeux de données. Ce domaine a récemment connu une forte popularité en raison de l'augmentation du nombre, de la taille des bases de données disponibles et la nécessité de traiter les données automatiquement. Dans cette thèse, nous nous concentrons sur des méthodes conçues pour découvrir l'information "cachée" dans une base de données à partir d'annotations incomplètes ou inexistantes. Enfin, nos travaux prennent aussi racines dans le domaine de l'optimisation numérique afin d'élaborer des algorithmes efficaces et adaptés spécialement à nos prob- lèmes. En particulier, nous utilisons et adaptons des outils récemment développés afin de relaxer des problèmes combinatoires complexes en des problèmes convexes pour lesquels il est garanti de trouver la solution optimale à l'aide de procedures developpees en optimisation convexe. Nous illustrons la qualité de nos formulations et algorithmes aussi sur des problèmes tirés de domaines autres que la vision par ordinateur. En particulier, nous montrons que nos travaux peuvent être utilisés dans la classification de texte et en biologie cellulaire.
42

Alignement élastique d'images pour la reconnaissance d'objet

Duchenne, Olivier 29 November 2012 (has links) (PDF)
The objective of this thesis is to explore the use of graph matching in object recognition systems. In the continuity of the previously described articles, rather than using descriptors invariant to misalignment, this work directly tries to find explicit correspondences between prototypes and test images, in order to build a robust similarity measure and infer the class of the test images. In chapter 2, we will present a method that given interest points in two images tries to find correspondences between them. It extends previous graph matching approaches [Leordeanu and Hebert, 2005a] to handle interactions between more than two feature correspondences. This allows us to build a more discriminative and/or more invariant matching method. The main contributions of this chapter are: The introduction of an high-order objective function for hyper-graph matching (Section 2.3.1). The application of the tensor power iteration method to the high-order matching task, combined with a relaxation based on constraints on the row norms of assignment matrices, which is tighter than previous methods (Section 2.3.1). An l1-norm instead of the classical l2-norm relaxation, that provides solutions that are more interpretable but still allows an efficient power iteration algorithm (Section 2.3.5). The design of appropriate similarity measures that can be chosen either to improve the invariance of matching, or to improve the expressivity of the model (Section 2.3.6). The proposed approach has been implemented, and it is compared to stateof-the-art algorithms on both synthetic and real data. As shown by our experiments (Section 2.5), our implementation is, overall, as fast as these methods in spite of the higher complexity of the model, with better accuracy on standard databases. In chapter 3, we build a graph-matching method for object categorization. The main contributions of this chapter are: Generalizing [Caputo and Jie, 2009; Wallraven et al., 2003], we propose in Section 3.3 to use the optimum value of the graph-matching problem associated with two images as a (non positive definite) kernel, suitable for SVM classification. We propose in Section 3.4 a novel extension of Ishikawa's method [Ishikawa, 2003] for optimizing MRFs which is orders of magnitude faster than competing algorithms (e.g., [Kim and Grauman, 2010; Kolmogorov and Zabih, 2004; Leordeanu and Hebert, 2005a]) for the grids with a few hundred nodes considered in this article). In turn, this allows us to combine our kernel with SVMs in image classification tasks. We demonstrate in Section 3.5 through experiments with standard benchmarks (Caltech 101, Caltech 256, and Scenes datasets) that our method matches and in some cases exceeds the state of the art for methods using a single type of features. In chapter 4, we introduce our work about object detection that perform fast image alignment. The main contributions of this chapter are: We propose a novel image similarity measure that allows for arbitrary deformations of the image pattern within some given disparity range and can be evaluated very efficiently [Lemire, 2006], with a cost equal to a small constant times that of correlation in a sliding-window mode. Our similarity measure relies on a hierarchical notion of parts based on simple rectangular image primitives and HOG cells [Dalal and Triggs, 2005a], and does not require manual part specification [Felzenszwalb and Huttenlocher, 2005b; Bourdev and Malik, 2009; Felzenszwalb et al., 2010] or automated discovery [Lazebnik et al., 2005; Kushal et al., 2007].
43

Learning Hierarchical Feature Extractors For Image Recognition

Boureau, Y-Lan 01 September 2012 (has links) (PDF)
Telling cow from sheep is effortless for most animals, but requires much engineering for computers. In this thesis, we seek to tease out basic principles that underlie many recent advances in image recognition. First, we recast many methods into a common unsu- pervised feature extraction framework based on an alternation of coding steps, which encode the input by comparing it with a collection of reference patterns, and pooling steps, which compute an aggregation statistic summarizing the codes within some re- gion of interest of the image. Within that framework, we conduct extensive comparative evaluations of many coding or pooling operators proposed in the literature. Our results demonstrate a robust superiority of sparse coding (which decomposes an input as a linear combination of a few visual words) and max pooling (which summarizes a set of inputs by their maximum value). We also propose macrofeatures, which import into the popu- lar spatial pyramid framework the joint encoding of nearby features commonly practiced in neural networks, and obtain significantly improved image recognition performance. Next, we analyze the statistical properties of max pooling that underlie its better perfor- mance, through a simple theoretical model of feature activation. We then present results of experiments that confirm many predictions of the model. Beyond the pooling oper- ator itself, an important parameter is the set of pools over which the summary statistic is computed. We propose locality in feature configuration space as a natural criterion for devising better pools. Finally, we propose ways to make coding faster and more powerful through fast convolutional feedforward architectures, and examine how to incorporate supervision into feature extraction schemes. Overall, our experiments offer insights into what makes current systems work so well, and state-of-the-art results on several image recognition benchmarks.
44

Modeling and visual recognition of human actions and interactions

Laptev, Ivan 03 July 2013 (has links) (PDF)
This work addresses the problem of recognizing actions and interactions in realistic video settings such as movies and consumer videos. The first contribution of this thesis (Chapters 2 and 4) is concerned with new video representations for action recognition. We introduce local space-time descriptors and demonstrate their potential to classify and localize actions in complex settings while circumventing the difficult intermediate steps of person detection, tracking and human pose estimation. The material on bag-of-features action recognition in Chapter 2 is based on publications [L14, L22, L23] and is related to other work by the author [L6, L7, L8, L11, L12, L13, L16, L21]. The work on object and action localization in Chapter 4 is based on [L9, L10, L13, L15] and relates to [L1, L17, L19, L20]. The second contribution of this thesis is concerned with weakly-supervised action learning. Chap- ter 3 introduces methods for automatic annotation of action samples in video using readily-available video scripts. It addresses the ambiguity of action expressions in text and the uncertainty of tem- poral action localization provided by scripts. The material presented in Chapter 3 is based on publications [L4, L14, L18]. Finally Chapter 5 addresses interactions of people with objects and concerns modeling and recognition of object function. We exploit relations between objects and co-occurring human poses and demonstrate object recognition improvements using automatic pose estimation in challenging videos from YouTube. This part of the thesis is based on the publica- tion [L2] and relates to other work by the author [L3, L5].
45

Benevolent and Malevolent Adversaries: A Study of GANs and Face Verification Systems

Nazari, Ehsan 22 November 2023 (has links)
Cybersecurity is rapidly evolving, necessitating inventive solutions for emerging challenges. Deep Learning (DL), having demonstrated remarkable capabilities across various domains, has found a significant role within Cybersecurity. This thesis focuses on benevolent and malevolent adversaries. For the benevolent adversaries, we analyze specific applications of DL in Cybersecurity contributing to the enhancement of DL for downstream tasks. Regarding the malevolent adversaries, we explore the question of how resistant to (Cyber) attacks is DL and show vulnerabilities of specific DL-based systems. We begin by focusing on the benevolent adversaries by studying the use of a generative model called Generative Adversarial Networks (GAN) to improve the abilities of DL. In particular, we look at the use of Conditional Generative Adversarial Networks (CGAN) to generate synthetic data and address issues with imbalanced datasets in cybersecurity applications. Imbalanced classes can be a significant issue in this field and can lead to serious problems. We find that CGANs can effectively address this issue, especially in more difficult scenarios. Then, we turn our attention to using CGAN with tabular cybersecurity problems. However, visually assessing the results of a CGAN is not possible when we are dealing with tabular cybersecurity data. To address this issue, we introduce AutoGAN, a method that can train a GAN on both image-based and tabular data, reducing the need for human inspection during GAN training. This opens up new opportunities for using GANs with tabular datasets, including those in cybersecurity that are not image-based. Our experiments show that AutoGAN can achieve comparable or even better results than other methods. Finally, we shift our focus to the malevolent adversaries by looking at the robustness of DL models in the context of automatic face recognition. We know from previous research that DL models can be tricked into making incorrect classifications by adding small, almost unnoticeable changes to an image. These deceptive manipulations are known as adversarial attacks. We aim to expose new vulnerabilities in DL-based Face Verification (FV) systems. We introduce a novel attack method on FV systems, called the DodgePersonation Attack, and a system for categorizing these attacks based on their specific targets. We also propose a new algorithm that significantly improves upon a previous method for making such attacks, increasing the success rate by more than 13%.
46

BetaSAC et OABSAC, deux nouveaux 'echantillonnages conditionnels pour RANSAC

Méler, Antoine 31 January 2013 (has links) (PDF)
L'algorithme RANSAC est l'approche la plus commune pour l'estimation robuste des paramètres d'un modèle en vision par ordinateur. C'est principalement sa capacité à traiter des données contenant potentiellement plus d'erreurs que d'information utile qui fait son succès dans ce domaine où les capteurs fournissent une information très riche mais très difficilement exploitable. Depuis sa création, il y a trente ans, de nombreuses modifications ont été proposées pour améliorer sa vitesse, sa précision ou sa robustesse. Dans ce travail, nous proposons d'accélérer la résolution d'un problème par RANSAC en utilisant plus d'information que les approches habituelles. Cette information, calculée à partir des données elles-même ou provenant de sources complémentaires de tous types, nous permet d'aider RANSAC à générer des hypothèses plus pertinentes. Pour ce faire, nous proposons de distinguer quatre degrés de qualité d'une hypothèse: la "non contamination", la "cohésion", la "cohérence" et enfin la "pertinence". Puis nous montrons à quel point une hypothèse non contaminée par des données erronées est loin d'être pertinente dans le cas général. Dès lors, nous nous attachons à concevoir un algorithme original qui, contrairement aux méthodes de l'état de l'art, se focalise sur la génération d'échantillons "pertinents" plutôt que simplement "non contaminés". Notre approche consiste à commencer par proposer un modèle probabiliste unifiant l'ensemble des méthodes de réordonnancement de l'échantillonnage de RANSAC. Ces méthodes assurent un guidage du tirage aléatoire des données tout en se prémunissant d'une mise en échec de RANSAC. Puis, nous proposons notre propre algorithme d'ordonnancement, BetaSAC, basé sur des tris conditionnels partiels. Nous montrons que la conditionnalité du tri permet de satisfaire des contraintes de cohérence des échantillons formés, menant à une génération d'échantillons pertinents dans les premières itérations de RANSAC, et donc à une résolution rapide du problème. L'utilisation de tris partiels plutôt qu'exhaustifs, quant à lui, assure la rapidité et la randomisation, indispensable à ce type de méthodes. Dans un second temps, nous proposons une version optimale de notre méthode, que l'on appelle OABSAC (pour Optimal and Adaptative BetaSAC), faisant intervenir une phase d'apprentissage hors ligne. Cet apprentissage a pour but de mesurer les propriétés caractéristiques du problème spécifique que l'on souhaite résoudre, de façon à établir automatiquement le paramétrage optimal de notre algorithme. Ce paramétrage est celui qui doit mener à une estimation suffisamment précise des paramètres du modèle recherché en un temps (en secondes) le plus court. Les deux méthodes proposées sont des solutions très générales qui permettent d'intégrer dans RANSAC tout type d'information complémentaire utile à la résolution du problème. Nous montrons l'avantage de ces méthodes pour le problème de l'estimation d'homographies et de géométries épipolaires entre deux photographies d'une même scène. Les gains en vitesse de résolution du problème peuvent atteindre un facteur cent par rapport à l'algorithme RANSAC classique.
47

Un système de réalité augmentée pour guider les opérations du foie en radiologie interventionnelle

Nicolau, Stephane 24 November 2004 (has links) (PDF)
En radiologie interventionnelle, le praticien se sert actuellement de plusieurs acquisitions scanner (coupes 2D) pour pouvoir atteindre sa cible au cours d'une ponction percutanée dans la zone abdominale. Notre objectif est de concevoir un système de guidage minimisant ces acquisitions et donc le temps de l'intervention. Pour cela, nous proposons un système de réalité augmentée superposant des reconstructions 3D pré-opératoires des structures abdominales du patient dans des images vidéo externes de son corps. En plus d'être précis, rapide et fiable, cet outil devra pouvoir être introduit aisément en salle d'opération.<br />Dans notre cas, le patient est intubé et sa ventilation contrôlée, nous pouvons donc négliger les effets de la respiration : un recalage rigide 3D/2D de marqueurs radio-opaques collés sur la peau est suffisant pour atteindre la précision requise. Les hypothèses statistiques des critères classiques n'étant pas adéquates pour notre application, nous avons dérivé un nouveau critère généralisant les approches standard. Une évaluation rigoureuse des performances démontre la supériorité de notre méthode en terme de précision et de robustesse.<br />Pour atteindre le temps réel en salle d'opération, nous avons ensuite développé un ensemble d'algorithmes d'extraction et de mise en correspondance des marqueurs radio-opaques dont nous avons validé la robustesse sur de nombreuses images réelles. La précision du système dépendant de nombreux paramètres (nombre de marqueurs radio-opaques, position des caméras...), elle ne peut pas être établie préalablement de manière définitive. Afin de fournir un système fiable, nous proposons donc une technique de propagation des covariances qui permet d'estimer dynamiquement l'erreur de repositionnement des modèles reconstruits. Une phase de validation méticuleuse, sur des données synthétiques et réelles, démontre que notre prédiction est fiable dans les conditions de notre application.<br />Après cette validation de chacun des modules, nous montrons la faisabilité et l'intérêt de notre système complet en menant une évaluation sur un mannequin : quatre chirurgiens ont réussi à atteindre des cibles en des temps dix fois inférieurs à ceux usuellement nécessaires pour ce type d'intervention et avec une précision supérieure. Finalement, plusieurs expériences cliniques sur des patients démontrent que notre système est utilisable en salle d'opération et suggèrent son utilisation en routine dans un futur proche.
48

Interaction entre symbolique et numérique : application à la vision artificielle

Bondyfalat, Didier 12 September 2000 (has links) (PDF)
Les motivations initiales de ce travail proviennent de l'étalonnage de caméras en vision artificielle. Nous nous sommes surtout intéressés aux manières d'exploiter des mesures dans les images (détection d'objets) et des considérations géométriques formelles. Nous avons élargi nos recherches à la problématique suivante :"l'interaction entre symbolique et numérique ". Ce travail se divise en trois parties. La première partie traite de la résolution d'équations polynomiales avec des coefficients approchés. Nous étudions des méthodes matricielles qui transforment la résolution en la recherche des valeurs et des vecteurs propres d'une matrice. Ces transformations et et les calculs de valeurs et vecteurs propres sont continues par rapport aux coefficients et permettent donc de résoudre des équations à coefficients approchés. La deuxième partie présente un cadre algébrique permettant d'exprimer simplement des contraintes géométriques. Ce formalisme nous a permis de modéliser de manière fine l'étalonnage d'une ou plusieurs caméras avec l'aide d'un plan. L'étalonnage ne peut être effectué pratiquement qu'avec des résolutions numériques de systèmes linéaires. La troisième partie est consacrée à l'étude et surtout à l'utilisation des outils de démonstration automatique en géométrie pour la construction de modèles 3D articulés. Par des optimisations numériques, nous déterminons les paramètres des modèles articulés qui permettent aux images de ces modèles de coïncider avec les données extraites des photographies
49

Automatic recognition of low-level and high-level surgical tasks in the Operating Room from video images

Lalys, Florent 03 May 2012 (has links) (PDF)
La besoin d'une meilleure intégration des nouveaux systèmes de chirurgie assistée par ordinateur dans les salles d'opération à récemment été souligné. Une nécessité pour atteindre cet objectif est de récupérer des données dans les salles d'opérations avec différents capteurs, puis à partir de ces données de créer des modèles de processus chirurgicaux. Récemment, l'utilisation de vidéos dans la salle d'opération a démontré son efficacité pour aider à la création de systèmes de CAO sensibles au contexte. Le but de cette thèse était de présenter une nouvelle méthode pour la détection automatique de tâches haut niveaux (i.e. phases chirurgicales) et bas-niveaux (i.e. activités chirurgicales) à partir des vidéos des microscopes uniquement. La première étape a consisté à reconnaitre automatiquement les phases chirurgicales. L'idée fut de combiner des techniques récentes de vision par ordinateur avec une analyse temporelle. Des classifieurs furent tout d'abord mis en œuvre pour extraire des attributs visuels et ainsi caractériser chaque image, puis des algorithmes de classification de séries temporelles furent utilisés pour reconnaitre les phases. La deuxième étape a consisté à reconnaitre les activités chirurgicales. Des informations concernant des outils chirurgicaux et des structures anatomiques furent détectées et combinées avec l'information de la phase précédemment obtenu au sein d'un système de reconnaissance intelligent. Après des validations croisées sur des vidéos de neurochirurgie et de chirurgie de l'œil, nous avons obtenu des taux de reconnaissance de l'ordre de 94% pour la reconnaissance des phases et 64% pour la reconnaissance des activités. Ces systèmes de reconnaissance pourraient être utiles pour générer automatiquement des rapports post-opératoires, pour l'enseignement, l'apprentissage, mais aussi pour les futurs systèmes sensibles au contexte.
50

Laparoscopie Répartie

Boschet, Christophe 15 December 2010 (has links) (PDF)
En chirurgie laparoscopique, les chirurgiens doivent prendre des décisions appropriées en se basant sur une image qui leur offre un point de vue unique du site opératoire. Cette tâche est difficile à réaliser compte tenu du champ de vue limité de l'endoscope et du fait que l'endoscope rigide doit passer par un point d'insertion unique. Ces contraintes obligent les chirurgiens à réaliser des mouvements d'aller-retour avec l'endoscope, alternant entre des vues détaillées et des vues globales de la scène, qui leur permettent de se repérer plus facilement. Dans le but d'observer les parties cachées d'un organe, les chirurgiens aimeraient bien pouvoir changer le point de vue, sans avoir à insérer l'endoscope dans un nouveau point d'insertion. Pour répondre à cette problématique, nous proposons au chirurgien de visualiser une image virtuelle de la cavité abdominale, synthétisée selon un point de vue quelconque. Notre approche est basée sur l'insertion d'un commando de caméras miniatures au sein de la cavité abdominale. Ces caméras sont fixées à la paroi abdominale, aux trocarts ou aux outils chirurgicaux, de sorte qu'au moins l'une d'entre elles soit en mesure de percevoir une information pertinente pour le chirurgien. Les caméras sont regroupées en paires stéréoscopiques pour reconstruire des modèles 3D du site opératoire. Ces modèles fournissent un cadre de référence qui permet la fusion de toutes les images perçues par les caméras, restituée sous forme d'une image stable synthétisée selon tout point de vue. L'image virtuelle est rendue selon le point de vue désiré par le chirurgien, ce qui lui permet d'explorer la cavité abdominale sans intervenir sur les caméras réelles.

Page generated in 0.158 seconds