• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 214
  • 149
  • 39
  • Tagged with
  • 405
  • 405
  • 405
  • 286
  • 161
  • 111
  • 109
  • 86
  • 80
  • 78
  • 76
  • 72
  • 72
  • 68
  • 64
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
271

Une approche décentralisée et adaptative de la gestion d'informations en vision ; application à l'interprétation d'images de cellules en mouvement

Boucher, Alain 18 January 1999 (has links) (PDF)
Cette thèse propose une nouvelle approche de la vision par ordinateur, insistant sur le rôle joué par les différentes informations et connaissances présentes dans un système intégré de vision. Ces connaissances peuvent être vues comme un but à atteindre dans la chaine de traitement ou comme un instrument pour guider ces différents traitement. Ce double rôle est mis en évidence en insistant sur la gestion des informations disponibles à tout moment pour effectuer la tâche de reconnaissance. Une approche distribuée est proposée, sous la forme d'un système multi-agents, où chaque agent est spécialisé pour la reconnaissance d'un concept de l'image. Le modèle générique d'agent est composé de quatre comportements de base : perception (croissance de région, suivi de contour), interaction (fusion de primitives), différenciation (interprétation de primitive) et reproduction (stratégie de focalisation des agents). Ces comportements prennent des décisions à l'aide d'évaluations multi-critères, faisant référence à plusieurs critères spécialisés. Des capacités d'adaptation et de coopération sont nécessaires aux agents pour mener à bien leurs tâches, et ce tant au niveau local qu'au niveau des groupes d'agents (travaillant sur un même groupement perceptuel). Ce système est appliqué pour la reconnaissance des cellules en mouvement. Chaque cellule est divisée en plusieurs composantes (noyau, pseudopode, cytoplasme, ...) qui servent de concepts de base pour la spécialisation des agents.
272

Modélisation 3D à partir d'images : contributions en reconstruction photométrique à l'aide de maillages déformables

Delaunoy, Amael 02 December 2011 (has links) (PDF)
Comprendre, analyser et modéliser l'environment 3D à partir d'images provenant de caméras et d'appareils photos est l'un des défis majeurs actuel de recherche en vision par ordinateur. Cette thèse s'interesse à plusieurs aspects géométriques et photometriques liés à la reconstruction de surface à partir de plusieurs caméras calibrées. La reconstruction 3D est vue comme un problème de rendu inverse, et vise à minimiser une fonctionnelle d'énergie afin d'optimiser un maillage triangulaire représentant la surface à reconstruire. L'énergie est définie via un modèle génératif faisant naturellement apparaître des attributs tels que la visibilité ou la photométrie. Ainsi, l'approche présentée peut indifférement s'adapter à divers cas d'application tels que la stéréovision multi-vues, la stéréo photométrique multi-vues ou encore le "shape from shading" multi-vues. Plusieurs approches sont proposées afin de résoudre les problèmes de correspondances de l'apparence pour des scènes non Lambertiennes, dont l'apparence varie en fonction du point de vue. La segmentation, la stéréo photométrique ou encore la réciprocité d'Helmholtz sont des éléments étudiés afin de contraindre la reconstruction. L'exploitation de ces contraintes dans le cadre de reconstruction multi-vues permet de reconstruire des modèles complets 3D avec une meilleure qualité.
273

Représentations d'images pour la recherche et la classification d'images

Krapac, Josip 11 July 2011 (has links) (PDF)
Cette thèse se concerne avec de tâches de la recherche et la classification d'images. Ces tâches sont résolues par l'apprentissage des modèles statistiques donnée une représentation du contenu visuel de l'image et une mesure de ressemblance entre les images. Ici nous visons à améliorer les performances du tâches en étendant le sac-de-mots représentation de l'image, tout en utilisant modèles statistiques et des mesures de similarité entre les images déjà existants. Nous adaptons la représentation d'image en fonction d'une tâche donnée. Nous avons d'abord explorer la tâche de reclassement d'images, en contexte de la recherche d'images, dont le but est de trier les images récupérées par une requête textuelle afin que les images pertinentes pour ce requête sont classés au-dessus les autres images. Inspiré par le méthodes de reclassement de documents textuelles nous avons développé une représentation qui dépend du contenu visuel de l'image, mais également sur la requête textuelle utilisée pour récupérer l'image. Ensuite, nous adaptons la représentation pour la tâche de classification d'images, qui vise à attribuer une ou plusieurs étiquettes d'une image liée à la contenu visuel de l'image. Nous avons adaptée de la représentation en apprenant un vocabulaire visuel, spécifiquement pour la tâche de classification. Nous avons également introduit une nouvelle représentation qui encode les informations sur la disposition spatiale des parties d'image, de manière beaucoup plus compacte que les représentations actuellement utilisés pour codage de l'agencement spatial. Toutes les représentations développées sont compacts, rapides à construire et obtient bons résultats en utilisent des modèles linéaires. Nous montrons des améliorations sur plusieurs bases des images complexes en comparaison avec des méthodes de l'état de l'art. Pour les tâches de recherche et classification d'images nous avons montré que l'adaptation de la représentation à la tâche améliore les performances.
274

Recherches en reconstruction 3D photométrique

Prados, Emmanuel 04 April 2012 (has links) (PDF)
La reconstruction de surfaces tridimensionnelles à partir de plusieurs caméras calibrées peut s'entrevoir sous plusieurs aspects, en particulier, sous des aspects géométriques ou photométriques. Les images contiennent un grand nombre d'informations dont la correspondance, l'ombrage et les contours. En reconstruction 3D multi-vues, toutes ces informations n'ont cependant été que très partiellement fusionnées. Pourtant en exploitant simultanément le maximum d'information disponible, nous devrions intuitivement obtenir de meilleurs résultats et des algorithmes plus robustes. Par ailleurs, nous avons aussi régulièrement des connaissances a priori sur la scène ; connaissances qu'il est possible d'exploiter, par exemple en les insérant sous la forme de contraintes. Arriver à trouver un cadre rigoureux permettant de mêler et exploiter naturellement et simultanément toutes ces informations pour les problèmes de reconstruction 3D multi-vues serait donc particulièrement pertinent. Pour avancer dans cet objectif, il est nécessaire de se replonger et de travailler la modélisation. Dans ce manuscrit, je présente les travaux que j'ai menés dans ce domaine autour de toutes ces questions. Ce manuscrit est aussi l'occasion pour moi de présenter les objectifs et activités de l'équipe de recherche STEEP que je anime et coordonne depuis sa création en 2010.
275

Méthodes de reconstruction tridimensionnelle intégrant des points cycliques : application au suivi d'une caméra

Calvet, Lilian 23 January 2014 (has links) (PDF)
Cette thèse traite de la reconstruction tridimensionnelle d'une scène rigide à partir d'une collection de photographies numériques, dites vues. Le problème traité est connu sous le nom du "calcul de la structure et du mouvement" (structure-and/from-motion) qui consiste à "expliquer" des trajectoires de points dits d'intérêt au sein de la collection de vues par un certain mouvement de l'appareil (dont sa trajectoire) et des caractéristiques géométriques tridimensionnelles de la scène. Dans ce travail, nous proposons les fondements théoriques pour étendre certaines méthodes de calcul de la structure et du mouvement afin d'intégrer comme données d'entrée, des points d'intérêt réels et des points d'intérêt complexes, et plus précisément des images de points cycliques. Pour tout plan projectif, les points cycliques forment une paire de points complexes conjugués qui, par leur invariance par les similitudes planes, munissent le plan projectif d'une structure euclidienne. Nous introduisons la notion de marqueurs cycliques qui sont des marqueurs plans permettant de calculer sans ambiguïté les images des points cycliques de leur plan de support dans toute vue. Une propriété de ces marqueurs, en plus d'être très "riches" en information euclidienne, est que leurs images peuvent être appariées même si les marqueurs sont disposés arbitrairement sur des plans parallèles, grâce à l'invariance des points cycliques. Nous montrons comment utiliser cette propriété dans le calcul projectif de la structure et du mouvement via une technique matricielle de réduction de rang, dite de factorisation, de la matrice des données correspondant aux images de points réels, complexes et/ou cycliques. Un sous-problème critique abordé dans le calcul de la structure et du mouvement est celui de l'auto-calibrage de l'appareil, problème consistant à transformer un calcul projectif en un calcul euclidien. Nous expliquons comment utiliser l'information euclidienne fournie par les images des points cycliques dans l'algorithme d'auto-calibrage opérant dans l'espace projectif dual et fondé sur des équations linéaires. L'ensemble de ces contributions est finalement utilisé pour une application de suivi automatique de caméra utilisant des marqueurs formés par des couronnes concentriques (appelés CCTags), où il s'agit de calculer le mouvement tridimensionnel de la caméra dans la scène à partir d'une séquence vidéo. Ce type d'application est généralement utilisé dans l'industrie du cinéma ou de la télévision afin de produire des effets spéciaux. Le suivi de caméra proposé dans ce travail a été conçu pour proposer le meilleur compromis possible entre flexibilité d'utilisation et précision des résultats obtenus.
276

Techniques visuelles pour la détection et le suivi d'objets 2D

Sekkal, Rafiq 28 February 2014 (has links) (PDF)
De nos jours, le traitement et l'analyse d'images trouvent leur application dans de nombreux domaines. Dans le cas de la navigation d'un robot mobile (fauteuil roulant) en milieu intérieur, l'extraction de repères visuels et leur suivi constituent une étape importante pour la réalisation de tâches robotiques (localisation, planification, etc.). En particulier, afin de réaliser une tâche de franchissement de portes, il est indispensable de détecter et suivre automatiquement toutes les portes qui existent dans l'environnement. La détection des portes n'est pas une tâche facile : la variation de l'état des portes (ouvertes ou fermées), leur apparence (de même couleur ou de couleur différentes des murs) et leur position par rapport à la caméra influe sur la robustesse du système. D'autre part, des tâches comme la détection des zones navigables ou l'évitement d'obstacles peuvent faire appel à des représentations enrichies par une sémantique adaptée afin d'interpréter le contenu de la scène. Pour cela, les techniques de segmentation permettent d'extraire des régions pseudo-sémantiques de l'image en fonction de plusieurs critères (couleur, gradient, texture...). En ajoutant la dimension temporelle, les régions sont alors suivies à travers des algorithmes de segmentation spatio-temporelle. Dans cette thèse, des contributions répondant aux besoins cités sont présentées. Tout d'abord, une technique de détection et de suivi de portes dans un environnement de type couloir est proposée : basée sur des descripteurs géométriques dédiés, la solution offre de bons résultats. Ensuite, une technique originale de segmentation multirésolution et hiérarchique permet d'extraire une représentation en régions pseudo-sémantique. Enfin, cette technique est étendue pour les séquences vidéo afin de permettre le suivi des régions à travers le suivi de leurs contours. La qualité des résultats est démontrée et s'applique notamment au cas de vidéos de couloir.
277

Analyse sémantique des images en temps-réel avec des réseaux convolutifs

Farabet, Clément 19 December 2013 (has links) (PDF)
Une des questions centrales de la vision informatique est celle de la conception et apprentissage de représentations du monde visuel. Quel type de représentation peut permettre à un système de vision artificielle de détecter et classifier les objects en catégories, indépendamment de leur pose, échelle, illumination, et obstruction. Plus intéressant encore, comment est-ce qu'un tel système peut apprendre cette représentation de façon automatisée, de la même manière que les animaux et humains parviennent à émerger une représentation du monde qui les entoure. Une question liée est celle de la faisabilité calculatoire, et plus précisément celle de l'efficacité calculatoire. Étant donné un modèle visuel, avec quelle efficacité peut-il être entrainé, et appliqué à de nouvelles données sensorielles. Cette efficacité a plusieurs dimensions: l'énergie consommée, la vitesse de calcul, et l'utilisation mémoire. Dans cette thèse je présente trois contributions à la vision informatique: (1) une nouvelle architecture de réseau convolutif profond multi-échelle, permettant de capturer des relations longue distance entre variables d'entrée dans des données type image, (2) un algorithme à base d'arbres permettant d'explorer de multiples candidats de segmentation, pour produire une segmentation sémantique avec confiance maximale, (3) une architecture de processeur dataflow optimisée pour le calcul de réseaux convolutifs profonds. Ces trois contributions ont été produites dans le but d'améliorer l'état de l'art dans le domain de l'analyse sémantique des images, avec une emphase sur l'efficacité calculatoire. L'analyse de scènes (scene parsing) consiste à étiqueter chaque pixel d'une image avec la catégorie de l'objet auquel il appartient. Dans la première partie de cette thèse, je propose une méthode qui utilise un réseau convolutif profond, entrainé à même les pixels, pour extraire des vecteurs de caractéristiques (features) qui encodent des régions de plusieurs résolutions, centrées sur chaque pixel. Cette méthode permet d'éviter l'usage de caractéristiques créées manuellement. Ces caractéristiques étant multi-échelle, elles permettent au modèle de capturer des relations locales et globales à la scène. En parallèle, un arbre de composants de segmentation est calculé à partir de graphe de dis-similarité des pixels. Les vecteurs de caractéristiques associés à chaque noeud de l'arbre sont agrégés, et utilisés pour entrainé un estimateur de la distribution des catégories d'objets présents dans ce segment. Un sous-ensemble des noeuds de l'arbre, couvrant l'image, est ensuite sélectionné de façon à maximiser la pureté moyenne des distributions de classes. En maximisant cette pureté, la probabilité que chaque composant ne contienne qu'un objet est maximisée. Le système global produit une précision record sur plusieurs benchmarks publics. Le calcul de réseaux convolutifs profonds ne dépend que de quelques opérateurs de base, qui sont particulièrement adaptés à une implémentation hardware dédiée. Dans la deuxième partie de cette thèse, je présente une architecture de processeur dataflow dédiée et optimisée pour le calcul de systèmes de vision à base de réseaux convolutifs--neuFlow--et un compilateur--luaFlow--dont le rôle est de compiler une description haut-niveau (type graphe) de réseaux convolutifs pour produire un flot de données et calculs optimal pour l'architecture. Ce système a été développé pour faire de la détection, catégorisation et localisation d'objets en temps réel, dans des scènes complexes, en ne consommant que 10 Watts, avec une implémentation FPGA standard.
278

VOCUS a visual attention system for object detection and goal-directed search /

Frintrop, Simone. January 1900 (has links)
Thesis (Ph.D.)--University of Bonn, Germany. / Includes bibliographical references and index.
279

VOCUS : a visual attention system for object detection and goal-directed search /

Frintrop, Simone. January 1900 (has links)
Thesis (Ph.D.)--University of Bonn, Germany. / Includes bibliographical references and index. Also issued online.
280

Estimation de l'échelle absolue par vision passive monofocale et application à la mesure 3D de néoplasies en imagerie coloscopique / Absolute Scale Estimation Using Passive Monofocal Vision and its Application to 3D Measurement of Neoplasias in Colonoscopy

Chadebecq, François 04 November 2015 (has links)
La majorité des dispositifs de métrologie basés vision sont équipés de systèmes optiques stéréo ou de systèmes de mesure externes dits actifs. Les méthodes de reconstruction tridimensionnelle (Structure-from-Motion, Shape-from-Shading) applicables à la vision monoculaire souffrent généralement de l’ambiguïté d’échelle. Cette dernière est inhérente au processus d’acquisition d’images qui implique la perte de l’information de profondeur de la scène. La relation entre la taille des objets et la distance de la prise de vue est équivoque.Cette étude a pour objet l’estimation de l’échelle absolue d’une scène par vision passive monofocale. Elle vise à apporter une solution à l’ambiguïté d’échelle uniquement basée vision, pour un système optique monoculaire dont les paramètres internes sont fixes. Elle se destine plus particulièrement à la mesure des lésions en coloscopie. Cette procédure endoscopique (du grec endom : intérieur et scopie : vision) permet l’exploration et l’intervention au sein du côlon à l’aide d’un dispositif flexible (coloscope) embarquant généralement un système optique monofocal. Dans ce contexte, la taille des néoplasies (excroissances anormales de tissu) constitue un critère diagnostic essentiel. Cette dernière est cependant difficile à évaluer et les erreurs d’estimations visuelles peuvent conduire à la définition d’intervalles de temps de surveillance inappropriés. La nécessité de concevoir un système d’estimation de la taille des lésions coloniques constitue la motivation majeure de cette étude. Nous dressons dans la première partie de ce manuscrit un état de l’art synoptique des différents systèmes de mesure basés vision afin de positionner notre étude dans ce contexte. Nous présentons ensuite le modèle de caméra monofocal ainsi que le modèle de formation d’image qui lui a été associé. Ce dernier est la base essentielle des travaux menés dans le cadre de cette thèse. La seconde partie du manuscrit présente la contribution majeure de notre étude. Nous dressons tout d’abord un état de l’art détaillé des méthodes de reconstruction 3D basées sur l’analyse de l’information de flou optique (DfD (Depth-from-Defocus) et DfF (Depth-from-Defocus)). Ces dernières sont des approches passives permettant, sous certaines contraintes d’asservissement de la caméra, de résoudre l’ambiguïté d’échelle. Elles ont directement inspiré le système de mesure par extraction du point de rupture de netteté présenté dans le chapitre suivant. Nous considérons une vidéo correspondant à un mouvement d’approche du système optique face à une région d’intérêt dont on souhaite estimer les dimensions. Notre système de mesure permet d’extraire le point de rupture nette/flou au sein de cette vidéo. Nous démontrons que, dans le cas d’un système optique monofocale, ce point unique correspond à une profondeur de référence pouvant être calibrée. Notre système est composé de deux modules. Le module BET (Blur EstimatingTracking) permet le suivi et l’estimation conjointe de l’information de mise au point d’une région d’intérêt au sein d’une vidéo. Le module BMF (Blur Model Fitting) permet d’extraire de façon robuste le point de rupture de netteté grâce à l’ajustement d’un modèle de flou optique. Une évaluation de notre système appliqué à l’estimation de la taille des lésions coloniques démontre sa faisabilité. Le dernier chapitre de ce manuscrit est consacré à une perspective d’extension de notre approche par une méthode générative. Nous présentons, sous la forme d’une étude théorique préliminaire, une méthode NRSfM (Non-Rigid Structure-from-Motion) permettant la reconstruction à l’échelle de surfaces déformables. Cette dernière permet l’estimation conjointe de cartes de profondeurs denses ainsi que de l’image de la surface aplanie entièrement mise au point. (...) / Vision-based metrology devices generally embed stereoscopic sensors or active measurement systems. Most of the passive 3D reconstruction techniques (Structure-from-Motion, Shape from-Shading) adapted to monocular vision suffer from scale ambiguity. Because the processing of image acquisition implies the loss of the depth information, there is an ambiguous relationship between the depth of a scene and the size of an imaged object. This study deals with the estimation of the absolute scale of a scene using passive monofocal vision. Monofocal vision describes monocular system for which optical parameters are fixed. Such optical systems are notably embedded within endoscopic systems used in colonoscopy. This minimally invasive technique allows endoscopists to explore the colon cavity and remove neoplasias (abnormal growths of tissue). Their size is an essential diagnostic criterion for estimating their rate of malignancy. However, it is difficult to estimate and erroneous visual estimations lead to neoplasias surveillance intervals being inappropriately assigned. The need to design a neoplasia measurement system is the core motivation for our study. In the first part of this manuscript, we review state-of-the-art vision-based metrology devices to provide context for our system. We then introduce monofocal optical systems and the specific image formation model used in our study. The second part deals with the main contribution of our work. We first review in detail state of the art DfD (Depth-from-Defocus) and DfF (Depth-from-Defocus) approaches. They are passive computer vision techniques that enable us to resolve scale ambiguity. Our core contribution is introduced in the following chapter. We define the Infocus-Breakpoint (IB) that allows us to resolve scale from a regular video. The IB is the lower limit of the optical system’s depth of field. Our system relies on two novel technical modules: Blur-Estimating Tracking (BET) and Blur-Model Fitting (BMF). BET allows us to simultaneously track an area of interest and estimate the optical blur information. BMF allows us to robustly extract the IB by fitting an optical blur model to the blur measurement estimated by the BET module. For the optical system is monofocal, the IB corresponds to a reference depth that can be calibrated. In the last chapter, we evaluate our method and propose a neoplasia measurement system adapted to the constraints in colonoscopy examination. The last part of this manuscript is dedicated to a prospect of extension of our method by a generative approach. We present, as a preliminary study, a new NRSfM (Non-Rigid Structure-from-Motion) method allowing the scaled Euclidean 3D reconstruction of deformable surfaces. This approach is based on the simultaneous estimation of dense depth maps corresponding to a set of deformations as well as the in-focus color map of the flattened surface. We first review state-of-the-art methods for 3D reconstruction of deformable surfaces. We then introduce our new generative model as well as an alternation method allowing us to infer it.

Page generated in 0.0613 seconds