Spelling suggestions: "subject:"abject focalization"" "subject:"abject 1ocalization""
11 |
A Hierarchical Object Localization And Image Retrieval FrameworkUysal, Mutlu 01 March 2006 (has links) (PDF)
This thesis proposes an object localization and image retrieval framework, which trains a discriminative feature set for each object class. For this purpose, a hierarchical learning architecture, together with a Neighborhood Tree is introduced for object labeling. Initially, a large variety of features are extracted from the regions of the pre-segmented images. These features are, then, fed to the training module, which selects the " / best set of representative features" / , suppressing relatively less important ones for each class.
During this study, we attack various problems of the current image retrieval and classification systems, including feature space design, normalization and curse of dimensionality. Above all, we elaborate the semantic gap problem in comparison to human visual system. The proposed system emulates the eye-brain channel in two layers. The first layer combines relatively simple classifiers with low level, low dimensional features. Then, the second layer implements Adaptive Resonance Theory, which extracts higher level information from the first layer. This two-layer architecture reduces the curse of dimensionality and diminishes the normalization problem.
The concept of Neighborhood Tree is introduced for identifying the whole object from the over-segmented image regions. The Neighborhood Tree consists of the nodes corresponding to the neighboring regions as its children and merges the regions through a search algorithm. Experiments are performed on a set of images from Corel database, using MPEG-7, Haar and Gabor features in order to observe the power and the weakness of the proposed system. The " / Best Representative Features" / are found in the training phase using Fuzzy ARTMAP [1], Feature-based AdaBoost [2], Descriptor-based AdaBoost, Best Representative Descriptor [3], majority voting and the proposed hierarchical learning architecture.
During the experiments, it is observed that the proposed hierarchical learning architecture yields better retrieval rates than the existing algorithms available in the literature.
|
12 |
Vision périphérique, caractérisation et suppléance de ses fonctions spatiales / Peripheral vision, characterization and substitution of its spatial functionsCamors, Damien 02 October 2015 (has links)
La perte de vision périphérique (vision tubulaire) a pour conséquence de nombreux déficits qui réduisent fortement l'autonomie des personnes qui en sont atteintes et par conséquent leur qualité de vie. Nombre de ces déficits témoignent d'une cognition spatiale dégradée mettant en jeu des relations étroites entre vision périphérique et représentations spatiales. Le double objectif de ce travail de thèse consiste à mieux comprendre la nature de ces relations et, sur la base de ces connaissances, contribuer à l'émergence de dispositifs d'assistance plus adaptés et performants, capables de suppléer l'absence de vision périphérique. Dans un premier temps, je me suis intéressé au rôle de la vision périphérique dans la construction de représentations spatiales égocentrées. J'ai d'abord collaboré à une expérience de psychophysique impliquant la détection en vision périphérique de cibles visuelles situées soit droit-devant, soit excentrées par rapport à l'axe du corps. En mesurant les temps de réaction nous avons pu démontrer que les sujets humains répondaient plus rapidement aux cibles présentées droit-devant qu'aux cibles excentrées. J'ai pris en charge une deuxième étude complémentaire portant sur le lien entre ce traitement sensoriel privilégié du droit-devant en vision périphérique et la dynamique des saccades oculaires de recentrage. En comparant les dynamiques de pro-saccades et d'anti-saccades de recentrage ou d' " excentrage ", j'ai pu mettre en évidence que la supériorité dynamique des saccades de recentrage guidées par la vision périphérique reposait à la fois sur des facteurs sensoriels et oculomoteurs. Ces travaux révèlent l'intégration précoce de signaux visuels et oculomoteurs en vision périphérique, pouvant servir à localiser les éléments visuels par rapport à soi et à privilégier le traitement des éléments situés dans l'axe droit-devant. Dans un deuxième temps, mes travaux ont abordé l'influence de la vision périphérique dans les représentations spatiales allocentrées. Pour étudier l'implication de la vision périphérique dans le codage allocentré, j'ai réalisé une expérience impliquant une tâche de pointage vers des cibles visuelles en vision centrale, accompagnées ou non d'indices visuels à différentes distances en vision périphérique. Les résultats obtenus montrent que des indices visuels capturés par la vision périphérique peuvent effectivement contribuer au codage allocentré d'une cible fixée, et ce même lorsque ces indices périphériques doivent être extraits de scène visuelles complexes en moins de 200 ms. Dans une étude complémentaire, j'ai montré que l'utilisation de ces indices allocentrés situés en périphérie avait un véritable rôle fonctionnel, accélérant les recherches visuelles. Ainsi, ces travaux révèlent une implication fonctionnelle forte de la vision périphérique dans l'extraction des relations spatiales entre éléments présents dans l'environnement visuel. J'ai voulu, durant la dernière partie de ma thèse, initier le développement d'un dispositif d'assistance dont la finalité est de suppléer les fonctions spatiales, égocentrées et allocentrées, de la vision périphérique. Comme preuve de concept, mon travail a consisté à concevoir et développer un dispositif tactile placé sur le poignet et capable de communiquer la position spatiale d'objets d'intérêt pour en simplifier leurs recherches visuelles. Les résultats obtenus chez des sujets sains avec un champ visuel artificiellement réduit (10°) montrent que l'interface tactile permet d'accélérer par trois la vitesse de recherche visuelle. Des résultats similaires ont été observés chez une personne atteinte de glaucome (champ visuel de 10x15°). Ma thèse pluridisciplinaire permet d'apporter un nouvel éclairage sur l'implication de la vision périphérique dans la construction de représentations spatiales, et elle propose de nouvelles pistes pour le développement de dispositifs d'assistance adaptés aux personnes atteintes de vision tubulaire. / The loss of peripheral vision (tunnel vision) leads to numerous deficits, reducing both independence and quality of life. These deficits reflect spatial cognition impairments, and highlight the close relationship between peripheral vision and spatial representations. This thesis has two main objectives: reaching a better understanding of the nature of these relationships, and using the acquired knowledge in order to propose adaptive, performant and innovative assistive devices able to overcome the peripheral loss. At first, I address the role of peripheral vision in egocentric space coding. I collaborated in a psychophysics experiment, involving detection of visual objects placed in peripheral vision. The visual objects formed similar images on the retina and differed only with respect to their egocentric location: either straight-ahead or eccentric with respect to the head/body midline. We found that straight-ahead objects elicit consistently shorter behavioral responses than eccentric objects. I took in charge a second study evaluating the link between the privileged sensory processing of the straight ahead direction and the dynamic of ocular saccades. Comparison between centripetal and centrifugal pro-saccades and anti-saccades revealed that the superior dynamic of centripetal saccades comes from both sensory and oculomotor factors. These works reveal the early integration of both visual and oculomotor signals in peripheral vision, leading to egocentric representations in which the straight ahead direction is highlighted. Secondly, I investigated the influence of peripheral vision in extracting allocentric spatial representations. In order to assess the role of peripheral vision in allocentric coding, I performed a memory-based pointing task toward previously gazed targets, which were briefly superimposed with visual cues placed at different eccentricities. The results showed that visual cues in peripheral (>10°) vision can contribute to the allocentric coding of a fixated target. A complementary experiment showed that these peripheral allocentric cues play a functional role, notably by facilitating visual searches. These works highlight the importance of peripheral vision in extracting functional spatial relationships between distant elements of the visual environment. Finally, I wanted to promote the development of new assistive devices, able to substitute both egocentric and allocentric spatial functions of the peripheral vision. As a proof of concept, I designed and evaluated a tactile interface mounted on wrist, communicating the spatial location of specific objects and facilitating visual search. Results showed that healthy subjects with artificial tunnel vision (10°) were able to increase by three visual search speeds thank to this tactile interface. Similar results were obtained on a glaucoma subject (field of view 10x15°). My multidisciplinary thesis highlights new roles of peripheral vision in spatial representations and proposes an innovative solution to develop assistive device for tunnel vision.
|
13 |
Learning objects model and context for recognition and localisation / Apprentissage de modèles et contextes d'objets pour la reconnaissance et la localisationManfredi, Guido 18 September 2015 (has links)
Cette thèse traite des problèmes de modélisation, reconnaissance, localisation et utilisation du contexte pour la manipulation d'objets par un robot. Le processus de modélisation se divise en quatre composantes : le système réel, les données capteurs, les propriétés à reproduire et le modèle. En spécifiant chacune des ces composantes, il est possible de définir un processus de modélisation adapté au problème présent, la manipulation d'objets par un robot. Cette analyse mène à l'adoption des descripteurs de texture locaux pour la modélisation. La modélisation basée sur des descripteurs de texture locaux a été abordé dans de nombreux travaux traitant de structure par le mouvement (SfM) ou de cartographie et localisation simultanée (SLAM). Les méthodes existantes incluent Bundler, Roboearth et 123DCatch. Pourtant, aucune de ces méthodes n'a recueilli le consensus. En effet, l'implémentation d'une approche similaire montre que ces outils sont difficiles d'utilisation même pour des utilisateurs experts et qu'ils produisent des modèles d'une haute complexité. Cette complexité est utile pour fournir un modèle robuste aux variations de point de vue. Il existe deux façons pour un modèle d'être robuste : avec le paradigme des vues multiple ou celui des descripteurs forts. Dans le paradigme des vues multiples, le modèle est construit à partir d'un grand nombre de points de vue de l'objet. Le paradigme des descripteurs forts compte sur des descripteurs résistants aux changements de points de vue. Les expériences réalisées montrent que des descripteurs forts permettent d'utiliser un faible nombre de vues, ce qui résulte en un modèle simple. Ces modèles simples n'incluent pas tout les point de vus existants mais les angles morts peuvent être compensés par le fait que le robot est mobile et peut adopter plusieurs points de vue. En se basant sur des modèles simples, il est possible de définir des méthodes de modélisation basées sur des images seules, qui peuvent être récupérées depuis Internet. A titre d'illustration, à partir d'un nom de produit, il est possible de récupérer des manières totalement automatiques des images depuis des magasins en ligne et de modéliser puis localiser les objets désirés. Même avec une modélisation plus simple, dans des cas réel ou de nombreux objets doivent être pris en compte, il se pose des problèmes de stockage et traitement d'une telle masse de données. Cela se décompose en un problème de complexité, il faut traiter de nombreux modèles rapidement, et un problème d'ambiguïté, des modèles peuvent se ressembler. L'impact de ces deux problèmes peut être réduit en utilisant l'information contextuelle. Le contexte est toute information non issue des l'objet lui même et qui aide a la reconnaissance. Ici deux types de contexte sont abordés : le lieu et les objets environnants. Certains objets se trouvent dans certains endroits particuliers. En connaissant ces liens lieu/objet, il est possible de réduire la liste des objets candidats pouvant apparaître dans un lieu donné. Par ailleurs l'apprentissage du lien lieu/objet peut être fait automatiquement par un robot en modélisant puis explorant un environnement. L'information appris peut alors être fusionnée avec l'information visuelle courante pour améliorer la reconnaissance. Dans les cas des objets environnants, un objet peut souvent apparaître au cotés d'autres objets, par exemple une souris et un clavier. En connaissant la fréquence d'apparition d'un objet avec d'autres objets, il est possible de réduire la liste des candidats lors de la reconnaissance. L'utilisation d'un Réseau de Markov Logique est particulièrement adaptée à la fusion de ce type de données. Cette thèse montre la synergie de la robotique et du contexte pour la modélisation, reconnaissance et localisation d'objets. / This Thesis addresses the modeling, recognition, localization and use of context for objects manipulation by a robot. We start by presenting the modeling process and its components: the real system, the sensors' data, the properties to reproduce and the model. We show how, by specifying each of them, one can define a modeling process adapted to the problem at hand, namely object manipulation by a robot. This analysis leads us to the adoption of local textured descriptors for object modeling. Modeling with local textured descriptors is not a new concept, it is the subject of many Structure from Motion (SfM) or Simultaneous Localization and Mapping (SLAM) works. Existing methods include bundler, roboearth modeler and 123DCatch. Still, no method has gained widespread adoption. By implementing a similar approach, we show that they are hard to use even for expert users and produce highly complex models. Such complex techniques are necessary to guaranty the robustness of the model to view point change. There are two ways to handle the problem: the multiple views paradigm and the robust features paradigm. The multiple views paradigm advocate in favor of using a large number of views of the object. The robust feature paradigm relies on robust features able to resist large view point changes. We present a set of experiments to provide an insight into the right balance between both. By varying the number of views and using different features we show that small and fast models can provide robustness to view point changes up to bounded blind spots which can be handled by robotic means. We propose four different methods to build simple models from images only, with as little a priori information as possible. The first one applies to planar or piecewise planar objects and relies on homographies for localization. The second approach is applicable to objects with simple geometry, such as cylinders or spheres, but requires many measures on the object. The third method requires the use of a calibrated 3D sensor but no additional information. The fourth technique doesn't need a priori information at all. We apply this last method to autonomous grocery objects modeling. From images automatically retrieved from a grocery store website, we build a model which allows recognition and localization for tracking. Even using light models, real situations ask for numerous object models to be stored and processed. This poses the problems of complexity, processing multiple models quickly, and ambiguity, distinguishing similar objects. We propose to solve both problems by using contextual information. Contextual information is any information helping the recognition which is not directly provided by sensors. We focus on two contextual cues: the place and the surrounding objects. Some objects are mainly found in some particular places. By knowing the current place, one can restrict the number of possible identities for a given object. We propose a method to autonomously explore a previously labeled environment and establish a correspondence between objects and places. Then this information can be used in a cascade combining simple visual descriptors and context. This experiment shows that, for some objects, recognition can be achieved with as few as two simple features and the location as context. The objects surrounding a given object can also be used as context. Objects like a keyboard, a mouse and a monitor are often close together. We use qualitative spatial descriptors to describe the position of objects with respect to their neighbors. Using a Markov Logic Network, we learn patterns in objects disposition. This information can then be used to recognize an object when surrounding objects are already identified. This Thesis stresses the good match between robotics, context and objects recognition.
|
14 |
Intrinsic motivation mecanisms for incremental learning of visual saliency / Apprentissage incrémental de la saillance visuelle par des mécanismes de motivation intrinsèqueCraye, Céline 03 April 2017 (has links)
La conception de systèmes de perception autonomes, tels que des robots capables d’accomplir un ensemble de tâches de manière sûre et sans assistance humaine, est l’un des grands défis de notre siècle. Pour ce faire, la robotique développementale propose de concevoir des robots qui, comme des enfants, auraient la faculté d’apprendre directement par interaction avec leur environnement. Nous avons dans cette thèse exploré de telles possibilités en se limitant à l’apprentissage de la localisation des objets d’intérêt (ou objets saillants) dans l’environnement du robot.Pour ce faire, nous présentons dans ces travaux un mécanisme capable d’apprendre la saillance visuelle directement sur un robot, puis d’utiliser le modèle appris de la sorte pour localiser des objets saillants dans son environnement. Cette méthode a l’avantage de permettre la création de modèles spécialisés pour l’environnement du robot et les tâches qu’il doit accomplir, tout en restant flexible à d’éventuelles nouveautés ou modifications de l’environnement.De plus, afin de permettre un apprentissage efficace et de qualité, nous avons développé des stratégies d’explorations basées sur les motivations intrinsèques, très utilisées en robotique développementale. Nous avons notamment adapté l’algorithme IAC à l’apprentissage de la saillance visuelle, et en avons conçu une extension, RL-IAC, pour permettre une exploration efficace sur un robot mobile. Afin de vérifier et d’analyser les performances de nos algorithmes, nous avons réalisé des évaluations sur plusieurs plateformes robotiques dont une plateforme fovéale et un robot mobile, ainsi que sur des bases de données publiques. / Conceiving autonomous perceptual systems, such as robots able to accomplish a set of tasks in a safe way, without any human assistance, is one of the biggest challenge of the century. To this end, the developmental robotics suggests to conceive robots able to learn by interacting directly with their environment, just like children would. This thesis is exploring such possibility while restricting the problem to the one of localizing objects of interest (or salient objects) within the robot’s environment.For that, we present in this work a mechanism able to learn visual saliency directly on a robot, then to use the learned model so as to localize salient objects within their environment. The advantage of this method is the creation of models dedicated to the robot’s environment and tasks it should be asked to accomplish, while remaining flexible to any change or novelty in the environment.Furthermore, we have developed exploration strategies based on intrinsic motivations, widely used in developmental robotics, to enable efficient learning of good quality. In particular, we adapted the IAC algorithm to visual saliency leanring, and proposed an extension, RL-IAC to allow an efficient exploration on mobile robots.In order to verify and analyze the performance of our algorithms, we have carried out various experiments on several robotics platforms, including a foveated system and a mobile robot, as well as publicly available datasets.
|
15 |
Visual Infrastructure based Accurate Object Recognition and LocalizationYang, Fan 25 August 2017 (has links)
No description available.
|
16 |
Visual attention in primates and for machines - neuronal mechanismsBeuth, Frederik 09 December 2020 (has links)
Visual attention is an important cognitive concept for the daily life of humans, but still not fully understood. Due to this, it is also rarely utilized in computer vision systems. However, understanding visual attention is challenging as it has many and seemingly-different aspects, both at neuronal and behavioral level. Thus, it is very hard to give a uniform explanation of visual attention that can account for all aspects. To tackle this problem, this thesis has the goal to identify a common set of neuronal mechanisms, which underlie both neuronal and behavioral aspects. The mechanisms are simulated by neuro-computational models, thus, resulting in a single modeling approach to explain a wide range of phenomena at once. In the thesis, the chosen aspects are multiple neurophysiological effects, real-world object localization, and a visual masking paradigm (OSM). In each of the considered fields, the work also advances the current state-of-the-art to better understand this aspect of attention itself. The three chosen aspects highlight that the approach can account for crucial neurophysiological, functional, and behavioral properties, thus the mechanisms might constitute the general neuronal substrate of visual attention in the cortex. As outlook, our work provides for computer vision a deeper understanding and a concrete prototype of attention to incorporate this crucial aspect of human perception in future systems.:1. General introduction
2. The state-of-the-art in modeling visual attention
3. Microcircuit model of attention
4. Object localization with a model of visual attention
5. Object substitution masking
6. General conclusion / Visuelle Aufmerksamkeit ist ein wichtiges kognitives Konzept für das tägliche Leben des Menschen. Es ist aber immer noch nicht komplett verstanden, so dass es ein langjähriges Ziel der Neurowissenschaften ist, das Phänomen grundlegend zu durchdringen. Gleichzeitig wird es aufgrund des mangelnden Verständnisses nur selten in maschinellen Sehsystemen in der Informatik eingesetzt. Das Verständnis von visueller Aufmerksamkeit ist jedoch eine komplexe Herausforderung, da Aufmerksamkeit äußerst vielfältige und scheinbar unterschiedliche Aspekte besitzt. Sie verändert multipel sowohl die neuronalen Feuerraten als auch das menschliche Verhalten. Daher ist es sehr schwierig, eine einheitliche Erklärung von visueller Aufmerksamkeit zu finden, welche für alle Aspekte gleichermaßen gilt. Um dieses Problem anzugehen, hat diese Arbeit das Ziel, einen gemeinsamen Satz neuronaler Mechanismen zu identifizieren, welche sowohl den neuronalen als auch den verhaltenstechnischen Aspekten zugrunde liegen. Die Mechanismen werden in neuro-computationalen Modellen simuliert, wodurch ein einzelnes Modellierungsframework entsteht, welches zum ersten Mal viele und verschiedenste Phänomene von visueller Aufmerksamkeit auf einmal erklären kann. Als Aspekte wurden in dieser Dissertation multiple neurophysiologische Effekte, Realwelt Objektlokalisation und ein visuelles Maskierungsparadigma (OSM) gewählt. In jedem dieser betrachteten Felder wird gleichzeitig der State-of-the-Art verbessert, um auch diesen Teilbereich von Aufmerksamkeit selbst besser zu verstehen. Die drei gewählten Gebiete zeigen, dass der Ansatz grundlegende neurophysiologische, funktionale und verhaltensbezogene Eigenschaften von visueller Aufmerksamkeit erklären kann. Da die gefundenen Mechanismen somit ausreichend sind, das Phänomen so umfassend zu erklären, könnten die Mechanismen vielleicht sogar das essentielle neuronale Substrat von visueller Aufmerksamkeit im Cortex darstellen. Für die Informatik stellt die Arbeit damit ein tiefergehendes Verständnis von visueller Aufmerksamkeit dar. Darüber hinaus liefert das Framework mit seinen neuronalen Mechanismen sogar eine Referenzimplementierung um Aufmerksamkeit in zukünftige Systeme integrieren zu können. Aufmerksamkeit könnte laut der vorliegenden Forschung sehr nützlich für diese sein, da es im Gehirn eine Aufgabenspezifische Optimierung des visuellen Systems bereitstellt. Dieser Aspekt menschlicher Wahrnehmung fehlt meist in den aktuellen, starken Computervisionssystemen, so dass eine Integration in aktuelle Systeme deren Leistung sprunghaft erhöhen und eine neue Klasse definieren dürfte.:1. General introduction
2. The state-of-the-art in modeling visual attention
3. Microcircuit model of attention
4. Object localization with a model of visual attention
5. Object substitution masking
6. General conclusion
|
Page generated in 0.0792 seconds