• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 8
  • 3
  • 2
  • 2
  • Tagged with
  • 18
  • 18
  • 7
  • 7
  • 6
  • 4
  • 4
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • 2
  • 2
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

A computational model of visual attention

Chilukamari, Jayachandra January 2017 (has links)
Visual attention is a process by which the Human Visual System (HVS) selects most important information from a scene. Visual attention models are computational or mathematical models developed to predict this information. The performance of the state-of-the-art visual attention models is limited in terms of prediction accuracy and computational complexity. In spite of significant amount of active research in this area, modelling visual attention is still an open research challenge. This thesis proposes a novel computational model of visual attention that achieves higher prediction accuracy with low computational complexity. A new bottom-up visual attention model based on in-focus regions is proposed. To develop the model, an image dataset is created by capturing images with in-focus and out-of-focus regions. The Discrete Cosine Transform (DCT) spectrum of these images is investigated qualitatively and quantitatively to discover the key frequency coefficients that correspond to the in-focus regions. The model detects these key coefficients by formulating a novel relation between the in-focus and out-of-focus regions in the frequency domain. These frequency coefficients are used to detect the salient in-focus regions. The simulation results show that this attention model achieves good prediction accuracy with low complexity. The prediction accuracy of the proposed in-focus visual attention model is further improved by incorporating sensitivity of the HVS towards the image centre and the human faces. Moreover, the computational complexity is further reduced by using Integer Cosine Transform (ICT). The model is parameter tuned using the hill climbing approach to optimise the accuracy. The performance has been analysed qualitatively and quantitatively using two large image datasets with eye tracking fixation ground truth. The results show that the model achieves higher prediction accuracy with a lower computational complexity compared to the state-of-the-art visual attention models. The proposed model is useful in predicting human fixations in computationally constrained environments. Mainly it is useful in applications such as perceptual video coding, image quality assessment, object recognition and image segmentation.
12

Contribution à la perception visuelle multi-résolution de l’environnement 3D : application à la robotique autonome / Contribution to the visual perception multi-resolution of the 3D environment : application to autonomous robotics

Fraihat, Hossam 19 December 2017 (has links)
Le travail de recherche effectué dans le cadre de cette thèse concerne le développement d’un système de perception de la saillance en environnement 3D en tirant l’avantage d’une représentation pseudo-3D. Notre contribution et concept issue de celle-ci part de l'hypothèse que la profondeur de l’objet par rapport au robot est un facteur important dans la détection de la saillance. Sur ce principe, un système de vision saillante de l’environnement 3D a été proposé, conçu et validée sur une plateforme comprenant un robot équipé d’un capteur pseudo-3D. La mise en œuvre du concept précité et sa conception ont été d’abord validés sur le système de vision pseudo-3D KINECT. Puis dans une deuxième étape, le concept et les algorithmes mis aux points ont été étendus à la plateforme précitée. Les principales contributions de la présente thèse peuvent être résumées de la manière suivante : A) Un état de l'art sur les différents capteurs d'acquisition de l’information de la profondeur ainsi que les différentes méthodes de la détection de la saillance 2D et pseudo 3D. B) Etude d’un système basé sur la saillance visuelle pseudo 3D réalisée grâce au développement d’un algorithme robuste permettant la détection d'objets saillants dans l’environnement 3D. C) réalisation d’un système d’estimation de la profondeur en centimètres pour le robot Pepper. D) La mise en œuvre des concepts et des méthodes proposés sur la plateforme précitée. Les études et les validations expérimentales réalisées ont notamment confirmé que les approches proposées permettent d’accroitre l’autonomie des robots dans un environnement 3D réel / The research work, carried out within the framework of this thesis, concerns the development of a system of perception and saliency detection in 3D environment taking advantage from a pseudo-3D representation. Our contribution and the issued concept derive from the hypothesis that the depth of the object with respect to the robot is an important factor in the detection of the saliency. On this basis, a salient vision system of the 3D environment has been proposed, designed and validated on a platform including a robot equipped with a pseudo-3D sensor. The implementation of the aforementioned concept and its design were first validated on the pseudo-3D KINECT vision system. Then, in a second step, the concept and the algorithms have been extended to the aforementioned robotic platform. The main contributions of the present thesis can be summarized as follow: A) A state of the art on the various sensors for acquiring depth information as well as different methods of detecting 2D salience and pseudo 3D. B) Study of pseudo-3D visual saliency system based on benefiting from the development of a robust algorithm allowing the detection of salient objects. C) Implementation of a depth estimation system in centimeters for the Pepper robot. D) Implementation of the concepts and methods proposed on the aforementioned platform. The carried out studies and the experimental validations confirmed that the proposed approaches allow to increase the autonomy of the robots in a real 3D environment
13

Contribution à la perception et l’attention visuelle artificielle bio-inspirée pour acquisition et conceptualisation de la connaissance en robotique autonome / Contribution to Perception and Artificial Bio-inspired Visual Attention for Acquisition and Conceptualization of Knowledge in Autonomous Robotics

Kachurka, Viachaslau 20 December 2017 (has links)
La présente thèse du domaine de la « Perception Bio-inspirée » se focalise plus particulièrement sur l’Attention Visuelle Artificielle et la Saillance Visuelle. Un concept de l’Attention Visuelle Artificielle inspiré du vivant, conduisant un modèle d’une telle attention artificielle bio-inspirée, a été élaboré, mis en œuvre et testé dans le contexte de la robotique autonome. En effet, bien qu’il existe plusieurs dizaines de modèles de la saillance visuelle, à la fois en termes de contraste et de cognition, il n’existe pas de modèle hybridant les deux mécanismes d’attention : l’aspect visuel et l’aspect cognitif.Pour créer un tel modèle, nous avons exploré les approches existantes dans le domaine de l’attention visuelle, ainsi que plusieurs approches et paradigmes relevant des domaines connexes (tels que la reconnaissance d’objets, apprentissage artificiel, classification, etc.).Une architecture fonctionnelle d’un système d’attention visuelle hybride, combinant des principes et des mécanismes issus de l’attention visuelle humaine avec des méthodes calculatoires et algorithmiques, a été mise en œuvre, expliquée et détaillée.Une autre contribution majeure du présent travail doctoral est la modélisation théorique, le développement et l’application pratique du modèle d’Attention Visuelle bio-inspiré précité, pouvant constituer un socle pour l’autonomie des systèmes robotisés d’assistance.Les études menées ont conclu à la validation expérimentale des modèles proposés, confirmant la pertinence de l’approche proposée dans l’accroissement de l’autonomie des systèmes robotisés – et ceci dans un environnement réel / Dealing with the field of "Bio-inspired Perception", the present thesis focuses more particularly on Artificial Visual Attention and Visual Saliency. A concept of Artificial Visual Attention, inspired from the human mechanisms, providing a model of such artificial bio-inspired attention, was developed, implemented and tested in the context of autonomous robotics. Although there are several models of visual saliency, in terms of contrast and cognition, there is no hybrid model integrating both mechanisms of attention: the visual aspect and the cognitive aspect.To carryout such a model, we have explored existing approaches in the field of visual attention, as well as several approaches and paradigms in related fields (such as object recognition, artificial learning, classification, etc.).A functional architecture of a hybrid visual attention system, combining principles and mechanisms derived from human visual attention with computational and algorithmic methods, was implemented, explained and detailed.Another major contribution of this doctoral work is the theoretical modeling, development and practical application of the aforementioned Bio-inspired Visual Attention model, providing a basis for the autonomy of assistance-robotic systems.The carried out studies and experimental validation of the proposed models confirmed the relevance of the proposed approach in increasing the autonomy of robotic systems within a real environment
14

Intrinsic motivation mecanisms for incremental learning of visual saliency / Apprentissage incrémental de la saillance visuelle par des mécanismes de motivation intrinsèque

Craye, Céline 03 April 2017 (has links)
La conception de systèmes de perception autonomes, tels que des robots capables d’accomplir un ensemble de tâches de manière sûre et sans assistance humaine, est l’un des grands défis de notre siècle. Pour ce faire, la robotique développementale propose de concevoir des robots qui, comme des enfants, auraient la faculté d’apprendre directement par interaction avec leur environnement. Nous avons dans cette thèse exploré de telles possibilités en se limitant à l’apprentissage de la localisation des objets d’intérêt (ou objets saillants) dans l’environnement du robot.Pour ce faire, nous présentons dans ces travaux un mécanisme capable d’apprendre la saillance visuelle directement sur un robot, puis d’utiliser le modèle appris de la sorte pour localiser des objets saillants dans son environnement. Cette méthode a l’avantage de permettre la création de modèles spécialisés pour l’environnement du robot et les tâches qu’il doit accomplir, tout en restant flexible à d’éventuelles nouveautés ou modifications de l’environnement.De plus, afin de permettre un apprentissage efficace et de qualité, nous avons développé des stratégies d’explorations basées sur les motivations intrinsèques, très utilisées en robotique développementale. Nous avons notamment adapté l’algorithme IAC à l’apprentissage de la saillance visuelle, et en avons conçu une extension, RL-IAC, pour permettre une exploration efficace sur un robot mobile. Afin de vérifier et d’analyser les performances de nos algorithmes, nous avons réalisé des évaluations sur plusieurs plateformes robotiques dont une plateforme fovéale et un robot mobile, ainsi que sur des bases de données publiques. / Conceiving autonomous perceptual systems, such as robots able to accomplish a set of tasks in a safe way, without any human assistance, is one of the biggest challenge of the century. To this end, the developmental robotics suggests to conceive robots able to learn by interacting directly with their environment, just like children would. This thesis is exploring such possibility while restricting the problem to the one of localizing objects of interest (or salient objects) within the robot’s environment.For that, we present in this work a mechanism able to learn visual saliency directly on a robot, then to use the learned model so as to localize salient objects within their environment. The advantage of this method is the creation of models dedicated to the robot’s environment and tasks it should be asked to accomplish, while remaining flexible to any change or novelty in the environment.Furthermore, we have developed exploration strategies based on intrinsic motivations, widely used in developmental robotics, to enable efficient learning of good quality. In particular, we adapted the IAC algorithm to visual saliency leanring, and proposed an extension, RL-IAC to allow an efficient exploration on mobile robots.In order to verify and analyze the performance of our algorithms, we have carried out various experiments on several robotics platforms, including a foveated system and a mobile robot, as well as publicly available datasets.
15

Indexation de bases d'images : évaluation de l'impact émotionnel / Image databases indexing : emotional impact assessing

Gbehounou, Syntyche 21 November 2014 (has links)
L'objectif de ce travail est de proposer une solution de reconnaissance de l'impact émotionnel des images en se basant sur les techniques utilisées en recherche d'images par le contenu. Nous partons des résultats intéressants de cette architecture pour la tester sur une tâche plus complexe. La tâche consiste à classifier les images en fonction de leurs émotions que nous avons définies "Négative", "Neutre" et "Positive". Les émotions sont liées aussi bien au contenu des images, qu'à notre vécu. On ne pourrait donc pas proposer un système de reconnaissance des émotions performant universel. Nous ne sommes pas sensible aux mêmes choses toute notre vie : certaines différences apparaissent avec l'âge et aussi en fonction du genre. Nous essaierons de nous affranchir de ces inconstances en ayant une évaluation des bases d'images la plus hétérogène possible. Notre première contribution va dans ce sens : nous proposons une base de 350 images très largement évaluée. Durant nos travaux, nous avons étudié l'apport de la saillance visuelle aussi bien pendant les expérimentations subjectives que pendant la classification des images. Les descripteurs, que nous avons choisis, ont été évalués dans leur majorité sur une base consacrée à la recherche d'images par le contenu afin de ne sélectionner que les plus pertinents. Notre approche qui tire les avantages d'une architecture bien codifiée, conduit à des résultats très intéressants aussi bien sur la base que nous avons construite que sur la base IAPS, qui sert de référence dans l'analyse de l'impact émotionnel des images. / The goal of this work is to propose an efficient approach for emotional impact recognition based on CBIR techniques (descriptors, image representation). The main idea relies in classifying images according to their emotion which can be "Negative", "Neutral" or "Positive". Emotion is related to the image content and also to the personnal feelings. To achieve our goal we firstly need a correct assessed image database. Our first contribution is about this aspect. We proposed a set of 350 diversifed images rated by people around the world. Added to our choice to use CBIR methods, we studied the impact of visual saliency for the subjective evaluations and interest region segmentation for classification. The results are really interesting and prove that the CBIR methods are usefull for emotion recognition. The chosen desciptors are complementary and their performance are consistent on the database we have built and on IAPS, reference database for the analysis of the image emotional impact.
16

Exploitation des statistiques structurelles d'une image pour la prédiction de la saillance visuelle et de la qualité perçue / Use of image structural statistics for prediction of visual saliency and perceived quality

Nauge, Michaël 11 December 2012 (has links)
Dans le domaine de la vision par ordinateur l'utilisation de points d'intérêt (PI) est récurrente pour les problématiques de reconnaissance et de suivi d'objets. Plusieurs études ont prouvé l'utilité de ces techniques, associant robustesse et un temps de calcul pouvant être compatible avec le temps réel. Cette thèse propose d'étudier et d'exploiter ces descripteurs de statistiques de l'image sous un tout autre regard. Ainsi, nous avons menée une étude sur le lien entre les PI et la saillance visuelle humaine. De cette étude nous avons pu développer une méthode de prédiction de carte de saillance exploitant la rapidité d'exécution de ces détecteurs. Nous avons également exploité le pouvoir descriptif de ces PI afin de développer de nouvelles métriques de qualité d'images. Grâce à des résultats encourageant en terme de prédiction de qualité perçue et la faible quantité d'information utilisée, nous avons pu intégrer notre métrique "QIP" dans une chaîne de transmission d'images sur réseau sans fil de type MIMO. L'ajout de cette métrique permet d'augmenter la qualité d'expérience en garantissant la meilleure qualité malgré les erreurs introduites par la transmission sans fil. Nous avons étendu cette étude, par l'analyse fine des statistiques structurelles de l'image et des migrations d'attributs afin de proposer un modèle générique de prédiction des dégradations. Enfin, nous avons été amenés à conduire diverses expériences psychovisuelles, pour valider les approches proposées ou dans le cadre de la normalisation de nouveaux standards du comité JPEG. Ce qui a mené à développer une application web dédiée à l'utilisation et la comparaison des métriques de qualité d'images. / In the field of computer vision, the use of interest points (IP) is very frequent for objects tracking and recognition. Several studies have demonstrated the usefulness of these techniques, combining robustness and complexity that can be compatible with the real time. This thesis proposes to explore and exploit these image statistical descriptors under a different angle. Thus, we conducted a study on the relationship between IP and human visual saliency. In this study, we developed a method for predicting saliency maps relying on the efficiency of the descriptors. We also used the descriptive power of the PI to develop new metrics for image quality. With encouraging results in terms of prediction of perceived quality and the reduced amount of used information, we were able to integrate our metric "QIP" in an image transmission framework over a MIMO wireless network. The inclusion of this metric can improve the quality of experience by ensuring the best visual quality despite the errors introduced by the wireless transmission. We have extended this study by deeply analyzing structural statistics of the image and migration attributes to provide a generic model for predicting impairments. Finally, we conducted various psychovisual experiments to validate the proposed approaches or to contribute to JPEG standard committee. This led to develop a web application dedicated to the benchmark of image quality metrics.
17

Visual Flow Analysis and Saliency Prediction

Srinivas, Kruthiventi S S January 2016 (has links) (PDF)
Nowadays, we have millions of cameras in public places such as traffic junctions, railway stations etc., and capturing video data round the clock. This humongous data has resulted in an increased need for automation of visual surveillance. Analysis of crowd and traffic flows is an important step towards achieving this goal. In this work, we present our algorithms for identifying and segmenting dominant ows in surveillance scenarios. In the second part, we present our work aiming at predicting the visual saliency. The ability of humans to discriminate and selectively pay attention to few regions in the scene over the others is a key attentional mechanism. Here, we present our algorithms for predicting human eye fixations and segmenting salient objects in the scene. (i) Flow Analysis in Surveillance Videos: We propose algorithms for segmenting flows of static and dynamic nature in surveillance videos in an unsupervised manner. In static flows scenarios, we assume the motion patterns to be consistent over the entire duration of video and analyze them in the compressed domain using H.264 motion vectors. Our approach is based on modeling the motion vector field as a Conditional Random Field (CRF) and obtaining oriented motion segments which are merged to obtain the final flow segments. This approach in compressed domain is shown to be both accurate and computationally efficient. In the case of dynamic flow videos (e.g. flows at a traffic junction), we propose a method for segmenting the individual object flows over long durations. This long-term flow segmentation is achieved in the framework of CRF using local color and motion features. We propose a Dynamic Time Warping (DTW) based distance measure between flow segments for clustering them and generate representative dominant ow models. Using these dominant flow models, we perform path prediction for the vehicles entering the camera's field-of-view and detect anomalous motions. (ii) Visual Saliency Prediction using Deep Convolutional Neural Networks: We propose a deep fully convolutional neural network (CNN) - DeepFix, for accurately predicting eye fixations in the form of saliency maps. Unlike classical works which characterize the saliency map using various hand-crafted features, our model automatically learns features in a hierarchical fashion and predicts saliency map in an end-to-end manner. DeepFix is designed to capture visual semantics at multiple scales while taking global context into account. Generally, fully convolutional nets are spatially invariant which prevents them from modeling location dependent patterns (e.g. centre-bias). Our network overcomes this limitation by incorporating a novel Location Biased Convolutional layer. We experimentally show that our network outperforms other recent approaches by a significant margin. In general, human eye fixations correlate with locations of salient objects in the scene. However, only a handful of approaches have attempted to simultaneously address these related aspects of eye fixations and object saliency. In our work, we also propose a deep convolutional network capable of simultaneously predicting eye fixations and segmenting salient objects in a unified framework. We design the initial network layers, shared between both the tasks, such that they capture the global contextual aspects of saliency, while the deeper layers of the network address task specific aspects. Our network shows a significant improvement over the current state-of-the-art for both eye fixation prediction and salient object segmentation across a number of challenging datasets.
18

Visual saliency extraction from compressed streams / Extraction de la saillance visuelle à partir de flux compressés

Ammar, Marwa 15 June 2017 (has links)
Les fondements théoriques pour la saillance visuelle ont été dressés, il y a 35 ans, par Treisman qui a proposé "feature-integration theory" pour le système visuel humain: dans n’importe quel contenu visuel, certaines régions sont saillantes en raison de la différence entre leurs caractéristiques (intensité, couleur, texture, et mouvement) et leur voisinage. Notre thèse offre un cadre méthodologique et expérimental compréhensif pour extraire les régions saillantes directement des flux compressés (MPEG-4 AVC et HEVC), tout en minimisant les opérations de décodage. L’extraction de la saillance visuelle à partir du flux compressé est à priori une contradiction conceptuelle. D’une part, comme suggéré par Treisman, dans un contenu vidéo, la saillance est donnée par des singularités visuelles. D’autre part, afin d’éliminer la redondance visuelle, les flux compressés ne devraient plus préserver des singularités. La thèse souligne également l’avantage pratique de l’extraction de la saillance dans le domaine compressé. Dans ce cas, nous avons démontré que, intégrée dans une application de tatouage robuste de la vidéo compressée, la carte saillance agit comme un outil d’optimisation, ce qui permet d’augmenter la transparence (pour une quantité d’informations insérées et une robustesse contre les attaques prescrites) tout en diminuant la complexité globale du calcul. On peut conclure que la thèse démontre aussi bien méthodologiquement que expérimentalement que même si les normes MPEG-4 AVC et HEVC ne dépendent pas explicitement d’aucun principe de saillance visuelle, leurs flux préservent cette propriété remarquable reliant la représentation numérique de la vidéo au mécanisme psycho-cognitifs humains / The theoretical ground for visual saliency was established some 35 years ago by Treisman who advanced the integration theory for the human visual system: in any visual content, some regions are salient (appealing) because of the discrepancy between their features (intensity, color, texture, motion) and the features of their surrounding areas. This present thesis offers a comprehensive methodological and experimental framework for extracting the salient regions directly from video compressed streams (namely MPEG-4 AVC and HEVC), with minimal decoding operations. Note that saliency extraction from compressed domain is a priori a conceptual contradiction. On the one hand, as suggested by Treisman, saliency is given by visual singularities in the video content. On the other hand, in order to eliminate the visual redundancy, the compressed streams are no longer expected to feature singularities. The thesis also brings to light the practical benefit of the compressed domain saliency extraction. In this respect, the case of robust video watermarking is targeted and it is demonstrated that the saliency acts as an optimization tool, allowing the transparency to be increased (for prescribed quantity of inserted information and robustness against attacks) while decreasing the overall computational complexity. As an overall conclusion, the thesis methodologically and experimentally demonstrates that although the MPEG-4 AVC and the HEVC standards do not explicitly rely on any visual saliency principle, their stream syntax elements preserve this remarkable property linking the digital representation of the video to sophisticated psycho-cognitive mechanisms

Page generated in 0.0439 seconds