Spelling suggestions: "subject:"aperception humaine"" "subject:"aperception dumaine""
1 |
Recherche Interactive d'Objets à l'Aide de Modèles Visuels InterprétablesRebai, Ahmed 18 May 2011 (has links) (PDF)
L'objectif de cette thèse est d'améliorer la recherche d'objets visuels à l'aide de l'interactivité avec l'utilisateur. Notre solution est de construire un système intéractif permettant aux utilisateurs de définir leurs propres concepts visuels à partir de certains mots-clés visuels. Ces mots-clés visuels, qui en théorie représentent les mots visuels les plus informatifs liés à une catégorie d'objets, sont appris auparavant à l'aide d'un algorithme d'apprentissage supervisé et d'une manière discriminative. Le challenge est de construire des mots-clés visuels concis et interprétables. Notre contribution repose sur deux points. D'abord, contrairement aux approches existantes qui utilisent les sacs de mots, nous proposons d'employer les descripteurs locaux sans aucune quantification préalable. Deuxièmement, nous proposons d'ajouter une contrainte de régularisation à la fonction de perte de notre classifieur pour favoriser la parcimonie des modèles produits. La parcimonie est en effet préférable pour sa concision (nombre de mots visuels réduits) ainsi pour sa diminution du temps de prédiction. Afin d'atteindre ces objectifs, nous avons développé une méthode d'apprentissage à instances multiples utilisant une version modifiée de l'algorithme BLasso. BLasso est une forme de boosting qui se comporte similairement au LASSO (Least Absolute Shrinkage and Selection Operator). Cet algorithme régularise efficacement la fonction de perte avec une contrainte additive de type $L_1$ et ceci en alternant entre des itérations en avant et en arrière. La méthode proposée est générique dans le sens où elle pourrait être utilisée avec divers descripteurs locaux voire un ensemble structuré de descripteurs locaux qui décrit une région locale de l'image.
|
2 |
Interactive Object Retrieval using Interpretable Visual Models / Recherche Interactive d'Objets à l'Aide de Modèles Visuels InterprétablesRebai, Ahmed 18 May 2011 (has links)
L'objectif de cette thèse est d'améliorer la recherche d'objets visuels à l'aide de l'interactivité avec l'utilisateur. Notre solution est de construire un système intéractif permettant aux utilisateurs de définir leurs propres concepts visuels à partir de certains mots-clés visuels. Ces mots-clés visuels, qui en théorie représentent les mots visuels les plus informatifs liés à une catégorie d'objets, sont appris auparavant à l'aide d'un algorithme d'apprentissage supervisé et d'une manière discriminative. Le challenge est de construire des mots-clés visuels concis et interprétables. Notre contribution repose sur deux points. D'abord, contrairement aux approches existantes qui utilisent les sacs de mots, nous proposons d'employer les descripteurs locaux sans aucune quantification préalable. Deuxièmement, nous proposons d'ajouter une contrainte de régularisation à la fonction de perte de notre classifieur pour favoriser la parcimonie des modèles produits. La parcimonie est en effet préférable pour sa concision (nombre de mots visuels réduits) ainsi pour sa diminution du temps de prédiction. Afin d'atteindre ces objectifs, nous avons développé une méthode d'apprentissage à instances multiples utilisant une version modifiée de l'algorithme BLasso. Cet algorithme est une forme de boosting qui se comporte similairement au LASSO (Least Absolute Shrinkage and Selection Operator). Il régularise efficacement la fonction de perte avec une contrainte additive de type L1 et ceci en alternant entre des itérations en avant et en arrière. La méthode proposée est générique dans le sens où elle pourrait être utilisée avec divers descripteurs locaux voire un ensemble structuré de descripteurs locaux qui décrit une région locale de l'image. / This thesis is an attempt to improve visual object retrieval by allowing users to interact with the system. Our solution lies in constructing an interactive system that allows users to define their own visual concept from a concise set of visual patches given as input. These patches, which represent the most informative clues of a given visual category, are trained beforehand with a supervised learning algorithm in a discriminative manner. Then, and in order to specialize their models, users have the possibility to send their feedback on the model itself by choosing and weighting the patches they are confident of. The real challenge consists in how to generate concise and visually interpretable models. Our contribution relies on two points. First, in contrast to the state-of-the-art approaches that use bag-of-words, we propose embedding local visual features without any quantization, which means that each component of the high-dimensional feature vectors used to describe an image is associated to a unique and precisely localized image patch. Second, we suggest using regularization constraints in the loss function of our classifier to favor sparsity in the models produced. Sparsity is indeed preferable for concision (a reduced number of patches in the model) as well as for decreasing prediction time. To meet these objectives, we developed a multiple-instance learning scheme using a modified version of the BLasso algorithm. BLasso is a boosting-like procedure that behaves in the same way as Lasso (Least Absolute Shrinkage and Selection Operator). It efficiently regularizes the loss function with an additive L1-constraint by alternating between forward and backward steps at each iteration. The method we propose here is generic in the sense that it can be used with any local features or feature sets representing the content of an image region. / تعالج هذه الأطروحة مسألة البحث عن الأشياء في الصور الثابتة و هي محاولة لتحسين نتائج البحث المنتظرة عن طريق تفاعل المستخدم مع النظام . يتمثل الحل المقترح في تصميم نظام تفاعلي يتيح للمستخدم صياغة مفهومه المرئي عن طريق مجموعة مقتضبة من أجزاء صغيرة للصور هي عبارة عن كلمات مفاتيح قد تم تعلمها سابقا عن طريق تعلم آلي استنتاجي . يمكن للمستخدم حينئذ تخصيص أنموذجه أولا بالاختيار ثم بترجيح الأجزاء التي يراها مناسبة . يتمثل التحدي القائم في كيفية توليد نماذج مرئية مفهومة و مقتضبة . نكون قد ساهمنا في هذا المجال بنقطتين أساسيتين تتمثل الأولى في إدماج الواصفات المحلية للصور دون أي تكميم ، و بذلك يكون كل مكون من ناقلات الميزات ذات الأبعاد العالية مرتبط حصريا بمكان وحيد و محدد في الصورة . ثانيا ، نقترح إضافة قيود تسوية لدالة الخسارة من أجل التحصل على حلول متفرقة و مقتضبة . يساهم ذلك في تقلص عدد هذه الأجزاء المرئية و بالتالي في ربح إضافي لوقت التكهن . في إطار تحقيق الأهداف المرسومة ، قمنا بإعداد مشروع تعلم قائم على تعدد الأمثلة يرتكز أساسا على نسخة محورة لخوارزمية بلاسو . تجدر الإشارة في الأخير أنه يمكن توظيف هذا العمل باستخدام نوع أو عدة أنواع من الواصفات المحلية للصور.
|
3 |
Evaluation de la qualité de vidéos panoramiques synthétisées / Quality Evaluation for Stitched Panoramic VideosNabil mahrous yacoub, Sandra 27 November 2018 (has links)
La création des vidéos panoramiques de haute qualité pour des contenus immersifs en VR est généralement faite à l'aide d'un appareil doté de plusieurs caméras couvrant une scène cible. Malheureusement, cette configuration introduit à la fois des artefacts spatiaux et temporels dus à la différence entre les centres optiques et à la synchronisation imparfaite. Les mesures de qualité d'image traditionnelles ne peuvent pas être utilisées pour évaluer la qualité de ces vidéos, en raison de leur incapacité à capturer des distorsions géométriques. Dans cette thèse, nous proposons des méthodes pour l'évaluation objective des vidéos panoramiques basées sur le flux optique et la saillance visuelle. Nous validons cette métrique avec une étude centrée sur l'homme qui combine l'annotation d'erreurs percues et l'eye-tracking.Un défi important pour mesurer la qualité des vidéos panoramiques est le manque d'une vérité-terrain. Nous avons étudié l'utilisation des vidéos originales comme référence pour le panorama de sortie. Nous notons que cette approche n'est pas directement applicable, car chaque pixel du panorama final peut avoir une à $N$ sources correspondant à $N$ vidéos d'entrée avec des régions se chevauchant. Nous montrons que ce problème peut être résolu en calculant l'écart type des déplacements de tous les pixels sources à partir du déplacement du panorama en tant que mesure de la distorsion. Cela permet de comparer la différence de mouvement entre deux images données dans les vidéos originales et le mouvement dans le panorama final. Les cartes de saillance basées sur la perception humaine sont utilisées pour pondérer la carte de distorsion pour un filtrage plus précis.Cette méthode a été validée par une étude centrée sur l'homme utilisant une expérience empirique. L'expérience visait à déterminer si les humains et la métrique d'évaluation détectaient et mesuraient les mêmes erreurs, et à explorer quelles erreurs sont les plus importantes pour les humains lorsqu'ils regardent une vidéo panoramique.Les méthodes décrites ont été testées et validées et fournissent des résultats intéressants en ce qui concerne la perception humaine pour les mesures de qualité. Ils ouvrent également la voie à de nouvelles méthodes d'optimisation de l'assemblage vidéo, guidées par ces mesures de qualité. / High quality panoramic videos for immersive VR content are commonly created using a rig with multiple cameras covering a target scene. Unfortunately, this setup introduces both spatial and temporal artifacts due to the difference in optical centers as well as the imperfect synchronization. Traditional image quality metrics cannot be used to assess the quality of such videos, due to their inability to capture geometric distortions. In this thesis, we propose methods for the objective assessment of panoramic videos based on optical flow and visual salience. We validate this metric with a human-centered study that combines human error annotation and eye-tracking.An important challenge in measuring quality for panoramic videos is the lack of ground truth. We have investigated the use of the original videos as a reference for the output panorama. We note that this approach is not directly applicable, because each pixel in the final panorama can have one to N sources corresponding to N input videos with overlapping regions. We show that this problem can be solved by calculating the standard deviation of displacements of all source pixels from the displacement of the panorama as a measure of distortion. This makes it possible to compare the difference in motion between two given frames in the original videos and motion in the final panorama. Salience maps based on human perception are used to weight the distortion map for more accurate filtering.This method was validated with a human-centered study using an empirical experiment. The experiment was designed to investigate whether humans and the evaluation metric detect and measure the same errors, and to explore which errors are more salient to humans when watching a panoramic video.The methods described have been tested and validated and they provide interesting findings regarding human-based perception for quality metrics. They also open the way to new methods for optimizing video stitching guided by those quality metrics.
|
4 |
Generalized Haar-like filters for document analysis : application to word spotting and text extraction from comics / Filtres généralisés de Haar pour l’analyse de documents : application aux word spotting et extraction de texte dans les bandes dessinéesGhorbel, Adam 18 July 2016 (has links)
Dans cette thèse, nous avons proposé une approche analytique multi-échelle pour le word spotting dans les documents manuscrits. Le modèle proposé fonctionne selon deux niveaux différents. Un module de filtrage global permettant de définir plusieurs zones candidates de la requête dans le document testé. Ensuite, l’échelle de l’observation est modifiée à un niveau inférieur afin d’affiner les résultats et sélectionner uniquement ceux qui sont vraiment pertinents. Cette approche de word spotting est basée sur des familles généralisées de filtres de Haar qui s’adaptent à chaque requête pour procéder au processus de spotting et aussi sur un principe de vote qui permet de choisir l’emplacement spatial où les réponses générées par les filtres sont accumulées. Nous avons en plus proposé une autre approche pour l’extraction de texte du graphique dans les bandes dessinées. Cette approche se base essentiellement sur les caractéristiques pseudo-Haar qui sont générées par l’application des filtres généralisés de Haar sur l’image de bande dessinée. Cette approche est une approche analytique et ne nécessite aucun processus d’extraction ni des bulles ni d’autres composants. / The presented thesis follows two directions. The first one disposes a technique for text and graphic separation in comics. The second one points out a learning free segmentation free word spotting framework based on the query-by-string problem for manuscript documents. The two approaches are based on human perception characteristics. Indeed, they were inspired by several characteristics of human vision such as the Preattentive processing. These characteristics guide us to introduce two multi scale approaches for two different document analysis tasks which are text extraction from comics and word spotting in manuscript document. These two approaches are based on applying generalized Haar-like filters globally on each document image whatever its type. Describing and detailing the use of such features throughout this thesis, we offer the researches of document image analysis field a new line of research that has to be more explored in future. The two approaches are layout segmentation free and the generalized Haar-like filters are applied globally on the image. Moreover, no binarization step of the processed document is done in order to avoid losing data that may influence the accuracy of the two frameworks. Indeed, any learning step is performed. Thus, we avoid the process of extraction features a priori which will be performed automatically, taking into consideration the different characteristics of the documents.
|
5 |
Représentation et construction des systèmes d'information par l'imageMoreau, Guillaume 03 July 2009 (has links) (PDF)
Nous nous intéressons au lien entre l'image numérique et un système d'information dans un cadre de conception de produit centré sur l'usager. Dans une première partie, nous nous intéressons à la perception par l'usager des environnements virtuels représentant un système d'information. La fidélité perceptive de l'environnement virtuel est étudié à plusieurs niveaux : psychophysique, fonctionnel et enfin sensible. La seconde partie est consacrée à la construction d'environnements virtuels fidèles au monde réel : nous abordons d'abord leur fidélité géométrique via la vision par ordinateur, puis la fidélité comportementale en reproduisant le comportement humain dans les environnements virtuels. Enfin, dans la dernière partie, nous proposons de considérer l'interaction entre le monde réel et le système d'information comme un système fonctionnant en boucle fermée : le système peut être représenté par des images mais aussi construit et mis à jour directement avec des images. Le domaine d'application visé est le système d'information géographique.
|
6 |
Contribution à des architectures de stabilisation d'images basées sur la perception visuelle et la physiologie du tremblement humain / Architectures for Image sensors stabilization based on visual perception and on the physiology of hand tremor; a contribution.Gavant, Fabien 11 December 2012 (has links)
Avec l’intégration des appareils photos dans les appareils mobiles, leur démocratisation et la réduction de la taille de l’imageur, de l’optique et de la taille pixels, les photos sont de plus en plus sujettes au flou de bougé dû aux tremblements de la main. À cette tendance s’ajoute un accroissement constaté dans l’exigence de qualité d’image de la part des utilisateurs. Pour réduire ce flou, des systèmes de stabilisation d’image ont été développés. Néanmoins ceux-ci ne permettent pas de garantir la qualité de netteté des images et souffrent parfois d’une intégration limitée. En réponse à ces limitations, ces travaux de recherche proposent, d’une part, un modèle de tremblement physiologique permettant de simuler de manière fidèle les flous de bougé et, d’autre part, une étude sur la perception visuelle du flou permettant le développement d’une métrique de qualité. Enfin des architectures de stabilisations, exploitant ces nouveaux outils, sont proposées. Ces nouvelles architectures permettent de réduire le nombre de composants externes ainsi que de garantir la netteté des images stabilisées. / With the integration of cameras in mobile devices, their democratization and the reduction of the imager’s size, the optical system dimensions and the pixels miniaturization, the photos become more and more subject to motion blur due to the hand tremor. In addition, the requirements in terms of image quality become higher and higher. Hence, in order to reduce this blur, several image stabilization systems have been developed. Nevertheless, they cannot guarantee the sharpness quality of resulting images and in some cases, they show integration difficulties. In order to overcome these limitations, the research work presented in this thesis proposes, first of all, a physiological tremor model that aims to simulate realistic camera shake and secondly, presents a study on visual perception of blur. This study enables the development of a quality metric. Finally, stabilization algorithms and architectures exploiting these new tools are presented. These new architectures reduce the number of external components and ensure sharp stabilized images.
|
Page generated in 0.0654 seconds