Global ETD Search

51	Hierarchical scene categorization : exploiting fused local & global features and outdoor & indoor information Shahriari, Mana 11 February 2021 (has links) Récemment, le problème de la compréhension de l’image a été l’objet de beaucoup d’attentions dans la littérature. La catégorisation de scène peut être vue comme un sous-ensemble de la compréhension d’image utilisée pour donner un contexte à la compréhension d’image ainsi qu’à la reconnaissance d’objet afin de faciliter ces tâches. Dans cette thèse, nous revisitons les idées classiques de la catégorisation des scènes à la lumière des approches modernes. Le modèle proposé s’inspire considérablement de la façon dont le système visuel humain comprend et perçoit son environnement. À cet égard, je soute qu’ajouter un niveau de classificateur extérieur – intérieur combiné à des caractéristiques globales et locales de scène permet d’atteindre une performance de pointe. Ainsi, un tel modèle requiert ces deux éléments afin de gérer une grande variété d’éclairage et points de vue ainsi que des objets occultés à l’intérieur des scènes. Le modèle que je propose est un cadre hiérarchique en deux étapes qui comprend un classificateur extérieur – intérieur à son stade initial et un modèle de scène contextuelle au stade final. Je monte ensuite que les fonctionnalités locales introduites, combinées aux caractéristiques globales, produisent des caractéristiques de scène plus stables. Par conséquent, les deux sont des ingrédients d’un modèle de scène. Les caractéristiques de texture des scène extérieures agissent comme caractéristique locale, tandis que leur apparence spatiale agit comme caractéristique globale. Dans les scènes d’intérieur, les caractéristiques locales capturent des informations détaillées sur les objets alors que les caractéristiques globales représentent l’arrière-plan et le contexte de la scène. Enfin, je confirme que le modèle présenté est capable de fournir des performances de pointe sur trois jeux de données de scène qui sont des standards de facto; 15 – Scene Category, 67 –Indoor Scenes, et SUN 397. / Recently the problem of image understanding has drawn lots of attention in the literature. Scene categorization can be seen as a subset of image understanding utilized to give context to image understanding also to object recognition in order to ease these tasks. In this thesis, I revisit the classical ideas, model driven approaches, in scene categorization in the light of modern approaches, data driven approaches. The proposed model is greatly inspired by human visual system in understanding and perceiving its environment. In this regard, I argue that adding a level of outdoor – indoor classifier combined with global and local scene features, would reach to the state-of-the-art performance. Thus, such a model requires both of these elements in order to handle wide variety of illumination and viewpoint as well as occluded objects within scenes. The proposed model is a two-stage hierarchical model which features an outdoor – indoor classifier at its initial stage and a contextual scene model at its final stage. I later show that the introduced local features combined with global features produce more stable scene features, hence both are essential components of a scene model. Texture-like characteristics of outdoor scenes act as local feature meanwhile their spatial appearance act as the global feature. In indoor scenes, local features capture detailed information on objects, while global features represent background and the context of the scene. Finally, I have confirmed that the presented model is capable of delivering state-of-the-art performance on 15 – Scene Category, 67 – Indoor Scenes, and SUN 397, three de-facto standard scene datasets Analyse d'images. Traitement d'images. Reconnaissance photographique. Reconnaissance d'objets (Informatique) Systèmes de classeurs.
52	Recherche par le contenu d'objets 3D Chaouch, Mohamed 31 March 2009 (has links) (PDF) Aujourd'hui, grâce aux technologies récentes de numérisation et de modélisation 3D, des bases d'objets 3D de taille de plus en plus grande deviennent disponibles. La recherche par le contenu apparaît être une solution nécessaire pour structurer, gérer ces données multimédia, et pour naviguer dans ces grandes bases. Dans ce contexte, nous nous sommes intéressés plus particulièrement aux trois phases qui constituent le processus de la recherche par le contenu : la normalisation, l'extraction de la signature, et la mesure de similarité entre objets 3D. La première partie de la thèse porte sur la normalisation d'objets 3D, en particulier sur la recherche de la pose optimale. Nous proposons une nouvelle méthode d'alignement d'objets 3D basée sur la symétrie de réflexion et la symétrie de translation locale. L'approche repose sur les propriétés intéressantes de l'analyse en composantes principales vis-à-vis des symétries de réflexion pour retrouver d'éventuels axes d'alignement optimaux parmi les axes principaux. La deuxième partie de la thèse est consacrée à l'étude des descripteurs de forme et des mesures de similarité associées. Dans un premier temps, nous proposons un nouveau descripteur 3D dérivé de la transformée de Gauss, appelé 3D Gaussian descriptor. Calculé sur une partition de l'espace englobant l'objet, ce descripteur permet de caractériser localement la géométrie de la surface. Dans un deuxième temps, nous avons étudié les approches multi-vues caractérisant l'objet 3D à partir des images de projection. Nous introduisons une technique d'amélioration, appelée Enhanced Multi-views Approach, pouvant s'appliquer à la plupart des approches multi-vues. Des valeurs de pertinence sont définies et introduites dans la mesure de similarité afin de pondérer les contributions des projections dans la description de la forme 3D. La dernière méthode d'indexation que nous proposons, appelée Depth Line Approach, est une approche multi-vues fondée sur les images de profondeur. Pour les caractériser, nous introduisons une méthode de transcodage qui transforme les lignes de profondeur extraites en séquence d'états. Pour permettre une comparaison efficace, la mesure de similarité associée se base sur la programmation dynamique. Indexation 3D Similarité visuelle Normalisation d'objets 3D Alignement d'objets 3D Descripteur de forme Objets 3D Modèles 3D Base de données
53	Représentation interne des caractéristiques physiques d'un objet Lefebvre, Nicolas 07 1900 (has links) Dans les situations du quotidien, nous manipulons fréquemment des objets sans les regarder. Pour effectuer des mouvements vers une cible précise avec un objet à la main, il est nécessaire de percevoir les propriétés spatiales de l’objet. Plusieurs études ont démontré que les sujets peuvent discriminer entre des longueurs d'objet différentes sans l’aide des informations visuelles et peuvent adapter leurs mouvements aux nouvelles caractéristiques inertielles produites lors de la manipulation d’un objet. Dans cette étude, nous avons conduit deux expérimentations afin d’évaluer la capacité des sujets à adapter leurs mouvements d’atteinte à la longueur et à la forme perçues des objets manipulés sur la base unique des sensations non visuelles (sensations haptiques). Dans l'expérience 1, dix sujets devaient exécuter des mouvements d’atteintes vers 4 cibles tridimensionnelles (3D) avec un objet à la main. Trois objets de longueur différente ont été utilisés (pointeurs: 12.5, 17.5, 22.5 cm). Aucune connaissance de la position de la main et de l’objet par rapport à la cible n’était disponible pendant et après les mouvements vers les cibles 3D. Ainsi, lorsque comparé avec les erreurs spatiales commises lors des atteintes manuelles sans pointeur, l’erreur spatiale de chacun des mouvements avec pointeur reflète la précision de l’estimation de la longueur des pointeurs. Nos résultats indiquent que les sujets ont augmenté leurs erreurs spatiales lors des mouvements d’atteinte avec un objet en comparaison avec la condition sans pointeur. Cependant, de façon intéressante, ils ont maintenu le même niveau de précision à travers les trois conditions avec des objets de différentes longueurs malgré une différence de 10 cm entre l’objet le plus court et le plus long. Dans l'expérience 2, neuf sujets différents ont effectué des mouvements d’atteinte vers les mêmes cibles utilisant cette fois-ci deux objets en forme de L (objet no.1 : longueur de 17,5 cm et déviation à droite de 12,5 cm – objet no.2 : longueur de 17,5 cm et déviation à droite de 17,5 cm). Comme c’était le cas lors de l'expérience 1, les sujets ont augmenté leurs erreurs spatiales lors des mouvements d’atteinte avec les objets et cette augmentation était similaire entre les deux conditions avec les objets en forme de L. Une observation frappante de l’expérience 2 est que les erreurs de direction n’ont pas augmenté de façon significative entre les conditions avec objet en forme de L et la condition contrôle sans objet. Ceci démontre que les participants ont perçu de façon précise la déviation latérale des objets sans jamais avoir eu de connaissances visuelles de la configuration des objets. Les résultats suggèrent que l’adaptation à la longueur et à la forme des objets des mouvements d’atteinte est principalement basée sur l’intégration des sensations haptiques. À notre connaissance, cette étude est la première à fournir des données quantitatives sur la précision avec laquelle le système haptique peut permettre la perception de la longueur et de la forme d’un objet tenu dans la main afin d’effectuer un mouvement précis en direction d’une cible. / In everyday situations, we frequently manipulate objects without looking at them. To successfully perform goal directed movements with a handheld unseen object, one needs to perceive the spatial properties of the object. Several studies showed that subjects can discriminate between different object lengths without visual information and are able to adapt movements to novel manipulation dynamics. In this study, we evaluated the ability of subjects to adapt their reaching movements to the perceived length and shape of unseen handheld objects (haptic sensations) in two different experimentations. In experiment 1, ten subjects were required to reach to 4 different memorized 3D targets with handheld objects having three different lengths (12.5, 17.5 and 22.5 cm). No feedback of hand or object position relative to the target location was provided during and after the movements. Therefore, when compared with the ‘control’ no object condition, the spatial error of each movement reflects the precision of length perception and movement adaption in a given condition. Our results show that subjects increased their spatial errors while reaching with a handheld object compared to the no object condition. However, interestingly, they maintained the same accuracy level across the three different object length conditions despite a 10 cm length difference between the shorter and longer object. In experiment 2, nine different subjects reached to the same targets using two L-shaped objects (object no.1: 17.5 cm length and 12.5 cm rightward deviation- object no.2: 17.5 cm length and 17.5 cm deviation). As in experiment 1, subjects increased their spatial errors while reaching with handheld objects, but this increase was similar between the two object shape conditions. A striking observation is that subjects did not significantly increase their directional errors in both object shape conditions compared to the no object condition. This demonstrates that they accurately perceived the lateral deviation of objects despite never seeing nor having any explicit knowledge of object configurations. The results indicate that adaptation of reaching movements to the perceived length and shape of handheld objects is largely based on haptic sensations. To our knowledge, this study is the first to provide a quantitative evaluation of the ability of the haptic system to perceive the length and the shape of handheld objects in order to perform an accurate goal directed movement. Atteintes manuelles Précision 3D Sensations haptiques Estimation de la longueur d'objets Estimation de la forme d'objets Reaching movement 3D accuracy Haptic sensations Object length perception Object shape perception
54	Représentations analytiques des objets géométriques et contours actifs en imagerie Dehaes, Mathieu January 2004 (has links) Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal. Détection d'objets Filtre Image régularisée Fonction objectif Minimisation géodésique Représentations analytiques d'objets Fonction distance Fonction distance orientée Fonction caractéristique Snake Contour actif Flot géodésique Ensembles de niveau Équations d'évolutions Modèle déformable
55	Représentation interne des caractéristiques physiques d'un objet Lefebvre, Nicolas 07 1900 (has links) Dans les situations du quotidien, nous manipulons fréquemment des objets sans les regarder. Pour effectuer des mouvements vers une cible précise avec un objet à la main, il est nécessaire de percevoir les propriétés spatiales de l’objet. Plusieurs études ont démontré que les sujets peuvent discriminer entre des longueurs d'objet différentes sans l’aide des informations visuelles et peuvent adapter leurs mouvements aux nouvelles caractéristiques inertielles produites lors de la manipulation d’un objet. Dans cette étude, nous avons conduit deux expérimentations afin d’évaluer la capacité des sujets à adapter leurs mouvements d’atteinte à la longueur et à la forme perçues des objets manipulés sur la base unique des sensations non visuelles (sensations haptiques). Dans l'expérience 1, dix sujets devaient exécuter des mouvements d’atteintes vers 4 cibles tridimensionnelles (3D) avec un objet à la main. Trois objets de longueur différente ont été utilisés (pointeurs: 12.5, 17.5, 22.5 cm). Aucune connaissance de la position de la main et de l’objet par rapport à la cible n’était disponible pendant et après les mouvements vers les cibles 3D. Ainsi, lorsque comparé avec les erreurs spatiales commises lors des atteintes manuelles sans pointeur, l’erreur spatiale de chacun des mouvements avec pointeur reflète la précision de l’estimation de la longueur des pointeurs. Nos résultats indiquent que les sujets ont augmenté leurs erreurs spatiales lors des mouvements d’atteinte avec un objet en comparaison avec la condition sans pointeur. Cependant, de façon intéressante, ils ont maintenu le même niveau de précision à travers les trois conditions avec des objets de différentes longueurs malgré une différence de 10 cm entre l’objet le plus court et le plus long. Dans l'expérience 2, neuf sujets différents ont effectué des mouvements d’atteinte vers les mêmes cibles utilisant cette fois-ci deux objets en forme de L (objet no.1 : longueur de 17,5 cm et déviation à droite de 12,5 cm – objet no.2 : longueur de 17,5 cm et déviation à droite de 17,5 cm). Comme c’était le cas lors de l'expérience 1, les sujets ont augmenté leurs erreurs spatiales lors des mouvements d’atteinte avec les objets et cette augmentation était similaire entre les deux conditions avec les objets en forme de L. Une observation frappante de l’expérience 2 est que les erreurs de direction n’ont pas augmenté de façon significative entre les conditions avec objet en forme de L et la condition contrôle sans objet. Ceci démontre que les participants ont perçu de façon précise la déviation latérale des objets sans jamais avoir eu de connaissances visuelles de la configuration des objets. Les résultats suggèrent que l’adaptation à la longueur et à la forme des objets des mouvements d’atteinte est principalement basée sur l’intégration des sensations haptiques. À notre connaissance, cette étude est la première à fournir des données quantitatives sur la précision avec laquelle le système haptique peut permettre la perception de la longueur et de la forme d’un objet tenu dans la main afin d’effectuer un mouvement précis en direction d’une cible. / In everyday situations, we frequently manipulate objects without looking at them. To successfully perform goal directed movements with a handheld unseen object, one needs to perceive the spatial properties of the object. Several studies showed that subjects can discriminate between different object lengths without visual information and are able to adapt movements to novel manipulation dynamics. In this study, we evaluated the ability of subjects to adapt their reaching movements to the perceived length and shape of unseen handheld objects (haptic sensations) in two different experimentations. In experiment 1, ten subjects were required to reach to 4 different memorized 3D targets with handheld objects having three different lengths (12.5, 17.5 and 22.5 cm). No feedback of hand or object position relative to the target location was provided during and after the movements. Therefore, when compared with the ‘control’ no object condition, the spatial error of each movement reflects the precision of length perception and movement adaption in a given condition. Our results show that subjects increased their spatial errors while reaching with a handheld object compared to the no object condition. However, interestingly, they maintained the same accuracy level across the three different object length conditions despite a 10 cm length difference between the shorter and longer object. In experiment 2, nine different subjects reached to the same targets using two L-shaped objects (object no.1: 17.5 cm length and 12.5 cm rightward deviation- object no.2: 17.5 cm length and 17.5 cm deviation). As in experiment 1, subjects increased their spatial errors while reaching with handheld objects, but this increase was similar between the two object shape conditions. A striking observation is that subjects did not significantly increase their directional errors in both object shape conditions compared to the no object condition. This demonstrates that they accurately perceived the lateral deviation of objects despite never seeing nor having any explicit knowledge of object configurations. The results indicate that adaptation of reaching movements to the perceived length and shape of handheld objects is largely based on haptic sensations. To our knowledge, this study is the first to provide a quantitative evaluation of the ability of the haptic system to perceive the length and the shape of handheld objects in order to perform an accurate goal directed movement. Atteintes manuelles Précision 3D Sensations haptiques Estimation de la longueur d'objets Estimation de la forme d'objets Reaching movement 3D accuracy Haptic sensations Object length perception Object shape perception
56	Graph mining for object tracking in videos / Fouille de graphes pour le suivi d’objets dans les vidéos Diot, Fabien 03 June 2014 (has links) Détecter et suivre les objets principaux d’une vidéo est une étape nécessaire en vue d’en décrire le contenu pour, par exemple, permettre une indexation judicieuse des données multimédia par les moteurs de recherche. Les techniques de suivi d’objets actuelles souffrent de défauts majeurs. En effet, soit elles nécessitent que l’utilisateur désigne la cible a suivre, soit il est nécessaire d’utiliser un classifieur pré-entraîné à reconnaitre une classe spécifique d’objets, comme des humains ou des voitures. Puisque ces méthodes requièrent l’intervention de l’utilisateur ou une connaissance a priori du contenu traité, elles ne sont pas suffisamment génériques pour être appliquées aux vidéos amateurs telles qu’on peut en trouver sur YouTube. Pour résoudre ce problème, nous partons de l’hypothèse que, dans le cas de vidéos dont l’arrière-plan n’est pas fixe, celui-ci apparait moins souvent que les objets intéressants. De plus, dans une vidéo, la topologie des différents éléments visuels composant un objet est supposée consistante d’une image a l’autre. Nous représentons chaque image par un graphe plan modélisant sa topologie. Ensuite, nous recherchons des motifs apparaissant fréquemment dans la base de données de graphes plans ainsi créée pour représenter chaque vidéo. Cette approche nous permet de détecter et suivre les objets principaux d’une vidéo de manière non supervisée en nous basant uniquement sur la fréquence des motifs. Nos contributions sont donc réparties entre les domaines de la fouille de graphes et du suivi d’objets. Dans le premier domaine, notre première contribution est de présenter un algorithme de fouille de graphes plans efficace, appelé PLAGRAM. Cet algorithme exploite la planarité des graphes et une nouvelle stratégie d’extension des motifs. Nous introduisons ensuite des contraintes spatio-temporelles au processus de fouille afin d’exploiter le fait que, dans une vidéo, les objets se déplacent peu d’une image a l’autre. Ainsi, nous contraignons les occurrences d’un même motif a être proches dans l’espace et dans le temps en limitant le nombre d’images et la distance spatiale les séparant. Nous présentons deux nouveaux algorithmes, DYPLAGRAM qui utilise la contrainte temporelle pour limiter le nombre de motifs extraits, et DYPLAGRAM_ST qui extrait efficacement des motifs spatio-temporels fréquents depuis les bases de données représentant les vidéos. Dans le domaine du suivi d’objets, nos contributions consistent en deux approches utilisant les motifs spatio-temporels pour suivre les objets principaux dans les vidéos. La première est basée sur une recherche du chemin de poids minimum dans un graphe connectant les motifs spatio-temporels tandis que l’autre est basée sur une méthode de clustering permettant de regrouper les motifs pour suivre les objets plus longtemps. Nous présentons aussi deux applications industrielles de notre méthode / Detecting and following the main objects of a video is necessary to describe its content in order to, for example, allow for a relevant indexation of the multimedia content by the search engines. Current object tracking approaches either require the user to select the targets to follow, or rely on pre-trained classifiers to detect particular classes of objects such as pedestrians or car for example. Since those methods rely on user intervention or prior knowledge of the content to process, they cannot be applied automatically on amateur videos such as the ones found on YouTube. To solve this problem, we build upon the hypothesis that, in videos with a moving background, the main objects should appear more frequently than the background. Moreover, in a video, the topology of the visual elements composing an object is supposed consistent from one frame to another. We represent each image of the videos with plane graphs modeling their topology. Then, we search for substructures appearing frequently in the database of plane graphs thus created to represent each video. Our contributions cover both fields of graph mining and object tracking. In the first field, our first contribution is to present an efficient plane graph mining algorithm, named PLAGRAM. This algorithm exploits the planarity of the graphs and a new strategy to extend the patterns. The next contributions consist in the introduction of spatio-temporal constraints into the mining process to exploit the fact that, in a video, the motion of objects is small from on frame to another. Thus, we constrain the occurrences of a same pattern to be close in space and time by limiting the number of frames and the spatial distance separating them. We present two new algorithms, DYPLAGRAM which makes use of the temporal constraint to limit the number of extracted patterns, and DYPLAGRAM_ST which efficiently mines frequent spatio-temporal patterns from the datasets representing the videos. In the field of object tracking, our contributions consist in two approaches using the spatio-temporal patterns to track the main objects in videos. The first one is based on a search of the shortest path in a graph connecting the spatio-temporal patterns, while the second one uses a clustering approach to regroup them in order to follow the objects for a longer period of time. We also present two industrial applications of our method Fouille de graphes Suivi d'objets Traitement de l'image Fouille de données Détection d'objets Indexation de vidéos Résumé automatique de vidéos Graph mining Objects tracking Image processing Data mining Object detection Indexing video Video summarization
57	Géométrie stochastique pour la détection et le suivi d'objets multiples dans des séquences d'images haute résolution de télédétection / Stochastic geometry for automatic multiple object detection and tracking in remotely sensed high resolution image sequences Crăciun, Paula 25 November 2015 (has links) Dans cette thèse, nous combinons les outils de la théorie des probabilités et de la géométrie stochastique pour proposer de nouvelles solutions au problème de la détection et le suivi d'objets multiples dans des séquences d'images haute résolution. Nous créons un cadre fondé sur des modèles de processus ponctuels marqués spatio-temporels pour détecter et suivre conjointement plusieurs objets dans des séquences d'images. Nous proposons l'utilisation de formes paramétriques simples pour décrire l'apparition de ces objets. Nous construisons de nouveaux modèles fondés sur des énergies dédiées constituées de plusieurs termes qui tiennent compte à la fois l'attache aux données et les contraintes physiques telles que la dynamique de l'objet, la persistance de la trajectoire et de l'exclusion mutuelle. Nous construisons un schéma d'optimisation approprié qui nous permet de trouver des minima locaux de l'énergie hautement non-convexe proposée qui soient proche de l'optimum global. Comme la simulation de ces modèles requiert un coût de calcul élevé, nous portons notre attention sur les dernières mises en oeuvre de techniques de filtrage pour le suivi d'objets multiples, qui sont connues pour être moins coûteuses en calcul. Nous proposons un échantillonneur hybride combinant le filtre de Kalman avec l'échantillonneur MCMC à sauts réversibles. Des techniques de calcul de haute performance sont également utilisées pour augmenter l'efficacité de calcul de notre méthode. Nous fournissons une analyse en profondeur du cadre proposé sur la base de plusieurs métriques classiques de suivi d'objets et de l'efficacité de calcul. / In this thesis, we combine the methods from probability theory and stochastic geometry to put forward new solutions to the multiple object detection and tracking problem in high resolution remotely sensed image sequences. We create a framework based on spatio-temporal marked point process models to jointly detect and track multiple objects in image sequences. We propose the use of simple parametric shapes to describe the appearance of these objects. We build new, dedicated energy based models consisting of several terms that take into account both the image evidence and physical constraints such as object dynamics, track persistence and mutual exclusion. We construct a suitable optimization scheme that allows us to find strong local minima of the proposed highly non-convex energy. As the simulation of such models comes with a high computational cost, we turn our attention to the recent filter implementations for multiple object tracking, which are known to be less computationally expensive. We propose a hybrid sampler by combining the Kalman filter with the standard Reversible Jump MCMC. High performance computing techniques are also used to increase the computational efficiency of our method. We provide an in-depth analysis of the proposed framework based on standard multiple object tracking metrics and computational efficiency. Suivi d'objets multiples Détection d'objets Processus ponctuel marqué Filtre de Kalman Séquences d'images satellitaires Séquences des données de microscopie Haute résolution Object tracking Objet detection Marked point process Kalman filter Satellite image sequences Microscopie data sequencies High resolution
58	2D/3D knowledge inference for intelligent access to enriched visual content / Modélisation et inférence 2D/3D de connaissances pour l'accès intelligent aux contenus visuels enrichis Sambra-Petre, Raluca-Diana 18 June 2013 (has links) Cette thèse porte sur la catégorisation d'objets vidéo. L'objectif est d'associer des étiquettes sémantiques à des objets 2D présents dans les images/vidéos. L'approche proposée consiste à exploiter des bases d'objets 3D classifiés afin d'identifier des objets 2D inconnus. Nous proposons un schéma de reconnaissance d'objet, conçu pour fonctionner pour des applications en temps réel. La similitude entre des modèles 3D et des contenus 2D inconnu est évaluée à l'aide de la description 2D/3D. Une procédure de vote est ensuite utilisée afin de déterminer les catégories les plus probables de l'objet 2D. Nous proposons aussi une stratégie pour la sélection des vues les plus représentatives d'un objet 3D et un nouveau descripteur de contour (nommé AH). L'évaluation expérimentale a montré que, en employant la sélection intelligente de vues, le nombre de projections peut être diminué de manière significative (jusqu'à 5 fois) tout en obtenant des performances similaires. Les résultats ont également montré la supériorité de l'AH par rapport aux autres descripteurs adoptés. Une évaluation objective de la variabilité intra et inter classe des bases de données 3D impliqués dans ce travail est également proposé, ainsi qu'une étude comparative des approches d'indexations retenues. Une approche de segmentation interactive est également introduite. La méthode proposée est spécifiquement conçu pour surmonter les artefacts de compression tels que ceux mis en place par la compression JPEG. Enfin, nous présentons une plate-forme Web pour l'indexation/la recherche/la classification, qui intègre les différentes méthodologies utilisées dans cette thèse / This Ph.D. thesis tackles the issue of sill and video object categorization. The objective is to associate semantic labels to 2D objects present in natural images/videos. The principle of the proposed approach consists of exploiting categorized 3D model repositories in order to identify unknown 2D objects based on 2D/3D matching techniques. We propose here an object recognition framework, designed to work for real time applications. The similarity between classified 3D models and unknown 2D content is evaluated with the help of the 2D/3D description. A voting procedure is further employed in order to determine the most probable categories of the 2D object. A representative viewing angle selection strategy and a new contour based descriptor (so-called AH), are proposed. The experimental evaluation proved that, by employing the intelligent selection of views, the number of projections can be decreased significantly (up to 5 times) while obtaining similar performance. The results have also shown the superiority of AH with respect to other state of the art descriptors. An objective evaluation of the intra and inter class variability of the 3D model repositories involved in this work is also proposed, together with a comparative study of the retained indexing approaches . An interactive, scribble-based segmentation approach is also introduced. The proposed method is specifically designed to overcome compression artefacts such as those introduced by JPEG compression. We finally present an indexing/retrieval/classification Web platform, so-called Diana, which integrates the various methodologies employed in this thesis Classification d'objets Segmentation d'objets Indexation 2D/3D Inférence 2D/3D Descripteur de forme Base de données de modèles 3D Object classification Object segmentation 2D/3D indexing 2D/3D inference Shape descriptor 3D model database
59	Descripteurs couleur locaux invariants aux conditions d'acquisition Song, Xiaohu 08 December 2011 (has links) (PDF) La mise au point de descripteurs locaux discriminants est aujourd'hui une priorité dans de nombreuses applications comme la reconnaissance d'objets, le suivi d'objets, la reconstruction 3D ou l'estimation de mouvement. La problématique réside dans le fait que ces descripteurs doivent être invariants aux conditions d'acquisition tout en conservant un pouvoir discriminant important. Dans ce contexte, nous nous sommes intéressés à l'invariance des descripteurs locaux de la littérature. Nous les avons notamment catégorisés en fonction des hypothèses sur lesquelles repose leur invariance. Ensuite, nous avons proposé des descripteurs locaux qui exploitent l'information de couleur dans les images. Nous avons montré que cette information peut être très pertinente lorsqu'elle est combinée à une information spatiale, à condition que son degré d'invariance soit contrôlé et adapté aux applications considérées. Ainsi, nous avons proposé un ensemble de descripteurs locaux couleur avec des degrés d'invariance différents. Ainsi, nous introduisons tout d'abord deux nouveaux descripteurs qui caractérisent les distributions spatiales des couleurs dans les régions analysées. L'idée originale consiste à appliquer des transformations affines entre les coordonnées spatiales des pixels et leurs coordonnées couleur. En effet, chaque pixel étant caractérisé par 5 valeurs, 2 coordonnées spatiales xy dans l'image et 3 composantes couleur RVB, nous proposons de rechercher une transformation affine qui permet de transformer les coordonnées xy de tous les pixels de la région concernée en coordonnées RVB de ces pixels. Nous montrons que l'application de cette transformation aux coordonnées xy fournit des coordonnées dans l'espace RVB qui a un double avantage. D'une part, les coordonnées d'un seul pixel dépendent à la fois de toutes les couleurs présentes dans la région mais aussi de leur répartition spatiale. Quelques coordonnées permettent donc de résumer efficacement le contenu de la région. D'autre part, ces coordonnées présente une invariance totale à toute transformation affine appliquée dans l'espace image 2D(invariance géométrique) et comme elles sont homogènes à des coordonnées couleur, nous pouvons leur procurer une invariance photométrique en leur appliquant des transformations affines particulières. Nous montrons que le degré d'invariance peut être contrôlé en fonction des besoins de l'application. Ces coordonnées nous permettent de définir le descripteur IVC (Image Vers Couleur). De manière similaire, nous évaluons une transformation affine de l'espace couleur à l'espace image et appliquons cette transformation aux coordonnées couleur. Les coordonnées obtenues par cette transformation sont invariantes à toute transformation affine appliquée dans l'espace couleur, elles présentent donc un degré d'invariance élevé aux variations photométriques. Ces coordonnées nous permettent de constituer le descripteur CVI (Couleur Vers Image). Nous montrons que ces deux descripteurs fournissent de très bons résultats dans le cadre de la reconnaissance d'objet et présentent une telle complémentarité que le descripteur obtenu par concaténation de IVC et CVI fournit de meilleurs résultats que la plupart des descripteurs couleur parus dans la littérature. Ensuite, nous proposons un descripteur qui présente un degré d'invariance plus élevé que les deux précédents puisqu'il n'est pas sensible aux transformations non-linéaires des couleurs modélisées par des fonctions croissantes appliquées indépendamment sur chaque composante couleur. Pour cela, nous exploitons les mesures de rang des pixels dans les images. De plus, nous utilisons les corrélations entre mesures de rang obtenues pour différentes composantes couleur. Ceci nous a permis de proposer un descripteur lui aussi très compact qui présente un degré d'invariance photométrique assez élevé. Enfin, nous abordons le problème de la caractérisation locale d'images par auto-similarités Descripteurs locaux Reconnaissance d'objets Invariants Transformations affines Pouvoir discriminant IVC CVI Mesures de rang Mesures de similarités
60	Mécanismes d'apprentissage pour expliquer la rapidité, la sélectivité et l'invariance des réponses dans le cortex visuel Masquelier, Timothée 15 February 2008 (has links) (PDF) Dans cette thèse je propose plusieurs mécanismes de plasticité synaptique qui pourraient expliquer la rapidité, la sélectivité et l'invariance des réponses neuronales dans le cortex visuel. Leur plausibilité biologique est discutée. J'expose également les résultats d'une expérience de psychophysique pertinente, qui montrent que la familiarité peut accélérer les traitements visuels. Au delà de ces résultats propres au système visuel, les travaux présentés ici créditent l'hypothèse de l'utilisation des dates de spikes pour encoder, décoder, et traiter l'information dans le cerveau – c'est la théorie dite du ‘codage temporel'. Dans un tel cadre, la Spike Timing Dependent Plasticity pourrait jouer un rôle clef, en détectant des patterns de spikes répétitifs et en permettant d'y répondre de plus en plus rapidement. [SDV] Life Sciences vision reconnaissance d'objets catégorisation visuelle ultra-rapide apprentissage codage temporel neurones impulsionnels Spike Timing Dependent Plasticity (STDP)

Search results