Spelling suggestions: "subject:"disision para ordinateur)"" "subject:"decisision para ordinateur)""
171 |
Approches robustes pour la comparaison d'images et la reconnaissance d'objetsRabin, Julien 09 December 2009 (has links) (PDF)
La problématique générale de cette thèse est la comparaison d'images, que nous traitons via différentes applications. Nous proposons un système complet, robuste et automatique de reconnaissance d'objets multiples, dont la mise en œuvre repose principalement sur deux approches méthodologiques : la théorie de la décision « a contrario » et la théorie du transport optimal de Monge-Kantorovich. Dans ce cadre, une mesure de dissimilarité est définie pour la comparaison de descripteurs locaux de type SIFT en fonction du coût de transport optimal entre histogrammes circulaires (Circular Earth Mover's Distance). Un critère de mise en correspondance ces descripteurs s'appuyant sur la théorie de la décision a contrario est par la suite introduit. Ce critère permet de s'affranchir du réglage du seuil de détection et de la restriction usuelle au plus proche voisin. Nous proposons un algorithme de type RANSAC (RANdom SAmple Consensus) pour le groupement multiple de correspondances de descripteurs locaux. L'approche proposée permet la sélection du modèle géométrique de la transformation rigide due au changement de point de vue et au mouvement de l'objet détecté entre les différentes images. Dans le cadre du transport optimal, nous étudions par ailleurs l'intérêt de l'EMD (Earth Mover's Distance) pour la comparaison globale d'images (indexation d'images). Nous proposons enfin une méthode de régularisation de la carte de transport s'inspirant des approches par filtrage non-local, en vue d'une application au changement de contraste et au transfert de couleurs entre images.
|
172 |
Architectures massivement parallèles et vision artificielle bas-niveauPlyer, Aurélien 20 February 2013 (has links) (PDF)
Ce travail de thèse étudie l'apport à la vision bas-niveau des architectures de calcul massivement parallèles. Nous reprenons l'évolution récente de l'architecture des ordinateurs, en mettant en avant les solutions massivement parallèles qui se sont imposées récemment, les GPU. L'exploitation des potentialités de ces architectures impose une modification des méthodes de programmation. Nous montrons qu'il est possible d'utiliser un nombre restreint de schémas ("patterns") de calcul pour résoudre un grand nombre de problématiques de vision bas niveau. Nous présentons ensuite un nouveau modèle pour estimer la complexité de ces solutions. La suite du travail consiste à appliquer ces modèles de programmation à des problématiques de vision bas-niveau. Nous abordons d'abord le calcul du flot optique, qui est le champ de déplacement d'une image à une autre, et dont l'estimation est une brique de base de très nombreuses applications en traitement vidéo. Nous présentons un code sur GPU, nommé FOLKI qui permet d'atteindre une très bonne qualité de résultats sur séquences réelles pour un temps de calcul bien plus faible que les solutions concurrentes actuelles. Une application importante de ces travaux concerne la vélocimétrie par imagerie de particules dans le domaine de la mécanique des fluides expérimentale. La seconde problématique abordée est la super-résolution (SR). Nous proposons d'abord un algorithme très rapide de SR utilisant le flot optique FOLKI pour recaler les images. Ensuite différentes solutions à coût de calcul croissant sont développées, qui permettent une amélioration de précision et de robustesse. Nous présentons des résultats très originaux de SR sur des séquences affectées de mouvement complexes, comme des séquences de piétons ou des séquences aériennes de véhicules en mouvement. Enfin le dernier chapitre aborde rapidement des extensions en cours de nos travaux à des contextes de mesure 3D, dans des domaines comme la physique expérimentale ou la robotique.
|
173 |
Modélisation 3D à partir d'images : contributions en reconstruction photométrique à l'aide de maillages déformablesDelaunoy, Amael 02 December 2011 (has links) (PDF)
Comprendre, analyser et modéliser l'environment 3D à partir d'images provenant de caméras et d'appareils photos est l'un des défis majeurs actuel de recherche en vision par ordinateur. Cette thèse s'interesse à plusieurs aspects géométriques et photometriques liés à la reconstruction de surface à partir de plusieurs caméras calibrées. La reconstruction 3D est vue comme un problème de rendu inverse, et vise à minimiser une fonctionnelle d'énergie afin d'optimiser un maillage triangulaire représentant la surface à reconstruire. L'énergie est définie via un modèle génératif faisant naturellement apparaître des attributs tels que la visibilité ou la photométrie. Ainsi, l'approche présentée peut indifférement s'adapter à divers cas d'application tels que la stéréovision multi-vues, la stéréo photométrique multi-vues ou encore le "shape from shading" multi-vues. Plusieurs approches sont proposées afin de résoudre les problèmes de correspondances de l'apparence pour des scènes non Lambertiennes, dont l'apparence varie en fonction du point de vue. La segmentation, la stéréo photométrique ou encore la réciprocité d'Helmholtz sont des éléments étudiés afin de contraindre la reconstruction. L'exploitation de ces contraintes dans le cadre de reconstruction multi-vues permet de reconstruire des modèles complets 3D avec une meilleure qualité.
|
174 |
Mots visuels pour le calcul de poseBhat, Srikrishna 22 January 2013 (has links) (PDF)
Nous abordons le problème de la mise en correspondance de points dans des images pour calculer la pose d'une caméra par l'algorithme Perspective-n-Point (PnP). Nous calculons la carte 3D, c'est-à-dire les coordonnées 3D et les caractéristiques visuelles de quelques points dans l'environnement grâce à une procédure d'apprentissage hors ligne utilisant un ensemble d'images d'apprentissage. Étant donné une nouvelle image nous utilisons PnP à partir des coordonnées 2D dans l'image de points 3D détectés à l'aide de la carte 3D. Pendant la phase d'apprentissage nous groupons les descripteurs SIFT extraits des images d'apprentissage pour obtenir des collections de positions 2D dans ces images de quelques-uns des points 3D dans l'environnement. Le calcul de SFM (Structure From Motion) est effectué pour obtenir les coordonnées des points correspondants 3D. Pendant la phase de test, les descripteurs SIFT associés aux points 2D projection d'un point 3D de la carte sont utilisés pour reconnaître le point 3D dans une image donnée. Le cadre de travail est semblable à celui des mots visuels utilisés dans différents domaines de la vision par ordinateur. Pendant l'apprentissage, la formation des mots visuelle est effectuée via l'identification de groupes et pendant les tests des points 3D sont identifiés grâce à la reconnaissance des mots visuels. Nous menons des expériences avec des méthodes de formation différentes (k-means et mean-shift) et proposons un nouveau schéma pour la formation des mots visuels pour la phase d'apprentissage. Nous utilisons différentes règles de mise en correspondance, y compris quelques-unes des méthodes standards de classification supervisée pour effectuer la reconnaissance des mots visuels pendant la phase de test. Nous évaluons ces différentes stratégies dans les deux étapes. Afin d'assurer la robustesse aux variations de pose entre images d'apprentissage et images de test, nous explorons différentes façons d'intégrer les descripteurs SIFT extraits de vues synthétiques générées à partir des images d'apprentissage. Nous proposons également une stratégie d'accélération exacte pour l'algorithme mean-shift.
|
175 |
Analyse du comportement humain à partir de la vidéo en étudiant l'orientation du mouvementBenabbas, Yassine 19 November 2012 (has links) (PDF)
La reconnaissance du comportement et la prédiction des activités des personnes depuis la vidéo sont des préoccupations majeures dans le domaine de la vision par ordinateur. L'objectif principal de mon travail de thèse est de proposer des algorithmes qui permettent d'analyser des objets en mouvement à partir de la vidéo pour extraire des comportements humains. Cette analyse est effectuée dans des environnements intérieurs ou extérieurs filmés par des simples webcams ou par des caméras plus sophistiquée. La scène analysée peut être de deux types en fonction du nombre de personnes présentes. On distingue les scènes de foule où le nombre de personnes est important. Dans ce type de scène, nous nous intéressons aux problèmes de la détection d'évènements de foule, à l'analyse des flux et à l'extraction des motifs de mouvement. Le deuxième type de scène se caractérise par la présence d'une seule personne à la fois dans le champ de la caméra. Elle est appelée scène individuelle. Nous y traitons le problème de reconnaissance d'actions humaines. Pour atteindre ces objectifs, nous proposons une approche basée sur trois niveaux d'analyse. Le premier est l'extraction des caractéristiques de bas niveau récupérés les images constituant un flux vidéo (ex. les zones en mouvement). Le deuxième construit des descripteurs pour l'analyse du comportement humain (ex. la direction et la vitesse de mouvement moyennes). Le niveau le plus haut se sert des descripteurs de l'étape intermédiaire afin de fournir aux utilisateurs des résultats concrets sur l'analyse du comportement humain (ex. telle personne marche, une autre court, etc.). Des expérimentations sur des benchmarks connus ont validé nos approches, avec un positionnement très intéressant par rapport à l'état de l'art.
|
176 |
Estimation du regard dans un environnement contrôléLablack, Adel 03 February 2010 (has links) (PDF)
L'objectif principal de mon travail de thèse est l'extraction de la direction du regard (attention visuelle) d'une personne à partir de la vidéo. Cette analyse est effectuée dans un environnement composé d'une scène cible et d'une zone d'observation. La scène cible est une région d'intérêt définie pour être analysée (e.g. un écran plasma large, une image projetée sur un mur, une affiche publicitaire, un linéaire dans un magasin, ou la vitrine d'un magasin). La zone surveillée quant à elle est l'emplacement d'où les personnes regardent la scène cible (e.g. la rue, un couloir ou bien les allées d'un supermarché). Les connaissances qui sont extraites sont alors utilisées pour comprendre le comportement visuel de personnes ainsi que pour la réorganisation de la scène cible. Pour atteindre cet objectif, nous proposons une approche basée sur l'estimation de l'orientation de la tête et la projection du champ visuel pour localiser la région d'intérêt. Nous avons utilisé une méthode d'estimation de l'orientation de la tête basée sur l'apparence globale et sur un modèle cylindrique, et une méthode de projection géométrique pour extraire les régions d'intérêts basée sur les données physiologiques de la vision humaine. L'analyse du comportement visuel des personnes a été effectuée à l'aide d'un ensemble de métriques. Les méthodes proposées ont été validées sur des données vidéos et images.
|
177 |
Contributions à un modèle générique pour l'asservissement visuel des robots parallèles par l'observation des éléments cinématiquesDallej, Tej 06 December 2007 (has links) (PDF)
La contrainte de fermeture des chaînes cinématiques des robots parallèles rend leur modélisation et leur commande complexes. Pourtant, cette architecture leur confère des performances remarquables en terme de charges supportées, de rigidité et de rapidité. Pour bénéficier de ces qualités et simplifier les modèles, nous avons proposé d'utiliser un capteur de vision pour remplacer les modèles géométriques dans la commande et offrir une mesure de l'état au lieu d'une estimation. En premier lieu, nous avons revisité l'asservissement visuel 3D par observation de l'organe terminal dans le cadre specifique des robots parallèles. Dans ce cas, nous avons choisi la pose comme signal µa réguler et montré que la commande ainsi obtenue est une régulation dans l'espace d'etat (qui est egalement l'espace de la tâche). En deuxième lieu, nous nous sommes penché sur le choix d'un signal capteur qui permet une bonne adéquation entre les informations visuelles et les modèles utilisés dans la commande. C'est ainsi que nous avons proposé une architecture dédiée à la commande, unissant plusieurs familles de robots parallèles, qui repose sur l'exhibition dans la chaîne cinématique. Par la suite, nous avons développé une approche innovante basée sur l'observation des éléments référents et les modèles de projection de droite. En utilisant une mesure de la position de ces éléments, cette dernière méthode permet de se passer d'une cible extérieure au robot et d'un calcul de pose additionnel tout en permettant une représentation optimale de la cinématique du robot et en offrant des méthodes d'étalonnage qui utilisent directement le signal capteur. Ces méthodes permettent aussi de se passer des variables articulaires, ce qui peut offrir aux robots parallèles une meilleure autonomie et simplifier leur conception.
|
178 |
Algorithmes et analyses perceptuelles pour la navigation interactive basée imageChaurasia, Gaurav 18 February 2014 (has links) (PDF)
Nous présentons une approche de rendu à base d'images (IBR) qui permet, à partir de photos, de naviguer librement et générer des points de vue quelconques dans des scènes urbaines. Les approches précédentes dépendent des modèles 3D et donnent lieu à des rendus de qualité réduite avec beaucoup d'artefacts. Dans cette thèse, nous proposons une approximation basée sur l'image pour compenser le manque de précision de la géométrie 3D. Nous utilisons un warp d'image guidé par des cartes de profondeur quasi-denses qui donnent lieu à beaucoup moins d'artefacts. En se basant sur cette approche, nous avons développé une méthode entièrement automatique permettant de traiter les scènes complexes. Nous sur-segmentons les images d'entrées en superpixels qui limitent les occlusions sur les bords des objets. Nous introduisons la synthèse de profondeur pour créer une approximation de cette profondeur mal reconstruite dans certaines régions et calculons les warps sur les superpixels pour synthétiser le résultat final. Nous comparons nos résultats à de nombreuses approches récentes. Nous avons analysé les artefacts de l'IBR d'un point de vue perceptif en comparant les artefacts générés par le mélange de plusieurs images avec ceux des transitions temporelles brusques et avons élaboré une méthodologie pour la sélection d'un compromis idéal entre les deux. Nous avons également analysé les distorsions perspectives et avons développé un modèle quantitatif qui permet de prédire les distorsions en fonction des paramètres de capture et de visualisation. Comme application, nous avons mis en œuvre un système de réalité virtuelle qui utilise l'IBR à la place de l'infographie traditionnelle.
|
179 |
EXTENSION DU MODELE PAR SAC DE MOTS VISUELS POUR LA CLASSIFICATION D'IMAGESAvila, Sandra 14 June 2013 (has links) (PDF)
L'information visuelle, représentée sous la forme d'images ou de vidéos numériques, est devenue si omniprésente dans le monde numérique d'aujourd'hui, qu'elle ne peut plus être considérée comme un "citoyen de seconde zone", par rapport à l'information textuelle. Néanmoins, contrairement aux documents textuels, les images sont constituées de pixels ne portant pas d'information sémantique directement accessible, ajoutant ainsi une difficulté à la tâche d'interprétation. Dans ce contexte, la classification d'images est devenue une tâche critique. En particulier, l'identification automatique d'objets complexes et de concepts sémantiques dans les images, a suscité de nombreux travaux récents, aussi bien en Recherche d'Information, Vision par Ordinateur, Traitement d'Image qu'en Intelligence Artificielle. Dans cette thèse, nous traitons le problème de la représentation des images. Notre objectif est la détection de concepts à partir d'une analyse du contenu visuel des images et des vidéos. Pour cela, nous introduisons une nouvelle représentation qui enrichit le modèle classique par sacs de mots visuels. S'appuyant sur la quantification de descripteurs locaux, et l'agrégation de ces descripteurs quantifiés en un vecteur de caractéristique unique, le modèle par sacs de mots visuels a émergé comme l'approche la plus efficace pour la classification d'images. Nous proposons BossaNova, une nouvelle représentation d'images permettant de conserver plus d'information lors de l'opération d'agrégation (pooling) en exploitant la distribution des distances entre les descripteurs locaux et les mots visuels. L'évaluation expérimentale sur plusieurs bases de données de classification d'images, telles que ImageCLEF Photo Annotation, MIRFLICKR, PASCAL VOC et 15-Scenes, a montré l'intérêt de Bossanova vis-à-vis des techniques traditionnelles, même sans utiliser de combinaisons complexes de multiples descripteurs locaux.
|
180 |
Fusion de données visuo-inertielles pour l'estimation de pose et l'autocalibrageScandaroli, Glauco Garcia 14 June 2013 (has links) (PDF)
Les systèmes multi-capteurs exploitent les complémentarités des différentes sources sensorielles. Par exemple, le capteur visuo-inertiel permet d'estimer la pose à haute fréquence et avec une grande précision. Les méthodes de vision mesurent la pose à basse fréquence mais limitent la dérive causée par l'intégration des données inertielles. Les centrales inertielles mesurent des incréments du déplacement à haute fréquence, ce que permet d'initialiser la vision et de compenser la perte momentanée de celle-ci. Cette thèse analyse deux aspects du problème. Premièrement, nous étudions les méthodes visuelles directes pour l'estimation de pose, et proposons une nouvelle technique basée sur la corrélation entre des images et la pondération des régions et des pixels, avec une optimisation inspirée de la méthode de Newton. Notre technique estime la pose même en présence des changements d'illumination extrêmes. Deuxièmement, nous étudions la fusion des données a partir de la théorie de la commande. Nos résultats principaux concernent le développement d'observateurs pour l'estimation de pose, biais IMU et l'autocalibrage. Nous analysons la dynamique de rotation d'un point de vue non linéaire, et fournissons des observateurs stables dans le groupe des matrices de rotation. Par ailleurs, nous analysons la dynamique de translation en tant que système linéaire variant dans le temps, et proposons des conditions d'observabilité uniforme. Les analyses d'observabilité nous permettent de démontrer la stabilité uniforme des observateurs proposés. La méthode visuelle et les observateurs sont testés et comparés aux méthodes classiques avec des simulations et de vraies données visuo-inertielles.
|
Page generated in 0.1181 seconds