Global ETD Search

181	Vision 3D multi-images : contribution à l'obtention de solutions globales par optimisation polynomiale et théorie des moments Bugarin, Florian 05 October 2012 (has links) (PDF) L'objectif général de cette thèse est d'appliquer une méthode d'optimisation polynomiale basée sur la théorie des moments à certains problèmes de vision artificielle. Ces problèmes sont en général non convexes et classiquement résolus à l'aide de méthodes d'optimisation locale. Ces techniques ne convergent généralement pas vers le minimum global et nécessitent de fournir une estimée initiale proche de la solution exacte. Les méthodes d'optimisation globale permettent d'éviter ces inconvénients. L'optimisation polynomiale basée sur la théorie des moments présente en outre l'avantage de prendre en compte des contraintes. Dans cette thèse nous étendrons cette méthode aux problèmes de minimisation d'une somme d'un grand nombre de fractions rationnelles. De plus, sous certaines hypothèses de "faible couplage" ou de "parcimonie" des variables du problème, nous montrerons qu'il est possible de considérer un nombre important de variables tout en conservant des temps de calcul raisonnables. Enfin nous appliquerons les méthodes proposées aux problèmes de vision par ordinateur suivants : minimisation des distorsions projectives induites par le processus de rectification d'images, estimation de la matrice fondamentale, reconstruction 3D multi-vues avec et sans distorsions radiales. Optimisation Globale Optimisation polynomiale Théorie des moments Reconstruction 3D
182	Séquences de maillages : classification et méthodes de segmentation Arcila, Romain 25 November 2011 (has links) (PDF) Les séquences de maillages sont de plus en plus utilisées. Cette augmentation des besoins entraîne un développement des méthodes de génération de séquences de maillages. Ces méthodes de générations peuvent produire des séquences de maillages de natures différentes. Le nombre d'applications utilisant ces séquences s'est également accru, avec par exemple la compression et le transfert de pose. Ces applications nécessitent souvent de calculer une partition de la séquence. Dans cette thèse, nous nous intéressons plus particulièrement à la segmentation en composantes rigides de séquences de maillages. Dans un premier temps, nous formalisons la notion de séquence de maillages et proposons donc une classification permettant de désigner quelles sont les propriétés attachées à un type de séquence, et ainsi de décrire précisément quel type de séquence est nécessaire pour une application donnée. Dans un second temps, nous formalisons la notion de segmentation de séquence de maillages, et présentons également l'état de l'art des méthodes de segmentation sur les séquences de maillages. Ensuite, nous proposons une première méthode de type globale pour les séquences stables de maillages, fondée sur la fusion de régions. Par la suite, nous présentons deux autres méthodes, reposant sur la classification spectrale. La première, produit un ensemble de segmentations globales, tandis que la seconde génère une segmentation globale ou une segmentation temporellement variable. Nous mettons également en place un système d'évaluation quantitative des segmentations. Enfin, nous présentons les différentes perspectives liées à la segmentation. [INFO:INFO_MM] Informatique/Multimédia [INFO:INFO_GR] Computer Science/Graphics Séquence de maillages Classification Segmentation Composantes rigides
183	Description locale d'images fixes dans le domaine compressé Tonnin, François 12 June 2006 (has links) (PDF) L'augmentation des bandes passantes a modifié la conception des standards d'images. Il est désormais intéressant de définir des standards offrant une large gamme de services, quitte à ce qu'ils soient moins performants en compression. Mes travaux consistent à transposer dans le domaine compressé les techniques de description locale utilisées dans de nombreuses applications visuelles. La compression scalable et la description requièrent toutes deux la transformation préalable de l'image dans un espace-échelle. Néanmoins les transformées à échantillonnage critique comme celles utilisées dans le standard JPEG2000 sont fortement variantes aux similitudes et donc inadaptées au problème de description. Des représentations redondantes sont donc investiguées. Parmi celles-ci, les représentations directionnelles sont d'un intérêt particulier car permettent la transposition du descripteur SIFT, faisant aujourd'hui référence. La robustesse du descripteur est évaluée en fonction du niveau de compression. La méthode est validée dans un schéma de détection automatique de copies dans le domaine compressé description d'image domaine compressé représentations directionnelles
184	Modélisation 4D à partir de plusieurs caméras Letouzey, Antoine 30 July 2012 (has links) (PDF) Les systèmes multi-caméras permettent de nos jours d'obtenir à la fois des flux d'images couleur mais aussi des flux de modèles 3D. Ils permettent ainsi l'étude de scènes complexes à la fois de par les éléments qui la composent mais aussi de par les mouvements et les déformations que subissent ces éléments au fil du temps. Une des principales limitations de ces données est le manque de cohérence temporelle entre les observations obtenues à deux instants de temps successifs. Les travaux présentés dans cette thèse proposent des pistes pour retrouver cette cohérence temporelle. Dans un premier temps nous nous sommes penchés sur le problème de l'estimation de champs de déplacement denses à la surface des objets de la scène. L'approche que nous proposons permet de combiner efficacement des informations photométriques provenant des caméras avec des informations géométriques. Cette méthode a été étendue, par la suite, au cas de systèmes multi-caméras hybrides composés de capteurs couleurs et de profondeur (tel que le capteur kinect). Dans un second temps nous proposons une méthode nouvelle permettant l'apprentissage de la vraie topologie d'une scène dynamique au fil d'une séquence de données 4D (3D + temps). Ces travaux permettent de construire au fur et à mesure des observations un modèle de référence de plus en plus complet de la scène observée. [INFO:INFO_GR] Computer Science/Graphics Vision par ordinateur Modélisation Surfaces
185	Reconnaissance des actions humaines à partir d'une séquence vidéo Touati, Redha 12 1900 (has links) The work done in this master's thesis, presents a new system for the recognition of human actions from a video sequence. The system uses, as input, a video sequence taken by a static camera. A binary segmentation method of the the video sequence is first achieved, by a learning algorithm, in order to detect and extract the different people from the background. To recognize an action, the system then exploits a set of prototypes generated from an MDS-based dimensionality reduction technique, from two different points of view in the video sequence. This dimensionality reduction technique, according to two different viewpoints, allows us to model each human action of the training base with a set of prototypes (supposed to be similar for each class) represented in a low dimensional non-linear space. The prototypes, extracted according to the two viewpoints, are fed to a $K$-NN classifier which allows us to identify the human action that takes place in the video sequence. The experiments of our model conducted on the Weizmann dataset of human actions provide interesting results compared to the other state-of-the art (and often more complicated) methods. These experiments show first the sensitivity of our model for each viewpoint and its effectiveness to recognize the different actions, with a variable but satisfactory recognition rate and also the results obtained by the fusion of these two points of view, which allows us to achieve a high performance recognition rate. / Le travail mené dans le cadre de ce projet de maîtrise vise à présenter un nouveau système de reconnaissance d’actions humaines à partir d'une séquence d'images vidéo. Le système utilise en entrée une séquence vidéo prise par une caméra statique. Une méthode de segmentation binaire est d'abord effectuée, grâce à un algorithme d’apprentissage, afin de détecter les différentes personnes de l'arrière-plan. Afin de reconnaitre une action, le système exploite ensuite un ensemble de prototypes générés, par une technique de réduction de dimensionnalité MDS, à partir de deux points de vue différents dans la séquence d'images. Cette étape de réduction de dimensionnalité, selon deux points de vue différents, permet de modéliser chaque action de la base d'apprentissage par un ensemble de prototypes (censé être relativement similaire pour chaque classe) représentés dans un espace de faible dimension non linéaire. Les prototypes extraits selon les deux points de vue sont amenés à un classifieur K-ppv qui permet de reconnaitre l'action qui se déroule dans la séquence vidéo. Les expérimentations de ce système sur la base d’actions humaines de Wiezmann procurent des résultats assez intéressants comparés à d’autres méthodes plus complexes. Ces expériences montrent d'une part, la sensibilité du système pour chaque point de vue et son efficacité à reconnaitre les différentes actions, avec un taux de reconnaissance variable mais satisfaisant, ainsi que les résultats obtenus par la fusion de ces deux points de vue, qui permet l'obtention de taux de reconnaissance très performant. Traitement de la vidéo Reconnaissance des gestes Réduction de dimensionnalité Reconnaissance des formes Video processing Human gait analysis Gesture recognition Reduction of dimensionality Shape recognition Analyse des activités humaines
186	Tout est dans le regard : reconnaissance visuelle du comportement humain en vue subjective Martinez, Francis 09 July 2013 (has links) (PDF) Dans ce manuscrit, nous nous intéressons à l'analyse visuelle du comportement humain à partir de l'information du regard. A l'inverse des caméras statiques et externes, nous adoptons un point de vue subjectif, ce qui permet de placer le contexte d'étude au centre de l'être humain et de ses interactions avec l'environnement. Pour atteindre cet objectif, nous avons développé un eye-tracker porté, ainsi que des outils d'analyse associés, en particulier la reconnaissance d'attention dans le cadre d'interactions sociales et la reconnaissance d'activités subjectives. Dans la première partie de cette thèse, nous présentons un eye-tracker binoculaire tête porté à partir duquel nous estimons le regard du sujet. Contrairement à la plupart des systèmes basés sur l'éclairage infrarouge, notre approche fonctionne en éclairage visible. Pour cela, nous nous inspirons des méthodes basées apparence qui, au lieu, d'extraire des caractéristiques géométriques (par exemple, la pupille), exploitent l'image de l'oeil dans sa globalité et elles permettent donc de prendre en compte toutes les caractéristiques de l'oeil. Pour apprendre la relation entre les caractéristiques d'apparence et les coordonnées du point de regard dans l'image de la caméra scène, deux modèles de régression sont comparés : le Support Vector Regression et le Relevance Vector Regression. Nous proposons, ensuite, une nouvelle méthode de reconnaissance d'attention en vue subjective. Le regard subjectif est obtenu à l'aide de notre eye-tracker, tandis que le regard d'autrui est construit à partir de l'estimation de l'orientation de la tête par régression à noyaux multiples localisés. En combinant ces deux types de regard, nous calculons alors des scores d'attention qui permettent d'identifier des motifs attentionnels dyadiques tels que le regard mutuel, mais aussi des motifs d'ordre supérieur émanant de la nature triadique de notre expérience. Notre outil final d'analyse concerne la reconnaissance d'activités basée sur le regard et l'égo-mouvement. Ces mouvements sont quantifiés en fonction de leur direction et de leur amplitude et encodés sous forme de symboles. Des caractéristiques statistiques sont alors extraites via un codage multi-échelle et un partitionnement temporel. Pour la classification et la segmentation d'activités, nous décrivons une approche par apprentissage contextuel en intégrant des scores de prédiction d'un voisinage à longue portée. Une étude détaillée permet également de comprendre quelles caractéristiques jouent un rôle prédominant dans la représentation d'une activité. suivi du regard estimation de la pose de la tête vue subjective modèle d'apparence mouvements oculaires régression classification apprentissage contextuel égo-mouvement
187	Algorithmes et analyses perceptuelles pour la navigation interactive basé image Chaurasia, Gaurav 18 February 2014 (has links) (PDF) Nous présentons une approche de rendu à base d'images qui permet, à partir de photos, de naviguer librement et générer des points de vue quelconques dans des scènes urbaines. Les approches précédentes se basent sur un modèle géométrique complet et précis de la scène. La qualité des résultats produits par ces méthodes se dégrade lorsque la géométrie est approximative. Dans cette thèse, nous proposons une approximation basée sur l'image pour compenser le manque de précision de la géométrie. Dans une première approche, nous utilisons une déformation discontinue des photos guidée par des cartes de profondeur quasi-denses, ce qui produit de meilleurs résultats que le plaquage de texture utilisé par les méthodes précédentes, en particulier lorsque la géométrie est imprécise. Cette approche nécessite quelques indications utilisateur pour identifier les bordures d'occlusion dans les photos. Nous proposons ensuite une méthode entièrement automatique basée sur la même idée de déformation d'image. Cette méthode permet de traiter des scènes plus complexes avec un plus grand nombre de photos. Nous évitons l'intervention utilisateur en sur-segmentant les images d'entrées pour former des superpixels. Nous déformons chaque superpixel indépendamment en utilisant l'information de profondeur clairsemée. Nous proposons également un algorithme de synthèse de profondeur approximative pour traiter les zones de l'image où la géométrie n'est pas disponible. Nous comparons nos résultats à de nombreuses approches récentes et montrons que notre méthode permet une navigation virtuelle libre. Nous avons aussi étudié les défauts du rendu à base d'images d'un point de vue perceptif. Dans une première études controlées, nous avons évalué la perception des distorsions de perspective produites lorsqu'une seule image est projetée sur une géométrie planaire. Les données obtenues lors de cette étude nous ont permis de développer un modèle quantitatif permettant de prédire les distorsions perçues en fonction des paramètres de capture et de visualisation. Dans une autre étude nous comparons les défauts visuels produits par des transitions d'images douces ou abruptes. Nous avons déduit de cette étude des conseils pour choisir le meilleur compromis entre les deux types de transition. Ces deux études ont motivé des choix de conception de nos algorithmes de rendu à base d'images. Enfin, nous démontrons l'utilisation de notre approche pour la thérapie cognitive, ce qui représente la première application de réalité virtuelle à base d'images. Notre méthode permet de réduire considérablement le coût de modélisation 3D d'une scène de réalité virtuelle tout en produisant des visites virtuelles très réalistes. [INFO:INFO_GR] Computer Science/Graphics Vision par ordinateur infographie rendu à base d'images reconstruction 3D perception réalité virtuelle
188	Apprentissage de Représentations Visuelles Profondes Goh, Hanlin 12 July 2013 (has links) (PDF) Les avancées récentes en apprentissage profond et en traitement d'image présentent l'opportunité d'unifier ces deux champs de recherche complémentaires pour une meilleure résolution du problème de classification d'images dans des catégories sémantiques. L'apprentissage profond apporte au traitement d'image le pouvoir de représentation nécessaire à l'amélioration des performances des méthodes de classification d'images. Cette thèse propose de nouvelles méthodes d'apprentissage de représentations visuelles profondes pour la résolution de cette tache. L'apprentissage profond a été abordé sous deux angles. D'abord nous nous sommes intéressés à l'apprentissage non supervisé de représentations latentes ayant certaines propriétés à partir de données en entrée. Il s'agit ici d'intégrer une connaissance à priori, à travers un terme de régularisation, dans l'apprentissage d'une machine de Boltzmann restreinte. Nous proposons plusieurs formes de régularisation qui induisent différentes propriétés telles que la parcimonie, la sélectivité et l'organisation en structure topographique. Le second aspect consiste au passage graduel de l'apprentissage non supervisé à l'apprentissage supervisé de réseaux profonds. Ce but est réalisé par l'introduction sous forme de supervision, d'une information relative à la catégorie sémantique. Deux nouvelles méthodes sont proposées. Le premier est basé sur une régularisation top-down de réseaux de croyance profonds à base de machines des Boltzmann restreintes. Le second optimise un cout intégrant un critère de reconstruction et un critère de supervision pour l'entrainement d'autoencodeurs profonds. Les méthodes proposées ont été appliquées au problème de classification d'images. Nous avons adopté le modèle sac-de-mots comme modèle de base parce qu'il offre d'importantes possibilités grâce à l'utilisation de descripteurs locaux robustes et de pooling par pyramides spatiales qui prennent en compte l'information spatiale de l'image. L'apprentissage profonds avec agrégation spatiale est utilisé pour apprendre un dictionnaire hiérarchique pour l'encodage de représentations visuelles de niveau intermédiaire. Cette méthode donne des résultats très compétitifs en classification de scènes et d'images. Les dictionnaires visuels appris contiennent diverses informations non-redondantes ayant une structure spatiale cohérente. L'inférence est aussi très rapide. Nous avons par la suite optimisé l'étape de pooling sur la base du codage produit par le dictionnaire hiérarchique précédemment appris en introduisant introduit une nouvelle paramétrisation dérivable de l'opération de pooling qui permet un apprentissage par descente de gradient utilisant l'algorithme de rétro-propagation. Ceci est la première tentative d'unification de l'apprentissage profond et du modèle de sac de mots. Bien que cette fusion puisse sembler évidente, l'union de plusieurs aspects de l'apprentissage profond de représentations visuelles demeure une tache complexe à bien des égards et requiert encore un effort de recherche important. apprentissage profond classification d'images représentations visuelles hierarchiques
189	Contributions en segmentation statistique d'images et reconnaissance de formes 2D Derrode, Stéphane 29 April 2008 (has links) (PDF) Ce mémoire retrace les activités de recherche que j'ai développées depuis 9 années dont 7 passées au sein de l'équipe Groupe Signaux Multidimensionnels de l'Institut Fresnel et à l'École Centrale Marseille. Les travaux que je présente explorent certains aspects de la segmentation statistique d'images pour des applications en imagerie spatiale et de la description invariante de formes 2D pour la reconnaissance d'objets en imagerie vidéo. Plus précisément, la première partie de ce document expose plusieurs extensions du modèle des chaînes de Markov cachées (CMC). Ces extensions portent sur des modifications soit de la modélisation des données observées avec le modèle de chaîne de Markov vectorielle et des données cachées avec le modèle de chaîne de Markov floue, soit de la topologie de la chaîne -et donc des hypothèses de dépendance statistique sous-jacentes-, aboutissant aux modèles appelés chaîne de Markov d'ordre supérieur et chaîne de Markov couple. Ces modèles sont évalués dans le cadre de la segmentation d'images radar et de la détection de changements lors de catastrophes naturelles. La seconde partie traite de la reconnaissance de formes 2D, avec pour thème centrale l'invariance géométrique. Dans un premier temps nous avons proposé de nouvelles familles complètes de descripteurs de forme invariants aux similitudes issues de la transformée de Fourier-Mellin et des moments complexes, pour des applications d'indexation de bases d'objets à niveaux de gris. La suite des travaux s'est orientée vers la détection d'objets avec l'intégration d'un a priori de forme invariant aux similitudes dans le modèle des snakes et la poursuite d'objets d'intérêt dans les séquences vidéo par un modèle de mélange de couleurs non gaussien. Le document se conclut avec les perspectives que je compte donner à mes recherches, notamment les projets combinant segmentation d'images et reconnaissance de formes, dans le cadre des images très haute résolution des futurs capteurs optique et radar qui permettent d'accéder à des données sub-métriques. Segmentation d'images Reconnaissance de formes Télédétection Chaîne de Markov cachées Mélanges non gaussiens Transformée de Fourier-Mellin Contour actifs
190	Contraintes et opportunités pour l'automatisation de l'inspection visuelle au regard du processus humain / Constraints and opportunities for automation of visual inspection with regard to the human process Désage, Simon-Frédéric 24 November 2015 (has links) Ces travaux de recherche ont pour ambition de contribuer à l'automatisation de l'inspection visuelle, dans le cadre du contrôle qualité de pièces métalliques à géométrie complexe. En soi, de nombreuses techniques d'optique, de numérisation, d'implémentation de rendu photo-réaliste, de classification d'images ou de données, et de reconnaissance de formes sont déjà fortement développées et appliquées chacune dans des domaines particuliers. Or, elles ne sont pas, ou rarement pour des cas particuliers, combinées pour obtenir une méthode complète de numérisation de l'apparence jusqu'à la reconnaissance, effective et perceptuelle, de l'objet et des anomalies esthétiques.Ces travaux ont profité des avancements des thèses précédentes sur la formalisation du contrôle qualité ainsi que sur un système agile de numérisation d'aspect de surface permettant la mise en évidence de toute la diversité d'anomalies esthétiques de surfaces. Ainsi, la contribution majeure réside dans l'adaptation des méthodes de traitement d'images à la structure formalisée du contrôle qualité, au format riche des données d'apparence et aux méthodes de classification pour réaliser la reconnaissance telle que le contrôleur humain.En ce sens, la thèse propose un décryptage des différentes méthodologies liées au contrôle qualité, au comportement du contrôleur humain, aux anomalies d'aspect de surface, aux managements et traitements de l'information visuelle, jusqu'à la combinaison de toutes ces contraintes pour obtenir un système de substitution partielle au contrôleur humain. L'objectif de la thèse, et du décryptage, est d'identifier et de réduire les sources de variabilité pour obtenir un meilleur contrôle qualité, notamment par l'automatisation intelligente et structurée de l'inspection visuelle. A partir d'un dispositif de vision par ordinateur choisi, la solution proposée consiste à analyser la texture visuelle. Celle est considérée en tant que signature globale de l'information d'apparence visuelle supérieure à une unique image contenant des textures images. L'analyse est effectuée avec des mécanismes de reconnaissance de formes et d'apprentissage machine pour établir la détection et l'évaluation automatiques d'anomalies d'aspect. / This research has the ambition to contribute to the automation of visual inspection, in the quality control of complex geometry metal parts. Firstly, many optical techniques, scanning, implementation of photorealistic rendering, classification of images or data, and pattern recognition are already highly developed and applied in each particular areas. But they are not, or rarely, in special cases, combined for a complete scanning method of appearance to the recognition, effective and perceptual, of object and aesthetic anomalies.This work benefited from the advancements of previous thesis on the formalization of quality control, as well as an agile system of surface appearance scanning to highlight the diversity of aesthetic anomalies surfaces. Thus, the major contribution lies in the adaptation of image processing methods to the formal structure of quality control, rich appearance data format and classification methods to achieve recognition as the human controller.In this sense, the thesis deciphers the different methodologies related to quality control, the human controller processes, surface appearance defects, the managements and processing of visual information, to the combination of all these constraints for a partial substitution system of the human controller. The aim of the thesis is to identify and reduce sources of variability to obtain better quality control, including through the intelligent and structured automation of visual inspection. From a selected computer vision device, the proposed solution is to analyze visual texture. This is regarded as a global signature of superior visual appearance information to a single image containing images textures. The analysis is performed with pattern recognition and machine learning mechanisms to develop automatic detection and evaluation of appearance defects. Traitement d'images Inspection visuelle Texture visuelle Vision par ordinateur Aspects de surface Apprentissage machine Reconnaissance de formes Automatisation Image processing Visual inspection Visual texture Computer vision Surface appearance Machine learning Pattern recognition Automation 006.4

Search results