Spelling suggestions: "subject:"disision para ordinateur)"" "subject:"decisision para ordinateur)""
351 |
Développement d'aptitudes audio-visuelles pour le robot humanoïde NAOSanchez-Riera, Jordi 14 June 2013 (has links) (PDF)
Les robots humanoïdes sont de plus en plus important dans nos vies quotidiennes en raison du fort potentiel qu'ils ont pour aider les personnes. Pour être en mesure d'aider, il est nécessaire que le robot peut communiquer avec les humains, et pour cela, il est l'information importante du monde collectées par les capteurs intégrés au robot. Dans notre cas particulier, le rellevant la plupart sont des cam ́eras et des micros, qui peuvent fournir une description assez complète de l'environnement du robot. Dans cette th'ese, nous avons l'intention d'utiliser les informations fournies par les caméras et les micros de robot humano ̈ıde Nao de d ́evelopper des applications qui permettent une interaction homme-robot. Avec l'information visuelle deux algorithmes diff ́erents st ́er ́eo, qui serviront de base pour concevoir d'autres applications, sont pr ́esent ́es. La premi'ere utilise des in- formations provenant framse temporelle diff ́erente de surmonter certains prob- lmes avec les r ́egions sans texture, tandis que la deuxi'eme chaˆıne hi-fi et le flux optique sont recherch ́ees en mˆeme temps afin d'avoir plus d'informations sur la sc'ene. Dans les vecteurs de b ́eton, de position et de vitesse pour chaque pixel. Est le dernier algorithme que le descripteur est con ̧cu pour la reconnaissance d'actions avec des donn ́ees st ́er ́eo. Le but de cela est de tirer parti de l'information suppl ́ementaire qui peut fournir l'st ́er ́eo comme en face de traditionnels algo- rithmes monoculaires qui existent 'a ce jour. Pour compl ́eter et am ́eliorer le taux de reconnaissance moyen de la reconnaissance d'actions, l'information auditive est ́egalement utilis ́e. Il est bien connu que les donn ́ees provenant visuelle et capteurs auditifs est compl ́ementaire et peut aider dans des situations ou' des objets sont cach ́e ou ne sont tout simplement pas l'a. Enfin, une derni'ere application vers une meilleure interaction entre l'humain et le robot est un d ́etecteur de haut-parleur. en ce cas, les donn ́ees des deux modalit ́es est ́egalement utilis ́e, mais il en diff'ere sur la mani'ere dont les informations sont combin ́ees, ainsi que les informations extraites de capteurs visuels et auditifs. Presque la totalit ́e des applications sont mises en œuvre et ex ́ecuter en robot humano ̈ıde NAO.
|
352 |
Représentation et enregistrement de formes visuelles 3D à l'aide de Laplacien graphe et noyau de la chaleurSharma, Avinash 29 October 2012 (has links) (PDF)
Analyse de la forme 3D est un sujet de recherche extrêmement actif dans les deux l'infographie et vision par ordinateur. Dans la vision par ordinateur, l'acquisition de formes et de modélisation 3D sont généralement le résultat du traitement des données complexes et des méthodes d'analyse de données. Il existe de nombreuses situations concrètes où une forme visuelle est modélisé par un nuage de points observés avec une variété de capteurs 2D et 3D. Contrairement aux données graphiques, les données sensorielles ne sont pas, dans le cas général, uniformément répartie sur toute la surface des objets observés et ils sont souvent corrompus par le bruit du capteur, les valeurs aberrantes, les propriétés de surface (diffusion, spécularités, couleur, etc), l'auto occlusions, les conditions d'éclairage variables. Par ailleurs, le même objet que l'on observe par différents capteurs, à partir de points de vue légèrement différents, ou à des moments différents cas peuvent donner la répartition des points tout à fait différentes, des niveaux de bruit et, plus particulièrement, les différences topologiques, par exemple, la fusion des mains. Dans cette thèse, nous présentons une représentation de multi-échelle des formes articulés et concevoir de nouvelles méthodes d'analyse de forme, en gardant à l'esprit les défis posés par les données de forme visuelle. En particulier, nous analysons en détail le cadre de diffusion de chaleur pour représentation multi-échelle de formes 3D et proposer des solutions pour la segmentation et d'enregistrement en utilisant les méthodes spectrales graphique et divers algorithmes d'apprentissage automatique, à savoir, le modèle de mélange gaussien (GMM) et le Espérance-Maximisation (EM). Nous présentons d'abord l'arrière-plan mathématique sur la géométrie différentielle et l'isomorphisme graphique suivie par l'introduction de la représentation spectrale de formes 3D articulés. Ensuite, nous présentons une nouvelle méthode non supervisée pour la segmentation de la forme 3D par l'analyse des vecteurs propres Laplacien de graphe. Nous décrivons ensuite une solution semi-supervisé pour la segmentation de forme basée sur un nouveau paradigme d'apprendre, d'aligner et de transférer. Ensuite, nous étendre la représentation de forme 3D à une configuration multi-échelle en décrivant le noyau de la chaleur cadre. Enfin, nous présentons une méthode d'appariement dense grâce à la représentation multi-échelle de la chaleur du noyau qui peut gérer les changements topologiques dans des formes visuelles et de conclure par une discussion détaillée et l'orientation future des travaux.
|
353 |
Vision 3D multi-images : contribution à l'obtention de solutions globales par optimisation polynomiale et théorie des momentsBugarin, Florian 05 October 2012 (has links) (PDF)
L'objectif général de cette thèse est d'appliquer une méthode d'optimisation polynomiale basée sur la théorie des moments à certains problèmes de vision artificielle. Ces problèmes sont en général non convexes et classiquement résolus à l'aide de méthodes d'optimisation locale. Ces techniques ne convergent généralement pas vers le minimum global et nécessitent de fournir une estimée initiale proche de la solution exacte. Les méthodes d'optimisation globale permettent d'éviter ces inconvénients. L'optimisation polynomiale basée sur la théorie des moments présente en outre l'avantage de prendre en compte des contraintes. Dans cette thèse nous étendrons cette méthode aux problèmes de minimisation d'une somme d'un grand nombre de fractions rationnelles. De plus, sous certaines hypothèses de "faible couplage" ou de "parcimonie" des variables du problème, nous montrerons qu'il est possible de considérer un nombre important de variables tout en conservant des temps de calcul raisonnables. Enfin nous appliquerons les méthodes proposées aux problèmes de vision par ordinateur suivants : minimisation des distorsions projectives induites par le processus de rectification d'images, estimation de la matrice fondamentale, reconstruction 3D multi-vues avec et sans distorsions radiales.
|
354 |
Séquences de maillages : classification et méthodes de segmentationArcila, Romain 25 November 2011 (has links) (PDF)
Les séquences de maillages sont de plus en plus utilisées. Cette augmentation des besoins entraîne un développement des méthodes de génération de séquences de maillages. Ces méthodes de générations peuvent produire des séquences de maillages de natures différentes. Le nombre d'applications utilisant ces séquences s'est également accru, avec par exemple la compression et le transfert de pose. Ces applications nécessitent souvent de calculer une partition de la séquence. Dans cette thèse, nous nous intéressons plus particulièrement à la segmentation en composantes rigides de séquences de maillages. Dans un premier temps, nous formalisons la notion de séquence de maillages et proposons donc une classification permettant de désigner quelles sont les propriétés attachées à un type de séquence, et ainsi de décrire précisément quel type de séquence est nécessaire pour une application donnée. Dans un second temps, nous formalisons la notion de segmentation de séquence de maillages, et présentons également l'état de l'art des méthodes de segmentation sur les séquences de maillages. Ensuite, nous proposons une première méthode de type globale pour les séquences stables de maillages, fondée sur la fusion de régions. Par la suite, nous présentons deux autres méthodes, reposant sur la classification spectrale. La première, produit un ensemble de segmentations globales, tandis que la seconde génère une segmentation globale ou une segmentation temporellement variable. Nous mettons également en place un système d'évaluation quantitative des segmentations. Enfin, nous présentons les différentes perspectives liées à la segmentation.
|
355 |
Description locale d'images fixes dans le domaine compresséTonnin, François 12 June 2006 (has links) (PDF)
L'augmentation des bandes passantes a modifié la conception des standards d'images. Il est désormais intéressant de définir des standards offrant une large gamme de services, quitte à ce qu'ils soient moins performants en compression. Mes travaux consistent à transposer dans le domaine compressé les techniques de description locale utilisées dans de nombreuses applications visuelles. La compression scalable et la description requièrent toutes deux la transformation préalable de l'image dans un espace-échelle. Néanmoins les transformées à échantillonnage critique comme celles utilisées dans le standard JPEG2000 sont fortement variantes aux similitudes et donc inadaptées au problème de description. Des représentations redondantes sont donc investiguées. Parmi celles-ci, les représentations directionnelles sont d'un intérêt particulier car permettent la transposition du descripteur SIFT, faisant aujourd'hui référence. La robustesse du descripteur est évaluée en fonction du niveau de compression. La méthode est validée dans un schéma de détection automatique de copies dans le domaine compressé
|
356 |
Positionnement robuste et précis de réseaux dimages.Moulon, Pierre 10 January 2014 (has links) (PDF)
Calculer une représentation 3D d'une scène rigide à partir d'une collection d'images est aujourd'hui possible grâce aux progrès réalisés par les méthodes de stéréo-vision multi-vues, et ce avec un simple appareil photographique. Le principe de reconstruction, découlant de travaux de photogrammétrie, consiste à recouper les informations provenant de plusieurs images, prises de points de vue différents, pour identifier les positions et orientations relatives de chaque cliché. Une fois les positions et orientations de caméras déterminées (calibration externe), la structure de la scène peut être reconstruite. Afin de résoudre le problème de calcul de la structure à partir du mouvement des caméras (Structure-from-Motion), des méthodes séquentielles et globales ont été proposées. Par nature, les méthodes séquentielles ont tendance à accumuler les erreurs. Cela donne lieu le plus souvent à des trajectoires de caméras qui dérivent et, lorsque les photos sont acquises autour d'un objet, à des reconstructions où les boucles ne se referment pas. Au contraire, les méthodes globales considèrent le réseau de caméras dans son ensemble. La configuration de caméras est recherchée et optimisée pour conserver au mieux l'ensemble des contraintes de cyclicité du réseau. Des reconstructions de meilleure qualité peuvent être obtenues, au détriment toutefois du temps de calcul. Cette thèse propose d'analyser des problèmes critiques au cœur de ces méthodes de calibration externe et de fournir des solutions pour améliorer leur performance (précision, robustesse, vitesse) et leur facilité d'utilisation (paramétrisation restreinte). Nous proposons tout d'abord un algorithme de suivi de points rapide et efficace. Nous montrons ensuite que l'utilisation généralisée de l'estimation robuste de modèles paramétriques a contrario permet de libérer l'utilisateur du réglage de seuils de détection, et d'obtenir une chaine de reconstruction qui s'adapte automatiquement aux données. Dans un second temps, nous utilisons ces estimations robustes adaptatives et une formulation du problème qui permet des optimisations convexes pour construire une chaine de calibration globale capable de passer à l'échelle. Nos expériences démontrent que les estimations identifiées a contrario améliorent de manière notable la qualité d'estimation de la position et de l'orientation des clichés, tout en étant automatiques et sans paramètres, et ce même sur des réseaux de caméras complexes. Nous proposons enfin d'améliorer le rendu visuel des reconstructions en proposant une optimisation convexe de la consistance colorée entre images.
|
357 |
Tout est dans le regard : reconnaissance visuelle du comportement humain en vue subjectiveMartinez, Francis 09 July 2013 (has links) (PDF)
Dans ce manuscrit, nous nous intéressons à l'analyse visuelle du comportement humain à partir de l'information du regard. A l'inverse des caméras statiques et externes, nous adoptons un point de vue subjectif, ce qui permet de placer le contexte d'étude au centre de l'être humain et de ses interactions avec l'environnement. Pour atteindre cet objectif, nous avons développé un eye-tracker porté, ainsi que des outils d'analyse associés, en particulier la reconnaissance d'attention dans le cadre d'interactions sociales et la reconnaissance d'activités subjectives. Dans la première partie de cette thèse, nous présentons un eye-tracker binoculaire tête porté à partir duquel nous estimons le regard du sujet. Contrairement à la plupart des systèmes basés sur l'éclairage infrarouge, notre approche fonctionne en éclairage visible. Pour cela, nous nous inspirons des méthodes basées apparence qui, au lieu, d'extraire des caractéristiques géométriques (par exemple, la pupille), exploitent l'image de l'oeil dans sa globalité et elles permettent donc de prendre en compte toutes les caractéristiques de l'oeil. Pour apprendre la relation entre les caractéristiques d'apparence et les coordonnées du point de regard dans l'image de la caméra scène, deux modèles de régression sont comparés : le Support Vector Regression et le Relevance Vector Regression. Nous proposons, ensuite, une nouvelle méthode de reconnaissance d'attention en vue subjective. Le regard subjectif est obtenu à l'aide de notre eye-tracker, tandis que le regard d'autrui est construit à partir de l'estimation de l'orientation de la tête par régression à noyaux multiples localisés. En combinant ces deux types de regard, nous calculons alors des scores d'attention qui permettent d'identifier des motifs attentionnels dyadiques tels que le regard mutuel, mais aussi des motifs d'ordre supérieur émanant de la nature triadique de notre expérience. Notre outil final d'analyse concerne la reconnaissance d'activités basée sur le regard et l'égo-mouvement. Ces mouvements sont quantifiés en fonction de leur direction et de leur amplitude et encodés sous forme de symboles. Des caractéristiques statistiques sont alors extraites via un codage multi-échelle et un partitionnement temporel. Pour la classification et la segmentation d'activités, nous décrivons une approche par apprentissage contextuel en intégrant des scores de prédiction d'un voisinage à longue portée. Une étude détaillée permet également de comprendre quelles caractéristiques jouent un rôle prédominant dans la représentation d'une activité.
|
358 |
Apprentissage de Représentations Visuelles ProfondesGoh, Hanlin 12 July 2013 (has links) (PDF)
Les avancées récentes en apprentissage profond et en traitement d'image présentent l'opportunité d'unifier ces deux champs de recherche complémentaires pour une meilleure résolution du problème de classification d'images dans des catégories sémantiques. L'apprentissage profond apporte au traitement d'image le pouvoir de représentation nécessaire à l'amélioration des performances des méthodes de classification d'images. Cette thèse propose de nouvelles méthodes d'apprentissage de représentations visuelles profondes pour la résolution de cette tache. L'apprentissage profond a été abordé sous deux angles. D'abord nous nous sommes intéressés à l'apprentissage non supervisé de représentations latentes ayant certaines propriétés à partir de données en entrée. Il s'agit ici d'intégrer une connaissance à priori, à travers un terme de régularisation, dans l'apprentissage d'une machine de Boltzmann restreinte. Nous proposons plusieurs formes de régularisation qui induisent différentes propriétés telles que la parcimonie, la sélectivité et l'organisation en structure topographique. Le second aspect consiste au passage graduel de l'apprentissage non supervisé à l'apprentissage supervisé de réseaux profonds. Ce but est réalisé par l'introduction sous forme de supervision, d'une information relative à la catégorie sémantique. Deux nouvelles méthodes sont proposées. Le premier est basé sur une régularisation top-down de réseaux de croyance profonds à base de machines des Boltzmann restreintes. Le second optimise un cout intégrant un critère de reconstruction et un critère de supervision pour l'entrainement d'autoencodeurs profonds. Les méthodes proposées ont été appliquées au problème de classification d'images. Nous avons adopté le modèle sac-de-mots comme modèle de base parce qu'il offre d'importantes possibilités grâce à l'utilisation de descripteurs locaux robustes et de pooling par pyramides spatiales qui prennent en compte l'information spatiale de l'image. L'apprentissage profonds avec agrégation spatiale est utilisé pour apprendre un dictionnaire hiérarchique pour l'encodage de représentations visuelles de niveau intermédiaire. Cette méthode donne des résultats très compétitifs en classification de scènes et d'images. Les dictionnaires visuels appris contiennent diverses informations non-redondantes ayant une structure spatiale cohérente. L'inférence est aussi très rapide. Nous avons par la suite optimisé l'étape de pooling sur la base du codage produit par le dictionnaire hiérarchique précédemment appris en introduisant introduit une nouvelle paramétrisation dérivable de l'opération de pooling qui permet un apprentissage par descente de gradient utilisant l'algorithme de rétro-propagation. Ceci est la première tentative d'unification de l'apprentissage profond et du modèle de sac de mots. Bien que cette fusion puisse sembler évidente, l'union de plusieurs aspects de l'apprentissage profond de représentations visuelles demeure une tache complexe à bien des égards et requiert encore un effort de recherche important.
|
359 |
Contraintes et opportunités pour l'automatisation de l'inspection visuelle au regard du processus humain / Constraints and opportunities for automation of visual inspection with regard to the human processDésage, Simon-Frédéric 24 November 2015 (has links)
Ces travaux de recherche ont pour ambition de contribuer à l'automatisation de l'inspection visuelle, dans le cadre du contrôle qualité de pièces métalliques à géométrie complexe. En soi, de nombreuses techniques d'optique, de numérisation, d'implémentation de rendu photo-réaliste, de classification d'images ou de données, et de reconnaissance de formes sont déjà fortement développées et appliquées chacune dans des domaines particuliers. Or, elles ne sont pas, ou rarement pour des cas particuliers, combinées pour obtenir une méthode complète de numérisation de l'apparence jusqu'à la reconnaissance, effective et perceptuelle, de l'objet et des anomalies esthétiques.Ces travaux ont profité des avancements des thèses précédentes sur la formalisation du contrôle qualité ainsi que sur un système agile de numérisation d'aspect de surface permettant la mise en évidence de toute la diversité d'anomalies esthétiques de surfaces. Ainsi, la contribution majeure réside dans l'adaptation des méthodes de traitement d'images à la structure formalisée du contrôle qualité, au format riche des données d'apparence et aux méthodes de classification pour réaliser la reconnaissance telle que le contrôleur humain.En ce sens, la thèse propose un décryptage des différentes méthodologies liées au contrôle qualité, au comportement du contrôleur humain, aux anomalies d'aspect de surface, aux managements et traitements de l'information visuelle, jusqu'à la combinaison de toutes ces contraintes pour obtenir un système de substitution partielle au contrôleur humain. L'objectif de la thèse, et du décryptage, est d'identifier et de réduire les sources de variabilité pour obtenir un meilleur contrôle qualité, notamment par l'automatisation intelligente et structurée de l'inspection visuelle. A partir d'un dispositif de vision par ordinateur choisi, la solution proposée consiste à analyser la texture visuelle. Celle est considérée en tant que signature globale de l'information d'apparence visuelle supérieure à une unique image contenant des textures images. L'analyse est effectuée avec des mécanismes de reconnaissance de formes et d'apprentissage machine pour établir la détection et l'évaluation automatiques d'anomalies d'aspect. / This research has the ambition to contribute to the automation of visual inspection, in the quality control of complex geometry metal parts. Firstly, many optical techniques, scanning, implementation of photorealistic rendering, classification of images or data, and pattern recognition are already highly developed and applied in each particular areas. But they are not, or rarely, in special cases, combined for a complete scanning method of appearance to the recognition, effective and perceptual, of object and aesthetic anomalies.This work benefited from the advancements of previous thesis on the formalization of quality control, as well as an agile system of surface appearance scanning to highlight the diversity of aesthetic anomalies surfaces. Thus, the major contribution lies in the adaptation of image processing methods to the formal structure of quality control, rich appearance data format and classification methods to achieve recognition as the human controller.In this sense, the thesis deciphers the different methodologies related to quality control, the human controller processes, surface appearance defects, the managements and processing of visual information, to the combination of all these constraints for a partial substitution system of the human controller. The aim of the thesis is to identify and reduce sources of variability to obtain better quality control, including through the intelligent and structured automation of visual inspection. From a selected computer vision device, the proposed solution is to analyze visual texture. This is regarded as a global signature of superior visual appearance information to a single image containing images textures. The analysis is performed with pattern recognition and machine learning mechanisms to develop automatic detection and evaluation of appearance defects.
|
360 |
Représentation et enregistrement de formes visuelles 3D à l'aide de Laplacien graphe et noyau de la chaleur / Representation & Registration of 3D Visual Shapes using Graph Laplacian and Heat KernelSharma, Avinash 29 October 2012 (has links)
Analyse de la forme 3D est un sujet de recherche extrêmement actif dans les deux l'infographie et vision par ordinateur. Dans la vision par ordinateur, l'acquisition de formes et de modélisation 3D sont généralement le résultat du traitement des données complexes et des méthodes d'analyse de données. Il existe de nombreuses situations concrètes où une forme visuelle est modélisé par un nuage de points observés avec une variété de capteurs 2D et 3D. Contrairement aux données graphiques, les données sensorielles ne sont pas, dans le cas général, uniformément répartie sur toute la surface des objets observés et ils sont souvent corrompus par le bruit du capteur, les valeurs aberrantes, les propriétés de surface (diffusion, spécularités, couleur, etc), l'auto occlusions, les conditions d'éclairage variables. Par ailleurs, le même objet que l'on observe par différents capteurs, à partir de points de vue légèrement différents, ou à des moments différents cas peuvent donner la répartition des points tout à fait différentes, des niveaux de bruit et, plus particulièrement, les différences topologiques, par exemple, la fusion des mains. Dans cette thèse, nous présentons une représentation de multi-échelle des formes articulés et concevoir de nouvelles méthodes d'analyse de forme, en gardant à l'esprit les défis posés par les données de forme visuelle. En particulier, nous analysons en détail le cadre de diffusion de chaleur pour représentation multi-échelle de formes 3D et proposer des solutions pour la segmentation et d'enregistrement en utilisant les méthodes spectrales graphique et divers algorithmes d'apprentissage automatique, à savoir, le modèle de mélange gaussien (GMM) et le Espérance-Maximisation (EM). Nous présentons d'abord l'arrière-plan mathématique sur la géométrie différentielle et l'isomorphisme graphique suivie par l'introduction de la représentation spectrale de formes 3D articulés. Ensuite, nous présentons une nouvelle méthode non supervisée pour la segmentation de la forme 3D par l'analyse des vecteurs propres Laplacien de graphe. Nous décrivons ensuite une solution semi-supervisé pour la segmentation de forme basée sur un nouveau paradigme d'apprendre, d'aligner et de transférer. Ensuite, nous étendre la représentation de forme 3D à une configuration multi-échelle en décrivant le noyau de la chaleur cadre. Enfin, nous présentons une méthode d'appariement dense grâce à la représentation multi-échelle de la chaleur du noyau qui peut gérer les changements topologiques dans des formes visuelles et de conclure par une discussion détaillée et l'orientation future des travaux. / 3D shape analysis is an extremely active research topic in both computer graphics and computer vision. In computer vision, 3D shape acquisition and modeling are generally the result of complex data processing and data analysis methods. There are many practical situations where a visual shape is modeled by a point cloud observed with a variety of 2D and 3D sensors. Unlike the graphical data, the sensory data are not, in the general case, uniformly distributed across the surfaces of the observed objects and they are often corrupted by sensor noise, outliers, surface properties (scattering, specularities, color, etc.), self occlusions, varying lighting conditions. Moreover, the same object that is observed by different sensors, from slightly different viewpoints, or at different time instances may yield completely different point distributions, noise levels and, most notably, topological differences, e.g., merging of hands. In this thesis we outline single and multi-scale representation of articulated 3D shapes and devise new shape analysis methods, keeping in mind the challenges posed by visual shape data. In particular, we discuss in detail the heat diffusion framework for multi-scale shape representation and propose solutions for shape segmentation and dense shape registration using the spectral graph methods and various other machine learning algorithms, namely, the Gaussian Mixture Model (GMM) and the Expectation Maximization (EM). We first introduce the mathematical background on differential geometry and graph isomorphism followed by the introduction of pose-invariant spectral embedding representation of 3D articulated shapes. Next we present a novel unsupervised method for visual shape segmentation by analyzing the Laplacian eigenvectors. We then outline a semi-supervised solution for shape segmentation based upon a new learn, align and transfer paradigm. Next we extend the shape representation to a multi-scale setup by outlining the heat-kernel framework. Finally, we present a topologically-robust dense shape matching method using the multi-scale heat kernel representation and conclude with a detailed discussion and future direction of work.
|
Page generated in 0.1164 seconds