Global ETD Search

1	Inversion acoustique-articulatoire avec contraintes / Acoustic-to-articulatory inversion with constraints Potard, Blaise 23 October 2008 (has links) Cette thèse porte sur l'inversion acoustique-articulatoire, c'est-à-dire la récupération des mouvements des articulateurs de la parole à partir du signal sonore. Nous présentons dans ce mémoire une évolution importante des méthodes de tabulation à codebooks utilisant une table de correspondants acoustique-articulatoire précalculée à l'aide d'un modèle de synthèse acoustique. En dehors de la méthode d'inversion proprement dite, nous proposons également l'introduction de deux types de contraintes liées au contexte d'élocution : des contraintes phonétiques génériques, issues de l'analyse par des experts humains de l'invariance articulatoire des voyelles, et des contraintes visuelles, en l'occurrence des contraintes obtenues automatiquement à partir de l'enregistrement et l'analyse d'images en stéréovision du locuteur. / This thesis investigates acoustic-to-articulatory inversion, i.e. recovering articulatory movements from the speech signal. In this work, we present an important evolution of codebooks methods, i.e. methods using acoustic-articulatory tuples precomputed using an acoustic synthesis model. Apart from the inversion method, we present the introduction of two types of constraints : generic phonetic constraints, derived from the analysis by human experts of articulatory invariance for vowels, and visual constraints, i.e. constraints derived automatically from a video signal, in our case a stereo video signal, thus allowing us to perform multimodal inversion. Stéréovision
2	Reconstruction du relief et mixage réel/virtuel par caméras relief multi-points de vues / 3D reconstruction and augmented reality by means of multiscopic camera Niquin, Cédric 18 March 2011 (has links) L'affichage en relief, avec ou sans lunettes, est de plus en plus populaire. Les écrans auto-stéréoscopiques comportent un nombre d'images compris, à ce jour, entre 2 et 9. La création, la transmission ou encore la diffusion d'un tel nombre d'images correspondent à autant de verrous scientifiques. En effet la transmission des images impose le développement de méthodes de compression qui exploitent la redondance d'information entre les vues. La diffusion nécessite qu'un même contenu puisse être visible sur un maximum d'écrans, ce qui n'est possible en pratique que grâce à des méthodes de synthèse de vues intermédiaires. Enfin le contexte multi-vues ouvre à de nouvelles perspectives en réalité augmentée, comme la projection d'ombres et l'occultation entre contenu réel et virtuel. Tous ces exemples ont pour point commun de pouvoir être obtenus par le calcul des profondeurs de la scène. Les méthodes de stéréovision sont donc incontournables, mais, génériques, elles ne sont adaptées ni au contexte multi-vues, ni aux besoins des applications citées précédemment. Nous proposons dans ce mémoire un pipeline de reconstruction des profondeurs dédié au contexte multi-vues. Au travers d'une nouvelle expression de la mise en correspondance multi-vues, qui consiste à regrouper les pixels représentant un même point de la scène en " match " et ainsi former un partitionnement de l'ensemble des pixels, notre pipeline tire profit de la redondance des informations afin d'obtenir une estimation robuste des profondeurs. Cette expression définit exactement les redondances et occlusions de la scène, ce qui lève une grande partie des ambiguïtés lors de la compression des images et de la synthèse de vues intermédiaires. Nous présentons également une nouvelle contrainte, intégrée à notre pipeline, qui assure la cohérence géométrique des profondeurs reconstruites. Cette contrainte, essentielle pour un mélange entre réel et virtuel cohérent, s'avère également très utile pour les méthodes de synthèse de vues intermédiaires. Notre pipeline est composé de quatre modules : " génération du nuage de points ", " reconstruction de la surface ", " affinement des profondeurs " et " suivi temporel ". Mis à part le premier module cité, les autres sont facultatifs, et leur utilisation dépend des besoins et des applications visées. Ainsi, les résultats de notre pipeline sont les cartes de profondeurs, un nuage de points, ou un maillage représentant la scène.Afin de prouver la faisabilité du pipeline, nous présentons deux implémentations de celui-ci.La première, dite locale, se base sur des méthodes rapides afin de reconstruire la scène en temps réel. La seconde implémentation vise une application en post-production et génère des profondeurs de meilleure qualité, au détriment de temps de calcul plus longs. Nous démontrons également la pertinence de notre pipeline en proposant de nouvelles méthodes de compression d'images multi-vues, de synthèse de vues intermédiaires et de réalité augmentée multi-vues. / The display in 3D, with or without glasses, becomes more and more popular. The auto-stereoscopic displays contain between 2 and 9 images. The creation, transmission or display of such images correspond to scientific obstacles. Indeed the transmission of the images needs compression methods that exploit information redundancy between frames. The display requires that the same content can be viewed on all screens, which is possible only by using methods of intermediate views rendering. Finally the context of multi-view brings new perspectives in augmented reality, like the projection of shadows and occlusion between real and virtual content. All these applications can be obtained by computing the depths of the scene. Stereovision methods allow depth estimation, but are generic and not well suited to the context of multi-view images or the application mentioned above. We propose in this thesis a pipeline dedicated to the depth reconstruction of a scene in a multi-view context.Through a new expression of the multi-view matching, which involves grouping the pixels representing the same point of the scene in "match" and thus form a partitioning of all pixels, our pipeline finds information redundancies in order to obtain a robust estimation of depths. This expression defines exactly occlusions in the scene, which raises much of the ambiguity in image compression and intermediate views rendering. We also present a new constraint, integrated in our pipeline, which ensures the geometric consistency of the reconstructed depths. This constraint is essential for a consistent mix between virtual and real objects, and is also very useful for intermediate views rendering. Our pipeline consists of four modules : " point cloud generation ", "surface reconstruction ", depth refinement " and " time tracking ".Apart from the first module city, others are optional and their use depends on needs and target applications. Thus, the results of our pipeline are depth maps, a point cloud or a mesh representing the scene. As a proof of the pipeline, we present two implementations of it. The first, called local, is based on fast algorithms to reconstruct the scene in real time. The second implementation is dedicated to post-production applications and generates better quality depth at the expense of longer computation time. We also demonstrate the relevance of our pipeline by providing new methods of multi-view image compression, intermediate views rendering and augmented reality. Stéréovision
3	Localisation de mobiles par construction de modèles en 3D en utilisant la stéréovision Nogueira, Sergio 09 December 2009 (has links) (PDF) Les travaux présentés dans cette thèse contribuent aux systèmes de localisation pour un robot mobile en utilisant la stéréovision. Ces travaux s'inscrivent dans le cadre d'une collaboration entre le LORIA-INRIA de Nancy et le laboratoire SeT de l'UTBM. L'approche proposée est décomposée en deux étapes. La première étape constitue une phase d'apprentissage qui permet de construire un modèle 3D de l'environnement de navigation. La deuxième étape est consacrée à la localisation du véhicule par rapport au modèle 3D. La phase d'apprentissage a pour objectif de construire un modèle tridimensionnel, à partir de points d'intérêt pouvant être appariés sous différentes contraintes géométriques (translation, rotation, changement d'échelle) et/ou contraintes de changements d'illumination. Dans l'objectif de répondre à toutes ces contraintes, nous utilisons la méthode SIFT (Scale Invariant Feature Transform) permettant des mises en correspondance de vues éloignées. Ces points d'intérêt sont décrits par de nombreux attributs qui font d'eux des caractéristiques très intéressantes pour une localisation robuste. Suite à la mise en correspondance de ces points, un modèle tridimensionnel est construit, en utilisant une méthode incrémentale. Un ajustement des positions est effectué afin d'écarter les éventuelles déviations. La phase de localisation consiste à déterminer la position du mobile par rapport au modèle 3D représentant l'environnement de navigation. Elle consiste à apparier les points 3D reconstruits à partir d'une pose du capteur stéréoscopie et les points 3D du modèle. Cet appariement est effectué par l'intermédiaire des points d'intérêt, issus de la méthode d'extraction SIFT. L'approche proposée a été évaluée en utilisant une plate-forme de simulation permettant de simuler un capteur stéréoscopique, installé sur véhicule naviguant dans un environnement 3D virtuel. Par ailleurs, le système de localisation développé a été testé en utilisant le véhicule instrumenté du laboratoire SeT afin d'évaluer ses performances en conditions réelles d'utilisation. Localisation reconstruction stéréovision analyse d'images
4	Stéréovision Omnidirectionnelle Large Entraxe pour la Supervision d'Intersections Routières / Wide-baseline Omnidirectional Stereovision for Intersection Monitoring Datondji, Sokèmi René Emmanuel 03 October 2017 (has links) La surveillance visuelle des objets dynamiques dans les carrefours routiers a été un sujet de recherche majeur au sein des communautés de vision par ordinateur et de transports intelligents, ces dernières années. De nombreux projets ont été menés afin d’améliorer la sécurité dans le contexte très particulier des carrefours. Notre analyse approfondie de l’état de l’art révèle que la majorité des systèmes en bord de voie, utilisent la vision monoculaire. Dans cette thèse, nous présentons un systèmenon-intrusif, de stéréovision-fisheye à large entraxe. Le dispositif proposé est particulièrement adapté aux carrefours ruraux ou sans signalisation. Notre objectif principal est la localisation des véhicules afin de reconstruire leurs trajectoires. Pour ce faire, l’estimation de la calibration extrinsèque entre les caméras est nécessaire afin d’effectuer des analyses à l’échelle métrique. Cette tâche s’avère très complexe dans notre configuration de déploiement. En effet la grande distance entre les caméras, la différence de vue et la forte présence de végétation, rendent inapplicables les méthodes de calibration qui requièrent la mise en correspondance d’images de mires. Il est donc nécessaire d’avoir une solution indépendante de la géométrie de la scène. Ainsi, nous proposons une méthode automatique reposant sur l’idée que les véhicules mobiles peuvent être utilisés comme objets dynamiques de calibration. Il s’agit d’une approche de type Structure à partir du Mouvement, découplée en l’estimation de la rotation extrinsèque à partir de points de fuite, suivie du calcul de la translation extrinsèque à l’échelle absolue par mise en correspondance de plans virtuels. Afin de généraliser notre méthode, nous adoptons le modèle de caméra sphérique sous l’hypothèse d’un mouvement plan. Des expérimentations conduites en laboratoire, puis dans des carrefours en Normandie, permettent de valider notre approche. Les paramètres extrinsèques sont alors directement exploités pour la trajectographie métrique des véhicules, en vue d’évaluer le risque et procéder à un diagnostic des intersections rurales. / Visual surveillance of dynamic objects at road intersections has been an active research topic in the computer vision and intelligent transportations systems communities, over the past decades. Several projects have been carried out in order to enhance the safety of drivers in the special context of intersections. Our extensive review of related studies revealedthat most roadside systems are based on monocular vision and provide output results generally in the image domain. In this thesis, we introduce a non-intrusive, wide-baseline stereoscopic system composed of fisheye cameras, perfectly suitable for rural or unsignalized intersections. Our main goal is to achieve vehicle localization and metric trajectory estimation in the world frame. For this, accurate extrinsic calibration is required to compute metric information. But the task is quite challenging in this configuration, because of the wide-baseline, the strong view difference between the cameras, and the important vegetation. Also, pattern-based methods are hardly feasible without disrupting the traffic. Therefore, we propose a points-correspondence-free solution. Our method is fully-automatic and based on a joint analysis of vehicles motion and appearance, which areconsidered as dynamic calibration objects. We present a Structure-from-Motion approach decoupled into the estimation of the extrinsic rotation from vanishing points, followed by the extrinsic translation at scale from a virtual-plane matching strategy. For generalization purposes we adopt the spherical camera model under the assumption of planar motion. Extensive experiments both in the lab and at rural intersections in Normandy allow to validate our work, leading to accurate vehicle motion analysis for risk assessment and safety diagnosis at rural intersections. Vision par ordinateur Stéréovision-fisheye Sécurité routière Stéréovision Computer vision Fisheye Stereovision Traffic safety Stereoscopic system 006.4
5	Positionnement robuste et précis de réseaux d’images / Robust and accurate calibration of camera networks Moulon, Pierre 10 January 2014 (has links) Calculer une représentation 3D d'une scène rigide à partir d'une collection d'images est aujourd'hui possible grâce aux progrès réalisés par les méthodes de stéréo-vision multi-vues, et ce avec un simple appareil photographique. Le principe de reconstruction, découlant de travaux de photogrammétrie, consiste à recouper les informations provenant de plusieurs images, prises de points de vue différents, pour identifier les positions et orientations relatives de chaque cliché. Une fois les positions et orientations de caméras déterminées (calibration externe), la structure de la scène peut être reconstruite. Afin de résoudre le problème de calcul de la structure à partir du mouvement des caméras (Structure-from-Motion), des méthodes séquentielles et globales ont été proposées. Par nature, les méthodes séquentielles ont tendance à accumuler les erreurs. Cela donne lieu le plus souvent à des trajectoires de caméras qui dérivent et, lorsque les photos sont acquises autour d'un objet, à des reconstructions où les boucles ne se referment pas. Au contraire, les méthodes globales considèrent le réseau de caméras dans son ensemble. La configuration de caméras est recherchée et optimisée pour conserver au mieux l'ensemble des contraintes de cyclicité du réseau. Des reconstructions de meilleure qualité peuvent être obtenues, au détriment toutefois du temps de calcul. Cette thèse propose d'analyser des problèmes critiques au cœur de ces méthodes de calibration externe et de fournir des solutions pour améliorer leur performance (précision, robustesse, vitesse) et leur facilité d'utilisation (paramétrisation restreinte).Nous proposons tout d'abord un algorithme de suivi de points rapide et efficace. Nous montrons ensuite que l'utilisation généralisée de l'estimation robuste de modèles paramétriques a contrario permet de libérer l'utilisateur du réglage de seuils de détection, et d'obtenir une chaine de reconstruction qui s'adapte automatiquement aux données. Puis dans un second temps, nous utilisons ces estimations robustes adaptatives et une formulation du problème qui permet des optimisations convexes pour construire une chaine de calibration globale capable de passer à l'échelle. Nos expériences démontrent que les estimations identifiées a contrario améliorent de manière notable la qualité d'estimation de la position et de l'orientation des clichés, tout en étant automatiques et sans paramètres, et ce même sur des réseaux de caméras complexes. Nous proposons enfin d'améliorer le rendu visuel des reconstructions en proposant une optimisation convexe de la consistance colorée entre images / To compute a 3D representation of a rigid scene from a collection of pictures is now possible thanks to the progress made by the multiple-view stereovision methods, even with a simple camera. The reconstruction process, arising from photogrammetry, consists in integrating information from multiple images taken from different viewpoints in order to identify the relative positions and orientations. Once the positions and orientations (external calibration) of the cameras are retrieved, the structure of the scene can be reconstructed. To solve the problem of calculating the Structure from Motion (SfM), sequential and global methods have been proposed. By nature, sequential methods tend to accumulate errors. This is observable in trajectories of cameras that are subject to drift error. When pictures are acquired around an object it leads to reconstructions where the loops do not close. In contrast, global methods consider the network of cameras as a whole. The configuration of cameras is searched and optimized in order to preserve at best the constraints of the cyclical network. Reconstructions of better quality can be obtained, but at the expense of computation time. This thesis aims at analyzing critical issues at the heart of these methods of external calibration and at providing solutions to improve their performance(accuracy , robustness and speed) and their ease of use (restricted parametrization).We first propose a fast and efficient feature tracking algorithm. We then show that the widespread use of a contrario robust estimation of parametric models frees the user from choosing detection thresholds, and allows obtaining a reconstruction pipeline that automatically adapts to the data. Then in a second step, we use the adaptive robust estimation and a series of convex optimizations to build a scalable global calibration chain. Our experiments show that the a contrario based estimations improve significantly the quality of the pictures positions and orientations, while being automatic and without parameters, even on complex camera networks. Finally, we propose to improve the visual appearance of the reconstruction by providing a convex optimization to ensure the color consistency between images Calibration Stéréovision multi-Vue Stéréovision Estimation robuste Programmation linéaire Vision par ordinateur Calibration Multi view stereovision Stereovision Robust estimation Linear programmation Computer vision
6	Reconfiguration stéréoscopique Houde, Jean-Christophe January 2012 (has links) Au cours des dernières années, le cinéma tridimensionnel a connu un regain de popularité. La réalisation de plusieurs films d'animation 3D de qualité, de même que le succès fulgurant du film Avatar aura permis au grand public de constater la qualité de cette nouvelle génération de technologies 3D. Cependant, un problème fondamental ralentit toujours l'adoption à la maison de ce mode de divertissement. En effet, tout contenu visuel produit en se basant sur des techniques de stéréoscopie subira des distorsions visuelles lorsqu'observé dans des conditions différentes de celles considérées lors de la création du contenu. Autrement dit, un film 3D tourné pour un cinéma de grande dimension n'aura pas une richesse de profondeur aussi grande lorsqu'il sera visualisé sur un écran domestique. Ce mémoire présente un cadre de travail, un modèle mathématique et un ensemble de techniques permettant de"reconfigurer", en générant de nouvelles images, le contenu stéréoscopique original afin que l'effet de profondeur original soit préservé dans les nouvelles conditions de visualisation. Synthèse de nouvelle vue Emplissage d'image Modèle de stéréoscopie Cinéma 3D Rendue à base d'images Stéréovision Reconfiguration stéréoscopique
7	Détection d'objets stationnaires par une paire de caméras PTZ / Stationary object detection by a pair of ptz cameras Guillot, Constant 23 January 2012 (has links) L’analyse vidéo pour la vidéo-surveillance nécessite d’avoir une bonne résolution pour pouvoir analyser les flux vidéo avec un maximum de robustesse. Dans le contexte de la détection d’objets stationnaires dans les grandes zones, telles que les parkings, le compromis entre la largeur du champ d’observation et la bonne résolution est difficile avec un nombre limité de caméras. Nous allons utiliser une paire de caméras à focale variable de type Pan-Tilt-Zoom (PTZ). Les caméras parcourent un ensemble de positions (pan, tilt, zoom) prédéfinies afin de couvrir l’ensemble de la scène à une résolution adaptée. Chacune de ces positions peut être vue comme une caméra stationnaire à très faible taux de rafraîchissement. Dans un premier temps notre approche considère les positions des PTZ comme des caméras indépendantes. Une soustraction de fond robuste aux changements de luminosité reposant sur une grille de descripteurs SURF est effectuée pour séparer le fond du premier plan. La détection des objets stationnaires est effectuée par ré-identification des descripteurs à un modèle du premier plan. Dans un deuxième temps afin de filtrer certaines fausses alarmes et pouvoir localiser les objets en 3D une phase de mise en correspondance des silhouettes entre les deux caméras et effectuée. Les silhouettes des objets stationnaires sont placées dans un repère commun aux deux caméras en coordonnées rectifiées. Afin de pouvoir gérer les erreurs de segmentation, des groupes de silhouettes s’expliquant mutuellement et provenant des deux caméras sont alors formés. Chacun de ces groupes (le plus souvent constitué d’une silhouette de chaque caméra, mais parfois plus) correspond à un objet stationnaire. La triangulation des points frontière haut et bas permet ensuite d’accéder à sa localisation 3D et à sa taille. / Video analysis for video surveillance needs a good resolution in order to analyse video streams with a maximum of robustness. In the context of stationary object detection in wide areas a good compromise between a limited number of cameras and a high coverage of the area is hard to achieve. Here we use a pair of Pan-Tilt-Zoom (PTZ) cameras whose parameter (pan, tilt and zoom) can change. The cameras go through a predefined set of parameters chosen such that the entire scene is covered at an adapted resolution. For each triplet of parameters a camera can be assimilated to a stationary camera with a very low frame-rate and is referred to as a view. First each view is considered independently. A background subtraction algorithm, robust to changes in illumination and based on a grid of SURF descriptors, is proposed in order to separate background from foreground. Then the detection and segmentation of stationary objects is done by reidentifying foreground descriptor to a foreground model. Then in order to filter out false alarms and to localise the objects in the3D world, the detected stationary silhouettes are matched between the two cameras. To remain robust to segmentation errors, instead of matched a silhouette to another, groups of silhouettes from the two cameras and mutually explaining each other are matched. Each of the groups then correspond to a stationary object. Finally the triangulation of the top and bottom points of the silhouettes gives an estimation of the position and size of the object. Caméra PTZ Objet stationnaire Soustraction de fond Stéréovision PTZ camera Stationary object Background subtraction Stereovision
8	Cooperation stereo mouvement pour la detection des objets dynamiques / Stereo-Motion Cooperation - Dynamic Objects Detection Bak, Adrien 14 October 2011 (has links) Un grand nombre d'applications de robotique embarquées pourrait bénéficier d'une détection explicite des objets mobiles. A ce jour, la majorité des approches présentées repose sur la classification, ou sur une analyse structurelle de la scène (la V-Disparité est un bon exemple de ces approches). Depuis quelques années, nous sommes témoins d'un intérêt croissant pour les méthodes faisant collaborer activement l'analyse structurelle et l'analyse du mouvement. Ces deux processus sont en effet étroitement liés. Dans ce contexte, nous proposons, à travers de travail de thèse, deux approches différentes. Si la première fait appel à l'intégralité de l'information stéréo/mouvement, la seconde se penche sur le cas des capteurs monoculaires, et permet de retrouver une information partielle.La première approche présentée consiste en un système innovation d'odométrie visuelle. Nous avons en effet démontré que le problème d'odométrie visuelle peut être posé de façon linéaire, alors que l'immense majorité des auteurs sont contraint de faire appel à des méthodes d'optimisation non-linéaires. Nous avons également montré que notre approche permet d'atteindre, voire de dépasser le niveau de performances présenté par des système matériels haut de gamme (type centrale inertielle). A partir de ce système d'odométrie visuelle, nous définissons une procédure permettant de détecter les objets mobiles. Cette procédure repose sur une compensation de l'influence de l'égo-mouvement, puis une mesure du mouvement résiduel. Nous avons ensuite mené une réflexion de fond sur les limitations et les sources d'amélioration de ce système. Il nous est apparu que les principaux paramètres du système de vision (base, focale) ont un impact de premier plan sur les performances du détecteur. A notre connaissance, cet impact n'a jamais été décrit dans la littérature. Il nous semble cependant que nos conclusions peuvent constituer un ensemble de recommandations utiles à tout concepteur de système de vision intelligent.La seconde partie de ce travail porte sur les systèmes de vision monoculaire, et plus précisément sur le concept de C-Vélocité. Alors que la V-Disparité a défini une transformée de la carte de disparité permettant de mettre en avant certains plans de l'image, la C-Vélocité défini une transformée du champ de flot optique, et qui utilise la position du FoE, qui permet une détection facile de certains plans spécifiques de l'image. Dans ce travail, nous présentons une modification de la C-Vélocité. Au lieu d'utiliser un a priori sur l'égo-mouvement (la position du FoE) afin d'inférer la structure de la scène, nous utilisons un a priori sur la structure de la scène afin de localiser le FoE, donc d'estimer l'égo-mouvement translationnel. Les premiers résultats de ce travail sont encourageants et nous permettent d'ouvrir plusieurs pistes de recherches futures. / Many embedded robotic applications could benefit from an explicit detection of mobile objects. To this day, most approaches rely on classification, or on some structural scene analysis (for instance, V-Disparity). During the last few years, we've witnessed a growing interest for collaboration methods, that use actively btw structural analysis and motion analysis. These two processes are, indeed, closely related. In this context, we propose, through this study, two novel approaches that address this issue. While the first one use information from stereo and motion, the second one focuses on monocular systems, and allows us to retrieve a partial information.The first presented approach consists in a novel visual odometry system. We have shown that, even though the wide majority of authors tackle the visual odometry problem as non-linear, it can be shown to be purely linear. We have also shown that our approach achieves performances, as good as, or even better than the ones achieved by high-end IMUs. Given this visual odometry system, we then define a procedure allowing us to detect mobile objects. This procedure relies on a compensation of the ego-motion and a measure of the residual motion. We then lead a reflexion on the causes of limitation and the possible sources of improvement of this system. It appeared that the main parameters of the vision system (baseline, focal length) have a major impact on the performances of our detector. To the best of our knowledge, this impact had never been discussed, prior to our study. However, we think that our conclusion could be used as a set of recommendations, useful for every designer of intelligent vision system.the second part of this work focuses on monocular systems, and more specifically on the concept of C-Velocity. When V-Disparity defined a disparity map transform, allowing an easy detection of specific planes, C-Velocity defines a transform of the optical flow field, using the position of the FoE, allowing an easy detection of specific planes. Through this work, we present a modification of the C-Velocity concept. Instead of using a priori knowledge of the ego-motion (the position of the FoE) in order to determine the scene structure, we use a prior knowledge of the scene structure in order to localize the FoE, thus the translational ego-motion. the first results of this work are promising, and allow us to define several future works. Odométrie Visuelle Vision Véhicules Intelligents Stéréovision Mouvement Visual Odometry Vision Intelligent Vehicles Stereovision Motion
9	Quelques applications de la programmation des processeurs graphiques à la simulation neuronale et à la vision par ordinateur Chariot, Alexandre 16 December 2008 (has links) (PDF) Largement poussés par l'industrie vidéoludique, la recherche et le développement d'outils matériels destinés à la génération d'images de synthèse, tels les cartes graphiques (ou GPU, Graphics Processing Units), ont connu un essor formidable ces dernières années. L'augmentation de puissance et de [MATH] Mathematics Gpu Gpgpu Programmation parallèle Réseaux de neurones Vision par Ordinateur Stéréovision Points d'intérêt Mise en correspondance
10	Fusion de données multicapteurs pour la construction incrémentale du modèle tridimensionnel texturé d'un environnement intérieur par un robot mobile Zureiki, Ayman 16 September 2008 (has links) (PDF) Ce travail traite la problématique de la Modélisation 3D d'un environnement intérieur supposé inconnu par un robot mobile. Notre principale contribution concerne la construction d'un modèle géométrique dense représenté par une carte hétérogène qui combine des amers plans texturés, des lignes 3D et des points d'intérêt. Afin de réaliser cette tâche, nous devons fusionner des données géométriques et photométriques. Pour cela, nous avons d'abord amélioré la stéréovision dense, en proposant une approche qui transforme le problème de la mise en correspondance stéréoscopique en un problème de minimisation d'une fonction d'énergie globale. Le minimum de cette fonction est trouvé par une coupure minimale dans un graphe. Notre contribution réside dans la construction d'un graphe réduit qui a permis d'accélérer considérablement cette méthode globale de l'appariement stéréoscopique et d'obtenir de meilleurs résultats que les méthodes locales. Néanmoins, cette méthode reste non applicable en robotique mobile. Aussi, pour percevoir l'environnement, le robot est équipé d'un télémètre laser pivotant autour d'un axe horizontal et d'une caméra. Nous proposons une chaîne algorithmique permettant de construire de manière incrémentale une carte hétérogène, par l'algorithme de Cartographie et Localisation Simultanées basé sur le filtre de Kalman étendu (EKF-SLAM). Le placage de la texture sur les facettes planes rend le modèle plus réaliste pour un opérateur ; il a permis aussi de solidifier l'étape d'association de données, une étape essentielle pour garantir la cohérence de la carte. Les différents mécanismes développés sont illustrés et validés par des résultats expérimentaux. Fusion de données Cartographie et localisation simultanée Modélisation 3D Robot mobile Stéréovision Coupure de graphe

Search results