• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 216
  • 150
  • 40
  • Tagged with
  • 409
  • 409
  • 409
  • 287
  • 161
  • 112
  • 110
  • 86
  • 80
  • 78
  • 76
  • 72
  • 72
  • 68
  • 64
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
121

Reconnaissance d’actions humaines dans des vidéos utilisant une représentation locale / Human action recognition in videos with local representation

Koperski, Michal 09 November 2017 (has links)
Cette thèse étudie le problème de la reconnaissance d’actions humaines dans des vidéos. La reconnaissance d’action peut être définie comme étant la capacité à décider si une action est présente due une vidéo. Ce problème est difficile en raison de la complexité des actions humaines, dans la grande variété de leur apparence et de leur mouvement. Les avancées récentes dans les méthodes manuelles ou par apprentissage profond ont considérablement amélioré la précision de la reconnaissance d’action. Mais de nombreuses questions restent ouvertes, ce qui rend le problème de la reconnaissance d’actions loin d’être résolu. Les méthodes actuelles basées sur les caractéristiques locales, donnent des résultats satisfaisants. Mais les actions humaines sont complexes, ce qui nous conduit à la question suivante : comment modéliser les relations entre les caractéristiques locales dans leur contexte spatiotemporel ? Dans cette thèse nous proposons 2 méthodes pour y répondre. La première modélise les relations spatio-temporelles entre les caractéristiques images utilisant la Covariance Brownienne, et la seconde modélise la disposition spatiale des caractéristiques locales à l’intérieur de la boite englobante de chaque personne. Les méthodes que nous proposons sont générales et peuvent améliorer aussi bien les méthodes manuelles que celles avec apprentissage. Une autre question ouverte est : l’information 3D peut-elle améliorer la reconnaissance d’actions ? Plusieurs méthodes utilisent les informations 3D pour détecter les articulations du corps. Nous proposons de les améliorer avec un nouveau descripteur, utilisant la trajectoire 3D calculée à partir des informations RGB-D. Finalement, nous affirmons que la capacité de traiter une vidéo en temps-réel sera un facteur clé pour les futures applications de reconnaissance d’actions. Toutes les méthodes proposées dans cette thèse sont prêtes à fonctionner en temps-réel. Nous avons prouvé notre affirmation empiriquement en créant un système temps-réel de détection d’actions. Ce système a été adapté avec succès par la compagnie Toyota pour leurs systèmes robotiques. Pour l’évaluation, nous nous concentrons sur les actions quotidiennes à la maison telles que : manger, boire ou cuisiner. La reconnaissance de telles actions est importante pour le suivi des patients à l’hôpital et pour les systèmes d’aide robotisée à domicile. Dans ce but, nous avons créé une grande base de données, qui contient 160 heures d’enregistrement de 20 personnes âgées. Les vidéos ont été enregistrées dans 3 chambres avec7 capteurs RGB-D. Nous avons annoté ces vidéos avec 28 classes d’actions. Les actions dans la base de données sont effectuées d’une manière naturelle et non supervisée, ce qui introduit des défis manquants dans les bases de données publiques. Nous évaluons aussi nos méthodes en utilisant les bases de données publiques : CAD60, CAD120 et MSRDailyActivity3D. Les expérimentations montrent que nos méthodes améliorent les résultats de l’état de l’art. / This thesis targets recognition of human actions in videos. This problem can be defined as the ability to name the action that occurs in the video. Due to the complexity of human actions such as appearance and motion pattern variations, many open questions keep action recognition far from being solved. Current state-of-the-art methods achieved satisfactory results based only on local features. To handle complexity of actions we propose 2 methods which model spatio-temporal relationship between features: (1) model a pairwise relationship between features with Brownian Covariance, (2) model spatial-layout of features w.r.t. person bounding box. Our methods are generic and can improve both hand-crafted and deep-learning based methods. Another question is whether 3D information can improve action recognition. Many methods use 3D information only to obtain body joints. We show that 3D information can be used not only for joints detection. We propose a novel descriptor which introduces 3D trajectories computed on RGB-D information. In the evaluation, we focus on daily living actions -- performed by people in daily self-care routine. Recognition of such actions is important for patient monitoring and assistive robots systems. To evaluate our methods we created a large-scale dataset, which consists of 160~hours of video footage of 20~seniors. We have annotated 35 action classes. The actions are performed in un-acted way, thus we introduce real-world challenges, absent in many public datasets. We also evaluated our methods on public datasets: CAD60, CAD120, MSRDailyActivity3D. THe experiments show that our methods improve state-of-the-art results.
122

Caractérisation et utilisation d'un système avancé d'aide à la conduite en condition hivernale

Ziadia, Marwa January 2020 (has links) (PDF)
No description available.
123

Distance metric learning for image and webpage comparison / Apprentissage de distance pour la comparaison d'images et de pages Web

Law, Marc Teva 20 January 2015 (has links)
Cette thèse se focalise sur l'apprentissage de distance pour la comparaison d'images ou de pages Web. Les distances (ou métriques) sont exploitées dans divers contextes de l'apprentissage automatique et de la vision artificielle tels que la recherche des k plus proches voisins, le partitionnement, les machines à vecteurs de support, la recherche d'information/images, la visualisation etc. Nous nous intéressons dans cette thèse à l'apprentissage de fonction de distance paramétrée par une matrice symétrique semi-définie positive. Ce modèle, appelé (par abus) apprentissage de distance de Mahalanobis, consiste à apprendre une transformation linéaire des données telle que la distance euclidienne dans l'espace projeté appris satisfasse les contraintes d'apprentissage.Premièrement, nous proposons une méthode basée sur la comparaison de distances relatives qui prend en compte des relations riches entre les données, et exploite des similarités entre quadruplets d'exemples. Nous appliquons cette méthode aux attributs relatifs et à la classification hiérarchique d'images.Deuxièmement, nous proposons une nouvelle méthode de régularisation qui permet de contrôler le rang de la matrice apprise, limitant ainsi le nombre de paramètres indépendants appris et le sur-apprentissage. Nous montrons l'intérêt de notre méthode sur des bases synthétiques et réelles d'identification de visage.Enfin, nous proposons une nouvelle méthode de détection automatique de changement dans les pages Web, dans un contexte d'archivage. Pour cela, nous utilisons les relations de distance temporelle entre différentes versions d'une même page Web. La métrique apprise de façon entièrement non supervisée détecte les régions d'intérêt de la page et ignore le contenu non informatif tel que les menus et publicités. Nous montrons l'intérêt de la méthode sur différents sites Web. / This thesis focuses on distance metric learning for image and webpage comparison. Distance metrics are used in many machine learning and computer vision contexts such as k-nearest neighbors classification, clustering, support vector machine, information/image retrieval, visualization etc. In this thesis, we focus on Mahalanobis-like distance metric learning where the learned model is parametered by a symmetric positive semidefinite matrix. It learns a linear tranformation such that the Euclidean distance in the induced projected space satisfies learning constraints.First, we propose a method based on comparison between relative distances that takes rich relations between data into account, and exploits similarities between quadruplets of examples. We apply this method on relative attributes and hierarchical image classification. Second, we propose a new regularization method that controls the rank of the learned matrix, limiting the number of independent parameters and overfitting. We show the interest of our method on synthetic and real-world recognition datasets. Eventually, we propose a novel Webpage change detection framework in a context of archiving. For this purpose, we use temporal distance relations between different versions of a same Webpage. The metric learned in a totally unsupervised way detects important regions and ignores unimportant content such as menus and advertisements. We show the interest of our method on different Websites.
124

Apprentissage Profond pour des Prédictions Structurées Efficaces appliqué à la Classification Dense en Vision par Ordinateur / Efficient Deep Structured Prediction for Dense Labeling Tasks in Computer Vision

Chandra, Siddhartha 11 May 2018 (has links)
Dans cette thèse, nous proposons une technique de prédiction structurée qui combine les vertus des champs aléatoires conditionnels Gaussiens (G-CRF) avec les réseaux de neurones convolutifs (CNN). L’idée à l’origine de cette thèse est l’observation que tout en étant d’une forme limitée, les GCRF nous permettent d’effectuer une inférence exacte de Maximum-A-Posteriori (MAP) de manière efficace. Nous préférons l’exactitude et la simplicité à la généralité et préconisons la prédiction structurée basée sur les G-CRFs dans les chaînes de traitement d’apprentissage en profondeur. Nous proposons des méthodes de prédiction structurées qui permettent de gérer (i) l’inférence exacte, (ii) les interactions par paires à court et à long terme, (iii) les expressions CNN riches pour les termes paires et (iv) l’entraînement de bout en bout aux côtés des CNN. Nous concevons de nouvelles stratégies de mise en œuvre qui nous permettent de surmonter les problèmes de mémoire et de calcul lorsque nous traitons des modèles graphiques entièrement connectés. Ces méthodes sont illustrées par des études expérimentales approfondies qui démontrent leur utilité. En effet, nos méthodes permettent une amélioration des résultats vis-à-vis de L’état de l’art sur des applications variées dans le domaine de la vision par ordinateur. / In this thesis we propose a structured prediction technique that combines the virtues of Gaussian Conditional Random Fields (G-CRFs) with Convolutional Neural Networks (CNNs). The starting point of this thesis is the observation that while being of a limited form GCRFs allow us to perform exact Maximum-APosteriori (MAP) inference efficiently. We prefer exactness and simplicity over generality and advocate G-CRF based structured prediction in deep learning pipelines. Our proposed structured prediction methods accomodate (i) exact inference, (ii) both shortand long- term pairwise interactions, (iii) rich CNN-based expressions for the pairwise terms, and (iv) end-to-end training alongside CNNs. We devise novel implementation strategies which allow us to overcome memory and computational challenges
125

Représentations à base de parties pour la vision 3D de haut niveau / Part-Based Representations for High-Level 3D Vision

Kinauer, Stefan 31 August 2018 (has links)
Dans cette thèse, nous utilisons des modèles de parties déformables (Deformable Part Models – DPMs) pour apprendre à détecter des parties d’objets. Pour une image d’un objet, l’objectif est de déterminer l’emplacement des parties de cet objet dans l’image. Le problème d’optimisation qui en résulte est non-convexe et difficile en raison de son grand espace de recherche.Notre première contribution consiste à étendre les DPMs à la troisième dimension, grâce à un algorithme par séparation et évaluation (Branchand- Bound). Nous élaborons un algorithme personnalisé qui est deux fois plus rapide qu’une approche naïve et garantit l’optimalité globale. Nous dérivons pour le modèle 3-dimensionnel une structure 3-dimensionnel. Cependant, nous entrainons un algorithme prenant en compte chaque sous point de vue de l’apparence. Nous démontrons notre approche sur la tache de l’estimation 3-dimensionnel de la posture, en déterminant la posture de l’objet dans une fraction de second.Notre deuxième contribution nous permet d’effectuer une inférence efficace sur des modèles où les connexions des parties forment un graphe avec des boucles, étendant ainsi des modèles plus riches. Pour cela, nous utilisons l’algorithme des directions alternées (Alternating Direction Method of Multipliers – ADMM) pour découpler le problème et résoudre itérativement un ensemble de sous-problèmes plus faciles. Nous calculons les paramètres du modèle via un Réseaux Neuronal Convolutif pour la détermination de la posture 3-dimensionnel. L’inférence développée est utilisée comme dernière couche du réseau neural. Cela permet d’obtenir une performance à l’état de l’art pour la tâche d’estimation de pose humaine en 3D. / In this work we use Deformable Part Models (DPMs) to learn and detect object parts in 3 dimensions. Given a single RGB image of an object, the objective is to determine the location of the object’s parts. The resulting optimization problem is non-convex and challenging due to its large solution space.Our first contribution consists in extending DPMs into the third dimension through an efficient Branch-and-Bound algorithm. We devise a customized algorithm that is two orders of magnitude faster than a naive approach and guarantees global-optimality. We derive the model’s 3-dimensional geometry from one 3-dimensional structure, but train viewpoint-specific part appearance terms based on deep learning features. We demonstrate our approach on the task of 3D object pose estimation, determining the object pose within a fraction of a second.Our second contribution allows us to perform efficient inference with part-based models where the part connections form a graph with loops, thereby allowing for richer models. For this, we use the Alternating Direction Method of Multipliers (ADMM) to decouple the problem and solve iteratively a set of easier sub-problems. We compute 3-dimensional model parameters in a Convolutional Neural Network for 3D human pose estimation. Then we append the developed inference algorithm as final layer to this neural network. This yields state of the art performance in the 3D human pose estimation task.
126

Développement d'un robot d'analyse de la locomotion et d'entrainement

Bégin, William 24 September 2021 (has links)
Que ce soit à des fins d'amélioration de la performance ou de réhabilitation physique, l'analyse de la condition physique et de la locomotion occupe de nos jours une importante place dans le domaine des soins santé. La récente démocratisation des microcontrôleurs et de leur suite de capteurs a permis la venue de nouvelles modalités d'évaluation de la locomotion (p. ex. l'analyse cinématique avec systèmes inertiels). Ce mémoire présente le développement d'un véhicule autonome de petite taille permettant la capture vidéo d'un participant selon un suivi adaptatif utile à des fins d'analyse du mouvement et la réalisation d'évaluation de la condition physique en dehors des milieux de laboratoires et cliniques (p. ex. Salle instrumentée, tapis roulant). Le robot, fabriqué à faibles coûts, est basé sur la plateforme Raspberry Pi. De façon à conduire une collecte en milieu écologique, celui-ci est placé sur une piste d'athlétisme intérieure sur laquelle il peut se déplacer de manière autonome dans les corridors en suivant les lignes selon un algorithme de reconnaissance visuelle et d'automatisation. L'instrumentation embarquée du véhicule permet l'évaluation du participant en mode « suivi », c'est-à-dire en suivant la cadence en conservant une distance constante et sécuritaire. Le mode meneur de train » impose quant à lui une cadence au participant. Ce mode peut aussi être utilisé à des fins d'analyse de la performance ou d'entrainement. Au cours de ce document, les modalités de conception et de fabrication seront présentées. Les méthodes de vision par ordinateur pour la conduite autonome développée pour un ordinateur à faible coût et de faible puissance seront détaillées. Les résultats d'essais effectués sur une piste d'athlétisme intérieure permettant de démontrer les performances et limitations du véhicule sont présentés. Les résultats obtenus sont discutés. Finalement, de nouvelles approches pour l'évaluation de la condition physique seront proposées. / Whether for performance enhancement or physical rehabilitation, the analysis of fitness and locomotion occupies an important place in today's healthcare. The recent democratization of microcontrollers and their suite of sensors has allowed the emergence of new methods for evaluating locomotion (e.g., kinematic analysis with inertial systems). This dissertation presents the development of an autonomous vehicle of small size allowing the video capture of a participant according to an adaptive tracking that could be used for movement analysis and physical condition evaluations performed outside of laboratory environments and clinics (e.g., Instrumented room, treadmills). The robot, manufactured at low cost, is based on the Raspberry Pi platform. In order to conduct a video data acquisition in an ecological environment, it is placed on an indoor running track on which it can move independently in the corridors by following the lane lines according to a visual recognition and automation algorithm. The onboard instrumentation of the vehicle allows the participant to be evaluated in "follow-up" mode, that is to say by following the pace while maintaining a constant and safe distance with the assessed participant. The "pacesetter" mode, for its part, imposes a pace on the participant. This mode can also be used for performance analysis or training purposes. Throughout this document, the design and manufacturing methods will be presented. Computer vision methods for autonomous driving developed for a low cost, low-power computer will be detailed. The results of tests carried out on an indoor running track to demonstrate the performances and limitations of the vehicle are presented. Finally, new approaches for fitness assessment will be proposed.
127

Head motion tracking in 3D space for drivers

Ntawiniga, Frédéric 13 April 2018 (has links)
Ce travail présente un système de vision par ordinateur capable de faire un suivi du mouvement en 3D de la tête d’une personne dans le cadre de la conduite automobile. Ce système de vision par ordinateur a été conçu pour faire partie d'un système intégré d’analyse du comportement des conducteurs tout en remplaçant des équipements et des accessoires coûteux, qui sont utilisés pour faire le suivi du mouvement de la tête, mais sont souvent encombrants pour le conducteur. Le fonctionnement du système est divisé en quatre étapes : l'acquisition d'images, la détection de la tête, l’extraction des traits faciaux, la détection de ces traits faciaux et la reconstruction 3D des traits faciaux qui sont suivis. Premièrement, dans l'étape d'acquisition d'images, deux caméras monochromes synchronisées sont employées pour former un système stéréoscopique qui facilitera plus tard la reconstruction 3D de la tête. Deuxièmement, la tête du conducteur est détectée pour diminuer la dimension de l’espace de recherche. Troisièmement, après avoir obtenu une paire d’images de deux caméras, l'étape d'extraction des traits faciaux suit tout en combinant les algorithmes de traitement d'images et la géométrie épipolaire pour effectuer le suivi des traits faciaux qui, dans notre cas, sont les deux yeux et le bout du nez du conducteur. Quatrièmement, dans une étape de détection des traits faciaux, les résultats 2D du suivi sont consolidés par la combinaison d'algorithmes de réseau de neurones et la géométrie du visage humain dans le but de filtrer les mauvais résultats. Enfin, dans la dernière étape, le modèle 3D de la tête est reconstruit grâce aux résultats 2D du suivi et ceux du calibrage stéréoscopique des caméras. En outre, on détermine les mesures 3D selon les six axes de mouvement connus sous le nom de degrés de liberté de la tête (longitudinal, vertical, latéral, roulis, tangage et lacet). La validation des résultats est effectuée en exécutant nos algorithmes sur des vidéos préenregistrés des conducteurs utilisant un simulateur de conduite afin d'obtenir des mesures 3D avec notre système et par la suite, à les comparer et les valider plus tard avec des mesures 3D fournies par un dispositif pour le suivi de mouvement installé sur la tête du conducteur. / This work presents a computer vision module capable of tracking the head motion in 3D space for drivers. This computer vision module was designed to be part of an integrated system to analyze the behaviour of the drivers by replacing costly equipments and accessories that track the head of a driver but are often cumbersome for the user. The vision module operates in five stages: image acquisition, head detection, facial features extraction, facial features detection, and 3D reconstruction of the facial features that are being tracked. Firstly, in the image acquisition stage, two synchronized monochromatic cameras are used to set up a stereoscopic system that will later make the 3D reconstruction of the head simpler. Secondly the driver’s head is detected to reduce the size of the search space for finding facial features. Thirdly, after obtaining a pair of images from the two cameras, the facial features extraction stage follows by combining image processing algorithms and epipolar geometry to track the chosen features that, in our case, consist of the two eyes and the tip of the nose. Fourthly, in a detection stage, the 2D tracking results are consolidated by combining a neural network algorithm and the geometry of the human face to discriminate erroneous results. Finally, in the last stage, the 3D model of the head is reconstructed from the 2D tracking results (e.g. tracking performed in each image independently) and calibration of the stereo pair. In addition 3D measurements according to the six axes of motion known as degrees of freedom of the head (longitudinal, vertical and lateral, roll, pitch and yaw) are obtained. The validation of the results is carried out by running our algorithms on pre-recorded video sequences of drivers using a driving simulator in order to obtain 3D measurements to be compared later with the 3D measurements provided by a motion tracking device installed on the driver’s head.
128

Détermination de la composition de l'alimentation des circuits de broyage par analyse d'images multivarié

Tessier, Jayson 11 April 2018 (has links)
L'objectif du projet est d'estimer en temps réel la composition de l'alimentation des circuits de broyage. La connaissance de cette composition permettrait d'estimer la résistance au broyage de l'alimentation en se basant sur la résistance au broyage de chacun des minerais présents. La méthodologie proposée utilise la vision numérique. Les couleurs et les textures des surfaces des minerais sont analysés. Pour ce faire, les techniques d'analyse d'images multivarié et d'analyse de texture par ondelettes sont utilisées avec l'analyse discriminante par projection sur les structures latentes et la classification par machines à vecteurs supports. Ces techniques permettent une bonne estimation de la tendance de la composition de l'alimentation pour des minerais secs et humides. Il est alors possible de donner une estimation en temps réel de la fraction des minerais de faible dureté, de dureté moyenne et finalement, des minerais durs. Cette estimation peut être utilisée pour l'optimisation des performances des circuits de broyage. / The objective of this project is to provide on-line estimation of mill feed composition on conveyor belt. Knowing the proportion of the various ore types encountered in the mine, one can compute the hardness of the mixture based on individual rock type hardness measures. From digital images, colour and textural features are extracted from ore surfaces. These features are extracted using multivariate image analysis and wavelet texture analysis and composition is estimated by classification of these features using partial least squares discriminant analysis and support vector machines. The proposed methodology provides good estimation of the composition for dry and wet ores. On-line estimation of the composition of soft, medium or hard ores should help increase mill performances.
129

Vision numérique avec peu d'étiquettes : segmentation d'objets et analyse de l'impact de la pluie

Tremblay, Maxime 27 January 2024 (has links)
Un besoin ayant toujours existé dans le domaine de la vision numérique est celui d'avoir accès à des ensembles d'images annotées. Les avancements scientifiques et technologiques ont exacerbé les besoins en données étiquetées; un modèle d'apprentissage profond peut nécessiter des milliers, voire des centaines de milliers (dépendamment de la complexité du problème), d'images étiquetées. Cela peut causer un problème puisque générer de grands ensembles de données étiquetées est une tâche longue et ardue. Est-il possible de travailler en vision numérique sans avoir à collecter et étiqueter des ensembles de données de plus en plus grands ? Dans le cadre de cette thèse, nous tentons de répondre à cette question sur deux fronts différents. Premièrement, nous avons développé une approche de détection et segmentation d'objets nécessitant peu de données d'entraînement. Cette approche, inspirée des modèles par les bag-of-words, modélise l'apparence et la forme des objets de façon éparse; la modélisation de la forme se fait par l'entremise d'un nouveau descripteur de forme. Deuxièmement, nous nous sommes penchés sur le fait que certains ensembles de données sont difficilement capturables et étiquetables. Nous nous sommes concentrés sur un exemple particulier, c'est-à-dire générer un ensemble d'images de scènes extérieures avec de la pluie dont les annotations consistent au taux de précipitation (mm/h). Notre solution consiste à augmenter des images réelles avec de la pluie synthétique. Si ces images augmentées sont suffisamment réalistes, il est possible d'expérimenter sur celles-ci comme si elles étaient des images de pluie réelle. Dans nos expérimentations, nous avons évalué l'effet de la pluie sur différents algorithmes de vision numérique et nous avons augmenté la robustesse de ceux-ci sur des images contenant de la vraie pluie.
130

Exploitation of the vector field representation for pose estimation, view integration and 3D modeling using natural features

Nguyen, Van Tung 23 April 2018 (has links)
La mise en registre et l'intégration des vues est une phase essentielle et inévitable dans un processus de modélisation 3D. L'étape la plus difficile de ce problème est d'estimer les poses relatives entre les vues sans utiliser l'information initiale sur la position du capteur ni d'intervention de l'utilisateur avant l'étape d'acquisition. Nous proposons une méthode de mise en registre globale automatique pour les données en format de nuages de points. Le principal problème abordé dans cette thèse est de résoudre le problème d'intégration et de mise en registre de vues dans la modélisation 3D pour les données en format de nuages de points. L'approche globale proposée est basée sur le framework de champ vectoriel et effectue automatiquement une mise en registre de grossière à plus précise sans formuler d'hypothèse sur la position initiale entre les vues ou de pré-traitement manuel de positionnement initial. En particulier, nous exploitons une représentation de champ vectoriel augmentée afin d'implémenter la segmentation et l'extraction de caractéristiques sur la surface d'un objet afin de détecter des correspondances. En outre, le processus de rafinement de pose dans le champ vectoriel réduit la complexité de la recherche de correspondances du point le plus proche puisque l'information est implicitement codée dans la représentation de champ vectoriel. De plus, en exploitant la représentation de champ vectoriel, nous offrons une nouvelle méthode de mise en registre qui supporte toutes les étapes de la modélisation 3D sans nécessiter de transformation de la représentation des données. Une solution alternative à l'aide d'une variation de RANSAC-DARCES basée sur le champ vectoriel permet au procédé proposé de traiter des objets de différents types de géométrie. Enfin, l'approche proposée est validée sur plusieurs ensembles de données tels que les modèles standards, ainsi que de vrais modèles numérisés par des scanners portatifs tenus en main. La performance de la méthode proposée est évaluée par inspection visuelle et quantitativement par la mesure de l'erreur de correspondance. / View integration and registration is an essential and unavoidable phase in a 3D modeling process. The most challenging step of this problem is to estimate relative poses between views without using any initial information of the scanning position or using intervention prior to the acquisition step. We propose an automatic global registration method for point cloud data. The main problem addressed in this thesis is to solve the view integration and registration problem in 3D modeling for point cloud data. The proposed global approach is based on the Vector Field framework and automatically performs coarse to fine registration without requiring any assumption on the initial position between views or manual pre-processing for initial positioning. In particular, we exploit an augmented Vector Field representation to implement segmentation and extraction of features on the surface of an object in order to detect correspondences. In addition, the pose refinement process in the Vector Field reduces the complexity of the search for closest point correspondence since the information is implicitly encoded in the Vector Field representation. Also by exploiting the Vector Field representation, we provide a new method of registration that supports all steps of 3D modeling without requiring transformation of the data representation. An alternative solution using a variation of RANSAC-DARCES based in the Vector Field enables the proposed method to deal with objects of various types of geometry. Finally, the proposed approach is validated on multiple data sets such as standard models as well as real models scanned by hand-held scanners. The performance of the proposed method is evaluated by visual inspection as well as quantitatively by measuring the correspondence error.

Page generated in 0.0697 seconds