Global ETD Search

121	Apprentissage Profond pour des Prédictions Structurées Efficaces appliqué à la Classification Dense en Vision par Ordinateur / Efficient Deep Structured Prediction for Dense Labeling Tasks in Computer Vision Chandra, Siddhartha 11 May 2018 (has links) Dans cette thèse, nous proposons une technique de prédiction structurée qui combine les vertus des champs aléatoires conditionnels Gaussiens (G-CRF) avec les réseaux de neurones convolutifs (CNN). L’idée à l’origine de cette thèse est l’observation que tout en étant d’une forme limitée, les GCRF nous permettent d’effectuer une inférence exacte de Maximum-A-Posteriori (MAP) de manière efficace. Nous préférons l’exactitude et la simplicité à la généralité et préconisons la prédiction structurée basée sur les G-CRFs dans les chaînes de traitement d’apprentissage en profondeur. Nous proposons des méthodes de prédiction structurées qui permettent de gérer (i) l’inférence exacte, (ii) les interactions par paires à court et à long terme, (iii) les expressions CNN riches pour les termes paires et (iv) l’entraînement de bout en bout aux côtés des CNN. Nous concevons de nouvelles stratégies de mise en œuvre qui nous permettent de surmonter les problèmes de mémoire et de calcul lorsque nous traitons des modèles graphiques entièrement connectés. Ces méthodes sont illustrées par des études expérimentales approfondies qui démontrent leur utilité. En effet, nos méthodes permettent une amélioration des résultats vis-à-vis de L’état de l’art sur des applications variées dans le domaine de la vision par ordinateur. / In this thesis we propose a structured prediction technique that combines the virtues of Gaussian Conditional Random Fields (G-CRFs) with Convolutional Neural Networks (CNNs). The starting point of this thesis is the observation that while being of a limited form GCRFs allow us to perform exact Maximum-APosteriori (MAP) inference efficiently. We prefer exactness and simplicity over generality and advocate G-CRF based structured prediction in deep learning pipelines. Our proposed structured prediction methods accomodate (i) exact inference, (ii) both shortand long- term pairwise interactions, (iii) rich CNN-based expressions for the pairwise terms, and (iv) end-to-end training alongside CNNs. We devise novel implementation strategies which allow us to overcome memory and computational challenges Prédiction Structurée Apprentissage en Profondeur Vision par ordinateur Structured Prediction Deep Learning Computer vison
122	Représentations à base de parties pour la vision 3D de haut niveau / Part-Based Representations for High-Level 3D Vision Kinauer, Stefan 31 August 2018 (has links) Dans cette thèse, nous utilisons des modèles de parties déformables (Deformable Part Models – DPMs) pour apprendre à détecter des parties d’objets. Pour une image d’un objet, l’objectif est de déterminer l’emplacement des parties de cet objet dans l’image. Le problème d’optimisation qui en résulte est non-convexe et difficile en raison de son grand espace de recherche.Notre première contribution consiste à étendre les DPMs à la troisième dimension, grâce à un algorithme par séparation et évaluation (Branchand- Bound). Nous élaborons un algorithme personnalisé qui est deux fois plus rapide qu’une approche naïve et garantit l’optimalité globale. Nous dérivons pour le modèle 3-dimensionnel une structure 3-dimensionnel. Cependant, nous entrainons un algorithme prenant en compte chaque sous point de vue de l’apparence. Nous démontrons notre approche sur la tache de l’estimation 3-dimensionnel de la posture, en déterminant la posture de l’objet dans une fraction de second.Notre deuxième contribution nous permet d’effectuer une inférence efficace sur des modèles où les connexions des parties forment un graphe avec des boucles, étendant ainsi des modèles plus riches. Pour cela, nous utilisons l’algorithme des directions alternées (Alternating Direction Method of Multipliers – ADMM) pour découpler le problème et résoudre itérativement un ensemble de sous-problèmes plus faciles. Nous calculons les paramètres du modèle via un Réseaux Neuronal Convolutif pour la détermination de la posture 3-dimensionnel. L’inférence développée est utilisée comme dernière couche du réseau neural. Cela permet d’obtenir une performance à l’état de l’art pour la tâche d’estimation de pose humaine en 3D. / In this work we use Deformable Part Models (DPMs) to learn and detect object parts in 3 dimensions. Given a single RGB image of an object, the objective is to determine the location of the object’s parts. The resulting optimization problem is non-convex and challenging due to its large solution space.Our first contribution consists in extending DPMs into the third dimension through an efficient Branch-and-Bound algorithm. We devise a customized algorithm that is two orders of magnitude faster than a naive approach and guarantees global-optimality. We derive the model’s 3-dimensional geometry from one 3-dimensional structure, but train viewpoint-specific part appearance terms based on deep learning features. We demonstrate our approach on the task of 3D object pose estimation, determining the object pose within a fraction of a second.Our second contribution allows us to perform efficient inference with part-based models where the part connections form a graph with loops, thereby allowing for richer models. For this, we use the Alternating Direction Method of Multipliers (ADMM) to decouple the problem and solve iteratively a set of easier sub-problems. We compute 3-dimensional model parameters in a Convolutional Neural Network for 3D human pose estimation. Then we append the developed inference algorithm as final layer to this neural network. This yields state of the art performance in the 3D human pose estimation task. Vision par ordinateur Optimisation Intelligence artificielle Computer vision Optimization Artificial intelligence
123	Développement d'un robot d'analyse de la locomotion et d'entrainement Bégin, William 24 September 2021 (has links) Que ce soit à des fins d'amélioration de la performance ou de réhabilitation physique, l'analyse de la condition physique et de la locomotion occupe de nos jours une importante place dans le domaine des soins santé. La récente démocratisation des microcontrôleurs et de leur suite de capteurs a permis la venue de nouvelles modalités d'évaluation de la locomotion (p. ex. l'analyse cinématique avec systèmes inertiels). Ce mémoire présente le développement d'un véhicule autonome de petite taille permettant la capture vidéo d'un participant selon un suivi adaptatif utile à des fins d'analyse du mouvement et la réalisation d'évaluation de la condition physique en dehors des milieux de laboratoires et cliniques (p. ex. Salle instrumentée, tapis roulant). Le robot, fabriqué à faibles coûts, est basé sur la plateforme Raspberry Pi. De façon à conduire une collecte en milieu écologique, celui-ci est placé sur une piste d'athlétisme intérieure sur laquelle il peut se déplacer de manière autonome dans les corridors en suivant les lignes selon un algorithme de reconnaissance visuelle et d'automatisation. L'instrumentation embarquée du véhicule permet l'évaluation du participant en mode « suivi », c'est-à-dire en suivant la cadence en conservant une distance constante et sécuritaire. Le mode meneur de train » impose quant à lui une cadence au participant. Ce mode peut aussi être utilisé à des fins d'analyse de la performance ou d'entrainement. Au cours de ce document, les modalités de conception et de fabrication seront présentées. Les méthodes de vision par ordinateur pour la conduite autonome développée pour un ordinateur à faible coût et de faible puissance seront détaillées. Les résultats d'essais effectués sur une piste d'athlétisme intérieure permettant de démontrer les performances et limitations du véhicule sont présentés. Les résultats obtenus sont discutés. Finalement, de nouvelles approches pour l'évaluation de la condition physique seront proposées. / Whether for performance enhancement or physical rehabilitation, the analysis of fitness and locomotion occupies an important place in today's healthcare. The recent democratization of microcontrollers and their suite of sensors has allowed the emergence of new methods for evaluating locomotion (e.g., kinematic analysis with inertial systems). This dissertation presents the development of an autonomous vehicle of small size allowing the video capture of a participant according to an adaptive tracking that could be used for movement analysis and physical condition evaluations performed outside of laboratory environments and clinics (e.g., Instrumented room, treadmills). The robot, manufactured at low cost, is based on the Raspberry Pi platform. In order to conduct a video data acquisition in an ecological environment, it is placed on an indoor running track on which it can move independently in the corridors by following the lane lines according to a visual recognition and automation algorithm. The onboard instrumentation of the vehicle allows the participant to be evaluated in "follow-up" mode, that is to say by following the pace while maintaining a constant and safe distance with the assessed participant. The "pacesetter" mode, for its part, imposes a pace on the participant. This mode can also be used for performance analysis or training purposes. Throughout this document, the design and manufacturing methods will be presented. Computer vision methods for autonomous driving developed for a low cost, low-power computer will be detailed. The results of tests carried out on an indoor running track to demonstrate the performances and limitations of the vehicle are presented. Finally, new approaches for fitness assessment will be proposed. Vision par ordinateur. Locomotion humaine. Condition physique.
124	Exploitation of the vector field representation for pose estimation, view integration and 3D modeling using natural features Nguyen, Van Tung 23 April 2018 (has links) La mise en registre et l'intégration des vues est une phase essentielle et inévitable dans un processus de modélisation 3D. L'étape la plus difficile de ce problème est d'estimer les poses relatives entre les vues sans utiliser l'information initiale sur la position du capteur ni d'intervention de l'utilisateur avant l'étape d'acquisition. Nous proposons une méthode de mise en registre globale automatique pour les données en format de nuages de points. Le principal problème abordé dans cette thèse est de résoudre le problème d'intégration et de mise en registre de vues dans la modélisation 3D pour les données en format de nuages de points. L'approche globale proposée est basée sur le framework de champ vectoriel et effectue automatiquement une mise en registre de grossière à plus précise sans formuler d'hypothèse sur la position initiale entre les vues ou de pré-traitement manuel de positionnement initial. En particulier, nous exploitons une représentation de champ vectoriel augmentée afin d'implémenter la segmentation et l'extraction de caractéristiques sur la surface d'un objet afin de détecter des correspondances. En outre, le processus de rafinement de pose dans le champ vectoriel réduit la complexité de la recherche de correspondances du point le plus proche puisque l'information est implicitement codée dans la représentation de champ vectoriel. De plus, en exploitant la représentation de champ vectoriel, nous offrons une nouvelle méthode de mise en registre qui supporte toutes les étapes de la modélisation 3D sans nécessiter de transformation de la représentation des données. Une solution alternative à l'aide d'une variation de RANSAC-DARCES basée sur le champ vectoriel permet au procédé proposé de traiter des objets de différents types de géométrie. Enfin, l'approche proposée est validée sur plusieurs ensembles de données tels que les modèles standards, ainsi que de vrais modèles numérisés par des scanners portatifs tenus en main. La performance de la méthode proposée est évaluée par inspection visuelle et quantitativement par la mesure de l'erreur de correspondance. / View integration and registration is an essential and unavoidable phase in a 3D modeling process. The most challenging step of this problem is to estimate relative poses between views without using any initial information of the scanning position or using intervention prior to the acquisition step. We propose an automatic global registration method for point cloud data. The main problem addressed in this thesis is to solve the view integration and registration problem in 3D modeling for point cloud data. The proposed global approach is based on the Vector Field framework and automatically performs coarse to fine registration without requiring any assumption on the initial position between views or manual pre-processing for initial positioning. In particular, we exploit an augmented Vector Field representation to implement segmentation and extraction of features on the surface of an object in order to detect correspondences. In addition, the pose refinement process in the Vector Field reduces the complexity of the search for closest point correspondence since the information is implicitly encoded in the Vector Field representation. Also by exploiting the Vector Field representation, we provide a new method of registration that supports all steps of 3D modeling without requiring transformation of the data representation. An alternative solution using a variation of RANSAC-DARCES based in the Vector Field enables the proposed method to deal with objects of various types of geometry. Finally, the proposed approach is validated on multiple data sets such as standard models as well as real models scanned by hand-held scanners. The performance of the proposed method is evaluated by visual inspection as well as quantitatively by measuring the correspondence error. TK 7.5 UL 2015 Vision par ordinateur
125	Head motion tracking in 3D space for drivers Ntawiniga, Frédéric 13 April 2018 (has links) Ce travail présente un système de vision par ordinateur capable de faire un suivi du mouvement en 3D de la tête d’une personne dans le cadre de la conduite automobile. Ce système de vision par ordinateur a été conçu pour faire partie d'un système intégré d’analyse du comportement des conducteurs tout en remplaçant des équipements et des accessoires coûteux, qui sont utilisés pour faire le suivi du mouvement de la tête, mais sont souvent encombrants pour le conducteur. Le fonctionnement du système est divisé en quatre étapes : l'acquisition d'images, la détection de la tête, l’extraction des traits faciaux, la détection de ces traits faciaux et la reconstruction 3D des traits faciaux qui sont suivis. Premièrement, dans l'étape d'acquisition d'images, deux caméras monochromes synchronisées sont employées pour former un système stéréoscopique qui facilitera plus tard la reconstruction 3D de la tête. Deuxièmement, la tête du conducteur est détectée pour diminuer la dimension de l’espace de recherche. Troisièmement, après avoir obtenu une paire d’images de deux caméras, l'étape d'extraction des traits faciaux suit tout en combinant les algorithmes de traitement d'images et la géométrie épipolaire pour effectuer le suivi des traits faciaux qui, dans notre cas, sont les deux yeux et le bout du nez du conducteur. Quatrièmement, dans une étape de détection des traits faciaux, les résultats 2D du suivi sont consolidés par la combinaison d'algorithmes de réseau de neurones et la géométrie du visage humain dans le but de filtrer les mauvais résultats. Enfin, dans la dernière étape, le modèle 3D de la tête est reconstruit grâce aux résultats 2D du suivi et ceux du calibrage stéréoscopique des caméras. En outre, on détermine les mesures 3D selon les six axes de mouvement connus sous le nom de degrés de liberté de la tête (longitudinal, vertical, latéral, roulis, tangage et lacet). La validation des résultats est effectuée en exécutant nos algorithmes sur des vidéos préenregistrés des conducteurs utilisant un simulateur de conduite afin d'obtenir des mesures 3D avec notre système et par la suite, à les comparer et les valider plus tard avec des mesures 3D fournies par un dispositif pour le suivi de mouvement installé sur la tête du conducteur. / This work presents a computer vision module capable of tracking the head motion in 3D space for drivers. This computer vision module was designed to be part of an integrated system to analyze the behaviour of the drivers by replacing costly equipments and accessories that track the head of a driver but are often cumbersome for the user. The vision module operates in five stages: image acquisition, head detection, facial features extraction, facial features detection, and 3D reconstruction of the facial features that are being tracked. Firstly, in the image acquisition stage, two synchronized monochromatic cameras are used to set up a stereoscopic system that will later make the 3D reconstruction of the head simpler. Secondly the driver’s head is detected to reduce the size of the search space for finding facial features. Thirdly, after obtaining a pair of images from the two cameras, the facial features extraction stage follows by combining image processing algorithms and epipolar geometry to track the chosen features that, in our case, consist of the two eyes and the tip of the nose. Fourthly, in a detection stage, the 2D tracking results are consolidated by combining a neural network algorithm and the geometry of the human face to discriminate erroneous results. Finally, in the last stage, the 3D model of the head is reconstructed from the 2D tracking results (e.g. tracking performed in each image independently) and calibration of the stereo pair. In addition 3D measurements according to the six axes of motion known as degrees of freedom of the head (longitudinal, vertical and lateral, roll, pitch and yaw) are obtained. The validation of the results is carried out by running our algorithms on pre-recorded video sequences of drivers using a driving simulator in order to obtain 3D measurements to be compared later with the 3D measurements provided by a motion tracking device installed on the driver’s head. TK 7.5 UL 2008 Tête -- Mouvements -- Informatique Vision par ordinateur
126	Détermination de la composition de l'alimentation des circuits de broyage par analyse d'images multivarié Tessier, Jayson 11 April 2018 (has links) L'objectif du projet est d'estimer en temps réel la composition de l'alimentation des circuits de broyage. La connaissance de cette composition permettrait d'estimer la résistance au broyage de l'alimentation en se basant sur la résistance au broyage de chacun des minerais présents. La méthodologie proposée utilise la vision numérique. Les couleurs et les textures des surfaces des minerais sont analysés. Pour ce faire, les techniques d'analyse d'images multivarié et d'analyse de texture par ondelettes sont utilisées avec l'analyse discriminante par projection sur les structures latentes et la classification par machines à vecteurs supports. Ces techniques permettent une bonne estimation de la tendance de la composition de l'alimentation pour des minerais secs et humides. Il est alors possible de donner une estimation en temps réel de la fraction des minerais de faible dureté, de dureté moyenne et finalement, des minerais durs. Cette estimation peut être utilisée pour l'optimisation des performances des circuits de broyage. / The objective of this project is to provide on-line estimation of mill feed composition on conveyor belt. Knowing the proportion of the various ore types encountered in the mine, one can compute the hardness of the mixture based on individual rock type hardness measures. From digital images, colour and textural features are extracted from ore surfaces. These features are extracted using multivariate image analysis and wavelet texture analysis and composition is estimated by classification of these features using partial least squares discriminant analysis and support vector machines. The proposed methodology provides good estimation of the composition for dry and wet ores. On-line estimation of the composition of soft, medium or hard ores should help increase mill performances. TP 7.5 UL 2006 T339 Broyage autogène Granulométrie Minéralurgie Vision par ordinateur Analyse d'images
127	Vision numérique avec peu d'étiquettes : segmentation d'objets et analyse de l'impact de la pluie Tremblay, Maxime 18 May 2021 (has links) Un besoin ayant toujours existé dans le domaine de la vision numérique est celui d'avoir accès à des ensembles d'images annotées. Les avancements scientifiques et technologiques ont exacerbé les besoins en données étiquetées; un modèle d'apprentissage profond peut nécessiter des milliers, voire des centaines de milliers (dépendamment de la complexité du problème), d'images étiquetées. Cela peut causer un problème puisque générer de grands ensembles de données étiquetées est une tâche longue et ardue. Est-il possible de travailler en vision numérique sans avoir à collecter et étiqueter des ensembles de données de plus en plus grands ? Dans le cadre de cette thèse, nous tentons de répondre à cette question sur deux fronts différents. Premièrement, nous avons développé une approche de détection et segmentation d'objets nécessitant peu de données d'entraînement. Cette approche, inspirée des modèles par les bag-of-words, modélise l'apparence et la forme des objets de façon éparse; la modélisation de la forme se fait par l'entremise d'un nouveau descripteur de forme. Deuxièmement, nous nous sommes penchés sur le fait que certains ensembles de données sont difficilement capturables et étiquetables. Nous nous sommes concentrés sur un exemple particulier, c'est-à-dire générer un ensemble d'images de scènes extérieures avec de la pluie dont les annotations consistent au taux de précipitation (mm/h). Notre solution consiste à augmenter des images réelles avec de la pluie synthétique. Si ces images augmentées sont suffisamment réalistes, il est possible d'expérimenter sur celles-ci comme si elles étaient des images de pluie réelle. Dans nos expérimentations, nous avons évalué l'effet de la pluie sur différents algorithmes de vision numérique et nous avons augmenté la robustesse de ceux-ci sur des images contenant de la vraie pluie. Vision par ordinateur. Images numériques -- Étiquetage. Segmentation d'image. Pluie. Algorithmes. Jeux de données.
128	VisionLib NexGen : design et implémentation d'une nouvelle architecture pour une librairie de vision numérique Morin-Rivest, Yannick 18 April 2018 (has links) Optel Vision est une compagnie produisant des systèmes d'inspection par vision artificielle pour l'industrie pharmaceutique, nutraceutique et cosmétique. Ces systèmes possèdent une architecture matérielle et logicielle interagissant ensemble. Les algorithmes de vision sont une librairie faisant partie de l'ensemble logiciel. Cette dernière contient l'ensemble des structures et des algorithmes de vision construits à l'interne se nommant VisionLib. Cette librarie possède déjà quelques années et son architecture limite maintenant le développement de certaines spécifications importantes ainsi que de nouvelles applications que l'entreprise aimerait ajouter à son porte-folio. Ce mémoire présentera l'approche utilisée afin de créer la nouvelle architecture de la librairie de vision en optimisant la parallélisation des algorithmes de manière automatique, en développement en système plus ouvert et facilement configurable, en facilitant le débogage interne, et finalement en minimisant le temps de développement d'une nouvelle analyse vision TK 7.5 UL 2010 M858 Vision par ordinateur -- Logiciels Architecture logicielle Algorithmes parallèles
129	Nettoyage d'une carte de primitives par appariement et relaxation Filiatrault, Alexandre 12 April 2018 (has links) Ce mémoire présente une étape intermédiaire de traitement dans le but d'isoler les objets principaux d'une scène. Les calculs sont effectués à partir de la sortie du logiciel Magno, qui a pour but de segmenter une image numérique en segments de droites et en arcs de cercles. L'objectif du projet est de nettoyer la carte de primitives ; garder celles qui sont disposées à former un objet multi-parties et rejeter celles qui vraisemblablement représentent l'arrière-scène. L'approche retenue implique un appariement de toutes les paires de primitives possibles et y ajoute une phase de relaxation pour stabiliser les résultats. TK 7.5 UL 2007 F482 Vision par ordinateur Images numériques
130	Développement d'un robot d'analyse de la locomotion et d'entrainement Bégin, William 24 September 2021 (has links) Que ce soit à des fins d'amélioration de la performance ou de réhabilitation physique, l'analyse de la condition physique et de la locomotion occupe de nos jours une importante place dans le domaine des soins santé. La récente démocratisation des microcontrôleurs et de leur suite de capteurs a permis la venue de nouvelles modalités d'évaluation de la locomotion (p. ex. l'analyse cinématique avec systèmes inertiels). Ce mémoire présente le développement d'un véhicule autonome de petite taille permettant la capture vidéo d'un participant selon un suivi adaptatif utile à des fins d'analyse du mouvement et la réalisation d'évaluation de la condition physique en dehors des milieux de laboratoires et cliniques (p. ex. Salle instrumentée, tapis roulant). Le robot, fabriqué à faibles coûts, est basé sur la plateforme Raspberry Pi. De façon à conduire une collecte en milieu écologique, celui-ci est placé sur une piste d'athlétisme intérieure sur laquelle il peut se déplacer de manière autonome dans les corridors en suivant les lignes selon un algorithme de reconnaissance visuelle et d'automatisation. L'instrumentation embarquée du véhicule permet l'évaluation du participant en mode « suivi », c'est-à-dire en suivant la cadence en conservant une distance constante et sécuritaire. Le mode meneur de train » impose quant à lui une cadence au participant. Ce mode peut aussi être utilisé à des fins d'analyse de la performance ou d'entrainement. Au cours de ce document, les modalités de conception et de fabrication seront présentées. Les méthodes de vision par ordinateur pour la conduite autonome développée pour un ordinateur à faible coût et de faible puissance seront détaillées. Les résultats d'essais effectués sur une piste d'athlétisme intérieure permettant de démontrer les performances et limitations du véhicule sont présentés. Les résultats obtenus sont discutés. Finalement, de nouvelles approches pour l'évaluation de la condition physique seront proposées. / Whether for performance enhancement or physical rehabilitation, the analysis of fitness and locomotion occupies an important place in today's healthcare. The recent democratization of microcontrollers and their suite of sensors has allowed the emergence of new methods for evaluating locomotion (e.g., kinematic analysis with inertial systems). This dissertation presents the development of an autonomous vehicle of small size allowing the video capture of a participant according to an adaptive tracking that could be used for movement analysis and physical condition evaluations performed outside of laboratory environments and clinics (e.g., Instrumented room, treadmills). The robot, manufactured at low cost, is based on the Raspberry Pi platform. In order to conduct a video data acquisition in an ecological environment, it is placed on an indoor running track on which it can move independently in the corridors by following the lane lines according to a visual recognition and automation algorithm. The onboard instrumentation of the vehicle allows the participant to be evaluated in "follow-up" mode, that is to say by following the pace while maintaining a constant and safe distance with the assessed participant. The "pacesetter" mode, for its part, imposes a pace on the participant. This mode can also be used for performance analysis or training purposes. Throughout this document, the design and manufacturing methods will be presented. Computer vision methods for autonomous driving developed for a low cost, low-power computer will be detailed. The results of tests carried out on an indoor running track to demonstrate the performances and limitations of the vehicle are presented. Finally, new approaches for fitness assessment will be proposed. Vision par ordinateur. Locomotion humaine. Condition physique.

Search results