Spelling suggestions: "subject:"disision para ordinateur)"" "subject:"decisision para ordinateur)""
361 |
L'ajustement de faisceaux contraint comme cadre d'unification des méthodes de localisation : application à la réalité augmentée sur des objets 3D / Constrained beam adjustment as a framework for unifying location methods : application to augmented reality on 3D objectsTamaazousti, Mohamed 13 March 2013 (has links)
Les travaux réalisés au cours de cette thèse s’inscrivent dans la problématique de localisation en temps réel d’une caméra par vision monoculaire. Dans la littérature, il existe différentes méthodes qui peuvent être classées en trois catégories. La première catégorie de méthodes considère une caméra évoluant dans un environnement complètement inconnu (SLAM). Cette méthode réalise une reconstruction enligne de primitives observées dans des images d’une séquence vidéo et utilise cette reconstruction pour localiser la caméra. Les deux autres permettent une localisation par rapport à un objet 3D de la scène en s’appuyant sur la connaissance, a priori, d’un modèle de cet objet (suivi basé modèle). L’une utilise uniquement l’information du modèle 3D de l’objet pour localiser la caméra, l’autre peut être considérée comme l’intermédiaire entre le SLAM et le suivi basé modèle. Cette dernière méthode consiste à localiser une caméra par rapport à un objet en utilisant, d’une part, le modèle de ce dernier et d’autre part, une reconstruction en ligne des primitives de l’objet d’intérêt. Cette reconstruction peut être assimilée à une mise à jour du modèle initial (suivi basé modèle avec mise à jour). Chacune de ces méthodes possède des avantages et des inconvénients. Dans le cadre de ces travaux de thèse, nous proposons une solution unifiant l’ensemble de ces méthodes de localisation dans un unique cadre désigné sous le terme de SLAM contraint. Cette solution, qui unifie ces différentes méthodes, permet de tirer profit de leurs avantages tout en limitant leurs inconvénients respectifs. En particulier, nous considérons que la caméra évolue dans un environnement partiellement connu, c’est-à-dire pour lequel un modèle (géométrique ou photométrique) 3D d’un objet statique de la scène est disponible. L’objectif est alors d’estimer de manière précise la pose de la caméra par rapport à cet objet 3D. L’information absolue issue du modèle 3D de l’objet d’intérêt est utilisée pour améliorer la localisation de type SLAM en incluant cette information additionnelle directement dans le processus d’ajustement de faisceaux. Afin de pouvoir gérer un large panel d’objets 3D et de scènes, plusieurs types de contraintes sont proposées dans ce mémoire. Ces différentes contraintes sont regroupées en deux approches. La première permet d’unifier les méthodes SLAM et de suivi basé modèle, en contraignant le déplacement de la caméra via la projection de primitives existantes extraites du modèle 3D dans les images. La seconde unifie les méthodes SLAM et de suivi basé modèle avec mise à jour en contraignant les primitives reconstruites par le SLAM à appartenir à la surface du modèle (unification SLAM et mise à jour du modèle). Les avantages de ces différents ajustements de faisceaux contraints, en terme de précision, de stabilité de recalage et de robustesse aux occultations, sont démontrés sur un grand nombre de données de synthèse et de données réelles. Des applications temps réel de réalité augmentée sont également présentées sur différents types d’objets 3D. Ces travaux ont fait l’objet de 4 publications internationales, de 2 publications nationales et d’un dépôt de brevet. / This thesis tackles the problem of real time location of a monocular camera. In the literature, there are different methods which can be classified into three categories. The first category considers a camera moving in a completely unknown environment (SLAM). This method performs an online reconstruction of the observed primitives in the images and uses this reconstruction to estimate the location of the camera. The two other categories of methods estimate the location of the camera with respect to a 3D object in the scene. The estimation is based on an a priori knowledge of a model of the object (Model-based). One of these two methods uses only the information of the 3D model of the object to locate the camera. The other method may be considered as an intermediary between the SLAM and Model-based approaches. It consists in locating the camera with respect to the object of interest by using, on one hand the 3D model of this object, and on the other hand an online reconstruction of the primitives of the latter. This last online reconstruction can be regarded as an update of the initial 3D model (Model-based with update). Each of these methods has advantages and disadvantages. In the context of this thesis, we propose a solution in order to unify all these localization methods in a single framework referred to as the constrained SLAM, by taking parts of their benefits and limiting their disadvantages. We, particularly, consider that the camera moves in a partially known environment, i.e. for which a 3D model (geometric or photometric) of a static object in the scene is available. The objective is then to accurately estimate the pose (position and orientation) of the camera with respect to this object. The absolute information provided by the 3D model of the object is used to improve the localization of the SLAM by directly including this additional information in the bundle adjustment process. In order to manage a wide range of 3D objets and scenes, various types of constraints are proposed in this study and grouped into two approaches. The first one allows to unify the SLAM and Model-based methods by constraining the trajectory of the camera through the projection, in the images, of the 3D primitives extracted from the model. The second one unifies the SLAM and Model-based with update methods, by constraining the reconstructed 3D primitives of the object to belong to the surface of the model (unification SLAM and model update). The benefits of the constrained bundle adjustment framework in terms of accuracy, stability, robustness to occlusions, are demonstrated on synthetic and real data. Real time applications of augmented reality are also presented on different types of 3D objects. This work has been the subject of four international publications, two national publications and one patent.
|
362 |
Transformations polynomiales, applications à l'estimation de mouvements et la classification / Polynomial transformations, applications to motion estimation and classificationMoubtahij, Redouane El 11 June 2016 (has links)
Ces travaux de recherche concernent la modélisation de l'information dynamique fonctionnelle fournie par les champs de déplacements apparents à l'aide de base de polynômes orthogonaux. Leur objectif est de modéliser le mouvement et la texture extraites afin de l'exploiter dans les domaines de l'analyse et de la reconnaissance automatique d'images et de vidéos. Nous nous intéressons aussi bien aux mouvements humains qu'aux textures dynamiques. Les bases de polynômes orthogonales ont été étudiées. Cette approche est particulièrement intéressante car elle offre une décomposition en multi-résolution et aussi en multi-échelle. La première contribution de cette thèse est la définition d'une méthode spatiale de décomposition d'image : l'image est projetée et reconstruite partiellement avec un choix approprié du degré d'anisotropie associé à l'équation de décomposition basée sur des transformations polynomiales. Cette approche spatiale est étendue en trois dimensions afin d'extraire la texture dynamique dans des vidéos. Notre deuxième contribution consiste à utiliser les séquences d'images qui représentent les parties géométriques comme images initiales pour extraire les flots optiques couleurs. Deux descripteurs d'action, spatial et spatio-temporel, fondés sur la combinaison des informations du mouvement/texture sont alors extraits. Il est ainsi possible de définir un système permettant de reconnaître une action complexe (composée d'une suite de champs de déplacement et de textures polynomiales) dans une vidéo. / The research relies on modeling the dynamic functional information from the fields of apparent movement using basic orthogonal polynomials. The goal is to model the movement and texture extracted for automatic analysis and recognition of images and videos. We are interested both in human movements as dynamic textures. Orthogonal polynomials bases were studied. This approach is particularly interesting because it offers a multi-resolution and a multi-scale decomposition. The first contribution of this thesis is the definition of method of image spatial decomposition: the image is projected and partially rebuilt with an appropriate choice of the degree of anisotropy associated with the decomposition equation based on polynomial transformations. This spatial approach is extended into three dimensions to retrieve the dynamic texture in videos. Our second contribution is to use image sequences that represent the geometric parts as initial images to extract color optical flow. Two descriptors of action, spatial and space-time, based on the combination of information of motion / texture are extracted. It is thus possible to define a system to recognize a complex action (composed of a series of fields of motion and polynomial texture) in a video.
|
363 |
Etude du contrôle de procédé de projection laser pour la fabrication additive : Instrumentation, Identification et Commande. / Instrumentation, Identification and Control of laser direct metal deposition for additive manufacturingMezari, Rezak 17 December 2014 (has links)
Les applications utilisant les procédés de fabrication directe par laser et projection de poudre sont en pleine expansion, en particulier, dans l'aéronautique. Néanmoins, cette technologie prometteuse fait état de quelques points durs et est confrontée aux problèmes d'instabilités du procédé. Lorsque ces phénomènes ne sont pas maîtrisés, cela conduit à des défauts (résistances mécaniques insuffisantes, porosités trop importantes, mauvais états de surface,….etc), qui, selon leur répartition et leur taille, risquent d'engendrer des non conformités, de détériorer les caractéristiques mécaniques des pièces et qui peuvent représenter un coût de post-traitement non négligeable. Par conséquent, il est primordial de maîtriser le procédé d'élaboration, afin de rendre le procédé de fabrication robuste et préserver l'intégrité structurelle de la pièce. Cela requiert la mise en place de système d'instrumentation du procède de projection laser, et par l'intermédiaire du contrôle procédé, d'avoir un système de commande temps réel permettant d'adapter les paramètres procédés en cours d'élaboration, afin de de maintenir une haute qualité de la pièce fabriquée. Dans cette perspective, nous avons développé une solution technologique (matérielle et algorithmique) à base de caméras (vision) permettant de suivre des paramètres clefs lors de la fabrication. L'application de ce système de vision a permis la mise en œuvre de méthodes innovantes, utilisant des outils de l'automatique moderne, pour surveiller l'état de pièces projetées, voire même corriger leurs défauts lors de la fabrication, en ayant un suivi et un contrôle du procédé en temps réel. De plus ce système de vision a permis à partir de mesures effectuées sur les entrées et les sorties du procédé, d'identifié un modèle dynamique qui ont conduit à la réalisation du système de contrôle procédé. / Applications using the direct metal deposition laser process have been expanded rapidly, particularly in aeronautics. However, this promising technology reported some difficult points and faced several problems, mainly the process instability. When these phenomena are not controlled, several defects was obtained (lack of mechanical strength, excessive porosity, poor surface, ... etc.). According to their distribution and size, non-conformity, deteriorate the mechanical characteristics of the parts was recorded and result in a significant cost of post-processing. Therefore, it is important to control the process, to make the process both robust and preserve the structural integrity of the piece. This requires the development of instrumentation through the control process, in order to have a real-time system able to adjust the process parameters to keep a high quality of the manufactured part. In this perspective, the studied thesis developed a technological solution (hardware and algorithms) based on cameras (vision) to monitor key parameters during manufacture. The application of this vision system has been allowed for the implementation of innovative methods by using modern automatic tools to monitor the status of the built part or even correct their defects during the manufacture parts, having a monitoring and process control in real time. Furthermore this vision system performed measurements for the inputs and outputs of the process, matched to a dynamic model that lead to the realization of the process control system.
|
364 |
Automated assessment of cardiac morphology and function : An integrated B-spline framework for real-time segmentation and tracking of the left ventricle / Caractérisation automatique de la morphologie et de la fonction cardiaque : Une cadre B-spline intégré pour la segmentation et le suivi en temps réel du ventricule gaucheBarbosa, Daniel 28 October 2013 (has links)
L’objectif principal de cette thèse est le développement de techniques de segmentation et de suivi totalement automatisées du ventricule gauche (VG) en RT3DE. Du fait de la nature difficile et complexe des données RT3DE, l’application directe des algorithmes classiques de vision par ordinateur est le plus souvent impossible. Les solutions proposées ont donc été formalisées et implémentées de sorte à satisfaire les contraintes suivantes : elles doivent permettre une analyse complètement automatique (ou presque) et le temps de calcul nécessaire doit être faible afin de pouvoir fonctionner en temps réel pour une utilisation clinique optimale. Dans ce contexte, nous avons donc proposé un nouveau cadre ou les derniers développements en segmentation d’images par ensembles de niveaux peuvent être aisément intégrés, tout en évitant les temps de calcul importants associés à ce type d’algorithmes. La validation clinique de cette approche a été effectuée en deux temps. Tout d’abord, les performances des outils développés ont été évaluées dans un contexte global se focalisant sur l’utilisation en routine clinique. Dans un second temps, la précision de la position estimée du contour du ventricule gauche a été mesurée. Enfin, les méthodes proposées ont été intégrées dans une suite logicielle utilisée à des fins de recherche. Afin de permettre une utilisation quotidienne efficace, des solutions conviviales ont été proposées incluant notamment un outil interactif pour corriger la segmentation du VG. / The fundamental goal of the present thesis was the development of automatic strategies for left ventricular (LV) segmentation and tracking in RT3DE data. Given the challenging nature of RT3DE data, classical computer vision algorithms often face complications when applied to ultrasound. Furthermore, the proposed solutions were formalized and built to respect the following requirements: they should allow (nearly) fully automatic analysis and their computational burden should be low, thus enabling real-time processing for optimal online clinical use. With this in mind, we have proposed a novel segmentation framework where the latest developments in level-set-based image segmentation algorithms could be straightforwardly integrated, while avoiding the heavy computational burden often associated with level-set algorithms. Furthermore, a strong validation component was included in order to assess the performance of the proposed algorithms in realistic scenarios comprising clinical data. First, the performance of the developed tools was evaluated from a global perspective, focusing on its use in clinical daily practice. Secondly, also the spatial accuracy of the estimated left ventricular boundaries was assessed. As a final step, we aimed at the integration of the developed methods in an in-house developed software suite used for research purposes. This included user-friendly solutions for efficient daily use, namely user interactive tools to adjust the segmented left ventricular boundaries.
|
365 |
L’espace du geste-son, vers une nouvelle pratique performativeHéon-Morissette, Barah 05 1900 (has links)
Cette thèse en recherche-création est une réflexion sur l’espace du geste-son. La dé- marche artistique de l’auteure, reposant sur six éléments : le corps, le son, le geste, l’image vidéo, l’espace physique et l’espace technologique, a été intégrée dans la conception d’un système de captation de mouvement en vision par ordinateur, le SICMAP (Système In- teractif de Captation du Mouvement en Art Performatif). Cette approche propose une nouvelle pratique performative hybride.
Dans un premier temps, l’auteure situe sa démarche artistique en s’appuyant sur les trois piliers de la méthodologie transdisciplinaire : les niveaux de Réalité et de perception (le corps et l’espace-matière), la logique du tiers inclus (l’espace du geste-son) et la com- plexité (éléments du processus de création). Ces concepts transdisciplinaires sont ensuite mis en relation à travers l’analyse d’œuvres arborant un élément commun à la démarche de l’auteure, soit le corps au centre d’un univers sensoriel.
L’auteure met ensuite en lumière des éléments relatifs à la pratique scénique susci- tée par cette démarche artistique innovante à travers le corps expressif. Le parcours du performeur-créateur, menant à la conception du SICMAP, est ensuite exposé en passant par une réflexion sur l’« instrument rêvé » et la réalisation de deux interfaces gestuelles pré- paratoires. Sous-entendant une nouvelle gestuelle dans un contexte d’interface sans retour haptique, la typologie du geste instrumental est revisitée dans une approche correspondant au nouveau paradigme de l’espace du geste-son.
En réponse à ces recherches, les détails de la mise en œuvre du SICMAP sont ensuite présentés sous l’angle de l’espace technologique et de l’application de l’espace du geste- son. Puis, les compositions réalisées lors du développement du SICMAP sont décrites d’un point de vue artistique et poïétique à travers les éléments fondateurs du processus de création de l’auteure. La conclusion résume les objectifs de cette recherche-création ainsi que les contributions de cette nouvelle pratique performative hybride. / This research-creation thesis is a reflection on the gesture-sound space. The author’s artistic research, based on six elements: body, sound, gesture, video, physical space, and technological space, was integrated in the conception of a motion capture system based on computer vision, the SICMAP (Système Interactif de Captation du Mouvement en Art Performatif – Interactive Motion Capture System For Performative Arts). This approach proposes a new performative hybrid practice.
In the first part, the author situates her artistic practice supported by the three pillars of transdisciplinary research methodology: the levels of Reality and perception (the body and space as matter), the logic of the included middle (gesture-sound space) and the com- plexity (elements of the creative process). These transdisciplinary concepts are juxtaposed through the analysis of works bearing a common element to the author’s artistic practice, the body at the center of a sensorial universe.
The author then puts forth elements relative to scenic practice arisen by this innovative artistic practice through the expressive body. The path taken by the performer-creator, leading to the conception of the SICMAP, is then explained through a reflection on the “dream instrument” and the realization of two preparatory gestural interfaces. Implying a new gestural in the context of a non-haptic interface that of the free-body gesture, the topology of the instrumental gesture is revisited in response to a new paradigm of the gesture-sound space.
In reply to this research, the details of the SICMAP are then presented from the angle of the technological space and then applied to the gesture-sound space. The compositions realized during the development of SICMAP are then presented. These works are discussed from an artistic and poietic point of view through the founding elements of the author’s creative process. The conclusion summarises the objectives of this research-creation as well as the contributions of this new performative hybrid practice.
|
366 |
Analyse haut-débit du comportement spontané d'un organisme modèle « simple » / High-throughput analysis of the spontaneous behavior of a “simple” model organismMirat, Olivier 25 September 2013 (has links)
L'utilisation d'organismes génétiques modèles a permis l'investigation à grande échelle de mécanismes cellulaires et moléculaires pour la biologie. La larve de poisson zèbre (Danio rerio) est un organisme vertébré modèle simple qui présente plusieurs avantages pour identifier les bases moléculaires et pharmacologiques du développement et du comportement à travers des cribles génétiques et chimiques respectivement. Plusieurs paradigmes expérimentaux reposent sur une caractérisation précise du phénotype comportemental associé avec un génotype ou l’application d’une drogue. Ce processus de phénotypage bénéficierait d'une compréhension globale des manœuvres possibles afin de caractériser précisément le comportement globale de larves observé au cours d'une expérience. L'analyse sur plusieurs minutes de la locomotion spontanée des larves de poisson zèbre en groupe fournit un cadre idéal pour atteindre ces objectifs.Si l'analyse manuelle du comportement animal est possible pour l'observation de manœuvres isolées et stéréotypées, elle n’est pas compatible avec une approche à grande échelle. A partir de cinq jours, la larve de poisson zèbre se meut sous forme de bouffées natatoires qui arrivent à haute fréquence et sont séparées par quelques secondes. La difficulté d'observation à haute fréquence et d'analyse de la locomotion en bouffée rend une analyse manuelle simple à partir de séquences vidéos du comportement impossible. Le développement récent de caméras rapides avec acquisition en mode continu, couplé aux avancées en informatique et en intelligence artificielle rend possible une analyse automatique du comportement. Les systèmes commerciaux actuels permettent des enregistrements sur des longues durées mais sans capturer la complexité et la diversité des mouvements réalisés. Nous avons donc créé ZebraZoom, notre système d'analyse haut débit permettant de suivre, de quantifier et de catégoriser le comportement spontané de chaque larve de poisson zèbre au sein d’un groupe.Nous avons monté un dispositif expérimental qui consiste à placer sept larves de poisson zèbre âgées d'entre cinq et sept jours dans huit boîtes de pétri. Les boîtes de pétri sont disposées sur une table lumineuse et une caméra rapide positionnée au-dessus enregistre le comportement spontané à 337 Hz pendant quatre minutes. Une fois la vidéo acquise, ZebraZoom localise automatiquement chacune des huit boîtes de pétri, puis suit tête et queue de chacun des animaux sur l'ensemble de la vidéo, grâce à des procédures de vision par ordinateur. ZebraZoom identifie automatiquement chaque bouffée natatoire. Le phénotypage du comportement a été réalisé grâce à deux méthodes complémentaires : l'extraction de paramètres globaux caractérisant la dynamique des mouvements et la catégorisation automatique des mouvements en différents manœuvres stéréotypées. Nous avons utilisé l’analyse des paramètres globaux afin de caractériser l'effet de drogues agissant sur les récepteurs de neurotransmetteurs et l’analyse d’un mutant aveugle. La catégorisation automatique des mouvements est réalisée grâce a des procédures d’apprentissage automatique (« Machine Learning »). Nous avons illustré l’utilité de cette catégorisation pour étudier les interactions entre larves à ces stades précoces. En conclusion, notre programme ZebraZoom permet de réaliser un phénotypage automatique et complet, et cette approche pourra être appliquée dans d'autres systèmes et contextes expérimentaux. / The use of simple genetic model organisms has allowed large-scale investigation of cellular and molecular mechanisms in biology. The zebrafish larva (Danio rerio) is a simple vertebrate model with several advantages for the identification of the molecular and pharmacological basis of development and behavior thanks to genetic and chemical screens. Several experimental paradigms rely on a precise behavioral characterization associated with a genotype or a drug application. This phenotyping process would benefit from a global comprehension of all possible zebrafish larvae maneuvers in order to precisely characterize the global behavior of larvae observed during an experiment. The analysis over multiple minutes of the spontaneous locomotion of zebrafish larvae in a group provides an ideal framework for achieving these goals.The manual analysis of animal behavior is possible for the observation of stereotyped and isolated maneuvers, but it is not compatible with large-scale approaches. After five days, the zebrafish larva moves in burst of movement occurring at high frequency and separated by a few seconds. The difficulty of observation of high-frequency maneuvers makes a manual analysis of videos impossible. The recent development of high-speed cameras, coupled with advances in computer science and artificial intelligence, make an automatic analysis of behavior possible. The available commercial solutions allow long acquisitions but without capturing all the complexity and diversity of the movements. We thus created ZebraZoom, our high-throughput analysis system which makes it possible to follow, quantify and categorize the spontaneous behavior of all zebrafish larva in a group.We built an experimental setup which consisted in placing seven 5- to 7-day old zebrafish larvae in eight petri dishes. The petri dishes were placed on a light table and a high-speed camera was placed above the setup and allowed to record the spontaneous behavior at 337 Hz during four minutes. Once the video was acquired, ZebraZoom localized automatically each of the eight petri dishes and followed the head and the tail of each of the animals on the entire video, thanks to computer vision methods. ZebraZoom then identifies automatically all burst of movement.The behavior phenotyping was performed thanks to two complementary methods: the extraction of global parameters characterizing movement dynamics and the automatic categorization of movements into stereotyped maneuvers. We used global parameters analysis to characterize the effect of drugs acting on neurotransmitters receptors and to analyze the behavior of a blind mutant. The automatic categorization of movements was carried out thanks to machine learning procedures. We showed the utility of this categorization method in studying interactions between larvae at early stages. In conclusion, our ZebraZoom program makes it possible to carry out an automatic and complete phenotyping, and this approach could be used in other systems and experimental contexts.
|
367 |
Influencing the Properties of Latent SpacesZumer, Jeremie 08 1900 (has links)
No description available.
|
368 |
Calibrage de caméra fisheye et estimation de la profondeur pour la navigation autonomeBrousseau, Pierre-André 08 1900 (has links)
Ce mémoire s’intéresse aux problématiques du calibrage de caméras grand angles et de l’estimation de la profondeur à partir d’une caméra unique, immobile ou en mouvement. Les travaux effectués se situent à l’intersection entre la vision 3D classique et les nouvelles méthodes par apprentissage profond dans le domaine de la navigation autonome. Ils visent à permettre la détection d’obstacles par un drone en mouvement muni d’une seule caméra à très grand angle de vue. D’abord, une nouvelle méthode de calibrage est proposée pour les caméras fisheyes à très grand angle de vue par calibrage planaire à correspondances denses obtenues par lumière structurée qui peuvent être modélisée par un ensemble de caméras génériques virtuelles centrales. Nous démontrons que cette approche permet de modéliser directement des caméras axiales, et validons sur des données synthétiques et réelles. Ensuite, une méthode est proposée pour estimer la profondeur à partir d’une seule image, à partir uniquement des indices de profondeurs forts, les jonctions en T. Nous démontrons que les méthodes par apprentissage profond sont susceptibles d’apprendre les biais de leurs ensembles de données et présentent des lacunes d’invariance. Finalement, nous proposons une méthode pour estimer la profondeur à partir d’une caméra en mouvement libre à 6 degrés de liberté. Ceci passe par le calibrage de la caméra fisheye sur le drone, l’odométrie visuelle et la résolution de la profondeur. Les méthodes proposées permettent la détection d’obstacle pour un drone. / This thesis focuses on the problems of calibrating wide-angle cameras and estimating
depth from a single camera, stationary or in motion. The work carried out is at the
intersection between traditional 3D vision and new deep learning methods in the field
of autonomous navigation. They are designed to allow the detection of obstacles by a
moving drone equipped with a single camera with a very wide field of view. First, a
new calibration method is proposed for fisheye cameras with very large field of view
by planar calibration with dense correspondences obtained by structured light that can
be modelled by a set of central virtual generic cameras. We demonstrate that this approach
allows direct modeling of axial cameras, and validate it on synthetic and real
data. Then, a method is proposed to estimate the depth from a single image, using only
the strong depth cues, the T-junctions. We demonstrate that deep learning methods are
likely to learn from the biases of their data sets and have weaknesses to invariance. Finally,
we propose a method to estimate the depth from a camera in free 6 DoF motion.
This involves calibrating the fisheye camera on the drone, visual odometry and depth
resolution. The proposed methods allow the detection of obstacles for a drone.
|
369 |
IIRC : Incremental Implicitly-Refined ClassificationAbdelsalam, Mohamed 05 1900 (has links)
Nous introduisons la configuration de la "Classification Incrémentale Implicitement Raffinée / Incremental Implicitly-Refined Classification (IIRC)", une extension de la configuration de l'apprentissage incrémental des classes où les lots de classes entrants possèdent deux niveaux de granularité, c'est-à-dire que chaque échantillon peut avoir une étiquette (label) de haut niveau (brute), comme "ours”, et une étiquette de bas niveau (plus fine), comme "ours polaire". Une seule étiquette (label) est fournie à la fois, et le modèle doit trouver l’autre étiquette s’il l’a déjà apprise. Cette configuration est plus conforme aux scénarios de la vie réelle, où un apprenant aura tendance à interagir avec la même famille d’entités plusieurs fois, découvrant ainsi encore plus de granularité à leur sujet, tout en essayant de ne pas oublier les connaissances acquises précédemment. De plus, cette configuration permet d’évaluer les modèles pour certains défis importants liés à l’apprentissage tout au long de la vie (lifelong learning) qui ne peuvent pas être facilement abordés dans les configurations existantes. Ces défis peuvent être motivés par l’exemple suivant: “si un modèle a été entraîné sur la classe ours dans une tâche et sur ours polaire dans une autre tâche; oubliera-t-il le concept d’ours, déduira-t-il à juste titre qu’un ours polaire est également un ours ? et associera-t-il à tort l’étiquette d’ours polaire à d’autres races d’ours ?” Nous développons un benchmark qui permet d’évaluer les modèles sur la configuration de l’IIRC. Nous évaluons plusieurs algorithmes d’apprentissage ”tout au long de la vie” (lifelong learning) de l’état de l’art. Par exemple, les méthodes basées sur la distillation sont relativement performantes mais ont tendance à prédire de manière incorrecte un trop grand nombre d’étiquettes par image. Nous espérons que la configuration proposée, ainsi que le benchmark, fourniront un cadre de problème significatif aux praticiens. / We introduce the "Incremental Implicitly-Refined Classification (IIRC)" setup, an extension to the class incremental learning setup where the incoming batches of classes have two granularity levels. i.e., each sample could have a high-level (coarse) label like "bear" and a low-level (fine) label like "polar bear". Only one label is provided at a time, and the model has to figure out the other label if it has already learned it. This setup is more aligned with real-life scenarios, where a learner usually interacts with the same family of entities multiple times, discovers more granularity about them, while still trying not to forget previous knowledge. Moreover, this setup enables evaluating models for some important lifelong learning challenges that cannot be easily addressed under the existing setups. These challenges can be motivated by the example "if a model was trained on the class bear in one task and on polar bear in another task, will it forget the concept of bear, will it rightfully infer that a polar bear is still a bear? and will it wrongfully associate the label of polar bear to other breeds of bear?". We develop a standardized benchmark that enables evaluating models on the IIRC setup. We evaluate several state-of-the-art lifelong learning algorithms and highlight their strengths and limitations. For example, distillation-based methods perform relatively well but are prone to incorrectly predicting too many labels per image. We hope that the proposed setup, along with the benchmark, would provide a meaningful problem setting to the practitioners.
|
370 |
Estimation de pose 2D par réseau convolutifHuppé, Samuel 04 1900 (has links)
Magic: The Gathering} est un jeu de cartes à collectionner stochastique à information imparfaite inventé par Richard Garfield en 1993. Le but de ce projet est de proposer un pipeline d'apprentissage machine permettant d'accomplir la détection et la localisation des cartes du jeu \textit{Magic} au sein d'une image typique des tournois de ce jeu. Il s'agit d'un problème de pose d'objets 2D à quatre degrés de liberté soit, la position sur deux axes, la rotation et l'échelle, dans un contexte où les cartes peuvent être superposées. À travers ce projet, nous avons développé une approche par données synthétiques à deux réseaux capable, collectivement d'identifier, et de régresser ces paramètres avec une précision significative. Dans le cadre de ce projet, nous avons développé un algorithme d'apprentissage profond par données synthétiques capable de positionner une carte avec une précision d'un demi pixel et d'une rotation de moins d'un degré. Finalement, nous avons montré que notre jeu de données synthétique est suffisamment réaliste pour permettre à nos réseaux de généraliser aux cas d'images réelles. / Magic: The Gathering} is an imperfect information, stochastic, collectible card game invented by Richard Garfield in 1993. The goal of this project is to propose a machine learning pipeline capable of detecting and localising \textit{Magic} cards within an image. This is a 2D pose problem with 4 degrees of freedom, namely translation in $x$ and $y$, rotation, and scale, in a context where cards can be superimposed on one another. We tackle this problem by relying on deep learning using a combination of two separate neural networks. Our final pipeline has the ability to tackle real-world images and gives, with a very good degree of precision, the poses of cards within an image. Through the course of this project, we have developped a method of realistic synthetic data generation to train both our models to tackle real world images. The results show that our pose subnetwork is able to predict position within half a pixel, rotation within one degree and scale within 2 percent.
|
Page generated in 0.0951 seconds