Spelling suggestions: "subject:"stereovision"" "subject:"stereocision""
141 |
Polarization stereoscopic imaging prototypeIqbal, Mohammad 02 November 2011 (has links) (PDF)
The polarization of light was introduced last ten years ago in the field of imaging system is a physical phenomenon that can be controlled for the purposes of the vision system. As that found in the human eyes, in general the imaging sensors are not under construction which is sensitive to the polarization of light. These properties can be measured by adding optical components on a conventional camera. The purpose of this thesis is to develop an imaging system that is sensitive both to the stereoscopic and to the state of polarization. As well as the visual system on a various of insects in nature such as bees, that are have capability to move in space by extracted relevant information from the polarization. The developed prototype should be possible to reconstruct threedimensional of points of interest with the issues associated with a set of parameters of the state of polarization. The proposed system consists of two cameras, each camera equipped with liquid crystal components to obtain two images with different directions of polarization. For each acquisition, four images are acquired: two for each camera. Raised by the key of main capability to return polarization information from two different cameras. After an initial calibration step; geometric and photometric, the mapping of points of interest process is made difficult because of the optical components placed in front of different lenses. A detailed study of different methods of mapping was used to select sensitivity to the polarization effects. Once points are mapped, the polarization parameters of each point are calculated from the four values from four images acquired. The results on real scenes show the feasibility and desirability of this imaging system for robotic applications.
|
142 |
Fusion de données multi capteurs pour la détection et le suivi d'objets mobiles à partir d'un véhicule autonomeBaig, Qadeer 29 February 2012 (has links) (PDF)
La perception est un point clé pour le fonctionnement d'un véhicule autonome ou même pour un véhicule fournissant des fonctions d'assistance. Un véhicule observe le monde externe à l'aide de capteurs et construit un modèle interne de l'environnement extérieur. Il met à jour en continu ce modèle de l'environnement en utilisant les dernières données des capteurs. Dans ce cadre, la perception peut être divisée en deux étapes : la première partie, appelée SLAM (Simultaneous Localization And Mapping) s'intéresse à la construction d'une carte de l'environnement extérieur et à la localisation du véhicule hôte dans cette carte, et deuxième partie traite de la détection et du suivi des objets mobiles dans l'environnement (DATMO pour Detection And Tracking of Moving Objects). En utilisant des capteurs laser de grande précision, des résultats importants ont été obtenus par les chercheurs. Cependant, avec des capteurs laser de faible résolution et des données bruitées, le problème est toujours ouvert, en particulier le problème du DATMO. Dans cette thèse nous proposons d'utiliser la vision (mono ou stéréo) couplée à un capteur laser pour résoudre ce problème. La première contribution de cette thèse porte sur l'identification et le développement de trois niveaux de fusion. En fonction du niveau de traitement de l'information capteur avant le processus de fusion, nous les appelons "fusion bas niveau", "fusion au niveau de la détection" et "fusion au niveau du suivi". Pour la fusion bas niveau, nous avons utilisé les grilles d'occupations. Pour la fusion au niveau de la détection, les objets détectés par chaque capteur sont fusionnés pour avoir une liste d'objets fusionnés. La fusion au niveau du suivi requiert le suivi des objets pour chaque capteur et ensuite on réalise la fusion entre les listes d'objets suivis. La deuxième contribution de cette thèse est le développement d'une technique rapide pour trouver les bords de route à partir des données du laser et en utilisant cette information nous supprimons de nombreuses fausses alarmes. Nous avons en effet observé que beaucoup de fausses alarmes apparaissent sur le bord de la route. La troisième contribution de cette thèse est le développement d'une solution complète pour la perception avec un capteur laser et des caméras stéréo-vision et son intégration sur un démonstrateur du projet européen Intersafe-2. Ce projet s'intéresse à la sécurité aux intersections et vise à y réduire les blessures et les accidents mortels. Dans ce projet, nous avons travaillé en collaboration avec Volkswagen, l'Université Technique de Cluj-Napoca, en Roumanie et l'INRIA Paris pour fournir une solution complète de perception et d'évaluation des risques pour le démonstrateur de Volkswagen.
|
143 |
Vision-based Robot Localization Using Artificial And Natural LandmarksArican, Zafer 01 August 2004 (has links) (PDF)
In mobile robot applications, it is an important issue for a robot to know where it is. Accurate localization becomes crucial for navigation and map building applications because both route to follow and positions of the objects to be inserted into the map highly depend on the position of the robot in the environment.
For localization, the robot uses the measurements that it takes by various devices such as laser rangefinders, sonars, odometry devices and vision. Generally these devices give the distances of the objects in the environment to the robot and proceesing these distance information, the robot finds its location in the environment.
In this thesis, two vision-based robot localization algorithms are implemented. The first algorithm uses artificial landmarks as the objects around the robot and by measuring the positions of these landmarks with respect to the camera system, the robot locates itself in the environment. Locations of these landmarks are known. The second algorithm instead of using artificial landmarks, estimates its location by measuring the positions of the objects that naturally exist in the environment. These objects are treated as natural landmarks and locations of these landmarks are not
known initially.
A three-wheeled robot base on which a stereo camera system is mounted is used as the mobile robot unit. Processing and control tasks of the system is performed by a stationary PC. Experiments are performed on this robot system. The stereo camera system is the measurement device for this robot.
|
144 |
Τρισδιάστατη ανακατασκευή χώρου από ένα μικρό αριθμό φωτογραφιώνΦλώρου, Ραφαέλλα, Χατούπης, Σταύρος 26 April 2012 (has links)
Η παρούσα διπλωματική εργασία αναπτύχθηκε στα πλαίσια των προπτυχιακών σπουδών του τμήματος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών του Πανεπιστημίου Πατρών. Θέμα της είναι η τρισδιάστατη ανακατασκευή του χώρου από τουλάχιστον δύο φωτογραφίες του και αποτελεί μέρος του τομέα της Υπολογιστικής Όρασης. Συγκεκριμένα αναλύεται διεξοδικά η περίπτωση της στερεοσκοπικής όρασης, στην οποία η κάμερα μεταξύ δύο διαδοχικών λήψεων της ίδιας σκηνής, έχει μηδενική σχετική περιστροφή ως προς την αρχική της θέση και μικρή μετατόπιση, περίπου 5 εκατοστά. Με τον τρόπο αυτό, προσπαθούμε να προσομοιώσουμε τη λειτουργία της ανθρώπινης όρασης καθώς πολλές εφαρμογές της Τεχνητής Νοημοσύνης το κρίνουν απαραίτητο.
Είναι λογικό ότι ο κάθε άνθρωπος θεωρεί τη στερεοσκοπική όραση αυτονόητη γιατί κινείται στον τρισδιάστατο κόσμο. Όταν αυτός όμως καταγράφεται από μία κάμερα, αυτόματα περνάει στο δισδιάστατο επίπεδο. Και πάλι είναι δυνατόν να εξάγουμε πληροφορίες βάθους από μία μόνο εικόνα, όμως γίνεται καθαρά εμπειρικά και βασίζεται στη σύγκριση διάφορων υφών, σχημάτων και μεγεθών. Ο ηλεκτρονικός υπολογιστής αναγνωρίζει την εικόνα σαν ένα οποιοδήποτε αρχείο. Δεν μπορεί να εξάγει κανένα συμπέρασμα για το τι απεικονίζει στον πραγματικό κόσμο. Χρειάζεται το συνδυασμό τουλάχιστον δύο εικόνων της ίδιας σκηνής από διαφορετικές θέσεις για να μπορέσει να αναγνωρίσει για παράδειγμα το βάθος της σκηνής που απεικονίζεται.
Αυτή τη διαδικασία περιγράφει αναλυτικά η εργασία. Στο πρώτο κεφάλαιο εισάγουμε την έννοια και τη χρησιμότητα της στερεοσκοπικής όρασης. Στο δεύτερο κεφάλαιο παρουσιάζονται οι βασικές αρχές της προβολικής γεωμετρίας. Στο τρίτο κεφάλαιο αναφερόμαστε στη μοντελοποίηση της κάμερας και τις παραμέτρους που τη χαρακτηρίζουν. Στο τέταρτο κεφάλαιο αναλύεται η διαδικασία της βαθμονόμησης της κάμερας. Στο πέμπτο κεφάλαιο εξηγείται η διαδικασία αντιστοίχησης των σημείων ενδιαφέροντος στις δύο εικόνες. Στο έκτο κεφάλαιο αναλύονται οι βασικές αρχές της επιπολικής γεωμετρίας. Στο έβδομο κεφάλαιο παρουσιάζεται η πειραματική διαδικασία για την εύρεση του βάθους της σκηνής. Στο όγδοο κεφάλαιο παρουσιάζεται συνοπτικά η τρισδιάστατη ανακατασκευή του χώρου και παρουσιάζονται τα αντίστοιχα πειραματικά αποτελέσματα. Στο ένατο κεφάλαιο διατυπώνουμε τα συμπεράσματα της όλης διαδικασίας.
Τόσο το θεωρητικό όσο και το πειραματικό μέρος αυτής της εργασίας καλύπτουν σε ένα μεγάλο ποσοστό τα βασικά στάδια ανακατασκευής του τρισδιάστατου χώρου. Τα αποτελέσματα της πειραματικής διαδικασίας αποδεικνύουν ότι οι υπάρχουσες μέθοδοι λειτουργούν ικανοποιητικά αλλά υπάρχουν πολλά περιθώρια βελτίωσης στο θέμα της Υπολογιστικής Όρασης.
Στο σημείο αυτό να ευχαριστήσουμε τον επιβλέποντα καθηγητή μας κ. Δερματά για τη συνεργασία του και την κατανόησή του. / The current thesis has been written as part of the undergraduate studies for the department of Electrical and Computer Engineering of Patras University. Its objective is the three-dimensional (3D) reconstruction from two, at least, photographs, which is part of computer vision. More specifically, this thesis analyzes in detail the case of stereo vision when the camera, among two successive shots of the same image, has zero relative rotation compared to its initial position and an average translation of about 5 cm. In this way, it attempts to simulate human vision since this is essential for many Artificial Intelligence applications.
Humans take stereo vision for granted since they live in a three-dimensional world. However, this world becomes two-dimensional when recorded by a camera. We can still get information about the image depth but this is empirically done based on comparing various heights, shapes and sizes. Images are identified by the computer as any other file. Computers cannot draw conclusions about what is depicted in the real world. They need to combine at least two images of the same scene and of different positions to identify the image’s depth.
This process is described in the current thesis. The first chapter describes stereo vision and why it is so useful. The second chapter provides the basic principles of projective geometry, the mathematical background for passing from the two-dimensional level to the three-dimensional. The third chapter refers to camera modeling and its parameters (instrisic and extrinsic). Chapter four analyzes the camera calibration process. Chapter five explains the matching process of points of interest in both pictures. The sixth chapter provides the basic principles of epipolar geometry. The seventh chapter shows the experimental procedure that we followed in order to estimate the depth of the scene. Chapter eight shows how the 3D reconstruction is finally done. Chapter nine talks about our conclusions and how the results could improve.
Both theoretical and experimental parts of this project cover the key points of 3d reconstruction. The results of the experiments show that the existing methods are satisfying but could improve more.
We want to thank our supervisor professor Mr. Dermatas for his collaboration and his understanding.
|
145 |
Stereo vision for simultaneous localization and mappingBrink, Wikus 12 1900 (has links)
Thesis (MScEng)--Stellenbosch University, 2012. / ENGLISH ABSTRACT: Simultaneous localization and mapping (SLAM) is vital for autonomous robot navigation. The robot
must build a map of its environment while tracking its own motion through that map. Although
many solutions to this intricate problem have been proposed, one of the most prominent issues that
still needs to be resolved is to accurately measure and track landmarks over time. In this thesis we
investigate the use of stereo vision for this purpose.
In order to find landmarks in images we explore the use of two feature detectors: the scale-invariant
feature transform (SIFT) and speeded-up robust features (SURF). Both these algorithms find salient
points in images and calculate a descriptor for each point that is invariant to scale, rotation and
illumination. By using the descriptors we match these image features between stereo images and
use the geometry of the system to calculate a set of 3D landmark measurements. A Taylor approximation
of this transformation is used to derive a Gaussian noise model for the measurements.
The measured landmarks are matched to landmarks in a map to find correspondences. We find that
this process often incorrectly matches ambiguous landmarks. To find these mismatches we develop
a novel outlier detection scheme based on the random sample consensus (RANSAC) framework. We
use a similarity transformation for the RANSAC model and derive a probabilistic consensus measure
that takes the uncertainties of landmark locations into account. Through simulation and practical
tests we find that this method is a significant improvement on the standard approach of using the
fundamental matrix.
With accurately identified landmarks we are able to perform SLAM. We investigate the use of three
popular SLAM algorithms: EKF SLAM, FastSLAM and FastSLAM 2. EKF SLAM uses a Gaussian
distribution to describe the systems states and linearizes the motion and measurement equations
with Taylor approximations. The two FastSLAM algorithms are based on the Rao-Blackwellized
particle filter that uses particles to describe the robot states, and EKFs to estimate the landmark
states. FastSLAM 2 uses a refinement process to decrease the size of the proposal distribution and
in doing so decreases the number of particles needed for accurate SLAM.
We test the three SLAM algorithms extensively in a simulation environment and find that all three
are capable of very accurate results under the right circumstances. EKF SLAM displays extreme
sensitivity to landmark mismatches. FastSLAM, on the other hand, is considerably more robust
against landmark mismatches but is unable to describe the six-dimensional state vector required for
3D SLAM. FastSLAM 2 offers a good compromise between efficiency and accuracy, and performs
well overall.
In order to evaluate the complete system we test it with real world data. We find that our outlier
detection algorithm is very effective and greatly increases the accuracy of the SLAM systems. We
compare results obtained by all three SLAM systems, with both feature detection algorithms, against
DGPS ground truth data and achieve accuracies comparable to other state-of-the-art systems.
From our results we conclude that stereo vision is viable as a sensor for SLAM. / AFRIKAANSE OPSOMMING: Gelyktydige lokalisering en kartering (simultaneous localization and mapping, SLAM) is ’n noodsaaklike
proses in outomatiese robot-navigasie. Die robot moet ’n kaart bou van sy omgewing en
tegelykertyd sy eie beweging deur die kaart bepaal. Alhoewel daar baie oplossings vir hierdie ingewikkelde
probleem bestaan, moet een belangrike saak nog opgelos word, naamlik om landmerke
met verloop van tyd akkuraat op te spoor en te meet. In hierdie tesis ondersoek ons die moontlikheid
om stereo-visie vir hierdie doel te gebruik.
Ons ondersoek die gebruik van twee beeldkenmerk-onttrekkers: scale-invariant feature transform
(SIFT) en speeded-up robust features (SURF). Altwee algoritmes vind toepaslike punte in beelde en
bereken ’n beskrywer vir elke punt wat onveranderlik is ten opsigte van skaal, rotasie en beligting.
Deur die beskrywer te gebruik, kan ons ooreenstemmende beeldkenmerke soek en die geometrie
van die stelsel gebruik om ’n stel driedimensionele landmerkmetings te bereken. Ons gebruik ’n
Taylor- benadering van hierdie transformasie om ’n Gaussiese ruis-model vir die metings te herlei.
Die gemete landmerke se beskrywers word dan vergelyk met dié van landmerke in ’n kaart om
ooreenkomste te vind. Hierdie proses maak egter dikwels foute. Om die foutiewe ooreenkomste
op te spoor het ons ’n nuwe uitskieterherkenningsalgoritme ontwikkel wat gebaseer is op die
RANSAC-raamwerk. Ons gebruik ’n gelykvormigheidstransformasie vir die RANSAC-model en lei ’n
konsensusmate af wat die onsekerhede van die ligging van landmerke in ag neem. Met simulasie en
praktiese toetse stel ons vas dat die metode ’n beduidende verbetering op die standaardprosedure,
waar die fundamentele matriks gebruik word, is.
Met ons akkuraat geïdentifiseerde landmerke kan ons dan SLAM uitvoer. Ons ondersoek die gebruik
van drie SLAM-algoritmes: EKF SLAM, FastSLAM en FastSLAM 2. EKF SLAM gebruik ’n Gaussiese
verspreiding om die stelseltoestande te beskryf en Taylor-benaderings om die bewegings- en meetvergelykings
te lineariseer. Die twee FastSLAM-algoritmes is gebaseer op die Rao-Blackwell partikelfilter
wat partikels gebruik om robottoestande te beskryf en EKF’s om die landmerktoestande af te
skat. FastSLAM 2 gebruik ’n verfyningsproses om die grootte van die voorstelverspreiding te verminder
en dus die aantal partikels wat vir akkurate SLAM benodig word, te verminder.
Ons toets die drie SLAM-algoritmes deeglik in ’n simulasie-omgewing en vind dat al drie onder die
regte omstandighede akkurate resultate kan behaal. EKF SLAM is egter baie sensitief vir foutiewe
landmerkooreenkomste. FastSLAM is meer bestand daarteen, maar kan nie die sesdimensionele
verspreiding wat vir 3D SLAM vereis word, beskryf nie. FastSLAM 2 bied ’n goeie kompromie
tussen effektiwiteit en akkuraatheid, en presteer oor die algemeen goed.
Ons toets die hele stelsel met werklike data om dit te evalueer, en vind dat ons uitskieterherkenningsalgoritme
baie effektief is en die akkuraatheid van die SLAM-stelsels beduidend verbeter. Ons
vergelyk resultate van die drie SLAM-stelsels met onafhanklike DGPS-data, wat as korrek beskou
kan word, en behaal akkuraatheid wat vergelykbaar is met ander toonaangewende stelsels.
Ons resultate lei tot die gevolgtrekking dat stereo-visie ’n lewensvatbare sensor vir SLAM is.
|
146 |
Field-based measurement of hydrodynamics associated with engineered in-channel structures : the example of fish pass assessmentKriechbaumer, Thomas January 2016 (has links)
The construction of fish passes has been a longstanding measure to improve river ecosystem status by ensuring the passability of weirs, dams and other in- channel structures for migratory fish. Many fish passes have a low biological effectiveness because of unsuitable hydrodynamic conditions hindering fish to rapidly detect the pass entrance. There has been a need for techniques to quantify the hydrodynamics surrounding fish pass entrances in order to identify those passes that require enhancement and to improve the design of new passes. This PhD thesis presents the development of a methodology for the rapid, spatially continuous quantification of near-pass hydrodynamics in the field. The methodology involves moving-vessel Acoustic Doppler Current Profiler (ADCP) measurements in order to quantify the 3-dimensional water velocity distribution around fish pass entrances. The approach presented in this thesis is novel because it integrates a set of techniques to make ADCP data robust against errors associated with the environmental conditions near engineered in-channel structures. These techniques provide solutions to (i) ADCP compass errors from magnetic interference, (ii) bias in water velocity data caused by spatial flow heterogeneity, (iii) the accurate ADCP positioning in locales with constrained line of sight to navigation satellites, and (iv) the accurate and cost-effective sensor deployment following pre-defined sampling strategies. The effectiveness and transferability of the methodology were evaluated at three fish pass sites covering conditions of low, medium and high discharge. The methodology outputs enabled a detailed quantitative characterisation of the fish pass attraction flow and its interaction with other hydrodynamic features. The outputs are suitable to formulate novel indicators of hydrodynamic fish pass attractiveness and they revealed the need to refine traditional fish pass design guidelines.
|
147 |
Vision-based trailer pose estimation for articulated vehiclesde Saxe, Christopher Charles January 2017 (has links)
Articulated Heavy Goods Vehicles (HGVs) are more efficient than conventional rigid lorries, but exhibit reduced low-speed manoeuvrability and high-speed stability. Technologies such as autonomous reversing and path-following trailer steering can mitigate this, but practical limitations of the available sensing technologies restrict their commercialisation potential. This dissertation describes the development of practical vision-based articulation angle and trailer off-tracking sensing for HGVs. Chapter 1 provides a background and literature review, covering important vehicle technologies, existing commercial and experimental sensors for articulation angle and off-tracking measurement, and relevant vision-based technologies. This is followed by an introduction to pertinent computer vision theory and terminology in Chapter 2. Chapter 3 describes the development and simulation-based assessment of an articulation angle sensing concept. It utilises a rear-facing camera mounted behind the truck or tractor, and one of two proposed image processing methods: template-matching and Parallel Tracking and Mapping (PTAM). The PTAM-based method was shown to be the more accurate and versatile method in full-scale vehicle tests. RMS measurement errors of 0.4-1.6° were observed in tests on a tractor semi-trailer (Chapter 4), and 0.8-2.4° in tests on a Nordic combination with two articulation points (Chapter 5). The system requires no truck-trailer communication links or artificial markers, and is compatible with multiple trailer shapes, but was found to have increasing errors at higher articulation angles. Chapter 6 describes the development and simulation-based assessment of a trailer off-tracking sensing concept, which utilises a trailer-mounted stereo camera pair and visual odometry. The concept was evaluated in full-scale tests on a tractor semi-trailer combination in which camera location and stereo baseline were varied, presented in Chapter 7. RMS measurement errors of 0.11-0.13 m were obtained in some tests, but a sensitivity to camera alignment was discovered in others which negatively affected results. A very stiff stereo camera mount with a sub-0.5 m baseline is suggested for future experiments. A summary of the main conclusions, a review of the objectives, and recommendations for future work are given in Chapter 8. Recommendations include further refinement of both sensors, an investigation into lighting sensitivity, and alternative applications of the sensors.
|
148 |
Sistema de visión computacional estereoscópico aplicado a un robot cilíndrico accionado neumáticamenteRamirez Montecinos, Daniela Elisa January 2017 (has links)
In the industrial area, robots are an important part of the technological resources available to perform manipulation tasks in manufacturing, assembly, the transportation of dangerous waste, and a variety of applications. Specialized systems of computer vision have entered the market to solve problems that other technologies have been unable to address. This document analyzes a stereo vision system that is used to provide the center of mass of an object in three dimensions. This kind of application is mounted using two or more cameras that are aligned along the same axis and give the possibility to measure the depth of a point in the space. The stereoscopic system described, measures the position of an object using a combination between the 2D recognition, which implies the calculus of the coordinates of the center of mass and using moments, and the disparity that is found comparing two images: one of the right and one of the left. This converts the system into a 3D reality viewfinder, emulating the human eyes, which are capable of distinguishing depth with good precision.The proposed stereo vision system is integrated into a 5 degree of freedom pneumatic robot, which can be programmed using the GRAFCET method by means of commercial software. The cameras are mounted in the lateral plane of the robot to ensure that all the pieces in the robot's work area can be observed.For the implementation, an algorithm is developed for recognition and position measurement using open sources in C++. This ensures that the system can remain as open as possible once it is integrated with the robot. The validation of the work is accomplished by taking samples of the objects to be manipulated and generating robot's trajectories to see if the object can be manipulated by its end effector or not. The results show that is possible to manipulate pieces in a visually crowded space with acceptable precision. However, the precision reached does not allow the robot to perform tasks that require higher accuracy as the one is needed in manufacturing assembly process of little pieces or in welding applications. / En el área industrial los robots forman parte importante del recurso tecnológico disponible para tareas de manipulación en manufactura, ensamble, manejo de residuos peligrosos y aplicaciones varias. Los sistemas de visión computacional se han ingresado al mercado como soluciones a problemas que otros tipos de sensores y métodos no han podido solucionar. El presente trabajo analiza un sistema de visión estereoscópico aplicado a un robot. Este arreglo permite la medición de coordenadas del centro de un objeto en las tres dimensiones, de modo que, le da al robot la posibilidad de trabajar en el espacio y no solo en un plano. El sistema estereoscópico consiste en el uso de dos o más cámaras alineadas en alguno de sus ejes, mediante las cuales, es posible calcular la profundidad a la que se encuentran los objetos. En el presente, se mide la posición de un objeto haciendo una combinación entre el reconocimiento 2D y la medición de las coordenadas y de su centro calculadas usando momentos. En el sistema estereoscópico, se añade la medición de la última coordenada mediante el cálculo de la disparidad encontrada entre las imágenes de las cámaras inalámbricas izquierda y derecha, que convierte al sistema en un visor 3D de la realidad, emulando los ojos humanos capaces de distinguir profundidades con cierta precisión. El sistema de visión computacional propuesto es integrado a un robot neumático de 5 grados de libertad el cual puede ser programado desde la metodología GRAFCET mediante software de uso comercial. Las cámaras del sistema de visión están montadas en el plano lateral del robot de modo tal, que es posible visualizar las piezas que quedan dentro de su volumen de trabajo. En la implementación, se desarrolla un algoritmo de reconocimiento y medición de posición, haciendo uso de software libre en lenguaje C++. De modo que, en la integración con el robot, el sistema pueda ser lo más abierto posible. La validación del trabajo se logra tomando muestras de los objetos a ser manipulados y generando trayectorias para el robot, a fin de visualizar si la pieza pudo ser captada por su garra neumática o no. Los resultados muestran que es posible lograr la manipulación de piezas en un ambiente visualmente cargado y con una precisión aceptable. Sin embargo, se observa que la precisión no permite que el sistema pueda ser usado en aplicaciones donde se requiere precisión al nivel de los procesos de ensamblado de piezas pequeñas o de soldadura.
|
149 |
Geometrical and contextual scene analysis for object detection and tracking in intelligent vehicles / Analyse de scène contextuelle et géométrique pour la détection et le suivi d'objets dans les véhicules intelligentsWang, Bihao 08 July 2015 (has links)
Pour les véhicules intelligents autonomes ou semi-autonomes, la perception constitue la première tâche fondamentale à accomplir avant la décision et l’action. Grâce à l’analyse des données vidéo, Lidar et radar, elle fournit une représentation spécifique de l’environnement et de son état, à travers l’extraction de propriétés clés issues des données des capteurs. Comparé à d’autres modalités de perception telles que le GPS, les capteurs inertiels ou les capteurs de distance (Lidar, radar, ultrasons), les caméras offrent la plus grande quantité d’informations. Grâce à leur polyvalence, les caméras permettent aux systèmes intelligents d’extraire à la fois des informations contextuelles de haut niveau et de reconstruire des informations géométriques de la scène observée et ce, à haute vitesse et à faible coût. De plus, la technologie de détection passive des caméras permet une faible consommation d’énergie et facilite leur miniaturisation. L’utilisation des caméras n’est toutefois pas triviale et pose un certain nombre de questions théoriques liées à la façon dont ce capteur perçoit son environnement. Dans cette thèse, nous proposons un système de détection d’objets mobiles basé seule- ment sur l’analyse d’images. En effet, dans les environnements observés par un véhicule intelligent, les objets en mouvement représentent des obstacles avec un risque de collision élevé, et ils doivent être détectés de manière fiable et robuste. Nous abordons le problème de la détection d’objets mobiles à partir de l’extraction du contexte local reposant sur une segmentation de la route. Après transformation de l’image couleur en une image invariante à l’illumination, les ombres peuvent alors être supprimées réduisant ainsi leur influence négative sur la détection d’obstacles. Ainsi, à partir d’une sélection automatique de pixels appartenant à la route, une région d’intérêt où les objets en mouvement peuvent apparaître avec un risque de collision élevé, est extraite. Dans cette zone, les pixels appartenant à des objets mobiles sont ensuite identifiés à l’aide d’une approche plan+parallaxe. À cette fin, les pixels potentiellement mobiles et liés à l’effet de parallaxe sont détectés par une méthode de soustraction du fond de l’image; puis trois contraintes géométriques différentes: la contrainte épipolaire, la contrainte de cohérence structurelle et le tenseur trifocal, sont appliquées à ces pixels pour filtrer ceux issus de l’effet de parallaxe. Des équations de vraisemblance sont aussi proposées afin de combiner les différents contraintes d’une manière complémentaire et efficace. Lorsque la stéréovision est disponible, la segmentation de la route et la détection d’obstacles peuvent être affinées en utilisant une segmentation spécifique de la carte de disparité. De plus, dans ce cas, un algorithme de suivi robuste combinant les informations de l’image et la profondeur des pixels a été proposé. Ainsi, si l’une des deux caméras ne fonctionne plus, le système peut donc revenir dans un mode de fonctionnement monoculaire ce qui constitue une propriété importante pour la fiabilité et l’intégrité du système de perception. Les différents algorithmes proposés ont été testés sur des bases de données d’images publiques en réalisant une évaluation par rapport aux approches de l’état de l’art et en se comparant à des données de vérité terrain. Les résultats obtenus sont prometteurs et montrent que les méthodes proposées sont efficaces et robustes pour différents scénarios routiers et les détections s’avèrent fiables notamment dans des situations ambiguës. / For autonomous or semi-autonomous intelligent vehicles, perception constitutes the first fundamental task to be performed before decision and action/control. Through the analysis of video, Lidar and radar data, it provides a specific representation of the environment and of its state, by extracting key properties from sensor data with time integration of sensor information. Compared to other perception modalities such as GPS, inertial or range sensors (Lidar, radar, ultrasonic), the cameras offer the greatest amount of information. Thanks to their versatility, cameras allow intelligent systems to achieve both high-level contextual and low-level geometrical information about the observed scene, and this is at high speed and low cost. Furthermore, the passive sensing technology of cameras enables low energy consumption and facilitates small size system integration. The use of cameras is however, not trivial and poses a number of theoretical issues related to how this sensor perceives its environmen. In this thesis, we propose a vision-only system for moving object detection. Indeed,within natural and constrained environments observed by an intelligent vehicle, moving objects represent high risk collision obstacles, and have to be handled robustly. We approach the problem of detecting moving objects by first extracting the local contextusing a color-based road segmentation. After transforming the color image into illuminant invariant image, shadows as well as their negative influence on the detection process can be removed. Hence, according to the feature automatically selected onthe road, a region of interest (ROI), where the moving objects can appear with a high collision risk, is extracted. Within this area, the moving pixels are then identified usin ga plane+parallax approach. To this end, the potential moving and parallax pixels a redetected using a background subtraction method; then three different geometrical constraints : the epipolar constraint, the structural consistency constraint and the trifocaltensor are applied to such potential pixels to filter out parallax ones. Likelihood equations are also introduced to combine the constraints in a complementary and effectiveway. When stereo vision is available, the road segmentation and on-road obstacles detection can be refined by means of the disparity map with geometrical cues. Moreover, in this case, a robust tracking algorithm combining image and depth information has been proposed. If one of the two cameras fails, the system can therefore come back to a monocular operation mode, which is an important feature for perception system reliability and integrity. The different proposed algorithms have been tested on public images data set with anevaluation against state-of-the-art approaches and ground-truth data. The obtained results are promising and show that the proposed methods are effective and robust on the different traffic scenarios and can achieve reliable detections in ambiguous situations.
|
150 |
Fusion de données multi capteurs pour la détection et le suivi d'objets mobiles à partir d'un véhicule autonome / Multi sensor data fusion for detection and tracking of moving objects from a dynamic autonomous vehicleBaig, Qadeer 29 February 2012 (has links)
La perception est un point clé pour le fonctionnement d'un véhicule autonome ou même pour un véhicule fournissant des fonctions d'assistance. Un véhicule observe le monde externe à l'aide de capteurs et construit un modèle interne de l'environnement extérieur. Il met à jour en continu ce modèle de l'environnement en utilisant les dernières données des capteurs. Dans ce cadre, la perception peut être divisée en deux étapes : la première partie, appelée SLAM (Simultaneous Localization And Mapping) s'intéresse à la construction d'une carte de l'environnement extérieur et à la localisation du véhicule hôte dans cette carte, et deuxième partie traite de la détection et du suivi des objets mobiles dans l'environnement (DATMO pour Detection And Tracking of Moving Objects). En utilisant des capteurs laser de grande précision, des résultats importants ont été obtenus par les chercheurs. Cependant, avec des capteurs laser de faible résolution et des données bruitées, le problème est toujours ouvert, en particulier le problème du DATMO. Dans cette thèse nous proposons d'utiliser la vision (mono ou stéréo) couplée à un capteur laser pour résoudre ce problème. La première contribution de cette thèse porte sur l'identification et le développement de trois niveaux de fusion. En fonction du niveau de traitement de l'information capteur avant le processus de fusion, nous les appelons "fusion bas niveau", "fusion au niveau de la détection" et "fusion au niveau du suivi". Pour la fusion bas niveau, nous avons utilisé les grilles d'occupations. Pour la fusion au niveau de la détection, les objets détectés par chaque capteur sont fusionnés pour avoir une liste d'objets fusionnés. La fusion au niveau du suivi requiert le suivi des objets pour chaque capteur et ensuite on réalise la fusion entre les listes d'objets suivis. La deuxième contribution de cette thèse est le développement d'une technique rapide pour trouver les bords de route à partir des données du laser et en utilisant cette information nous supprimons de nombreuses fausses alarmes. Nous avons en effet observé que beaucoup de fausses alarmes apparaissent sur le bord de la route. La troisième contribution de cette thèse est le développement d'une solution complète pour la perception avec un capteur laser et des caméras stéréo-vision et son intégration sur un démonstrateur du projet européen Intersafe-2. Ce projet s'intéresse à la sécurité aux intersections et vise à y réduire les blessures et les accidents mortels. Dans ce projet, nous avons travaillé en collaboration avec Volkswagen, l'Université Technique de Cluj-Napoca, en Roumanie et l'INRIA Paris pour fournir une solution complète de perception et d'évaluation des risques pour le démonstrateur de Volkswagen. / Perception is one of important steps for the functioning of an autonomous vehicle or even for a vehicle providing only driver assistance functions. Vehicle observes the external world using its sensors and builds an internal model of the outer environment configuration. It keeps on updating this internal model using latest sensor data. In this setting perception can be divided into two sub parts: first part, called SLAM(Simultaneous Localization And Mapping), is concerned with building an online map of the external environment and localizing the host vehicle in this map, and second part deals with finding moving objects in the environment and tracking them over time and is called DATMO(Detection And Tracking of Moving Objects). Using high resolution and accurate laser scanners successful efforts have been made by many researchers to solve these problems. However, with low resolution or noisy laser scanners solving these problems, especially DATMO, is still a challenge and there are either many false alarms, miss detections or both. In this thesis we propose that by using vision sensor (mono or stereo) along with laser sensor and by developing an effective fusion scheme on an appropriate level, these problems can be greatly reduced. The main contribution of this research is concerned with the identification of three fusion levels and development of fusion techniques for each level for SLAM and DATMO based perception architecture of autonomous vehicles. Depending on the amount of preprocessing required before fusion for each level, we call them low level, object detection level and track level fusion. For low level we propose to use grid based fusion technique and by giving appropriate weights (depending on the sensor properties) to each grid for each sensor a fused grid can be obtained giving better view of the external environment in some sense. For object detection level fusion, lists of objects detected for each sensor are fused to get a list of fused objects where fused objects have more information then their previous versions. We use a Bayesian fusion technique for this level. Track level fusion requires to track moving objects for each sensor separately and then do a fusion between tracks to get fused tracks. Fusion at this level helps remove false tracks. Second contribution of this research is the development of a fast technique of finding road borders from noisy laser data and then using these border information to remove false moving objects. Usually we have observed that many false moving objects appear near the road borders due to sensor noise. If they are not filtered out then they result into many false tracks close to vehicle making vehicle to apply breaks or to issue warning messages to the driver falsely. Third contribution is the development of a complete perception solution for lidar and stereo vision sensors and its intigration on a real vehicle demonstrator used for a European Union project (INTERSAFE-21). This project is concerned with the safety at intersections and aims at the reduction of injury and fatal accidents there. In this project we worked in collaboration with Volkswagen, Technical university of Cluj-Napoca Romania and INRIA Paris to provide a complete perception and risk assessment solution for this project.
|
Page generated in 0.0974 seconds