Tot i que apareixen noves tècniques que equipen els robots amb capacitats cognitives avançades, encara s'ha dedicat poca feina a una qüestió essencial per aquestes tècniques: mètodes ràpids i robustos per a la percepció d'elements semànticament rellevants en entorns no estructurats. De fet, per un robot, ser capaç d'identificar la ubicació en que es troba i quins objectes té al voltant constitueix els fonaments sobre els quals s'aguanten la resta de processos de raonament d'alt nivell que ha de dur a terme. Amb l'objectiu de reduir una mica aquest problema, aquesta tesi se centra en els problemes de localització i reconeixement d'objectes per mitjà de tècniques de visió per computador. La primera contribució que presentem és una nova tècnica per construir signatures de llocs a partir de caracter ́ıstiques detectades en imatges panoràmiques per a ser usades com a nodes d'un mapa topològic, i un mètode de "homing" per viatjar entre els nodes del mapa. Ambdós mètodes han estat provats en diversos conjunts de proves amb resultats satisfactoris. El reconeixement d'objectes genèrics per robots mòbils és un tema d'importància cabdal de cara a afegir contingut a les representacions de l'entorn que els robots usaran en els seus processos de raonament. En conseqüència, les següents contribucions d'aquesta tesi es dirigeixen a aquest problema. Després de revisar detingudament literatura recent del camp de visió per computador, han estat seleccionats dos mètodes: el mètode de reconeixement d'objectes "SIFT" i el "Vocabulary Tree". Un cop avaluats els dos mètodes en conjunts de dades de test dif ́ıcils, centrades en els aspectes rellevants per als robots mòbils, es va concloure que, tot i que el mètode SIFT era més adeqüat per aquests, ambdós mètodes tenien propietats complementàries. Per aprofitar aquesta complementarietat, la contribució final d'aquesta tesi és un mètode d'aprenentatge per reforç per seleccionar, durant l'aplicació del procés de reconeixment d'objectes, quin dels dos mètodes és el més adequat basant-se únicament en caracter ́ıstiques de la imatge simples de calcular. Aquest mètode ha estat validat en un complex conjunt de proves de reconeixement d'objectes, fins i tot ha superat els resultats d'un expert humà en alguns casos. / Although new approaches to enable robots with advanced cognitive capabilities are being developed, still few work is being devoted to a difficult problem in which all this techniques rely: fast and robust perception methods to detect semantically relevant elements in unstructured environments. Indeed, being able to identify the robot's location and what objects lie around constitute the foundations on which almost all high-level reasoning processes conducted by a robot will build up. In order to help reduce this gap, this work addresses the problems of vision-based global localization and object recognition. The first contributions presented are a new technique to construct signatures of places to be used as nodes of a topological map from constellations of features detected in panoramic images, and a homing method to travel between such nodes that does not rely in artificial landmarks. Both methods were tested with several datasets showing very good results. General object recognition in mobile robots is of primary importance in order to enhance the representation of the environment that robots will use for their reasoning processes. Therefore, the next contributions of the thesis address this problem. After carefully reviewing recent Computer Vision literature on this topic, two state of the art object recognition methods were selected: The SIFT object Recognition method and the Vocabulary Tree method. After evaluating both methods in challenging datasets, focusing on issues relevant to mobile robotics, it was found that, although the SIFT method was more suited for mobile robotics, both had complementary properties.To take advantage of this complementarity, the final contribution of this thesis is a Reinforcement Learning method to select online which object recognition method is best for an input image based on simple to compute image features. This method has been validated in a challenging object recognition experiment, even improving the performance of a human expert in some cases.Keywords: Mobile Robotics; Vision-based localization; Object recognition; Visual Feature Detectors; Visual Feature Descriptors; Reinforcement Learning; Visual Homing
Identifer | oai:union.ndltd.org:TDX_UAB/oai:www.tdx.cat:10803/3064 |
Date | 29 June 2009 |
Creators | Ramisa Ayats, Arnau |
Contributors | Toledo Morales, Ricardo, López de Mántaras, Ramon, 1952-, Universitat Autònoma de Barcelona. Departament d'Informàtica |
Publisher | Universitat Autònoma de Barcelona |
Source Sets | Universitat Autònoma de Barcelona |
Language | English |
Detected Language | English |
Type | info:eu-repo/semantics/doctoralThesis, info:eu-repo/semantics/publishedVersion |
Format | application/pdf |
Source | TDX (Tesis Doctorals en Xarxa) |
Rights | info:eu-repo/semantics/openAccess, ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs. |
Page generated in 0.0023 seconds