Object detection and pose estimation from natural features for augmented reality in complex scenes

Submitted by Alice Araujo (alice.caraujo@ufpe.br) on 2017-11-29T16:49:07Z
No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
TeseFinal_fpms.pdf: 108609391 bytes, checksum: c84c50e3c8588d6c85e44f9ac6343200 (MD5) / Made available in DSpace on 2017-11-29T16:49:07Z (GMT). No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
TeseFinal_fpms.pdf: 108609391 bytes, checksum: c84c50e3c8588d6c85e44f9ac6343200 (MD5)
Previous issue date: 2016-03-07 / CNPQ / Alignment of virtual elements to the real world scenes (known as detection and tracking) relying on features that are naturally present on the scene is one of the most important challenges in Augmented Reality. When it goes to complex scenes like industrial scenarios, the problem gets bigger with the lack of features and models, high specularity and others. Based on these problems, this PhD thesis addresses the question “How to improve object detection and pose estimation from natural features for AR when dealing with complex scenes problems?”. In order to answer this question, we need to ask ourselves “What are the challenges that we face when developing a new tracker for real world scenarios?”. We begin to answer these questions by developing a complete tracking system that tackles some characteristics typically found in industrial scenarios. This system was validated in a tracking competition organized by the most important AR conference in the world, called ISMAR. During the contest, two complementary problems to tracking were also discussed: calibration, procedure which puts the virtual information in the same coordinate system of the real world, and 3D reconstruction, which is responsible for creating 3D models of the scene to be used for tracking. Because many trackers need a pre-acquired model of the target objects, the quality of the generated geometric model of the objects influences the tracker, as observed on the tracking contest. Sometimes these models are available but in other cases their acquisition represents a great effort (manually) or cost (laser scanning). Because of this we decided to analyze how difficult it is today to automatically recover 3D geometry from complex 3D scenes by using only video. In our case, we considered an electrical substation as a complex 3D scene. Based on the acquired knowledge from previous experiments, we decided to first tackle the problem of improving the tracking for scenes where we can use recent RGB-D sensors during model generation and tracking. We developed a technique called DARP, Depth Assisted Rectification of Patches, which can improve matching by using rectified features based on patches normals. We analyzed this new technique under different synthetic and real scenes and improved the results over traditional texture based trackers like ORB, DAFT or SIFT. Since model generation is a difficult problem in complex scenes, our second proposed tracking approach does not depend on these geometric models and aims to track texture or textureless objects. We applied a supervised learning technique, called Gradient Boosting Trees (GBTs) to solve the tracking as a linear regression problem. We developed this technique by using image gradients and analyzing their relationship with tracking parameters. We also proposed an improvement over GBTs by using traditional tracking approaches together with them, like intensity or edge based features which turned their piecewise constant function to a more robust piecewise linear function. With the new approach, it was possible to track textureless objects like a black and white map for example. / O alinhamento de elementos virtuais com a cena real (definido como detecção e rastreamento) através de características naturalmente presentes em cena é um dos grandes desafios da Realidade Aumentada. Quando se trata de cenas complexas, como cenários industriais, o problema se torna maior com objetos pouco texturizados, alta especularidade e outros. Com base nesses problemas, esta tese de doutorado aborda a questão "Como melhorar a detecção de objetos e a estimativa da sua pose através de características naturais da cena para RA ao lidar com problemas de cenários complexos?". Para responder a essa pergunta, precisamos também nos perguntar: Quais são os desafios que enfrentamos ao desenvolver um novo rastreador para cenários reais?". Nesta tese, começamos a responder estas questões através da criação de um sistema de rastreamento completo que lida com algumas características tipicamente encontradas em cenários industriais. Este sistema foi validado em uma competição de rastreamento realizada na principal conferência de RA no mundo, chamada ISMAR. Durante a competição também foram discutidos dois problemas complementares ao rastreamento: a calibração, procedimento que coloca a informação virtual no mesmo sistema de coordenadas do mundo real, e a reconstrução 3D, responsável por criar modelos 3D da cena. Muitos rastreadores necessitam de modelos pré-adquiridos dos objetos presentes na cena e sua qualidade influencia o rastreador, como observado na competição de rastreamento. Às vezes, esses modelos estão disponíveis, mas em outros casos a sua aquisição representa um grande esforço (manual) ou custo (por varredura a laser). Devido a isto, decidimos analisar a dificuldade de reconstruir automaticamente a geometria de cenas 3D complexas usando apenas vídeo. No nosso caso, considerou-se uma subestação elétrica como exemplo de uma cena 3D complexa. Com base no conhecimento adquirido a partir das experiências anteriores, decidimos primeiro resolver o problema de melhorar o rastreamento para as cenas em que podemos utilizar sensores RGB-D durante a reconstrução e o rastreamento. Foi desenvolvida a técnica chamada DARP, sigla do inglês para Retificação de Patches Assistida por Informação de Profundidade, para melhorar o casamento de características usando patches retificados a partir das normais. A técnica foi analisada em cenários sintéticos e reais e melhorou resultados de rastreadores baseados em textura como ORB, DAFT ou SIFT. Já que a reconstrução do modelo 3D é um problema difícil em cenas complexas, a segunda abordagem de rastreamento não depende desses modelos geométricos e pretende rastrear objetos texturizados ou não. Nós aplicamos uma técnica de aprendizagem supervisionada, chamada Gradient Boosting Trees (GBTs) para tratar o rastreamento como um problema de regressão linear. A técnica foi desenvolvida utilizando gradientes da imagem e a análise de sua relação com os parâmetros de rastreamento. Foi também proposta uma melhoria em relação às GBTs através do uso de abordagens tradicionais de rastreamento em conjunto com a regressão linear, como rastreamento baseado em intensidade ou em arestas, propondo uma nova função de predição por partes lineares mais robusta que a função de predição por partes constantes. A nova abordagem permitiu o rastreamento de objetos não-texturizados como por exemplo um mapa em preto e branco.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.ufpe.br:123456789/22417
Date07 March 2016
CreatorsSIMOES, Francisco Paulo Magalhaes
Contributorshttp://lattes.cnpq.br/3355338790654065, TEICHRIEB, Veronica
PublisherUniversidade Federal de Pernambuco, Programa de Pos Graduacao em Ciencia da Computacao, UFPE, Brasil
Source SetsIBICT Brazilian ETDs
LanguageEnglish
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis
Sourcereponame:Repositório Institucional da UFPE, instname:Universidade Federal de Pernambuco, instacron:UFPE
RightsAttribution-NonCommercial-NoDerivs 3.0 Brazil, http://creativecommons.org/licenses/by-nc-nd/3.0/br/, info:eu-repo/semantics/openAccess

Page generated in 0.0028 seconds