1 |
[pt] APERFEIÇOANDO MODELOS DE SLAM VISUAIS PELA COMBINAÇÃO DA ESTIMAÇÃO DE PROFUNDIDADE, SEGMENTAÇÃO SEMÂNTICA E REMOÇÃO DE OBJETOS DINÂMICOS USANDO MODELOS FUNDACIONAIS VISUAIS / [en] IMPROVING VISUAL SLAM BY COMBINING DEPTH ESTIMATION, SEMANTIC SEGMENTATION, AND DYNAMIC OBJECT REMOVAL USING VISUAL FOUNDATION MODELSPEDRO THIAGO CUTRIM DOS SANTOS 28 November 2024 (has links)
[pt] O objetivo de um sistema SLAM (Localização e Mapeamento Simultâneos) é estimar a trajetória da câmera no espaço enquanto reconstrói um mapa
preciso do ambiente ao redor. Sua definição pode ser explicada em duas partes: a primeira, mapear um ambiente não conhecido, e a segunda, realizar a
localização do agente neste ambiente através dos sensores disponíveis. Dentre
os diferentes tipos de sensores, câmeras possuem um custo menor de operação
ao mesmo tempo que fornecem uma quantidade rica de informações do ambiente que permitem um reconhecimento e mapeamento mais preciso. Devido a
isso, soluções onde apenas o uso da câmera é utilizado, chamado de Sistemas
SLAM Visuais, são de grande interesse. Este trabalho propõe a adaptação de
um Sistema SLAM que necessite apenas de uma câmera como sensor principal
e que use Visual Foundation Models para gerar imagens de profundidade que
auxiliem na robustez do mapeamento e localização no ambiente. Além disso,
tal sistema também deve ser capaz de identificar elementos dinâmicos no ambiente e removê-los do mapa, através do uso de modelos de visão computacional.
E por fim, deve ser viável para aplicações em tempo real. / [en] The goal of a SLAM (Simultaneous Localization and Mapping) system is
to estimate the camera s trajectory in space while reconstructing an accurate
map of the surrounding environment. Its definition can be explained in two
parts: the first one, mapping an unknown environment, and the second,
performing agent localization in this environment through available sensors.
Among the different types of sensors, cameras have lower operating costs
while providing a rich amount of environmental information that allows for
more precise mapping. Because of this, solutions where only the use of the
camera is employed as the main sensor, called Visual SLAM Systems, are of
great interest. This work proposes an adaptation of a Visual SLAM System
that uses Visual Foundation Models to generate depth images that assist in
the robustness of mapping and localization in the environment. Additionally,
such a system should also be capable of identifying dynamic elements in the
environment and removing them from the map, through the use of computer
vision models. Finally, this should be viable for real-time applications.
|
Page generated in 0.0387 seconds