Global ETD Search

1	[pt] APERFEIÇOANDO MODELOS DE SLAM VISUAIS PELA COMBINAÇÃO DA ESTIMAÇÃO DE PROFUNDIDADE, SEGMENTAÇÃO SEMÂNTICA E REMOÇÃO DE OBJETOS DINÂMICOS USANDO MODELOS FUNDACIONAIS VISUAIS / [en] IMPROVING VISUAL SLAM BY COMBINING DEPTH ESTIMATION, SEMANTIC SEGMENTATION, AND DYNAMIC OBJECT REMOVAL USING VISUAL FOUNDATION MODELS PEDRO THIAGO CUTRIM DOS SANTOS 28 November 2024 (has links) [pt] O objetivo de um sistema SLAM (Localização e Mapeamento Simultâneos) é estimar a trajetória da câmera no espaço enquanto reconstrói um mapa preciso do ambiente ao redor. Sua definição pode ser explicada em duas partes: a primeira, mapear um ambiente não conhecido, e a segunda, realizar a localização do agente neste ambiente através dos sensores disponíveis. Dentre os diferentes tipos de sensores, câmeras possuem um custo menor de operação ao mesmo tempo que fornecem uma quantidade rica de informações do ambiente que permitem um reconhecimento e mapeamento mais preciso. Devido a isso, soluções onde apenas o uso da câmera é utilizado, chamado de Sistemas SLAM Visuais, são de grande interesse. Este trabalho propõe a adaptação de um Sistema SLAM que necessite apenas de uma câmera como sensor principal e que use Visual Foundation Models para gerar imagens de profundidade que auxiliem na robustez do mapeamento e localização no ambiente. Além disso, tal sistema também deve ser capaz de identificar elementos dinâmicos no ambiente e removê-los do mapa, através do uso de modelos de visão computacional. E por fim, deve ser viável para aplicações em tempo real. / [en] The goal of a SLAM (Simultaneous Localization and Mapping) system is to estimate the camera s trajectory in space while reconstructing an accurate map of the surrounding environment. Its definition can be explained in two parts: the first one, mapping an unknown environment, and the second, performing agent localization in this environment through available sensors. Among the different types of sensors, cameras have lower operating costs while providing a rich amount of environmental information that allows for more precise mapping. Because of this, solutions where only the use of the camera is employed as the main sensor, called Visual SLAM Systems, are of great interest. This work proposes an adaptation of a Visual SLAM System that uses Visual Foundation Models to generate depth images that assist in the robustness of mapping and localization in the environment. Additionally, such a system should also be capable of identifying dynamic elements in the environment and removing them from the map, through the use of computer vision models. Finally, this should be viable for real-time applications. [pt] SLAM [pt] YOLOV8 [pt] MODELO FUNDACIONAL VISUAL [pt] ESTIMACAO DE PROFUNDIDADE [en] SLAM [en] YOLOV8 [en] VISUAL FUNDATION MODEL [en] DEPTH ESTIMATION

Search results