Maxwell Para Simples Indexação

Título
[pt] APERFEIÇOANDO MODELOS DE SLAM VISUAIS PELA COMBINAÇÃO DA ESTIMAÇÃO DE PROFUNDIDADE, SEGMENTAÇÃO SEMÂNTICA E REMOÇÃO DE OBJETOS DINÂMICOS USANDO MODELOS FUNDACIONAIS VISUAIS

Título
[en] IMPROVING VISUAL SLAM BY COMBINING DEPTH ESTIMATION, SEMANTIC SEGMENTATION, AND DYNAMIC OBJECT REMOVAL USING VISUAL FOUNDATION MODELS

Autor
[pt] PEDRO THIAGO CUTRIM DOS SANTOS

Vocabulário
[pt] SLAM

Vocabulário
[pt] YOLOV8

Vocabulário
[pt] MODELO FUNDACIONAL VISUAL

Vocabulário
[pt] ESTIMACAO DE PROFUNDIDADE

Vocabulário
[en] SLAM

Vocabulário
[en] YOLOV8

Vocabulário
[en] VISUAL FUNDATION MODEL

Vocabulário
[en] DEPTH ESTIMATION

Resumo
[pt] O objetivo de um sistema SLAM (Localização e Mapeamento Simultâneos) é estimar a trajetória da câmera no espaço enquanto reconstrói um mapa preciso do ambiente ao redor. Sua definição pode ser explicada em duas partes: a primeira, mapear um ambiente não conhecido, e a segunda, realizar a localização do agente neste ambiente através dos sensores disponíveis. Dentre os diferentes tipos de sensores, câmeras possuem um custo menor de operação ao mesmo tempo que fornecem uma quantidade rica de informações do ambiente que permitem um reconhecimento e mapeamento mais preciso. Devido a isso, soluções onde apenas o uso da câmera é utilizado, chamado de Sistemas SLAM Visuais, são de grande interesse. Este trabalho propõe a adaptação de um Sistema SLAM que necessite apenas de uma câmera como sensor principal e que use Visual Foundation Models para gerar imagens de profundidade que auxiliem na robustez do mapeamento e localização no ambiente. Além disso, tal sistema também deve ser capaz de identificar elementos dinâmicos no ambiente e removê-los do mapa, através do uso de modelos de visão computacional. E por fim, deve ser viável para aplicações em tempo real.

Resumo
[en] The goal of a SLAM (Simultaneous Localization and Mapping) system is to estimate the camera s trajectory in space while reconstructing an accurate map of the surrounding environment. Its definition can be explained in two parts: the first one, mapping an unknown environment, and the second, performing agent localization in this environment through available sensors. Among the different types of sensors, cameras have lower operating costs while providing a rich amount of environmental information that allows for more precise mapping. Because of this, solutions where only the use of the camera is employed as the main sensor, called Visual SLAM Systems, are of great interest. This work proposes an adaptation of a Visual SLAM System that uses Visual Foundation Models to generate depth images that assist in the robustness of mapping and localization in the environment. Additionally, such a system should also be capable of identifying dynamic elements in the environment and removing them from the map, through the use of computer vision models. Finally, this should be viable for real-time applications.

Orientador(es)
SERGIO COLCHER

Banca
SERGIO COLCHER

Banca
EDWARD HERMANN HAEUSLER

Banca
JULIO CESAR DUARTE

Banca
ANTONIO JOSE GRANDSON BUSSON

Catalogação
2024-11-28

Apresentação
2024-04-29

Tipo
[pt] TEXTO

Formato
application/pdf

Idioma(s)
INGLÊS

Referência [pt]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=68676@1

Referência [en]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=68676@2

Referência DOI
https://doi.org/10.17771/PUCRio.acad.68676


Arquivos do conteúdo
NA ÍNTEGRA PDF