Título
[pt] APRENDIZADO POR REFORÇO PROFUNDO PARA CONTROLE DE TRAJETÓRIA DE UM QUADROTOR EM AMBIENTES VIRTUAIS
Título
[en] DEEP REINFORCEMENT LEARNING FOR QUADROTOR TRAJECTORY CONTROL IN VIRTUAL ENVIRONMENTS
Autor
[pt] GUILHERME SIQUEIRA EDUARDO
Vocabulário
[pt] VEICULO AEREO NAO TRIPULADO
Vocabulário
[pt] NAVEGACAO VISUAL
Vocabulário
[pt] SOFT ACTOR-CRITIC-SAC
Vocabulário
[pt] APRENDIZADO POR REFORCO PROFUNDO
Vocabulário
[pt] CONTROLE DE QUADROTOR
Vocabulário
[en] UNMANNED AERIAL VEHICLE
Vocabulário
[en] VISUAL NAVIGATION
Vocabulário
[en] SOFT ACTOR-CRITIC-SAC
Vocabulário
[en] DEEP REINFORCEMENT LEARNING
Vocabulário
[en] QUADROTOR CONTROL
Resumo
[pt] Com recentes avanços em poder computacional, o uso de novos modelos
de controle complexos se tornou viável para realizar o controle de quadrotores.
Um destes métodos é o aprendizado por reforço profundo (do inglês, Deep
Reinforcement Learning, DRL), que pode produzir uma política de controle
que atende melhor as não-linearidades presentes no modelo do quadrotor que
um método de controle tradicional. Umas das não-linearidades importantes
presentes em veículos aéreos transportadores de carga são as propriedades
variantes no tempo, como tamanho e massa, causadas pela adição e remoção
de carga. A abordagem geral e domínio-agnóstica de um controlador por DRL
também o permite lidar com navegação visual, na qual a estimação de dados
de posição é incerta. Neste trabalho, aplicamos um algorítmo de Soft Actor-
Critic com o objeivo de projetar controladores para um quadrotor a fim de
realizar tarefas que reproduzem os desafios citados em um ambiente virtual.
Primeiramente, desenvolvemos dois controladores de condução por waypoint:
um controlador de baixo nível que atua diretamente em comandos para o motor
e um controlador de alto nível que interage em cascata com um controlador de
velocidade PID. Os controladores são então avaliados quanto à tarefa proposta
de coleta e alijamento de carga, que, dessa forma, introduz uma variável
variante no tempo. Os controladores concebidos são capazes de superar o
controlador clássico de posição PID com ganhos otimizados no curso proposto,
enquanto permanece agnóstico em relação a um conjunto de parâmetros de
simulação. Finalmente, aplicamos o mesmo algorítmo de DRL para desenvolver
um controlador que se utiliza de dados visuais para completar um curso de
corrida em uma simulação. Com este controlador, o quadrotor é capaz de
localizar portões utilizando uma câmera RGB-D e encontrar uma trajetória
que o conduz a atravessar o máximo possível de portões presentes no percurso.
Resumo
[en] With recent advances in computational power, the use of novel, complex
control models has become viable for controlling quadrotors. One such method
is Deep Reinforcement Learning (DRL), which can devise a control policy
that better addresses non-linearities in the quadrotor model than traditional
control methods. An important non-linearity present in payload carrying air
vehicles are the inherent time-varying properties, such as size and mass,
caused by the addition and removal of cargo. The general, domain-agnostic
approach of the DRL controller also allows it to handle visual navigation,
in which position estimation data is unreliable. In this work, we employ a
Soft Actor-Critic algorithm to design controllers for a quadrotor to carry out
tasks reproducing the mentioned challenges in a virtual environment. First,
we develop two waypoint guidance controllers: a low-level controller that acts
directly on motor commands and a high-level controller that interacts in
cascade with a velocity PID controller. The controllers are then evaluated
on the proposed payload pickup and drop task, thereby introducing a timevarying
variable. The controllers conceived are able to outperform a traditional
positional PID controller with optimized gains in the proposed course, while
remaining agnostic to a set of simulation parameters. Finally, we employ the
same DRL algorithm to develop a controller that can leverage visual data to
complete a racing course in simulation. With this controller, the quadrotor is
able to localize gates using an RGB-D camera and devise a trajectory that
drives it to traverse as many gates in the racing course as possible.
Orientador(es)
WOUTER CAARLS
Banca
EDUARDO COSTA DA SILVA
Banca
KARLA TEREZA FIGUEIREDO LEITE
Banca
ANTONIO CANDEA LEITE
Banca
WOUTER CAARLS
Catalogação
2021-08-12
Apresentação
2021-03-26
Tipo
[pt] TEXTO
Formato
application/pdf
Idioma(s)
INGLÊS
Referência [pt]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=54178@1
Referência [en]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=54178@2
Referência DOI
https://doi.org/10.17771/PUCRio.acad.54178
Arquivos do conteúdo
NA ÍNTEGRA PDF