Maxwell Para Simples Indexação

Título
[pt] META APRENDIZADO POR REFORÇO APLICADO A ROBÔS QUADRUPEDES PARA LOCOMOÇÃO CEGA E RÁPIDA ADAPTAÇÃO EM TERRENOS DESCONHECIDOS

Título
[en] META REINFORCEMENT LEARNING APPLIED ON QUADRUPEDAL ROBOTS FOR BLIND LOCOMOTION AND FAST ADAPTATION ON UNKNOWN TERRAINS

Autor
[pt] PEDRO LEON FONTES CARDOSO BAZAN

Vocabulário
[pt] ROBO QUADRUPEDE

Vocabulário
[pt] TERRENO DESCONHECIDO

Vocabulário
[pt] RAPIDA ADAPTACAO

Vocabulário
[pt] LOCOMOCAO CEGA

Vocabulário
[pt] META APRENDIZADO POR REFORCO

Vocabulário
[en] QUADRUPED ROBOT

Vocabulário
[en] UNKNOWN TERRAIN

Vocabulário
[en] FAST ADAPTATION

Vocabulário
[en] BLIND LOCOMOTION

Vocabulário
[en] META REINFORCEMENT LEARNING

Resumo
[pt] A locomoção às cegas refere-se ao desafio de navegar por terrenos variados sem conhecimento prévio ou dados exteroceptivos. Embora robôs quadrúpedes frequentemente utilizem sensores externos, esses podem ser pouco confiáveis em condições de baixa luminosidade ou de recursos limitados, não conseguindo antecipar perturbações como escorregamento. Nesses cenários, quadrúpedes devem confiar exclusivamente em feedback proprioceptivo, utilizando medições internas posições articulares, velocidades e forças de contate para adaptar suas estratégias de locomoção. Embora existam métodos de detecção de escorregamento e de estimativa da topografia do terreno o uso de informações proprioceptivas oferece vantagens em diversas aplicações, em parte porque sensores exteroceptivos geralmente operam em frequências de aquisição mais baixas do que sensores proprioceptivos. Este trabalho investiga o Meta- Aprendizado por Reforço (Meta-RL) para aumentar a robustez das políticas e a adaptação rápida de robôs quadrúpedes durante a locomoção às cegas em terrenos desafiadores, com o objetivo de alcançar generalização zero-shot isto é, permitir que o agente atue de forma eficaz em ambientes não vistos sem treinamento adicional. O algoritmo RL2 é tomado como base, integrando redes neurais recorrentes ao Proximal Policy Optimization (PPO) para codificar implicitamente, a partir da experiência, informações especificas de cada tarefa. Duas novas arquiteturas baseadas em RL2 são propostas e avaliadas em simulação com o robô quadrúpede ANYmal C em diferentes condições de terreno, com foco em superfícies planas com escorregamento estocástico e em terrenos altamente não estruturados. Os resultados mostram que políticas recorrentes superam significativamente o PPO padrão, aumentando tanto a adaptabilidade quanto a robustez sob dinâmicas imprevisíveis do solo e, assim, avançando o estado da locomoção quadrúpede às cegas em ambientes simulados desafiadores com implicações para aplicação no mundo real.

Resumo
[en] Blind locomotion refers to the challenge of navigating varied terrains without prior knowledge or exteroceptive data. Although quadruped robots often use external sensors, these can be unreliable in low-light or resource- constrained settings and cannot anticipate disturbances such as slippage. In such scenarios, quadrupeds must rely exclusively on proprioceptive feedback, using internal measurements - joint positions, velocities, and contact forces to adapt their locomotion strategies. While slip detection and terrain- estimation methods exist, leveraging proprioceptive information offers advan- tages across many applications, partly because exteroceptive sensors generally operate at lower acquisition frequencies than proprioceptive sensors. This work explores Meta-Reinforcement Learning (Meta-RL) to enhance policy robust- ness and rapid adaptation for quadruped robots during blind locomotion on challenging terrain, with the goal of achieving zero-shot generalization - i.e. enabling the agent to perform effectively in unseen environments without ad- ditional training. It builds on the RL2 algorithm, integrating recurrent neural networks into Proximal Policy Optimization (PPO) to implicitly encode task- specific information from experience. Two novel RL2-based architectures are proposed and evaluated in simulation with the ANYmal e quadruped robot across diverse terrain conditions, focusing on flat surfaces with stochastic slip and highly unstructured terrains. Results show that recurrent policies signifi- cantly outperform standard PPO, improving both adaptability and robustness under unpredictable ground dynamics and thereby advancing the state of blind quadrupedal locomotion in challenging simulated environments, with implica- tions for real-world deployment.

Orientador(es)
MARCO ANTONIO MEGGIOLARO

Coorientador(es)
VIVIAN SUZANO MEDEIROS

Coorientador(es)
WOUTER CAARLS

Banca
MARCO ANTONIO MEGGIOLARO

Banca
ALLAN NOGUEIRA DE ALBUQUERQUE

Banca
VIVIAN SUZANO MEDEIROS

Banca
JOAO CARLOS VIRGOLINO SOARES

Banca
WOUTER CAARLS

Banca
MARCELO BECKER

Catalogação
2026-03-02

Apresentação
2025-10-10

Tipo
[pt] TEXTO

Formato
application/pdf

Idioma(s)
INGLÊS

Referência [pt]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=75552@1

Referência [en]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=75552@2

Referência DOI
https://doi.org/10.17771/PUCRio.acad.75552


Arquivos do conteúdo
NA ÍNTEGRA PDF