XINFORMAÇÕES SOBRE DIREITOS AUTORAIS
As obras disponibilizadas nesta Biblioteca Digital foram publicadas sob expressa autorização dos respectivos autores, em conformidade com a Lei 9610/98.
A consulta aos textos, permitida por seus respectivos autores, é livre, bem como a impressão de trechos ou de um exemplar completo exclusivamente para uso próprio. Não são permitidas a impressão e a reprodução de obras completas com qualquer outra finalidade que não o uso próprio de quem imprime.
A reprodução de pequenos trechos, na forma de citações em trabalhos de terceiros que não o próprio autor do texto consultado,é permitida, na medida justificada para a compreeensão da citação e mediante a informação, junto à citação, do nome do autor do texto original, bem como da fonte da pesquisa.
A violação de direitos autorais é passível de sanções civis e penais.
As obras disponibilizadas nesta Biblioteca Digital foram publicadas sob expressa autorização dos respectivos autores, em conformidade com a Lei 9610/98.
A consulta aos textos, permitida por seus respectivos autores, é livre, bem como a impressão de trechos ou de um exemplar completo exclusivamente para uso próprio. Não são permitidas a impressão e a reprodução de obras completas com qualquer outra finalidade que não o uso próprio de quem imprime.
A reprodução de pequenos trechos, na forma de citações em trabalhos de terceiros que não o próprio autor do texto consultado,é permitida, na medida justificada para a compreeensão da citação e mediante a informação, junto à citação, do nome do autor do texto original, bem como da fonte da pesquisa.
A violação de direitos autorais é passível de sanções civis e penais.
Coleção Digital
Título: ONLINE ENSEMBLES FOR DEEP REINFORCEMENT LEARNING IN CONTINUOUS ACTION SPACES Autor: RENATA GARCIA OLIVEIRA
Instituição: PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO - PUC-RIO
Colaborador(es):
WOUTER CAARLS - ADVISOR
Nº do Conteudo: 57260
Catalogação: 01/02/2022 Liberação: 05/01/2023 Idioma(s): ENGLISH - UNITED STATES
Tipo: TEXT Subtipo: THESIS
Natureza: SCHOLARLY PUBLICATION
Nota: Todos os dados constantes dos documentos são de inteira responsabilidade de seus autores. Os dados utilizados nas descrições dos documentos estão em conformidade com os sistemas da administração da PUC-Rio.
Referência [pt]: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=57260&idi=1
Referência [en]: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=57260&idi=2
Referência DOI: https://doi.org/10.17771/PUCRio.acad.57260
Resumo:
Título: ONLINE ENSEMBLES FOR DEEP REINFORCEMENT LEARNING IN CONTINUOUS ACTION SPACES Autor: RENATA GARCIA OLIVEIRA
Nº do Conteudo: 57260
Catalogação: 01/02/2022 Liberação: 05/01/2023 Idioma(s): ENGLISH - UNITED STATES
Tipo: TEXT Subtipo: THESIS
Natureza: SCHOLARLY PUBLICATION
Nota: Todos os dados constantes dos documentos são de inteira responsabilidade de seus autores. Os dados utilizados nas descrições dos documentos estão em conformidade com os sistemas da administração da PUC-Rio.
Referência [pt]: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=57260&idi=1
Referência [en]: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=57260&idi=2
Referência DOI: https://doi.org/10.17771/PUCRio.acad.57260
Resumo:
This work seeks to use ensembles of deep reinforcement learning algorithms from a new perspective. In the literature, the ensemble technique is
used to improve performance, but, for the first time, this research aims to use
ensembles to minimize the dependence of deep reinforcement learning performance on hyperparameter fine-tuning, in addition to making it more precise
and robust. Two approaches are researched; one considers pure action aggregation, while the other also takes the value functions into account. In the first
approach, an online learning framework based on the ensemble s continuous
action choice history is created, aiming to flexibly integrate different scoring
and aggregation methods for the agents actions. In essence, the framework
uses past performance to only combine the best policies actions. In the second approach, the policies are evaluated using their expected performance as
estimated by their value functions. Specifically, we weigh the ensemble s value
functions by their expected accuracy as calculated by the temporal difference
error. Value functions with lower error have higher weight. To measure the
influence on the hyperparameter tuning effort, groups consisting of a mix of
different amounts of well and poorly parameterized algorithms were created.
To evaluate the methods, classic environments such as the inverted pendulum,
cart pole and double cart pole are used as benchmarks. In validation, the Half
Cheetah v2, a biped robot, and Swimmer v2 simulation environments showed
superior and consistent results demonstrating the ability of the ensemble technique to minimize the effort needed to tune the the algorithms.
Descrição | Arquivo |
COMPLETE |