Logo PUC-Rio Logo Maxwell
TRABALHOS DE FIM DE CURSO @PUC-Rio
Consulta aos Conteúdos
Título: DESENVOLVIMENTO DE ROBÓTICA INTELIGENTE EM AMBIENTE VIRTUAL
Autor(es): DEISE REGINA CEREGATTI MOMM
Colaborador(es): KARLA TEREZA FIGUEIREDO LEITE - Orientador
Catalogação: 07/DEZ/2012 Língua(s): PORTUGUÊS - BRASIL
Tipo: TEXTO Subtipo: TRABALHO DE FIM DE CURSO
Notas: [pt] Todos os dados constantes dos documentos são de inteira responsabilidade de seus autores. Os dados utilizados nas descrições dos documentos estão em conformidade com os sistemas da administração da PUC-Rio.
[en] All data contained in the documents are the sole responsibility of the authors. The data used in the descriptions of the documents are in conformity with the systems of the administration of PUC-Rio.
Referência(s): [pt] https://www.maxwell.vrac.puc-rio.br/projetosEspeciais/TFCs/consultas/conteudo.php?strSecao=resultado&nrSeq=20822@1
[en] https://www.maxwell.vrac.puc-rio.br/projetosEspeciais/TFCs/consultas/conteudo.php?strSecao=resultado&nrSeq=20822@2
DOI: https://doi.org/10.17771/PUCRio.acad.20822
Resumo:
A robótica autônoma e inteligente envolve diferentes áreas do conhecimento, é multidisciplinar. Os robôs devem ser capazes, entre outras coisas, de prever e planejar suas ações. Um aprendizado que, na maioria das vezes, requer longos períodos de processamento e inúmeros testes – o que reforça a importância de um ambiente virtual que seja capaz de reproduzir o modelo real com fidelidade e de acelerar o processo de ajuste e aprendizado do modelo. A técnica inteligente selecionada, para dotar com inteligência o robô virtual, foi o Aprendizado por Reforço (do inglês Reinforcement Learning), onde o agente (robô) recebe recompensas e punições pelas ações realizadas. Nessa técnica, o objetivo é encontrar uma política de ações que maximize as recompensas recebidas pelo agente. Neste estudo, optou-se por utilizar o método Q-Learning, um método off-policy, ou seja, a maximização das recompensas independe da política de ações utilizada. Os resultados obtidos foram satisfatórios, uma vez que o agente foi capaz de aprender de forma não supervisionada. Os valores de utilizados na função-greedy foram essenciais para demonstrar a importância do equilíbrio entre a exploração e a explotação nesse tipo de aprendizado.
Descrição: Arquivo:   
NA ÍNTEGRA PDF