Maxwell Para Simples Indexação

Título
[pt] APRENDIZADO POR REFORÇO E OTIMIZAÇÃO APLICADOS AO PROBLEMA DE DESPACHO HIDROTÉRMICO

Título
[en] REINFORCEMENT LEARNING AND OPTIMIZATION APPLIED TO THE HYDROTHERMAL DISPATCH PROBLEM

Autor
[pt] GABRIEL VIDIGAL DE PAULA SANTOS

Vocabulário
[pt] APRENDIZADO POR REFORCO

Vocabulário
[pt] RASTREAMENTO DE ESTADO

Vocabulário
[pt] DESPACHO HIDROTERMICO

Vocabulário
[pt] FLUXO DE POTENCIA OTIMO

Vocabulário
[en] REINFORCEMENT LEARNING

Vocabulário
[en] STATE TRACKING

Vocabulário
[en] OPTIMIZATION SCHEDULING OF HYDROTHERMAL SYSTEMS

Vocabulário
[en] OPTIMAL POWER FLOW

Resumo
[pt] A programação ótima de usina sem um sistema hidrotérmico é um problema complexo devido à incerteza nas afluências, às restrições da rede e ao acoplamento temporal de longo prazo. A abordagem mais comumente utilizada para resolvê-lo é a otimização estocástica em múltiplos estágios, em particular a Programação Dinâmica Dual Estocástica (SDDP, em inglês). No entanto, as suposições de independência temporal e convexidade desafiam a aplicação desse método em situações onde padrões não lineares são observados, exigindo simplificações na prática. Neste trabalho, propomos uma combinação de otimização com Aprendizado por Reforço (RL, em inglês) para melhorar a aproximação do problema não linear, considerando as restrições da rede em Corrente Alternada (AC, em inglês) e um processo gerador de dados desconhecido. Para cada estágio, um problema de otimização minimiza os custos operacionais enquanto acompanha volumes-alvo para cada reservatório. Esses valores-alvo são obtidos por meio de uma rede neural treinada via RL. A função de recompensa é definida com base no custo operacional do sistema e simulada com dados reais e o modelo AC da rede. Comparamos o modelo proposto com o SDDP utilizando dados do sistema elétrico Boliviano. Os resultados mostram que o método proposto é capaz de resolver problemas de grande porte em sistemas reais com custos dentro de 5-25 por cento da solução de referência.

Resumo
[en] The optimal scheduling of power plants in a hydrothermal system is a complex problem due to inflow uncertainty, network constraints, and long-term time coupling. The most commonly used approach to solve it is multistage stochastic optimization, particularly Stochastic Dual Dynamic Programming (SDDP). However, the assumptions of time independence and convexity challenge the application of this method insituations where nonlinear patterns are observed, thus requiring simplifications in practice. In this work, we propose a combination of optimization and Reinforcement Learning (RL) to better approximate the nonlinear problem, considering Alternating Current (AC) network constraints and an unknown data-generating process. For each stage, an optimization problem minimizes operating costs while tracking target volumes for each reservoir. These target values are obtained from a neural network trained via RL. The reward function is defined based on the system s operating cost and simulated using actual data and the AC network model. We benchmark the proposed model against SDDP using data from the Bolivian system. The results show the proposed approach is able to solve large problems in real world systems with costs within 5-25 percent of the benchmark solution.

Orientador(es)
ALEXANDRE STREET DE AGUIAR

Coorientador(es)
JOAQUIM MASSET LACOMBE DIAS GARCIA

Banca
ALEXANDRE STREET DE AGUIAR

Banca
JOAQUIM MASSET LACOMBE DIAS GARCIA

Banca
WOUTER CAARLS

Banca
BERNARDO FREITAS PAULO DA COSTA

Catalogação
2026-04-30

Apresentação
2025-04-29

Tipo
[pt] TEXTO

Formato
application/pdf

Idioma(s)
INGLÊS

Referência [pt]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=76221@1

Referência [en]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=76221@2

Referência DOI
https://doi.org/10.17771/PUCRio.acad.76221


Arquivos do conteúdo
NA ÍNTEGRA PDF