Estou tentando adicionar o GAE à minha implementação A2C há algum tempo, mas não consigo entender como isso funciona.
Pelo que entendi, é que reduz a variação da função de estimativa de vantagem por meio de 'média' (ou generalização) das vantagens baseadas nos valores da distribuição.
Tentei fazer as contas sozinho e, no final, só tive uma vantagem em toda a distribuição, certo? Normalmente, teríamos uma vantagem para cada etapa do lançamento.
Alguém pode fornecer uma explicação sobre a intuição do GAE?
fonte
Você pode encontrar uma boa explicação sobre o retorno λ no blog de Lilian Weng: Combinando TD e MC Learning .
O Generalized Advantage Estimator GAE (λ) simplesmente usa retorno λ para estimar a função de vantagem.
fonte