Por que a taxa de desconto no algoritmo REINFORCE aparece duas vezes?

11

Eu estava lendo o livro Reinforcement Learning: An Introduction, de Richard S. Sutton e Andrew G. Barto (rascunho completo, 5 de novembro de 2017).

Na página 271, é apresentado o pseudocódigo do método episódico de política de gradiente de Monte-Carlo. Olhando para esse pseudocódigo, não consigo entender por que parece que a taxa de desconto aparece 2 vezes, uma vez no estado de atualização e uma segunda vez dentro do retorno. [Veja a figura abaixo]

insira a descrição da imagem aqui

Parece que o retorno das etapas após a etapa 1 é apenas um truncamento do retorno da primeira etapa. Além disso, se você olhar apenas uma página acima no livro, encontrará uma equação com apenas 1 taxa de desconto (a que está dentro do retorno).

Por que então o pseudo-código parece ser diferente? Meu palpite é que estou entendendo mal algo:

(13.6)θt+1 =˙ θt+αGtθπ(At|St,θt)π(At|St,θt).

Diego Orellana
fonte

Respostas:

5

O fator de desconto aparece duas vezes, e isso está correto.

Isso ocorre porque a função que você está tentando maximizar no REFORÇAR para um problema episódico (tomando o gradiente) é o retorno esperado de um determinado estado de distribuição (de distribuição):

J(θ)=Eπ(θ)[Gt|St=s0,t=0]

G1G2γ=0

J(θ)γt

Neil Slater
fonte
5

γt

Gostaria apenas de esclarecer adicionalmente que você não parece estar entendendo mal nada. A Equação (13.6) do livro é realmente diferente do pseudocódigo .

Agora, não tenho a edição do livro que você mencionou aqui, mas tenho um rascunho posterior de 22 de março de 2018, e o texto sobre esse tópico em particular parece ser semelhante. Nesta edição:

  • γ=1
  • Essa prova finalmente leva à mesma equação (13.6) na página 329.
  • γ=1
  • γ<1
Dennis Soemers
fonte
2
Obrigado. A explicação do seu terceiro ponto estava ausente no rascunho de 2017.
Diego Orellana
2
@DiegoOrellana Não consigo mais encontrar um link para o rascunho de 22 de março; parece haver um rascunho ainda mais tarde (não é possível encontrar uma data mencionada) aqui . Esta versão realmente tem uma capa elegante, portanto pode até ser uma versão final e não um rascunho. Se o link for quebrado no futuro, suspeito que um novo link seja disponibilizado aqui .
Dennis Soemers
3

É uma questão sutil.

Se você observar o algoritmo A3C no artigo original (p.4 e apêndice S3 para pseudocódigo), o algoritmo ator-crítico (o mesmo algoritmo, tanto problemas episódicos quanto problemas contínuos) é desativado por um fator gama relacionado ao ator. pseudo-código crítico para problemas episódicos no livro de Sutton e Barto (p.332 da edição de janeiro de 2019 de http://incompleteideas.net/book/the-book.html ). O livro de Sutton e Barto possui a gama "primeiro" extra, conforme rotulado na sua foto. Então, o livro ou o documento A3C está errado? Na verdade não.

A chave está na p. 199 do livro de Sutton e Barto:

Se houver desconto (gama <1), ele deve ser tratado como uma forma de rescisão, o que pode ser feito simplesmente incluindo um fator de no segundo período de (9.2).

A questão sutil é que existem duas interpretações para o fator de desconto gama:

  1. Um fator multiplicativo que coloca menos peso em recompensas futuras distantes.
  2. Uma probabilidade, 1-gama, de que uma trajetória simulada termine espúria, a qualquer momento. Essa interpretação só faz sentido para casos episódicos e não para casos contínuos.

Implementações literais:

  1. Apenas multiplique as recompensas futuras e quantidades relacionadas (V ou Q) no futuro por gama.
  2. Simule algumas trajetórias e termine aleatoriamente (1-gama) delas a cada etapa do tempo. Trajetórias encerradas não oferecem recompensas imediatas ou futuras.

Glnπ(a|s)

γ2Glnπ(a|s)0.81Glnπ(a|s)

Glnπ(a|s)G

Você pode escolher qualquer interpretação de gama, mas deve estar atento às consequências para o algoritmo. Pessoalmente, prefiro continuar com a interpretação 1 só porque é mais simples. Então, eu uso o algoritmo no documento A3C, não no livro de Sutton e Barto.

Sua pergunta foi sobre o algoritmo REINFORCE, mas eu tenho discutido críticas de atores. Você tem exatamente o mesmo problema relacionado às duas interpretações gama e à gama extra no REINFORCE.

toto2
fonte