Por que a taxa de desconto no algoritmo REINFORCE aparece duas vezes?
Eu estava lendo o livro Reinforcement Learning: An Introduction, de Richard S. Sutton e Andrew G. Barto (rascunho completo, 5 de novembro de 2017). Na página 271, é apresentado o pseudocódigo do método episódico de política de gradiente de Monte-Carlo. Olhando para esse pseudocódigo, não consigo...