Alguém conhece o exemplo de um algoritmo proposto por Williams no artigo "Uma classe de algoritmos de estimativa de gradiente para aprendizado por reforço em redes neurais" http://incompleteideas.net/sutton/williams-92.pdf
reinforcement-learning
Alex Gao
fonte
fonte
Respostas:
Na palestra de David Silver sobre os métodos Gradient de Política , o slide 21 aqui é um pseudocódigo para o algoritmo episódico Reinforce, que basicamente é um método baseado em gradiente em que o retorno esperado é amostrado diretamente do episódio (em vez de estimar isso com algumas informações aprendidas). função). Nesse caso, o retorno esperado é realmente a recompensa episódica total em diante, .Gt
inicializarθ
para cada episódio { } amostrados da política doπ θs1,a1,r2...sT−1,aT−1,rT πθ
para t = 1 a T - 1 faça
fim para
fim para
Esse algoritmo sofre alta variação, pois as recompensas amostradas podem ser muito diferentes de um episódio para outro, portanto, esse algoritmo é geralmente usado com uma linha de base subtraída da política. Aqui está uma explicação mais detalhada, completa com exemplos de código.
fonte
O algoritmo REINFORCE para aprendizado de reforço de gradiente de política é um algoritmo simples de gradiente estocástico. Funciona bem quando os episódios são razoavelmente curtos, portanto muitos episódios podem ser simulados. Os métodos de função de valor são melhores para episódios mais longos porque podem começar a aprender antes do final de um único episódio.
fonte