No artigo que apresentou o DQN " Playing Atari with Deep Reforcement Learning ", mencionou:
Observe que, ao aprender pela repetição da experiência, é necessário aprender fora da política (porque nossos parâmetros atuais são diferentes daqueles usados para gerar a amostra), o que motiva a escolha do Q-learning.
Eu não entendi direito o que isso significa. E se usarmos o SARSA e nos lembrarmos da ação a'
que devemos executar s'
em nossa memória, e depois amostrar lotes dele e atualizar o Q como fizemos no DQN? E, os métodos ator-crítico (A3C, para específico) podem usar a repetição da experiência? Se não, por que?
fonte
(s, a, r, s')
e desenhe essa experiência para reprodução; Agora, suponha que o meu atual política diz que você deve levara'
ems'
, em seguida, marca queQ(s, a)
deve serr + Q(s', a')
e fazer gradiente descendente. Acho que estou fazendo uma experiência repetindo a política. Há algum problema com o processo?David Silver aborda isso nesta palestra em vídeo às 46:10 http://videolectures.net/rldm2015_silver_reinforcement_learning/ : a experiência que o replay escolheuma a partir de s usando a política vigente na época, e essa é uma de suas vantagens - ela permite que a função Q aprenda com políticas anteriores, o que interrompe a correlação de estados e políticas recentes e evita que a rede fique "bloqueada" em um determinado modo de comportamento.
fonte