No artigo que apresentou o DQN " Playing Atari with Deep Reforcement Learning ", mencionou: Observe que, ao aprender pela repetição da experiência, é necessário aprender fora da política (porque nossos parâmetros atuais são diferentes daqueles usados para gerar a amostra), o que motiva a...