Por que o DQN requer duas redes diferentes?
Eu estava passando por essa implementação do DQN e vejo que nas linhas 124 e 125 foram inicializadas duas redes Q diferentes. Pelo meu entendimento, acho que uma rede prediz a ação apropriada e a segunda rede prediz os valores Q de destino para encontrar o erro de Bellman. Por que não podemos...