Tenho uma dúvida sobre como exatamente é treinada a função de perda de uma Deep Q-Learning Network. Estou usando uma rede feedforward de 2 camadas com camada de saída linear e relu camadas ocultas. Vamos supor que eu tenho 4 ações possíveis. Portanto, a saída da minha rede para o estado atual é ....