Qual é a relação entre os métodos Q-learning e gradientes de políticas?
Tanto quanto eu entendo, Q-learning e gradientes de políticas (PG) são as duas principais abordagens usadas para resolver problemas de RL. Enquanto o Q-learning visa predizer a recompensa de uma determinada ação executada em um determinado estado, os gradientes das políticas predizem diretamente a...