Na aproximação função-valor, em particular no aprendizado profundo de Q, entendo que primeiro previmos os valores de Q para cada ação. No entanto, quando existem muitas ações, essa tarefa não é fácil. Mas na iteração de política, também temos que gerar um vetor softmax relacionado a cada ação....