No entanto, ambas as abordagens parecem idênticas para mim, ou seja, prever a recompensa máxima por uma ação (Q-learning) é equivalente a prever a probabilidade de executar a ação diretamente (PG).
Ambos os métodos são teoricamente orientados pelo construto Processo de Decisão de Markov e, como resultado, usam notação e conceitos semelhantes. Além disso, em ambientes simples e solucionáveis, você deve esperar que ambos os métodos resultem nas mesmas políticas ótimas - ou pelo menos equivalentes.
No entanto, eles são realmente diferentes internamente. As diferenças mais fundamentais entre as abordagens estão na maneira como abordam a seleção de ações, enquanto aprendem e como resultado (a política aprendida). No Q-learning, o objetivo é aprender uma única ação determinística a partir de um conjunto discreto de ações, encontrando o valor máximo. Com gradientes de políticas e outras pesquisas diretas de políticas, o objetivo é aprender um mapa do estado para a ação, que pode ser estocástico e funciona em espaços de ação contínuos.
Como resultado, os métodos de gradiente de política podem resolver problemas que os métodos baseados em valor não podem:
Espaço de ação amplo e contínuo. No entanto, com métodos baseados em valores, isso ainda pode ser aproximado com discretização - e isso não é uma má escolha, pois a função de mapeamento no gradiente de políticas deve ser na prática algum tipo de aproximador.
Políticas estocásticas. Um método baseado em valor não pode resolver um ambiente em que a política ideal é estocástica, exigindo probabilidades específicas, como Tesoura / Papel / Pedra. Isso ocorre porque não há parâmetros treináveis no Q-learning que controlam as probabilidades de ação, a formulação do problema no aprendizado do TD pressupõe que um agente determinístico possa ser o ideal.
No entanto, métodos baseados em valor como o Q-learning também têm algumas vantagens:
p ( a ∣ s , θ )θ
Rapidez. Os métodos de aprendizado de TD que iniciam com freqüência são muito mais rápidos para aprender uma política do que os métodos que devem ser retirados do ambiente para avaliar o progresso.
Há outras razões pelas quais você pode usar uma ou outra abordagem:
Você pode querer saber o retorno previsto enquanto o processo está em execução, para ajudar outros processos de planejamento associados ao agente.
A representação do estado do problema se presta mais facilmente a uma função de valor ou a uma função de política. Uma função de valor pode ter um relacionamento muito simples com o estado e a função de política muito complexa e difícil de aprender, ou vice-versa .
Alguns solucionadores de RL de ponta, na verdade, usam as duas abordagens juntos, como o Critic de Atores. Isso combina pontos fortes de métodos de gradação de valor e política.