A política ideal é sempre estocástica (ou seja, um mapa dos estados para uma distribuição de probabilidade sobre as ações) se o ambiente também é estocástico?
Intuitivamente, se o ambiente for determinístico (ou seja, se o agente estiver em um estado e tomar ação , então o próximo estado será sempre o mesmo, independentemente do intervalo de tempo), a política ideal também deverá ser determinística (isto é, deve ser um mapa de estados para ações, e não para uma distribuição de probabilidade sobre ações).
Respostas:
Não.
Uma política ideal é geralmente determinística, a menos que:
Faltam informações importantes sobre o estado (um POMDP). Por exemplo, em um mapa em que o agente não tem permissão para saber sua localização exata ou lembrar de estados anteriores, e o estado fornecido não é suficiente para desambiguar entre os locais. Se o objetivo é chegar a um local final específico, a política ideal pode incluir alguns movimentos aleatórios para evitar ficar preso. Observe que o ambiente nesse caso pode ser determinístico (da perspectiva de alguém que pode ver todo o estado), mas ainda leva a exigir uma política estocástica para resolvê-lo.
Existe algum tipo de cenário da teoria dos jogos minimax, em que uma política determinística pode ser punida pelo ambiente ou por outro agente. Pense em tesoura / papel / pedra ou dilema do prisioneiro.
Isso parece razoável, mas você pode levar essa intuição adiante com qualquer método baseado em uma função de valor:
Se você encontrou uma função de valor ideal, agir com avidez em relação a ela é a política ideal.
A afirmação acima é apenas uma afirmação em linguagem natural da equação de otimização de Bellman:
ou seja, os valores ideais são obtidos ao escolher sempre a ação que maximiza a recompensa mais o valor descontado da próxima etapa. Omaxa operação é determinista (se necessário você pode quebrar os laços para o valor máximo deterministically com, por exemplo, uma lista ordenada de ações).
Portanto, qualquer ambiente que possa ser modelado por um MDP e resolvido por um método baseado em valor (por exemplo, iteração de valor, Q-learning) possui uma política ótima que é determinística.
É possível em tal ambiente que a solução ótima não seja estocástica (ou seja, se você adicionar alguma aleatoriedade à política ideal determinística, a política se tornará estritamente pior). No entanto, quando existem vínculos para o valor máximo de uma ou mais ações em um ou mais estados, existem várias políticas ótimas e determinísticas equivalentes. Você pode construir uma política estocástica que as misture em qualquer combinação e também será ideal.
fonte
Eu diria que não.
Obviamente, se você estiver em um ambiente em que joga contra outro agente (uma configuração da teoria dos jogos), sua política ideal será certamente estocástica (pense em um jogo de pôquer, por exemplo).
fonte
Estou pensando em um cenário de probabilidade, no qual você se vê como ator, com vários picos e vales desconhecidos. Uma boa abordagem determinística sempre levará você ao ideal local mais próximo, mas não necessariamente ao ideal global. Para encontrar o ideal global, algo como um algoritmo MCMC permitiria aceitar estocamente um resultado temporariamente pior para escapar de um ótimo local e encontrar o ótimo global. Minha intuição é que, em um ambiente estocástico, isso também seria verdade.
fonte