No aprendizado por reforço, nosso objetivo é otimizar a função de valor de estado ou função de valor de ação, definidas da seguinte forma:
Vπs= ∑ p ( s′| s,π( s ) ) [ r ( s′| s,π( s ) ) + γVπ( s′) ] = Eπ[ r ( s′|s,a)+γVπ(s′)|s0= s ]
Qπ( s , a ) = ∑ p ( s′| s,s)[r( s′| s,a)+γVπ( s′) ] = Eπ[ r ( s′| s,a)+γVπ( s′)|s0=s,a0=a]
No entanto, quando usamos o método Q-learning para obter a estratégia ideal, o método de atualização é o seguinte:
Q(S,A)← Q(S,A)+α[R+γmaxa(Q(s′,a))−Q(S,A)]
Minha pergunta é:
por que no Q-learning não há probabilidade de transição . Isso significa que não precisamos deste ao modelar o MDP?pp(s′|s,a)p
Para maior clareza, acho que você deve substituir por pois existe apenas uma função de valor de ação, estamos apenas avaliando Q em ações no próximo estado. Essa notação também sugere onde estão os .m a x a ( Q ( S ′ , a ) ) p ( s ′ | s , a )maxa(Q′,a) maxa(Q(S′,a)) p(s′|s,a)
Intuitivamente, é uma propriedade do ambiente. Nós não controlamos como ele funciona, mas simplesmente provamos. Antes de chamarmos essa atualização, primeiro precisamos executar uma ação A no estado S. O processo de fazer isso nos dá uma recompensa e nos envia para o próximo estado. O próximo estado em que você pousa é extraído de por sua definição. Portanto, na atualização Q-learning, assumimos essencialmente que é 1 porque foi aí que acabamos.p ( s ' | s , a ) p ( s ' | s , a )p(s′|s,a) p(s′|s,a) p(s′|s,a)
Tudo bem, porque é um método iterativo em que estamos estimando a função de valor de ação ideal sem conhecer a dinâmica completa do ambiente e, mais especificamente, o valor de . Se você possui um modelo de ambiente que fornece essas informações, pode alterar a atualização para incluí-las, simplesmente alterando o retorno para .γ p ( S ′ | S , A ) m a x a ( Q ( S ′ , a ) )p(s|s′,a) γp(S′|S,A)maxa(Q(S′,a))
fonte
SARSA
ouQ-learning
) deve usar ao lidar com situações diferentes? obrigado.Além do exposto, o Q-Learning é um algoritmo sem modelo , o que significa que nosso agente apenas conhece os estados que o ambiente oferece a ele. Em outras palavras, se um agente selecionar e executar uma ação, o próximo estado será determinado apenas pelo ambiente e será entregue ao agente. Por esse motivo, o agente não pensa nas probabilidades de transição de estado.
fonte