Por que não há probabilidade de transição no Q-Learning (aprendizado por reforço)?

8

No aprendizado por reforço, nosso objetivo é otimizar a função de valor de estado ou função de valor de ação, definidas da seguinte forma:

Vsπ=p(s|s,π(s))[r(s|s,π(s))+γVπ(s)]=Eπ[r(s|s,a)+γVπ(s)|s0=s]

Qπ(s,a)=p(s|s,s)[r(s|s,a)+γVπ(s)]=Eπ[r(s|s,a)+γVπ(s)|s0=s,a0=a]

No entanto, quando usamos o método Q-learning para obter a estratégia ideal, o método de atualização é o seguinte:

Q(S,A) Q(S,A)+α[R+γmaxa(Q(s,a))Q(S,A)]

Minha pergunta é:

por que no Q-learning não há probabilidade de transição . Isso significa que não precisamos deste ao modelar o MDP?pp(s|s,a)p

hokies
fonte

Respostas:

6

Algoritmos que não aprendem a função de probabilidade de transição de estado são chamados sem modelo . Um dos principais problemas com algoritmos baseados em modelo é que geralmente existem muitos estados, e um modelo ingênuo é quadrático no número de estados. Isso impõe um enorme requisito de dados.

O Q-learning é livre de modelos. Ele não aprende uma função de probabilidade de transição de estado.

Neil G
fonte
1
No entanto, no MDP, sempre há uma probabilidade. Se não houver probabilidade de transição, isso significa que isso é contraditório ao pressuposto básico do Aprendizado por Reforço, uma vez que RL assume que o processo é Markov.
Hokies
3
@FzLbMj É claro que as probabilidades de transição existem em algum lugar. O ponto é - como eu disse - que eles não são aprendidos .
Neil G
1
Baseado em modelo da @nbro significa aprender a dinâmica do ambiente. Aqui está um modelo que faz isso: Kuvayev, D. e Richard S. Sutton. Aprendizado de reforço baseado em modelo. Tech. rept. universidade de massachusetts, departamento de ciência da computação, 1997. Para referência, você pode usar o google scholar quando não sabe de nada.
31518 Neil G
1
Acabei de lhe enviar um artigo que você pode ler e que possui um algoritmo que aprende as probabilidades de transição. Veja a seção 5.
Neil G
2
@ nbro Obviamente, temos um desacordo sobre definições, então se você quiser ser convincente, apoie sua afirmação com uma referência.
31418 Neil G
2

Para maior clareza, acho que você deve substituir por pois existe apenas uma função de valor de ação, estamos apenas avaliando Q em ações no próximo estado. Essa notação também sugere onde estão os .m a x a ( Q ( S , a ) ) p ( s | s , a )maxa(Q,a)maxa(Q(S,a))p(s|s,a)

Intuitivamente, é uma propriedade do ambiente. Nós não controlamos como ele funciona, mas simplesmente provamos. Antes de chamarmos essa atualização, primeiro precisamos executar uma ação A no estado S. O processo de fazer isso nos dá uma recompensa e nos envia para o próximo estado. O próximo estado em que você pousa é extraído de por sua definição. Portanto, na atualização Q-learning, assumimos essencialmente que é 1 porque foi aí que acabamos.p ( s ' | s , a ) p ( s ' | s , a )p(s|s,a)p(s|s,a)p(s|s,a)

Tudo bem, porque é um método iterativo em que estamos estimando a função de valor de ação ideal sem conhecer a dinâmica completa do ambiente e, mais especificamente, o valor de . Se você possui um modelo de ambiente que fornece essas informações, pode alterar a atualização para incluí-las, simplesmente alterando o retorno para .γ p ( S | S , A ) m a x a ( Q ( S , a ) )p(s|s,a)γp(S|S,A)maxa(Q(S,a))

Alex
fonte
Muito obrigado pela sua resposta. Portanto, quando usamos o Q-learning, simplesmente assumimos que todas as ações têm igual probabilidade. BTW, você tem alguma idéia sobre qual método ( SARSAou Q-learning) deve usar ao lidar com situações diferentes? obrigado.
Hokies
Não assumimos que todas as ações tenham igual probabilidade. Assumimos que a função de transição é determinística para o nosso cálculo. Ou seja, se você executar a mesma ação do mesmo estado, chegará ao mesmo próximo estado. Para Sarsa vs Q-learning, veja aqui: stackoverflow.com/questions/6848828/…
Alex
0

Além do exposto, o Q-Learning é um algoritmo sem modelo , o que significa que nosso agente apenas conhece os estados que o ambiente oferece a ele. Em outras palavras, se um agente selecionar e executar uma ação, o próximo estado será determinado apenas pelo ambiente e será entregue ao agente. Por esse motivo, o agente não pensa nas probabilidades de transição de estado.

mustafamuratcoskun
fonte