Para responder à sua pergunta, deixe-me primeiro escrever algumas (in) igualdades importantes.
Equação de otimização de Bellman:
v∗(s)=maxaE[Rt+1+γv∗(St+1)∣St=s,At=a]=maxa∑s′p(s′∣s,a)[r(s,a,s′)+γv∗(s′)]
onde v∗(.) é a função de valor ideal.
Teorema da melhoria de políticas ( Pit ):
Seja e qualquer par de políticas determinísticas que, para todos os ,
Então a política deve ser tão bom quanto, ou melhor que, . Ou seja, ele deve obter um retorno esperado maior ou igual de todos os estados . ππ′s∈Sqπ(s,π′(s))≥vπ(s)π′πs∈S:vπ′(s)≥vπ(s)
(encontre na página 89 de Sutton & Barto, Aprendizado por reforço: um livro de introdução )
Podemos melhorar uma política em todos os estados pela seguinte regra:π
π′(s)=argmaxaqπ(s,a)=argmaxa∑s′p(s′∣s,a)[r(s,a,s′)+γvπ(s′)]
Nossa nova política satisfaz a condição do Pit e, portanto, é tão boa quanto ou melhor que . Se é tão bom quanto, mas não melhor que , então para todos os . Da nossa definição de deduzimos que:π′ππ′πvπ′(s)=vπ(s)sπ′
vπ′(s)=maxaE[Rt+1+γvπ′(St+1)∣St=s,At=a]=maxa∑s′p(s′∣s,a)[r(s,a,s′)+γvπ′(s′)]
Mas essa igualdade é a mesma da equação de idealidade de Bellman, portanto deve ser igual a .vπ′v∗
Do exposto acima, espera-se claramente que, se melhorarmos uma política e obtivermos a mesma função de valor que tínhamos antes, a nova política deverá ser uma das políticas ideais. Para mais informações, consulte Sutton & Barto (2012)