Aprendizado por Reforço: Uma Introdução. Segunda edição, em andamento ., Richard S. Sutton e Andrew G. Barto (c) 2012, pp. 67-68.
Resolver uma tarefa de aprendizado por reforço significa, basicamente, encontrar uma política que obtenha muitas recompensas a longo prazo. Para MDPs finitos, podemos definir com precisão uma política ideal da seguinte maneira. As funções de valor definem uma ordem parcial sobre as políticas. Uma política de é definido como sendo melhor do que ou igual a uma política se o seu retorno esperado é maior ou igual ao de , para todos os estados. Em outras palavras, se e somente se , para todos os . Sempre há pelo menos uma política que é melhor que ou igual a todas as outras políticas. Esta é uma política ideal.
Por que sempre há pelo menos uma política que é melhor que ou igual a todas as outras políticas?
Respostas:
Depois da parte citada, o mesmo parágrafo realmente diz qual é essa política: é a que executa as melhores ações em todos os estados. Em um MDP, a ação que realizamos em um estado não afeta as recompensas por ações realizadas em outros, portanto, podemos simplesmente maximizar a política estado a estado.
fonte
A existência de uma política ótima não é óbvia. Para ver o porquê, observe que a função value fornece apenas uma ordem parcial no espaço de políticas. Isso significa:
Como essa é apenas uma ordem parcial, pode haver um caso em que duas políticas, e π 2 , não sejam comparáveis. Em outras palavras, existem subconjuntos do espaço de estados, S 1 e S 2, de modo que:π1 π2 S1 S2
Nesse caso, não podemos dizer que uma política é melhor que a outra. Mas, se estamos lidando com MDPs finitos com funções de valor limitado, esse cenário nunca ocorre. Há exatamente uma função de valor ideal, embora possa haver várias políticas ideais.
Para uma prova disso, você precisa entender o teorema de Banach Fixed Point. Para uma análise detalhada, consulte .
fonte
Configuração
Estamos considerando no cenário de:
A política óptimo é definido como: e a função de um valor óptimo é: V * = max π V π ( s ) , ∀ s ∈ S Pode haver um conjunto de políticas que atingem o máximo. Mas existe apenas uma função de valor ideal: V ∗ = V π ∗
A questão
Como para demonstrar que existe, pelo menos, um que satisfaz (1) simultaneamente para todos s ∈ S ?π∗ s∈S
Esboço da prova
Construa a equação ótima a ser usada como uma definição substituta temporária da função de valor ótimo, o que provaremos na etapa 2 que é equivalente à definição via Eq. (2).
Derive a equivalência da definição da função de valor ótimo via Eq. (4) e via Eq. (2).
(Observe que, de fato, precisamos apenas da direção da necessidade na prova, porque a suficiência é óbvia, pois construímos a Eq. (4) da Eq. (2).)
Prove que existe uma solução exclusiva para a Eq. (4).
Na etapa 2, sabemos que a solução obtida na etapa 3 também é uma solução para a Eq. (2), portanto é uma função de valor ideal.
A partir de uma função de valor ideal, podemos recuperar uma política ideal escolhendo a ação maximizadora na Eq. (4) para cada estado.
Detalhes das etapas
1Como , temos V π ∗ ( s ) ≤ max a ∈ A Q π ∗ ( s , a ) . E se houver qualquer ~ s tais que V π * ≠ max uma ∈V∗(s)=Vπ∗(s)=Ea[Qπ∗(s,a)] Vπ∗(s)≤maxa∈AQπ∗(s,a) s~ Vπ∗≠maxa∈AQπ∗(s,a) Q∗(s,a)=Qπ∗(s,a) a
2(=>)
Segue o passo 1.
(<=)
Defina o operador Bellman ideal como
a) IfV~≥TV~ , then V~≥V∗ .
b) IfV~≤TV~ , then V~≤V∗ .
Proof:
a)
For anyπ=(d1,d2,...) ,
By induction, for anyn ,
Since
Follows from step 1.
3The optimal Bellman operator is a contraction inL∞ norm, cf. [2].
Proof: For anys ,
Thus by Banach fixed point theorum it follows thatT has a unique fixed point.
References
[1] Puterman, Martin L.. “Markov Decision Processes : Discrete Stochastic Dynamic Programming.” (2016).
[2] A. Lazaric. http://researchers.lille.inria.fr/~lazaric/Webpage/MVA-RL_Course14_files/slides-lecture-02-handout.pdf
fonte
The policya=π(s) gives the best action a to execute in state s according to policy π , i.e. the value function vπ(s)=maxa∈Aqπ(s,a) is highest for action a in state s .
Thus there is always a policyπ∗ which gives equal or higher expected rewards than policy π . Note that this implies that π could be an/the optimal policy (π∗ ) itself.
fonte