Por que o algoritmo de iteração de política converge para a função ideal de política e valor?

Eu estava lendo as notas da aula de Andrew Ng sobre aprendizado por reforço e estava tentando entender por que a iteração de políticas convergiu para a função de valor ideal e a política ideal .V∗V∗V^*π∗π∗\pi^* Lembre-se de que a iteração da política é: Initialize π randomlyRepeat{Let V:=Vπ \for...