Qual é a diferença entre iteração de valor e iteração de política?

Na aprendizagem por reforço, qual é a diferença entre iteração de política e iteração de valor ? Tanto quanto eu entendo, na iteração de valor, você usa a equação de Bellman para resolver a política ótima, enquanto, na iteração de política, você seleciona aleatoriamente uma política π e...