No aprendizado por reforço, uma política é sempre determinística ou é uma distribuição de probabilidade entre as ações (das quais provamos)? Se a política é determinística, por que não é a função value, definida em um determinado estado para uma determinada política seguinte maneira
uma saída pontual?
Na definição acima, assumimos uma expectativa. Sobre o que é essa expectativa?
Uma política pode levar a rotas diferentes?
reinforcement-learning
deterministic-policy
stochastic-policy
MiloMinderbinder
fonte
fonte
Respostas:
Existem várias perguntas aqui: 1. Uma política é sempre determinística? 2. Se a política é determinística, o valor também não deve ser determinístico? 3. Qual é a expectativa na estimativa da função de valor? Sua última pergunta não é muito clara "Uma política pode levar a rotas com valores atuais diferentes?" mas acho que você quer dizer: 4. Uma política pode levar a rotas diferentes?
Uma política é uma função que pode ser determinística ou estocástica. Ele determina que ação tomar, dado um determinado estado. A distribuição é usada para uma política estocástica e uma função de mapeamento é usada para uma política determinística, onde é o conjunto de estados possíveis e é o conjunto de ações possíveis .π : S → A S Aπ(a∣s) π:S→A S A
A função de valor não é determinística. O valor (de um estado) é a recompensa esperada se você começar nesse estado e continuar a seguir uma política. Mesmo que a política seja determinística, a função de recompensa e o ambiente podem não ser.
A expectativa nessa fórmula é sobre todas as rotas possíveis a partir do estado . Geralmente, as rotas ou caminhos são decompostos em várias etapas, usadas para treinar estimadores de valor. Essas etapas podem ser representadas pela tupla (estado, ação, recompensa, próximo estado)( s , a , r , s ′ )s (s,a,r,s′)
Isso está relacionado à resposta 2, a política pode levar a caminhos diferentes (mesmo uma política determinística) porque o ambiente geralmente não é determinístico.
fonte
A política pode ser estocástica ou determinística. A expectativa é de mais exemplos de treinamento, dadas as condições. A função value é uma estimativa do retorno, e é por isso que é uma expectativa.
fonte