Uma política é sempre determinística no aprendizado por reforço?

8

No aprendizado por reforço, uma política é sempre determinística ou é uma distribuição de probabilidade entre as ações (das quais provamos)? Se a política é determinística, por que não é a função value, definida em um determinado estado para uma determinada política seguinte maneiraπ

Vπ(s)=E[t>0γtrt|s0=s,π]

uma saída pontual?

Na definição acima, assumimos uma expectativa. Sobre o que é essa expectativa?

Uma política pode levar a rotas diferentes?

MiloMinderbinder
fonte
1
Uma pergunta relacionada no StackOverflow: stackoverflow.com/q/46260775/712995
Maxim

Respostas:

6

Existem várias perguntas aqui: 1. Uma política é sempre determinística? 2. Se a política é determinística, o valor também não deve ser determinístico? 3. Qual é a expectativa na estimativa da função de valor? Sua última pergunta não é muito clara "Uma política pode levar a rotas com valores atuais diferentes?" mas acho que você quer dizer: 4. Uma política pode levar a rotas diferentes?

  1. Uma política é uma função que pode ser determinística ou estocástica. Ele determina que ação tomar, dado um determinado estado. A distribuição é usada para uma política estocástica e uma função de mapeamento é usada para uma política determinística, onde é o conjunto de estados possíveis e é o conjunto de ações possíveis .π : S A S Aπ(as)π:SASA

  2. A função de valor não é determinística. O valor (de um estado) é a recompensa esperada se você começar nesse estado e continuar a seguir uma política. Mesmo que a política seja determinística, a função de recompensa e o ambiente podem não ser.

  3. A expectativa nessa fórmula é sobre todas as rotas possíveis a partir do estado . Geralmente, as rotas ou caminhos são decompostos em várias etapas, usadas para treinar estimadores de valor. Essas etapas podem ser representadas pela tupla (estado, ação, recompensa, próximo estado)( s , a , r , s )s(s,a,r,s)

  4. Isso está relacionado à resposta 2, a política pode levar a caminhos diferentes (mesmo uma política determinística) porque o ambiente geralmente não é determinístico.

DE ANÚNCIOS
fonte
você pode me dar um exemplo de ambiente não sendo determinístico? a meu ver, se o agente aplicar a ação a um ambiente no estado , ele deterministicamente muda o ambiente parasass
315 MiloMinderbinder
1
Um exemplo clássico é um robô que faz movimentos à esquerda em um passo (ação), mas a superfície é escorregadia (caminhando no gelo) e, na verdade, se move 2 passos à esquerda. De fato, esses ambientes são a norma e são amplamente estudados. Meu exemplo é, na verdade, um ambiente de "brinquedo" tão conhecido: gym.openai.com/envs/FrozenLake-v0
AD
assim estado e acção sobre ela conduz a uma dist prov sobre . eu entendi direito? a s 'sas
MiloMinderbinder
Sim, assim como é estocástico, também é estocástico. p ( s ' | s , a )p(as)p(ss,a)
AD
apenas mais duas coisas: 1. é estocástico apenas na política estocástica, certo? 2. Você pode confirmar que a outra resposta postada está errada sobre o que a expectativa é tomada em parte, para que eu possa aceitar sua resposta? p(a|s)
MiloMinderbinder
1

A política pode ser estocástica ou determinística. A expectativa é de mais exemplos de treinamento, dadas as condições. A função value é uma estimativa do retorno, e é por isso que é uma expectativa.

Neil G
fonte