O significado do fator de desconto na aprendizagem por reforço

10

Depois de ler as conquistas do google deepmind nos jogos da Atari , estou tentando entender o q-learning e q-networks, mas estou um pouco confuso. A confusão surge no conceito do fator de desconto. Breve resumo do que eu entendo. Uma rede neural profunda convolucional é usada para estimar o valor do valor esperado ideal de uma ação. A rede precisa minimizar a função de perda onde é Onde é um valor acumulado da pontuaçãoE s [ y | s , a ] E [ r + γ m a x a Q ( s , a

Li=Es,a,r[(Es[y|s,a]Q(s,a;θi))2]
Es[y|s,a]Q r
E[r+γmaxaQ(s,a;θi)|s,a]
Qré o valor da pontuação para a ação escolhida. e são respectivamente o estado e a ação escolhidos no momento o estado e a ação no momento . Os são os pesos da rede na iteração anterior. O é um fator de desconto que leva em consideração a diferença temporal dos valores da pontuação. O subscrito é o passo temporal. O problema aqui é entender por que não depende de .s , a t t θ - i γ i γ θs,as,attθiγiγθ

Do ponto de vista matemático é o fator de desconto e representa a probabilidade de atingir o estado do Estado .s sγss

Eu acho que a rede realmente aprendeu a redimensionar o acordo com o verdadeiro valor de , então por que não deixar ?γ γ = 1Qγγ=1

emanuele
fonte

Respostas:

6

O fator de desconto não representa a probabilidade de atingir o estado partir do estado . Isso seria , que não é usado no Q-Learning, pois é livre de modelo (somente os métodos de aprendizado por reforço baseados em modelo usam essas probabilidades de transição). O fator de desconto é um hiperparâmetro ajustado pelo usuário que representa quanto eventos futuros perdem seu valor de acordo com a distância que estão no tempo. Na fórmula mencionada, você está dizendo que o valor para o seu estado atual é a recompensa instantânea para esse estado mais o que você espera receber no futuro a partir dessp(s|s,a)γyss. Mas esse prazo futuro deve ser descontado, porque as recompensas futuras podem não ter (se ) o mesmo valor que receber uma recompensa agora (assim como preferimos receber US $ 100 agora em vez de US $ 100 amanhã). Cabe a você escolher o quanto deseja depreciar suas recompensas futuras (isso depende do problema). Um fator de desconto 0 significa que você se preocupa apenas com recompensas imediatas. Quanto maior o seu fator de desconto, mais suas recompensas serão propagadas ao longo do tempo.γ<1

Sugiro que você leia o livro de Sutton & Barto antes de experimentar o Deep-Q para aprender o Aprendizado de Reforço puro fora do contexto das redes neurais, o que pode estar confundindo você.

rcpinto
fonte
Agradecemos sua resposta, mas ainda tenho algumas dúvidas. Eu estou pensando alto. Imagine a cada passo que você recebe uma pontuação e você tem que pagar para começar a jogar. Como calculo o valor esperado? Bem, porque você está adicionando valores de em momentos diferentes no futuro, não é? c E v = + Σ i = 1 γ i d - c ddc
Ev=i=1+γidc
d
Emanuele
Bem, vou quebrar mesmo que qual é o valor correto para ? O valor correto para é o valor que me permite trocar entre as recompensas presente e futura e é . é a probabilidade de sobreviver na etapa é por isso que . A verificação é onde têm chances de sobreviver a cada passo e é o tempo de vida esperado. γgammaγ=ppt0γ1p
dγ1γ=c
γgammaγ=ppt0γ1τp1p=ττ
Emanuele