No aprendizado crítico-ator para aprendizado reforçado, eu entendo que você tem um "ator" que está decidindo a ação a ser tomada e um "crítico" que avalia essas ações; no entanto, estou confuso sobre o que a função de perda está realmente dizendo mim.
Na página 274 do livro de Sutton e Barton (292 do pdf), encontrada aqui http://ufal.mff.cuni.cz/~straka/courses/npfl114/2016/sutton-bookdraft2016sep.pdf
eles descrevem o algoritmo.
Entendo que você deseja atualizar o ator incorporando informações sobre o valor do estado (determinado pelo crítico). Isso é feito através do valor de que incorpora essas informações, mas não entendo muito bem por que está olhando para o gradiente da função de valor do estado?
Eu não deveria estar olhando para o gradiente de alguma função objetiva que pretendo minimizar? No início do capítulo, ele afirma que podemos considerar o desempenho da política simplesmente como sua função de valor; nesse caso, é tudo o que estamos fazendo apenas ajustando os parâmetros na direção que maximiza o valor de cada estado? Eu pensei que isso deveria ser feito ajustando a política, não mudando a forma como avaliamos um estado.
obrigado
fonte
Respostas:
Vamos primeiro tentar construir uma sólida compreensão do queδ significa. Talvez você saiba tudo isso, mas é bom analisar de qualquer maneira na minha opinião.
Vamos começar com ov^( S, W ) prazo. Esse termo é o valor de estar no estadoS , como estimado pelo crítico sob a parametrização atual w . Esse valor de estado é essencialmente a soma descontada de todas as recompensas que esperamos obter a partir deste momento.
Assim,δ é a diferença entre duas maneiras diferentes de estimar exatamente o mesmo valor, com uma parte (à esquerda do sinal de menos) sendo esperada uma estimativa um pouco mais confiável, porque se baseia em um pouco mais de informações conhecidas por estar corretas (R )
Sim, isso deve ser feito e é exatamente o que é feito pela seguinte linha:
No entanto, essa não é a única coisa que queremos atualizar.
Também queremos fazer isso, porque o crítico sempre deve fornecer uma estimativa tão boa quanto possível do valor do estado. E seδ é diferente de zero, isso significa que cometemos um erro no crítico, portanto, também queremos atualizá-lo para se tornar mais preciso.
fonte