Na robótica, a técnica de aprendizado por reforço é usada para encontrar o padrão de controle de um robô. Infelizmente, a maioria dos métodos de gradiente de políticas é estatisticamente tendenciosa, o que poderia levar o robô a uma situação insegura, consulte a página 2 de Jan Peters e Stefan Schaal: Aprendizado por reforço de habilidades motoras com gradientes de políticas, 2008
Com o aprendizado primitivo motor, é possível superar o problema porque a otimização dos parâmetros do gradiente de política direciona as etapas de aprendizado para o objetivo.
citação: “Se a estimativa do gradiente for imparcial e as taxas de aprendizado cumprirem a soma (a) = 0, é garantido que o processo de aprendizado converja para pelo menos um mínimo local [...] Portanto, precisamos estimar o gradiente da política somente a partir dos dados gerados. durante a execução de uma tarefa. ”(Página 4 do mesmo artigo)
Nos trabalhos de casa para o Problema 1 da classe RL de Berkeley , solicita que você mostre que o gradiente de política ainda é imparcial se a linha de base subtraída for uma função do estado no timestep t.
Estou lutando com o que pode ser o primeiro passo dessa prova. Alguém pode me apontar na direção certa? Meu pensamento inicial foi de alguma forma usar a lei da expectativa total para condicionar a expectativa de b (st) a T, mas não tenho certeza. Desde já, obrigado :)
fonte
Respostas:
Usando a lei das expectativas iteradas, temos:
escrito com integrais e movendo o gradiente para dentro (linearidade), você obtém
agora você pode mover∇θ (devido à linearidade) b(st) (não depende de at ) da integral interna à externa:
fonte
Parece que o dever de casa era devido dois dias antes da redação desta resposta, mas, caso ainda seja relevante, as anotações relevantes da classe (que teriam sido úteis se fornecidas na pergunta junto com o dever de casa) estão aqui .
Este exercício é uma preparação para a próxima etapa da lição de casa e baseia-se apenas na revisão do curso de Introdução ao aprendizado de máquina de CS189, de Burkeley, que não contém a Lei da Expectativa Total em seu currículo ou notas de aula.
Todas as informações relevantes estão no link acima para notas de aula e requerem apenas álgebra intermediária.
fonte