Por que a linha de base está condicionada ao estado em alguma etapa do tempo?

9

Na robótica, a técnica de aprendizado por reforço é usada para encontrar o padrão de controle de um robô. Infelizmente, a maioria dos métodos de gradiente de políticas é estatisticamente tendenciosa, o que poderia levar o robô a uma situação insegura, consulte a página 2 de Jan Peters e Stefan Schaal: Aprendizado por reforço de habilidades motoras com gradientes de políticas, 2008

Com o aprendizado primitivo motor, é possível superar o problema porque a otimização dos parâmetros do gradiente de política direciona as etapas de aprendizado para o objetivo.

citação: “Se a estimativa do gradiente for imparcial e as taxas de aprendizado cumprirem a soma (a) = 0, é garantido que o processo de aprendizado converja para pelo menos um mínimo local [...] Portanto, precisamos estimar o gradiente da política somente a partir dos dados gerados. durante a execução de uma tarefa. ”(Página 4 do mesmo artigo)

Nos trabalhos de casa para o Problema 1 da classe RL de Berkeley , solicita que você mostre que o gradiente de política ainda é imparcial se a linha de base subtraída for uma função do estado no timestep t.

θt=1TE(st,at)p(st,at)[b(st)]=0 0

Estou lutando com o que pode ser o primeiro passo dessa prova. Alguém pode me apontar na direção certa? Meu pensamento inicial foi de alguma forma usar a lei da expectativa total para condicionar a expectativa de b (st) a T, mas não tenho certeza. Desde já, obrigado :)

link para png original da equação

Laura C
fonte
Bem-vindo ao SE: AI! (Tomei a liberdade de converter equação para MathJax .png Original está ligado na parte inferior..)
DukeZhou
2
Não tenha muito tempo para anotar as equações exatas e formatá-las (talvez mais tarde, se ainda não tiver sido respondida) com o LaTeX, mas aqui está uma dica. Você quer que a soma não dependa da política para que a derivada seja 0. Portanto, você tenta expressar as coisas usando a política p (s, a). A resposta btw também pode ser encontrada no livro RL Intro, de Sutton, no capítulo gradiente de políticas.
Hai Nguyen
11
Muito obrigado! Usarei essa dica para começar, bem como obrigado por me contar sobre ela estar em Sutton RL. Estou lendo esse livro e é excelente!
Laura C
@LauraC se você encontrar a resposta antes de qualquer outra pessoa, por favor, volte e pós como uma resposta formal, aqui (pessoas definitivamente como esta questão :)
DukeZhou
Adicionei informações de contexto para a pergunta.
Manuel Rodriguez

Respostas:

7

Usando a lei das expectativas iteradas, temos:

θt=1TE(st,at)p(st,at)[b(st)]=θt=1TEstp(st)[Eatπθ(at|st)[b(st)]]=

escrito com integrais e movendo o gradiente para dentro (linearidade), você obtém

=t=1Tstp(st)(atθb(st)πθ(at|st)dat)dst=

agora você pode mover θ (devido à linearidade) b(st) (não depende de at ) da integral interna à externa:

=t=1Tstp(st)b(st)θ(atπθ(at|st)dat)dst=

πθ(at|st)atst1

=t=1Tstp(st)b(st)θ1dst=

θ1=0

Andrei Poehlmann
fonte
1

Parece que o dever de casa era devido dois dias antes da redação desta resposta, mas, caso ainda seja relevante, as anotações relevantes da classe (que teriam sido úteis se fornecidas na pergunta junto com o dever de casa) estão aqui .

Eτpθ(τ)

t=1TEτpθ(τ)[θlogπθ(at|st)(b(st))]=0

πθ(at|st)

Este exercício é uma preparação para a próxima etapa da lição de casa e baseia-se apenas na revisão do curso de Introdução ao aprendizado de máquina de CS189, de Burkeley, que não contém a Lei da Expectativa Total em seu currículo ou notas de aula.

Todas as informações relevantes estão no link acima para notas de aula e requerem apenas álgebra intermediária.

Douglas Daseeco
fonte