O bootstrapping no RL pode ser lido como "usando um ou mais valores estimados na etapa de atualização para o mesmo tipo de valor estimado".
Na maioria das regras de atualização de TD, você verá algo parecido com esta atualização SARSA (0):
Q(s,a)←Q(s,a)+α(Rt+1+γQ(s′,a′)−Q(s,a))
O valor é uma estimativa para o valor verdadeiro de e também chamado de destino TD. É um método de autoinicialização porque, em parte, estamos usando um valor Q para atualizar outro valor Q. Há uma pequena quantidade de dados reais observados na forma de , a recompensa imediata para a etapa e também na transição de estado .Rt+1+γQ(s′,a′)Q ( s , a )Rt + 1s → s′
Contraste com Monte Carlo, onde a regra de atualização equivalente pode ser:
Q(s,a)←Q(s,a)+α(Gt−Q(s,a))
Onde foi a recompensa total com desconto no momento , assumindo nesta atualização, que ele começou nos estados , tomando a ação , e seguiu a política atual até o final do episódio. Tecnicamente, que é o intervalo de tempo para a recompensa e o estado do terminal. Notavelmente, esse valor-alvo não usa nenhuma estimativa existente (de outros valores Q), apenas usa um conjunto de observações (ou seja, recompensas) do ambiente. Como tal, é garantido que seja uma estimativa imparcial do valor real de , pois é tecnicamente uma amostra deGttsaGt=∑T−t−1k=0γkRt+k+1TQ ( s , a ) Q ( s , a )Q(s,a)Q(s,a).
A principal desvantagem do bootstrap é que ele é direcionado para quaisquer valores iniciais de (ou ). Provavelmente, estas estão erradas, e o sistema de atualização pode ser instável como um todo por causa de muita auto-referência e dados reais insuficientes - esse é um problema com o aprendizado fora da política (por exemplo, Q-learning) usando redes neurais.Q(s′,a′)V(s′)
Sem o bootstrapping, usando trajetórias mais longas, geralmente há uma alta variação , o que, na prática, significa que você precisa de mais amostras antes da convergência das estimativas. Portanto, apesar dos problemas com o bootstrap, se puder ser feito para funcionar, ele pode aprender significativamente mais rápido e é geralmente preferido em relação às abordagens de Monte Carlo.
Você pode comprometer os métodos baseados em amostras de Monte Carlo e os métodos de TD de uma única etapa que iniciam usando uma mistura de resultados de diferentes trajetórias de comprimento. Isso se chama aprendizado de TD ( )λ λ λ e há uma variedade de métodos específicos, como SARSA ( ) ou Q ( ).λλ
Em geral, a inicialização no RL significa que você atualiza um valor com base em algumas estimativas e não em alguns valores exatos . Por exemplo
Atualizações incrementais da avaliação de políticas de Monte Carlo:
TD (0) Atualizações de avaliação de políticas:
Em TD (0), o retorno a partir do estado é estimado (inicializado) por enquanto em MC usamos o retorno exato .s Rt+1+γV(St+1) Gt
fonte