Como ajustar pesos em valores Q com aproximação de função linear

No aprendizado por reforço, a aproximação de função linear é freqüentemente usada quando grandes espaços de estado estão presentes. (Quando as tabelas de consulta se tornam inviáveis.)

A forma do valor com aproximação da função linear é dada por $Q-$

Q (s, uma) = W_{1 1} f_{1 1} (s, uma) + W_{2} f_{2} (s, uma) + \dots,

$Q(s,a) = w_1 f_1(s,a) + w_2 f_2(s,a) + \cdots,$

onde são os pesos e são os recursos. $w_i$ $f_i$

Os recursos são predefinidos pelo usuário. Minha pergunta é: como os pesos são atribuídos?

Eu li / baixei alguns slides de aula sobre learning com aproximação de função. A maioria deles apresenta slides sobre regressão linear a seguir. Como são apenas slides, eles tendem a ser incompletos. Gostaria de saber qual é a conexão / relação entre os dois tópicos. $Q-$

machine-learning feature-selection reinforcement-learning cgo
fonte

A aproximação de funções é basicamente um problema de regressão (no sentido geral, ou seja, oposto à classificação onde a classe é discreta), ou seja, tenta-se aprender um mapeamento de funções da entrada (no seu caso $f(s,a)$ ) a um valor real saída $Q(s,a)$ . Como não temos uma tabela completa de todos os valores de entrada / saída, mas aprendemos e estimamos $Q(s,a)$ ao mesmo tempo, os parâmetros (aqui: os pesos $w$ ) não podem ser calculados diretamente a partir dos dados. Uma abordagem comum aqui é usar a descida em gradiente .

Aqui está o algoritmo geral para aprender $Q(s,a)$ com Valor Função Aproximação

Init parâmetro do vector $w=(w_1,w_2,....,w_n)$ aleatoriamente (por exemplo, em [0,1])
Para cada episódio:
1. $s\leftarrow$ estado inicial do episódio
2. $a\leftarrow$ ação dada pela política de $\pi$ (recomendo: $\epsilon$ -greedy)
3. Tome a ação $a$ , observe a recompensa $r$ próximo estado $s'$
4. $w\leftarrow w+ \alpha(r+\gamma * max_{a'}Q(s',a') - Q(s,a)) \vec\nabla_wQ(s,a)$
5. $s\leftarrow s'$
Repita 2-5 até $s$ ser terminal

Onde ...

$\alpha\in[0,1]$ é a taxa de aprendizado
$\gamma\in[0,1]$ é a taxa de desconto
$max_{a'}Q(s',a')$ é a ação $a'$ no estado $s'$ maximizando $Q(s',a)$
$\vec\nabla_wQ(s,a)$ é o gradiente de $Q(s,a)$ em $w$ . No seu caso linear, o gradiente é simplesmente um vector $(f_1(s,a),...,f_n(s,a))$

Os parâmetros / pesos-atualização (4º passo) podem ser lidos da seguinte maneira:

$(r+\gamma * max_a'Q(s',a')) - (Q(s,a))$ é o erro entre a previsão $Q(s,a)$ e o valor "real" para $Q(s,a)$ , que é a recompensa $r$ obtidaagora MAISa recompensa esperada e com desconto, seguindo a política gulosaposteriormente $\gamma * max_a'Q(s',a')$
Portanto, o parâmetro / vetor de peso é deslocado para a direção mais íngreme (dada pelo gradiente $\vec\nabla_wQ(s,a)$ ) pela quantidade do erro medido, ajustado por $\alpha$ .

Principal fonte:

Capítulo 8 Valor Aproximação do livro (geral recomendado) Aprendizagem por reforço: uma introdução por Sutton e Barto (primeira edição). O algoritmo geral foi modificado, como geralmente é feito para calcular $Q(s,a)$ vez de $V(s)$ . Também abandonei os traços de elegibilidade $e$ para focar na descida do gradiente, portanto, usando apenas backups de uma etapa

Mais referências

$Q(s,a)$
Uma Breve Pesquisa da Aproximação da Função de Valor Paramétrico por Geist e Pietquin. Parece promissor, mas ainda não o li.

Steffen
fonte

Link quebrado para Barto e Sutton! Agora aqui -> incompleteideas.net/book/the-book.html :) e como ebook incompleteideas.net/book/ebook mas eu não sei onde encontrar um arquivo mobi

grisaitis

O gradiente de Q (s, a) não é em relação ao vetor da coluna wa, em que cada elemento é fi (s, a), em vez de ser a soma de todos os fi, como você disse? O objetivo é que cada peso seja alterado de acordo com o valor do recurso ao qual está se multiplicando.

Miguel Saraiva

@MiguelSaraiva Sim, corrigiu. Muito obrigado.

Steffen

Como ajustar pesos em valores Q com aproximação de função linear

Respostas: