Estou tentando entender a aprendizagem por reforço e os processos de decisão de markov (MDP) no caso em que uma rede neural está sendo usada como aproximador de funções.
Estou tendo dificuldades com o relacionamento entre o MDP, onde o ambiente é explorado de maneira probabilística, como isso é direcionado aos parâmetros de aprendizado e como são encontradas as soluções / políticas finais.
Estou correto ao supor que, no caso do Q-learning, a rede neural atua essencialmente como um aproximador de funções para o valor q em si, tantos passos no futuro? Como isso mapeia a atualização de parâmetros via retropropagação ou outros métodos?
Além disso, depois que a rede aprender a prever a recompensa futura, como isso se encaixa no sistema em termos de tomada de decisões? Estou assumindo que o sistema final não faria probabilisticamente transições de estado.
obrigado
fonte
Respostas:
No Q-Learning, em cada etapa, você usará observações e recompensas para atualizar sua função de valor Q:
Você está correto ao dizer que a rede neural é apenas uma aproximação de função para a função de valor q.
Em geral, a parte da aproximação é apenas um problema de aprendizado supervisionado padrão. Sua rede usa (s, a) como entrada e a saída é o valor q. Como os valores q são ajustados, você precisa treinar essas novas amostras na rede. Ainda assim, você encontrará alguns problemas ao usar amostras correlatas e o SGD sofrerá.
Se você está vendo o artigo da DQN, as coisas são um pouco diferentes. Nesse caso, o que eles estão fazendo é colocar amostras em um vetor (repetição da experiência). Para ensinar a rede, eles amostram tuplas do vetor, iniciam usando essas informações para obter um novo valor q ensinado à rede. Quando digo ensino, refiro-me a ajustar os parâmetros da rede usando a descida estocástica do gradiente ou sua abordagem de otimização favorita. Ao não ensinar as amostras na ordem em que estão sendo coletadas pela política, as correlacionam e ajudam no treinamento.
Por fim, para tomar uma decisão sobre os estados , você escolhe a ação que fornece o valor q mais alto:s
Se sua função de valor Q foi aprendida completamente e o ambiente está parado, é bom ser ganancioso neste momento. No entanto, enquanto estiver aprendendo, é esperado que você explore. Existem várias abordagens sendo -greedy, uma das maneiras mais fáceis e comuns.ε
fonte