O planejamento no Dyna-Q é uma forma de repetição da experiência?

8

No livro de Richard Sutton sobre RL (2ª edição) , ele apresenta o algoritmo Dyna-Q, que combina planejamento e aprendizado.

Na parte planeamento do algoritmo, o Dyna-agente aleatoriamente amostras de n pares de estado-ação visto anteriormente pelo agente, alimenta este par no seu modelo de ambiente e recebe um próximo estado amostrado e recompensa . Em seguida, ele usa esse conjunto para executar sua atualização usual de Q-learning.(s,a)sr(s,a,r,s)

Em um ambiente determinístico, a recompensa e o próximo estado são sempre os mesmos para um determinado par de ação de estado . Em seu capítulo sobre Dyna-Q, Sutton não se refere a esse processo como sendo uma forma de repetição da experiência , e apenas introduz o último conceito muito mais tarde neste livro. No entanto, eu realmente não consigo ver a distinção (se houver) entre esses dois processos.(st,at)(rt+1,st+1)

É correto dizer que em um ambiente determinístico, o planejamento no Tabular Dyna-Q é uma forma de repetição da experiência ?

Dyna-Q tabular do livro de Sutton, seção 8.2

Julep
fonte

Respostas:

2

É correto dizer que em um ambiente determinístico, o planejamento no Tabular Dyna-Q é uma forma de repetição da experiência?

Eu diria que não é totalmente correto dizer isso, apenas porque os termos "Experience Replay" e "Dyna-Q" são bem entendidos como se referindo a implementações específicas. É verdade que na situação específica que você descreve ( RL tabular em ambientes determinísticos ), eles acabam fazendo coisas semelhantes. No entanto, eles ainda fazem essas coisas semelhantes usando implementações diferentes, que podem criar diferenças sutis na prática. Por exemplo, as duas idéias provavelmente têm requisitos de memória diferentes. Por esse motivo, acho que nunca é correto usar um termo quando o outro se destina, mesmo estando muito próximos um do outro nessa situação.

A seguir, uma citação da Conclusão de "Aprendizado por Reforço para Robôs Utilizando Redes Neurais" (1993), dissertação de Long-Ji Lin. Essa é uma das primeiras fontes do Experience Replay. Em todo o documento, o Experience Replay e o Dyna são consistentemente tratados como idéias diferentes, mas com muitas semelhanças:

Esta dissertação propôs uma técnica chamada repetição de experiência. Essa técnica, na verdade, tira proveito de um modelo, mas não tem o difícil problema de construir um modelo, porque o modelo é simplesmente a coleção de experiências passadas.

Portanto, a distinção importante realmente não está no que eles realizam, mas em como o fazem. Depois de ir além da configuração descrita ( Aproximação das funções em vez de tabular e / ou não determinístico em vez de determinístico), você verá diferenças mais aparentes.

Dennis Soemers
fonte
0

Em alguns trabalhos, os dois conceitos são considerados iguais, por exemplo: Krueger, Paul, Thomas Griffiths e Stuart J. Russell. "Modelando o aprendizado sem reforço de modelos com pseudo-modelos baseados em modelos". (2017).

No entanto, pode haver uma diferença na maneira como a atualização é feita. Dyna usa a função de valor e o erro de previsão diretamente. Assim, ele pode usar uma única atualização de etapa simulada.

O uso da reprodução pode ser mais semelhante ao uso de atualizações montecarlo que consideram a recompensa cumulativa por uma sequência de ações e não usam a função value ou o erro de previsão na atualização.

Z. Feldman e C. Domshlak, “Pesquisa de árvores em Monte-Carlo: Para MC ou DP?”, Na ECAI 2014: XXI Conferência Europeia sobre Inteligência Artificial, 2014, vol. 263, p. 321

Dimitri Ognibene
fonte