Estive lendo DeepMind Atari do Google de papel e eu estou tentando entender o conceito de "experiência replay". A repetição da experiência aparece em muitos outros documentos de aprendizado por reforço (particularmente o artigo AlphaGo), então eu quero entender como isso funciona. Abaixo estão alguns trechos.
Primeiro, usamos um mecanismo de inspiração biológica denominado replay de experiência, que randomiza os dados, removendo assim as correlações na sequência de observação e suavizando as alterações na distribuição dos dados.
O artigo então elabora da seguinte maneira:
Embora existam outros métodos estáveis para o treinamento de redes neurais no ambiente de aprendizado por reforço, como a iteração Q ajustada neural, esses métodos envolvem o treinamento repetido de redes de novo centenas de iterações. Consequentemente, esses métodos, diferentemente do nosso algoritmo, são ineficientes demais para serem usados com sucesso em grandes redes neurais. Parametrizamos uma função de valor aproximado usando a rede neural convolucional profunda mostrada na Fig. 1, na qual são os parâmetros (ou seja, pesos) da rede Q na iteração . Para executar a repetição da experiência, armazenamos as experiências do agente a cada etapaem um conjunto de dados . Durante o aprendizado, aplicamos atualizações de Q-learning, em amostras (ou minilotes) de experiência , desenhadas uniformemente aleatoriamente a partir do conjunto de amostras armazenadas. A atualização Q-learning na iteração usa a seguinte função de perda:
O que é a repetição da experiência e quais são seus benefícios, em termos leigos?
fonte