Estou tendo dificuldade em encontrar alguma explicação sobre o motivo pelo qual o Q-learning padrão tende a superestimar os valores q (que são abordados usando o Q-learning duplo). As únicas fontes que encontrei não explicam exatamente por que essa superestimação ocorre.
Por exemplo, o artigo da Wikipedia sobre Q-learning diz:
Como o valor máximo aproximado da ação é usado na atualização do Q-learning, em ambientes ruidosos, o Q-learning às vezes pode superestimar os valores das ações, retardando o aprendizado.
O que isto significa? Eu entendo o Q-learning, mas não o acima. Por que o uso do valor q máximo causa superestimação?
Obrigado!
fonte
Não conheço muito o aprendizado por reforço, mas a próxima linha do artigo da Wikipedia que você cita (atualmente) refere-se ao artigo Double Q-learning (NIPS 2010) . O resumo desse artigo diz
Juntos, estes parecem estar dizendo que quando oQ função é na realidade estocástica, recompensas observadas r^ resultante de um par de ação de estado (s,a) terá algum ruído (médio) associado a eles, por exemplo r^=r+ϵ . Então porqueQ é atualizado com base em maxaQold , o valor máximo tenderá a ser uma combinação de alta recompensa e / ou grandes realizações de ruído positivo . Assumindo e ignorando , o valor de tenderá a ser uma superestimação.r ϵ rmax≈r^max ϵ Q
(Como observado, não estou familiarizado com esta área e apenas olhei para a Wikipedia e o resumo acima, portanto essa interpretação pode estar errada.)
fonte
Primeiro, quero citar o livro de Sutton e Barto
É um pouco vago. Aqui está um exemplo simples. onde Q1 (s, X) = Q2 (s, X) = 0, mas na prática, os valores podem ser incertos.
Q1 (s, A) = 0,1, Q1 (s, B) = 0, Q1 (s, C) = -0,1
Q2 (s, A) = -0,1, Q2 (s, B) = 0,1, Q2 (s, C) = 0
Se você atualizar apenas o Q1 por si só, ele sempre tenderá a selecionar A at s para atualizar. Mas se você selecionar max_a Q2 (s, a) para atualizar Q1, Q2 poderá compensar a situação. Além disso, você deve usar o Q1 para treinar o Q2 de outra maneira. O ruído no Q2 é independente do ruído no Q1, pois Q1 e Q2 são treinados usando diferentes conjuntos de dados separadamente.
fonte