Estou tendo dificuldade em encontrar alguma explicação sobre o motivo pelo qual o Q-learning padrão tende a superestimar os valores q (que são abordados usando o Q-learning duplo). As únicas fontes que encontrei não explicam exatamente por que essa superestimação ocorre. Por exemplo, o artigo da...