É garantido que o algoritmo tabular de aprendizado de Q encontre a função QQQ ideal , Q∗Q∗Q^* , desde que sejam satisfeitas as seguintes condições (condições de Robbins-Monro ) em relação à taxa de aprendizado ∑tαt(s,a)=∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) =...
12
Por que o Q-learning não converge ao usar a aproximação de função?