No aprendizado por reforço, qual é a diferença entre programação dinâmica e aprendizado por diferença temporal?
8
No aprendizado por reforço, qual é a diferença entre programação dinâmica e aprendizado por diferença temporal?
O DP resolve a política ou função de valor ideal por recursão. Requer conhecimento do processo de decisão de markov (MDP) ou de um modelo do mundo para que as recursões possam ser realizadas. É tipicamente agrupado em "planejamento" ao invés de "aprendizado", já que você conhece o MDP e precisa descobrir o que fazer (de maneira ideal).
O TD é livre de modelo: não requer conhecimento de um modelo do mundo. É iterativo, baseado em simulação e aprendido por bootstrapping, ou seja, o valor de um estado ou ação é estimado usando os valores de outros estados ou ações.
Para mais informações, consulte: