Quando os métodos de Monte Carlo são preferidos aos de diferença temporal?
Ultimamente tenho pesquisado muito sobre o aprendizado por reforço. Eu segui o aprendizado de reforço de Sutton & Barto : uma introdução para a maior parte disso. Sei o que são os Processos de Decisão de Markov e como o aprendizado de Programação Dinâmica (DP), Monte Carlo e Diferença Temporal...