Aprendizado por Reforço: Uma Introdução. Segunda edição, em andamento ., Richard S. Sutton e Andrew G. Barto (c) 2012, pp. 67-68. Resolver uma tarefa de aprendizado por reforço significa, basicamente, encontrar uma política que obtenha muitas recompensas a longo prazo. Para MDPs finitos, podemos...