Programação de uma linha após o robô com aprendizado por reforço
Estou pensando em programar uma linha após o robô usando algoritmos de aprendizado por reforço. A questão que estou pensando é como posso obter o algoritmo para aprender a navegar por qualquer caminho arbitrário? Depois de seguir o livro de Sutton & Barto para aprender reforço, resolvi um...