Eu quero criar uma IA que possa jogar cinco em linha / gomoku. Como mencionei no título, quero usar o aprendizado por reforço para isso. Eu uso o método gradiente de política , ou seja, REFORÇAR, com a linha de base. Para a aproximação das funções de valor e política, eu uso uma rede neural ....