Estou pensando em como treinar uma rede neural para um jogo de tabuleiro baseado em rounds, como jogo da velha, xadrez, risco ou qualquer outro jogo baseado em rounds. Conseguir a próxima jogada por inferência parece bastante simples, alimentando o estado do jogo como entrada e usando a saída como a jogada para o jogador atual. No entanto, o treinamento de uma IA para esse fim não parece ser tão simples, porque:
- Pode não haver uma classificação se um único movimento é bom ou não, então o treinamento de movimentos únicos não parece ser a escolha certa
- Usar todos os estados do jogo (entradas) e movimentos (saídas) de todo o jogo para treinar a rede neural não parece ser a escolha certa, pois nem todos os movimentos dentro de um jogo perdido podem ser ruins
Então, eu estou querendo saber como treinar uma rede neural para um jogo de tabuleiro redondo? Eu gostaria de criar uma rede neural para o jogo da velha usando o fluxo tensor.
fonte
Eu acho que você deve se familiarizar com o aprendizado por reforço. Nesse campo de aprendizado de máquina, o agente interage com seu ambiente e, depois disso, recebe alguma recompensa. Agora, o agente é a rede neural, o ambiente é o jogo e o agente pode receber uma recompensa +1 se vencer ou -1 se perder. Você pode usar essa tupla de experiência, estado, ação e experiência de recompensa para treinar o agente. Posso recomendar as palestras de David Silver no youtube e o livro de Sutton também.
fonte