Aprendizagem por reforço de Sutton, jogo da velha - jogo da velha

7

Acabei de iniciar o livro de Sutton e Barto, Aprendizagem por reforço: uma introdução , e estou curioso para saber como pensar na resposta ao Exercício 1.1: Brincadeira automática . Suponha que, em vez de jogar contra um oponente aleatório, o algoritmo de aprendizado por reforço descrito acima jogue contra si mesmo. O que você acha que aconteceria nesse caso? Aprenderia uma maneira diferente de jogar?

Pode-se também pensar nas seguintes questões secundárias, mas elas não deixaram meus pensamentos mais claros.

  1. Remover a parte aleatória do aprendizado mudaria a situação - isto é, sempre seguindo a política ideal e não explorando?
  2. Como isso dependeria de quem é o primeiro motor?
dayum
fonte
8
Isso não está pedindo a resposta para um problema de lição de casa. Isso pode permanecer aberto na IMO.
gung - Restabelece Monica
Se tocou sozinho, possivelmente isso .
gung - Restabelece Monica

Respostas:

1

Não tenho certeza sobre a primeira pergunta. Em relação ao segundo, estes são meus pensamentos:

Se você pensar no espaço de estados do jogo da velha, ele pode ser particionado em dois subconjuntos mutuamente exclusivos, um consistindo em estados vistos pelo agente ao jogar primeiro, o outro consistindo em estados vistos ao jogar em segundo. Se um dos lados sempre jogar primeiro, o outro lado experimentará apenas um dos dois subconjuntos no espaço de estados. Ele tentaria aprender uma política que tentaria vencer como segundo jogador.

Seria bom que ambos os lados jogassem como primeiro e segundo jogadores. Jogue uma moeda antes de cada partida - se for cara, deixe o lado esquerdo jogar primeiro, caso contrário o lado direito começará. Dessa forma, podemos pelo menos garantir que a política do agente seja independente de qual lado começa primeiro.

Karthik Thiagarajan
fonte