A função de avaliação de um mecanismo de xadrez, instanciada como uma rede neural ou código explícito, sempre pode atribuir um valor a qualquer posição do tabuleiro. Se você der uma posição no tabuleiro, mesmo absurdas que nunca ocorreriam em um jogo, ele será capaz de cuspir um número representando o quão favorável é para um jogador ou outro. Como o número de posições no tabuleiro no xadrez é gigantesca de maneira incontrolável, o treinamento só pode ocorrer em uma amostra infinitesimal da árvore do jogo. O motor não está apenas recuperando valores calculados anteriormente das posições da placa, mas está realizando cálculos com base no arranjo das peças. Para um exemplo de rede não-neural, parte da avaliação de um mecanismo de xadrez pode ser somar o valor de cada peça de lado e subtrair o valor total das peças do oponente. Então,
Quando o mecanismo não é treinado, os valores atribuídos a uma posição também podem ser aleatórios, pois os parâmetros da função de avaliação começam com (geralmente) valores aleatórios. O objetivo de uma fase de treinamento é ajustar os parâmetros do mecanismo para que ele atribua altas pontuações às posições do board que são prováveis estados vencedores para o jogador.
Do artigo sobre AlphaZero (página 3):
Os parâmetros da rede neural profunda no AlphaZero são treinados pelo aprendizado de reforço por auto-reprodução, a partir de parâmetros inicializados aleatoriamente. Os jogos são jogados selecionando movimentos para ambos os jogadores pelo MCTS. No final do jogo, a posição do terminal é pontuada de acordo com as regras do jogo para calcular o resultado do jogo: -1 para uma perda, 0 para um empate e +1 para uma vitória. Os parâmetros da rede neural são atualizados para minimizar o erro entre o resultado previsto e o resultado do jogo e maximizar a semelhança do vetor de política com as probabilidades de pesquisa.
[símbolos matemáticos removidos da citação]
Em resumo, durante o treinamento, o AlphaZero jogou um jogo contra si mesmo. Quando o jogo termina, o resultado do jogo e a precisão de suas previsões sobre o andamento do jogo foram usados para ajustar a rede neural para que ela fosse mais precisa durante o próximo jogo. O AlphaZero não mantém um registro de todas as posições que viu, mas está se ajustando para que possa avaliar com mais precisão qualquer quadro que vê no futuro.