Lista de como o AlphaZero avalia aberturas

Você pode encontrar a tabela completa em seu papel. Veja a tabela 2 na versão arXiv vinculada abaixo:

Dominar o xadrez e o shogi por auto-jogo com um algoritmo geral de aprendizado por reforço https://arxiv.org/pdf/1712.01815.pdf

Como lê-los:

As parcelas mostram a proporção de vezes que o alphazero jogou uma determinada abertura durante seus jogos de auto-treinamento em função do tempo de treinamento. Então, por exemplo, você pode ver que seu interesse em empregar a defesa francesa atingiu o pico após 2 horas, mas depois disso caiu abruptamente para quase 0, indicando que após 2 horas + treinamento percebeu que as linhas emergentes dessa abertura não eram ideais em comparação com outras opções, como a defesa Caro-Kann (que teve um platô promissor após 2 horas, mas que também caiu), o gráfico é mostrado abaixo.
Abaixo dos diagramas, você vê como se saiu contra o Stockfish em 100 partidas para cada linha. Finalmente, a principal variação do alphazero para cada abertura também é indicada abaixo das parcelas. Por favor, veja a legenda da tabela no jornal para mais detalhes.

No geral, a abertura em inglês se destaca: ela continuou empregando-a de forma consistente durante todo o treinamento. Por fim, o padrão sugere uma tendência a aberturas mais versáteis.

Diagrama de Caro-Kann da tabela 2: [Ref]

[Ref]: Silver, David, et al. "Dominando o xadrez e o shogi por auto-jogo com um algoritmo geral de aprendizado por reforço". arXiv preprint arXiv: 1712.01815 (2017)

Ellie
fonte

Obrigado! Interessante, que o Queens Gambit parece ser muito modesto e o AlphaZero no King's Gambit nem ganha um jogo com o Black!

BNetz

Faz algum tempo que estava lendo o jornal, mas sinto que ele quase parou de jogar e4 mais tarde e começou a empregar o 1.Nf3, se bem me lembro. Isso seria forte razão para não Caro-Kan, francês, siciliano ...

hoacin

@hoacin Até onde eu vejo, nada é mencionado no artigo sobre a proporção de vezes que 1. Nf3foi escolhida. Por outro lado, na tabela 2 do artigo, eles analisam apenas as aberturas humanas comuns, dentre as quais 1. Nf3não participam. Além disso, como está escrito no artigo: "Cada uma dessas aberturas é descoberta e reproduzida independentemente pelo AlphaZero com frequência durante o treinamento de autodefesa". O que significa que as estatísticas discutidas são coletadas independentemente da 1. Nf3adoção ou não mais frequente. A propósito, acredito que você quis dizer " isso " e não " ele ". :)

Ellie

Devemos ter em conta que o Alpha Zero aprendeu, mas jogando contra um motor que tem um livro de abertura. Portanto, é mais apropriado pensar no algoritmo Alpha Zero como um tipo de sonda que decodificou o livro de aberturas de mecanismo oponente.

djnavas

@djnavas O Stockfish não usou um livro de abertura nessa partida, veja o link. Além disso, no artigo, eles dizem explicitamente que as aberturas foram descobertas de forma independente, significando simplesmente considerar movimentos ideais (nos jogos contra si mesmo) sem nenhum conhecimento de entrada da teoria de abertura existente.

22418 Ellie

Lista de como o AlphaZero avalia aberturas

Respostas: