Uma nova IA vence em qualquer lugar. Uma IA semelhante pode ganhar no xadrez? Consegue atingir um autotreinamento puro?

20

Uma das perguntas mais populares feitas neste site diz respeito à perspectiva de uma IA de xadrez puramente treinada.

Hoje, o ChessBase está distraído de sua cobertura do torneio FIDE Candidates para relatar que uma nova IA está, pela primeira vez, vencendo um dos principais mestres do jogo bastante diferente, que resistiu às IAs no estilo do xadrez por muitos anos. Uma leitura inicial do relatório sugere que a nova IA é diferente das IA de xadrez, mas é mais uma IA de jogo geral (GGP). O artigo do ChessBase, no entanto, não usa o termo GGP, mas parece dizer que a IA pode ganhar em videogames simples.

Existe alguma razão para que tal IA vencedora não possa, com pequenos ajustes, também vencer no xadrez? Em caso afirmativo, tal IA mostra prometer atingir o puro autotreinamento que as várias excelentes respostas para a pergunta anterior discutiram anteriormente, que na época ainda não eram possíveis? Por que ou por que não?

Suspeito que ainda não esteja disponível uma resposta realmente completa e totalmente informada à minha pergunta, portanto, mesmo uma resposta parcial com base nos conhecimentos relacionados seria apreciada.

Para referência adicional, consulte também esta pergunta e respostas relacionadas.

ATUALIZAR

Quando a pergunta acima foi postada pela primeira vez há cinco dias e quando algumas das respostas abaixo foram dadas, as primeiras notícias sobre a vitória da AI AI tinham acabado de aparecer. Desde então, informações e comentários adicionais surgiram.

Particularmente interessante desde então tem sido uma discussão de mesa redonda de cinco lados bastante legível, na qual Jonathan Schaeffer observa:

Aprender com jogos humanos ajuda a acelerar o aprendizado do programa. AlphaGo poderia aprender a se tornar um jogador forte por conta própria, sem usar os jogos humanos. O processo de aprendizagem levaria apenas mais tempo.

De acordo com o anfitrião da mesa redonda, Schaeffer é "[c] professor de ciências da computação na Universidade de Alberta e o homem que resolveu damas"; então, presumivelmente, ele pode estar qualificado para comentar.

Para mais informações, aqui está o registro de outra discussão aberta, muitos dos quais parecem mais bem informados do que o habitual. A discussão ocorreu durante a partida.

Atualização adicional, um ano e meio depois: comentarista @MarkS. escreve:

Isso é apenas um comentário, porque trata-se de Go, não de Xadrez, mas o AlphaGo Zero alcançou um "autotreinamento puro" apenas por saber quem ganhou (e não a pontuação final) e é mais forte e muito mais eficiente que a IA que venceu Lee Sedol . Para mais informações, consulte deepmind.com/blog/alphago-zero-learning-scratch

thb
fonte
Sugiro que você faça isso em fóruns mais técnicos. A IA é um tópico complicado, e é preciso ter um conhecimento significativo para entendê-lo. Olhando para as respostas aqui, não tenho certeza de que você obtenha uma resposta razoável.
Salvador Dali
5
As respostas dadas são muito apreciadas. Eu votei mais de um. Se ainda não aceitei nenhuma, isso não é uma crítica às respostas, mas um reconhecimento de que a pergunta é tão difícil e o tópico tão novo que a resposta aceitável pode ainda não estar disponível. Vamos deixar essa pergunta em aberto um pouco para ver se, depois de um tempo, uma resposta que não está disponível hoje mais tarde se torna disponível. Obrigado.
THB
1
Isso é apenas um comentário, porque trata-se de Go, não de Xadrez, mas o AlphaGo Zero alcançou um "autotreinamento puro" apenas por saber quem ganhou (e não a pontuação final) e é mais forte e muito mais eficiente que a IA que venceu Lee Sedol . Para obter mais informações, consulte deepmind.com/blog/alphago-zero-learning-scratch
Mark S.
1
@ thb Acho AlphaZero é um AI.
Harry Weasley
1
Em dezembro de 2017, o AlphaZero aprendeu um estilo de xadrez apenas com as regras do jogo arxiv.org/pdf/1712.01815.pdf e dispensou o StockFish de forma convincente.
saille

Respostas:

14

Bem, bem, bem! A DeepMind publicou um artigo no qual afirma ter programado e treinado um computador de rede neural para vencer o Stockfish.

Com 1 minuto de reflexão por movimento, o computador AlphaZero vence o Stockfish em +25, = 25, -0 com branco e + 3, = 47,0- como preto.

Eles "treinaram" três computadores separados para jogar xadrez, shogi e Go e derrotar seus rivais de silicone de forma convincente.

Aqui está como o documento descreve o treinamento e a avaliação -

Os jogos de reprodução automática são gerados usando os parâmetros mais recentes para esta rede neural, omitindo a etapa de avaliação e a seleção do melhor jogador.

O AlphaGo Zero ajustou o hiperparâmetro de sua pesquisa por otimização bayesiana. No AlphaZero, reutilizamos os mesmos hiperparâmetros para todos os jogos sem ajuste específico do jogo. A única exceção é o ruído adicionado à política anterior para garantir a exploração; isso é dimensionado proporcionalmente ao número típico de movimentos legais para esse tipo de jogo.

Como o AlphaGo Zero, o estado do tabuleiro é codificado por planos espaciais com base apenas nas regras básicas de cada jogo. As ações são codificadas por planos espaciais ou por um vetor plano, novamente com base apenas nas regras básicas de cada jogo (consulte Métodos).

Aplicamos o algoritmo AlphaZero ao xadrez, shogi e também Go. A menos que especificado de outra forma, as mesmas configurações de algoritmo, arquitetura de rede e hiperparâmetros foram usados ​​nos três jogos. Nós treinamos uma instância separada do AlphaZero para cada jogo. O treinamento prosseguiu por 700.000 etapas (mini-lotes de tamanho 4.096) a partir de parâmetros inicializados aleatoriamente, usando 5.000 TPUs de primeira geração para gerar jogos de auto-reprodução e 64 TPUs de segunda geração para treinar as redes neurais. Detalhes adicionais do procedimento de treinamento são fornecidos nos Métodos.

A Figura 1 mostra o desempenho do AlphaZero durante o aprendizado de reforço por auto-jogo, em função das etapas de treinamento, em uma escala Elo (10). No xadrez, o AlphaZero superou o Stockfish após apenas 4 horas (etapas de 300 mil); no shogi, o AlphaZero superou o Elmo após menos de 2 horas (etapas de 110k); e no Go, o AlphaZero superou o AlphaGo Lee (29) após 8 horas (etapas de 165k).

Avaliamos as instâncias totalmente treinadas do AlphaZero contra Stockfish, Elmo e a versão anterior do AlphaGo Zero (treinada por 3 dias) no xadrez, no shogi e no Go, respectivamente, jogando 100 partidas em controles no tempo de torneio de um minuto por jogada. O AlphaZero e o AlphaGo Zero anterior usavam uma única máquina com 4 TPUs. Stockfish e Elmo tiveram seu nível de habilidade mais forte usando 64 threads e um tamanho de hash de 1 GB. O AlphaZero derrotou de forma convincente todos os oponentes, perdendo zero jogos para o Stockfish e oito jogos para o Elmo (consulte Material Complementar para vários jogos de exemplo), além de derrotar a versão anterior do AlphaGo Zero (consulte a Tabela 1).

O computador deles usava uma nova forma de chip chamada "TPU" ( Unidade de Processamento Tensor ) desenvolvida pelo Google para tarefas de aprendizado de máquina.

Eles também afirmam que o algoritmo de pesquisa em árvore de Monte Carlo é melhor e mais "humano" do que os algoritmos de pesquisa alfa-beta tradicionais -

Também analisamos o desempenho relativo da pesquisa MCTS do AlphaZero em comparação com os avançados mecanismos de pesquisa alfa-beta usados ​​por Stockfish e Elmo. O AlphaZero pesquisa apenas 80 mil posições por segundo no xadrez e 40 mil no shogi, comparado a 70 milhões no Stockfish e 35 milhões no Elmo. O AlphaZero compensa o menor número de avaliações usando sua profunda rede neural para se concentrar muito mais seletivamente nas variações mais promissoras - sem dúvida uma abordagem mais "semelhante à humana" à pesquisa, como proposto originalmente por Shannon. A Figura 2 mostra a escalabilidade de cada jogador em relação ao tempo de reflexão, medido em uma escala Elo, em relação a Stockfish ou Elmo com 40ms de tempo de reflexão. O MCTS do AlphaZero foi escalado de forma mais eficaz com o tempo de reflexão do que o Stockfish ou o Elmo,

Aqui estão alguns dos jogos -

Bacalhau - AlphaZero, 0-1
1. e4 e5 2. Nf3 Nc6 3. Bb5 Nf6 4. d3 Bc5 5. Bxc6 dxc6 6. OO Nd7 7. Nbd2 O-O 8. Qe1 f6 9. Nc4 Rf7 10. a4 Bf8 11. Kh1 Nc5 12. a5 Ne6 13. Ncxe5 fxe5 14. Nxe5 Rf6 15. Ng4 Rf7 16. Ne5 Re7 17. a6 c5 18. f4 Qe8 19. axb7 Bxb7 20. Qa5 Nd4 21. Qc3 Re6 22. Be3 Rb6 23. Nc4 Rb4 24. b3 a5 25. Rxa5 Rxa5 26. Nxa5 Ba6 27. Bxd4 Rxd4 28. Nc4 Rd8 29. g3 h6 30. Qa5 Bc8 31. Qxc7 Bh3 32. Rg1 Rd7 33. Qe5 Qxe5 34. Nxe5 Ra7 35. Nc4 g5 36. Rc1 Bg7 37. NE5 Ra8 38. Cf3 Bb2 39. Rb1 BC3 40. NG1 Bd7 41. NE2 Bd2 42. Rd1 Be3 43. Kg2 bg4 44. Re1 Bd2 45. RF1 Ra2 46. h3 Bxe2 47. Rf2 Bxf4 48. Rxe2 Be5 49. Rf2 Rg7 50. g4 Bd4 51. Re2 Rf6 52. e5 + Bxe5 53. Rf3 Ra1 54. Rf2 Re1 55. Rg2 + Bf4 56. c3 Rc1 57. d4 Rxc3 58. dxc5 Rxc5 59. b4 Rc3 60. h4 E5 61 . hxg5 hxg5 62. RE2 + Rf6 63. KF2 Be5 64. Ra2 RC4 65. RA6 + Re7 66. Ra5 Ke6 67. RA6 + Bd6 0-1

jogos

Bacalhau - AlphaZero, 0-1
1. e4 e5 2. Nf3 Nc6 3. Bb5 Nf6 4. d3 Bc5 5. Bxc6 dxc6 6. OO Nd7 7. c3 O-O 8. d4 Bd6 9. Bg5 Qe8 10. Re1 f6 11. Bh4 Qf7 12. Nbd2 a5 13. Bg3 Re8 14. Qc2 Nf8 15. c4 c5 16. d5 b6 17. Nh4 g6 18. Nhf3 Bd7 19. Rad1 Re7 20. h3 Qg7 21. Qc3 Rae8 22. a3 h6 23. Bh4 Rf7 24. Bg3 Rfe7 25. Bh4 Rf7 26. Bg3 a4 27. Kh1 Rfe7 28. Bh4 Rf7 29. Bg3 Rfe7 30. Bh4 g5 31. Bg3 Ng6 32. Nf1 Rf7 33. Ne3 Ne7 34. Qd3 h5 35. h4 Nc8 36. Re2 g4 37. Nd2 Qh7 38. Rg1 Bf8 39. Nb1 Nd6 40. Nc3 Bh6 41. Rf1 Ra8 42. Kh2 Rf8 43. Rg1 Qg6 44. f4 gxf3 45. Rxf3 Bxe3 + 46. ​​Rfxe3 Ke7 47. Be1 Qh7 48. Rg3 RG7 49. Rxg7 + Qxg7 50. RE3 RG8 51. Rg3 Qh8 52. NB1 Rxg3 53. Bxg3 Qh6 54. ND2 BG4 55. KH2 KD7 56. b3 axb3 57. Nxb3 Qg6 58. ND2 BD1 59. Cf3 Ba4 60. ND2 Re7 61 . Bf2 Qg4 62. QF3 BD1 63. Qxg4 Bxg4 64. a4 Nb7 65. NB1 Na5 66. Be3 Nxc4 67. Bc1 Bd7 68. Cc3 C6 69. Kg1 cxd5 70. exd5 Bf5 71. KF2 Nd6 72. Be3 Ce4 + 73. Nxe4 Bxe4 74. a5 bxa5 75. Bxc5 + KD7 76. d6 Bf5 77. Ba3 KC6 78. KE1 Kd5 79. Kd2 KE4 80. Bb2 KF4 81. Bc1 KG3 82. Ke2 a4 83. KF1 Kxh4 84. Rf2 Rg4 85. Ba3 Bd7 86. Bc1 Rf5 87. Ke3 Ke6 0-1

Branco: AlphaZero Preto: Bacalhau

AlphaZero - Peixe seco, 1-0
1. Nf3 Nf6 2. c4 b6 3. d4 e6 4. g3 Ba6 5. Qc2 c5 6. d5 exd5 7. cxd5 Bb7 8. Bg2 Nxd5 9. OO Nc6 10. Rd1 Be7 11. Qf5 Nf6 12. e4 g6 13. Qf4 O-O 14. e5 Nh5 15. Qg4 Re8 16. Nc3 Qb8 17. Nd5 Bf8 18. Bf4 Qc8 19. h3 Ne7 20. Ne3 Bc6 21. Rd6 Ng7 22. Rf6 Qb7 23. Bh6 Nd5 24. Nxd5 Bxd5 25. Rd1 Ne6 26. Bxf8 Rxf8 27. Qh4 Bc6 28. Qh6 Rae8 29. Rd6 Bxf3 30. Bxf3 Qa6 31. h4 Qa5 32. Rd1 c4 33. Rd5 Qe1 + 34. Kg2 c3 35. bxc3 Qxc3 36. h5 Re7 37. BD1 QE1 38. Bb3 RD8 39. Rf3 QE4 40. QD2 Qg4 41. BD1 QE4 42. h6 NC7 43. RD6 NE6 44. Bb3 Qxe5 45. RD5 Qh8 46. QB4 Cc5 47. Rxc5 bxc5 48. Qh4 Rde8 49. Rf6 Rf8 50. Qf4 a5 51. g4 d5 52. Bxd5 Rd7 53. Bc4 a4 54. g5 a3 55. Qf3 Rc7 56. Qxa3 Qxf6 57. gxf6 Rfc8 58. Qd3 Rf8 59. Qd6 Rfc8 60. a4 1- 0 0
Brian Towers
fonte
Basta ler o jornal. Realmente incrível. Claro que isso não significa que você não poderia construir algo ainda mais forte com as técnicas tradicionais combinados com AlphaZero, mas ainda assim ...
BlindKungFuMaster
10

Ok, tenho que admitir que estava errado. Embora eu afirmasse que isso se devia ao conhecimento da opinião de especialistas, não à obtusibilidade geral: Para citar o artigo : "No entanto, os programas de xadrez usando o MCTS tradicional eram muito mais fracos que os programas de pesquisa alfa-beta (4, 24); enquanto alfa Os programas beta baseados em redes neurais não conseguiram competir anteriormente com funções de avaliação artesanais mais rápidas. "

Aparentemente, o xadrez é estrategicamente profundo o suficiente para que você possa criar estratégias para alguém que possa calcular você. Para mim, isso é uma grande surpresa, porque o desenvolvimento dos motores de xadrez estava indo na direção oposta. (Aparentemente, ainda há uma pequena ressalva sobre se o AlphaZero é realmente mais forte que o Stockfish: o Stockfish jogado com apenas 1 gb para as hashtables e 64 núcleos pode não corresponder a quatro TPUs)

Também é algo muito, muito emocionante, porque o AlphaZero provavelmente tem forças muito diferentes dos motores tradicionais.

Isso também significa que atualizo muito minha crença no significado do AlphaGo como uma inovação tecnológica. Basicamente esmagar o shogi, o Go e o xadrez com uma única configuração é completamente incrível, sem mencionar dezenas de outros jogos que provavelmente poderiam ser jogados em nível sobre-humano pelo AlphaZero.

Há uma boa explicação sobre por que o MCTS é realmente uma idéia decente mesmo para o xadrez em comparação com a pesquisa alfa-beta (do artigo): "O AlphaZero avalia posições usando aproximação de função não linear com base em uma rede neural profunda, em vez de linear aproximação de função usada em programas de xadrez típicos. Isso fornece uma representação muito mais poderosa, mas também pode introduzir erros de aproximação espúrios. O MCTS calcula a média desses erros de aproximação, que, portanto, tendem a cancelar ao avaliar uma subárvore grande. Por outro lado, a pesquisa alfa-beta calcula um mini-max explícito, que propaga os maiores erros de aproximação para a raiz da subárvore ". (ênfase por mim)

Aqui está minha antiga resposta, ainda contendo alguns pontos válidos, apesar da conclusão ser substituída pela realidade.

Antes de tudo, o Alphago não é um sistema geral de jogo. É um programa projetado puramente para jogar e nada mais. É, no entanto, construído a partir de certos blocos de construção que têm uma aplicabilidade muito mais ampla, como redes neurais convolucionais , que foram usadas no reconhecimento de imagens e que têm aplicação imediata em diagnósticos médicos e aprendizado de reforço usado para dominar os jogos Atari mencionados em o artigo.

Além disso, os mecanismos atuais "aprendem" jogando-se : "Da noite para o dia, os seis computadores de Lefler jogam mais de 14.000 jogos cada um durante um período de oito horas." Seis máquinas vezes 14.000 jogos são muitos jogos ", diz ele. a cada jogo jogado, o banco de dados fica mais profundo e mais rico. Existe até um interesse esportivo em assistir computadores jogarem uns contra os outros. O resultado das movimentadas máquinas de Lefler é a proeza cada vez maior do Komodo.

Para chegar à maior parte da sua pergunta:

Há uma diferença importante entre xadrez e ir, pelo menos da perspectiva de um programador. O xadrez é mais um jogo tático, enquanto que o go é mais um jogo estratégico. Isso significa que, no cálculo do xadrez, a profundidade supera a avaliação posicional. Essa é basicamente a principal visão que distingue os "antigos" mecanismos como Fritz, Shredder, Junior e a geração mais recente, como Fruit, Rybka, Houdini, Stockfish, Komodo. Como no final de cada linha você precisa avaliar a posição e deseja calcular muitas linhas e a qualidade da avaliação não é tão importante quanto a profundidade da pesquisa, os mecanismos de xadrez têm funções de avaliação enxutas e rápidas.

Por outro lado, a complexidade tática é muito grande, mesmo para computadores. Conseqüentemente, avaliar posições e movimentos precisos é essencial. O que o Alphago traz de novo ao jogo é esse poder de avaliação, baseado em redes neurais convolucionais .

Para finalmente chegar ao meu ponto: enquanto as funções de avaliação do xadrez são simples e rápidas, as redes neurais têm milhões, às vezes bilhões de parâmetros. Como "aprender", nesse contexto, significa ajustar parâmetros, há muito mais progresso possível para os programas de auto-aprendizagem.

Então, sim, você poderia usar uma configuração como o Alphago para criar um mecanismo de xadrez, mas não seria particularmente bom. A execução da função de avaliação levaria tanto tempo que você teria que utilizar um enorme cluster de gpus para obter as profundidades de pesquisa necessárias (que é o que o Alphago faz). Você pode criar uma função de avaliação muito boa , mas a troca de velocidade não vale a pena.

BlindKungFuMaster
fonte
1
Eu discordo de você quanto a isso, você pode usar uma configuração como o Alphago para criar um mecanismo de xadrez, mas não seria particularmente bom . Eu posso apostar algo no fato de que em menos de um ano, haverá um mecanismo de xadrez que depende muito do NN (provavelmente terá uma pesquisa de árvores e monte carlo, mas isso não é importante), o que estará próximo de bacalhau de última geração. E esse mecanismo não será originado de super corporação (porque o interesse no xadrez desapareceu dos pesquisadores de IA há muito tempo), mas de um forte hobbist.
Salvador Dali
Monte Carlo é completamente inútil no xadrez. E enquanto os NNs não são inúteis, eles são muito lentos.
BlindKungFuMaster 15/03
3
Por que exatamente o MCTS é inútil? Faz muito sentido começar a partir de uma posição atual no tabuleiro, rodar 1000 jogos com 5 nós de profundidade e ver qual nó tem mais chances. Isso é muito parecido com o que você faz, quando olha para a estatística de jogadas no banco de dados e vê que, depois de 14. Kg4, o branco ganha 25%, mas com 14. Rb2, ganha com 45%. Você tem alguma prova de frase completamente inútil .
Salvador Dali
2
O MCTS não é aleatório, é simulado. Livros introdutórios básicos sobre MC mostrando um exemplo de aleatoriedade apenas para mostrar o ponto. Você pode jogar uma posição nítida várias vezes com a profundidade de nó 6, que é super rápida (e ainda bastante confiável) e permitirá estimar aproximadamente qual movimento é melhor.
Salvador Dali
1
Minhas declarações não são ousadas, são comuns. Basta ler alguns sites de programação de xadrez, você encontrará mais ou menos meus argumentos. O MCTS é conhecido há uma década e, no xadrez, outras coisas funcionam melhor. Por outro lado, não acho que suas declarações sejam baseadas em nada além de pressentimento, então esse será meu último comentário.
BlindKungFuMaster 15/03
5

Existe um projeto chamado spawkfish que tenta fazer exatamente isso. É um mecanismo baseado em rede neural cujo objetivo "é explorar como os recentes avanços no computador Go podem ser aplicados ao mundo do computador Xadrez".

É um projeto jovem e o motor ainda está bastante fraco. Jogá-lo é interessante, porque seu jogo posicional é melhor do que suas táticas.

Alexander Garden
fonte
2
Você não estava brincando com essa última frase. Eu apenas joguei alguns jogos contra ele, e cada um entrou em um final de jogo bastante equilibrado, apenas para ver spawkfish de repente soltar material (em um caso, apenas pendurando uma torre do nada). Estranho.
ETD
Desde que você respondeu, novas informações sobre a go AI parecem ter surgido. Atualizei a pergunta para criar um link para as notícias, se isso lhe interessar.
Thd
O site para spawkfish parece ter desaparecido ...
hkBst
4

Uma IA semelhante pode ganhar no xadrez? Consegue atingir um autotreinamento puro?

A resposta curta é não!"

O xadrez e o go são radicalmente diferentes em sua relativa simplicidade e complexidade relativa, derivadas de sua geometria e de como você vence. Eles se combinam para criar um programa que é bom em um inútil no outro.

No xadrez, você ganha fazendo checkmating no oponente, os pontos não contam. É claro que um oponente sensato muitas vezes renuncia antes de entregar o xeque-mate, mas o princípio é o mesmo. Em ir, você ganha por ter mais pontos no final do jogo. Se eu tenho um rei e uma rainha e você tem um rei, torre e peão, mas você construiu uma fortaleza, então não importa que eu tenha 9 pontos para a rainha e você tenha apenas 6 pontos para sua torre e peão. O jogo é um empate.

Isso faz uma diferença fundamental na complexidade entre o xadrez e o jogo. Em movimento, você pode apenas manter a pontuação e você saberá quem está ganhando. No xadrez, a única maneira de saber quem está ganhando é por puro cálculo. Nesse sentido, o xadrez é muito mais complexo que o ir.

Ao mesmo tempo, devido à geometria dos dois jogos, há ordens de magnitude em mais possibilidades do que no xadrez. Nesse sentido, o go é muito mais complexo que o xadrez.

Um programa de xadrez funciona pelo cálculo da força bruta de todos os movimentos possíveis até uma certa profundidade que determina sua força. Um programa go não pode funcionar assim e reproduz algo mais avançado do que o go no nível iniciante.

O objetivo básico do jogo é controlar mais território do que seu oponente. No final de um jogo, não importa se a diferença é de 1 ou 100 pedras, ambas são vitórias. Toda vez que você coloca uma pedra, você faz duas coisas. Você aumenta seu território, potencial ou real, e diminui o do seu oponente.

Às vezes, quando há aumento ou diminuição real no território, é fácil calcular o valor do movimento, mas quando é potencial, é muito difícil avaliar. Como um jogador fraco, eu entendo o "real" muito melhor do que o "potencial" e um jogador mais forte vai me derrotar construindo um território potencial muito maior no centro enquanto eu construo um território real menor nas bordas e nos cantos. O jogador mais forte terá a capacidade de julgar pela intuição e sentir-se jogando muitos jogos e reconhecendo como construir um território "potencial".

Anteriormente, eu disse que toda vez que coloco uma pedra, aumenta meu território (real ou potencial) e diminui o de meu oponente (na verdade, se for um movimento estúpido, fará o oposto!). Em qualquer posição, nem todos os movimentos são iguais. Uma pedra colocada em uma posição pode valer muito mais ou menos do que uma pedra colocada em outra.

Normalmente, em um jogo, haverá pequenas "brigas" onde os jogadores colocam suas pedras próximas umas das outras, marcando seu território e limitando as de seus oponentes. Enquanto isso, há possibilidades de começar a vigiar território em outra parte do tabuleiro ou mudar para uma luta em outro lugar onde os dois jogadores já tenham pedras.

O que é muito importante nessas situações é saber quando parar uma luta, porque os ganhos potenciais diminuíram e mudar para outra luta ou talvez atacar em território virgem. Às vezes, isso depende de cálculos difíceis, mas geralmente é muito mais nebuloso e não está sujeito a cálculos. Como um jogador fraco, é aqui que um pagador forte me esmaga toda vez.

O que o computador faz nessas situações é usar métodos probabilísticos para gerar uma pontuação esperada para um movimento específico. Às vezes, o valor real acaba sendo um pouco menos, às vezes um pouco mais, mas a longo prazo, ele sai mais ou menos. Ele continuará escolhendo a jogada com o maior valor esperado, com a expectativa de que, a longo prazo de um jogo, pequenos erros sejam cancelados e sua estratégia vença.

Esta não é uma estratégia que parece familiar aos jogadores de xadrez e não é uma estratégia que funcione no xadrez. É algo que soa familiar para quem segue o que acontece nos mercados de ações. Parece muito semelhante a algo chamado "negociação de alta frequência", em que os computadores fazem milhares de pequenas apostas ou apenas propõem apostas a cada segundo para "níquel e centavo" no mercado e talvez até movê-lo muito marginalmente a seu favor por períodos de milissegundos.

Os mercados financeiros já são dominados por esses tipos de negociação algorítmica, o que sugere que esse tipo de programa já triunfou em uma área muito mais lucrativa do que um jogo de tabuleiro.

Brian Towers
fonte
4
O comércio de alta frequência não é nada como jogar. Algoritmos totalmente diferentes afaik. Além disso, há muitas coisas interessantes na sua resposta, mas é difícil ver o ponto principal, talvez adicione um TL; DR. ;-)
BlindKungFuMaster 14/03
@BlindKungFuMaster O princípio subjacente à HFT e AlphaGo é probabilístico. O ganho esperado com esse "movimento" é x%. A longo prazo, o acúmulo de tais jogadas / apostas vai ganhar o jogo para o AlphaGo ou fazer uma fortuna para os comerciantes de HFT. No entanto, de vez em quando haverá um "choque instantâneo" ou um "movimento maravilhoso" de um Lee Se-dol que transforma uma vitória / lucro em uma perda. Isso de forma alguma invalida sua programação. Não está programado para encontrar a melhor jogada absoluta de cada vez. É um pouco como pseudo-soluções para o problema do vendedor ambulante, que tenta chegar a 5% dos melhores.
Brian Towers
Desde que você respondeu, novas informações sobre a go AI parecem ter surgido. Atualizei a pergunta para criar um link para as notícias, se isso lhe interessar.
Thd
1
@ thb, acredito que esta resposta está agora um pouco obsoleta, dado o novo sucesso do AlphaZero, como em arxiv.org/abs/1712.01815
Mark S.
@ Will No. Por quê? Não julgue os outros por seus próprios padrões superficiais.
Brian Towers
4

(Qualquer pessoa que queira uma discussão técnica profunda sobre o AlphaGo pode olhar para o meu post )

Resposta curta : Não

Resposta longa :

Primeiro, precisamos entender por que o Google não implementou o alfa-beta no AlphaGo. Stockfish e Komodo (e todos os mecanismos de xadrez) têm alfa-beta, por que o AlphaGo não?

Motivo : não existe uma maneira fácil e barata de avaliar com precisão uma posição Go estaticamente.

No xadrez, sempre podemos contar os materiais, uma maneira muito eficaz de avaliar uma posição estaticamente. Embora não seja perfeito, é muito rápido e um excelente proxy para o xadrez.

Pesquisando no espaço de estados com Monte-Carlo é um método inferior ao alfa-beta. O Google teria implementado o alfa-beta se pudessem, mas não puderam. Assim, eles foram forçados a usar algo muito mais lento.

O mecanismo de xadrez não funcionaria melhor com Monte-Carlo.

SmallChess
fonte
Hora de reconsiderar, ou talvez ainda não?
Evargalo 3/04
3

Eu discordo das outras respostas. Sou cientista da computação que trabalha profissionalmente na área de inteligência artificial e também sou candidato a mestre em xadrez e 3 dan em igo.

Acho que ainda não está claro se os métodos da Deep Mind poderiam ser aplicados ao xadrez, mas acho que é possível.

Atualmente, os principais programas de xadrez estão se baseando cada vez mais em heurísticas e a tentativa de usar a arquitetura AlphaGo para xadrez estaria, de alguma maneira, na mesma linha de pensamento.

Uma característica arquitetônica chave do AlphaGo que precisaria ser alterada é seu método de identificação de quadrados principais (ou mapas de calor), que é específico para jogos do tipo igo e não é diretamente aplicável ao xadrez. Algum análogo desse método teria que ser desenvolvido para tornar a arquitetura AlphaGo relevante para o xadrez. Por exemplo, poderíamos ter o conceito de "peças-chave" em vez de quadrados-chave.

Penso que o argumento de que a arquitetura AlphaGo não é relevante para o xadrez, porque o xadrez é mais tático, não é uma afirmação muito boa, porque, no final das contas, ambos têm árvores de busca que são suficientemente semelhantes em forma para que o AlphaGo possa definitivamente ser adaptado ao xadrez.

Cecil De Vere
fonte
Eu dei um +1, pois suas reivindicações podem estar corretas, mas não sabemos ao certo até que alguém publique um artigo.
SmallChess
Uh? O artigo já existe, como apontado por Brian Towers. A resposta é sim.
bóson condensado termomagnético
Parece que eu estava certo, heh.
Cecil De Vere
@CecilDeVere não discorda das outras respostas, 2 delas apontaram a resposta correta. E não afirmando que não está claro no momento, enquanto é claro que essa resposta é sim (não um talvez).
bóson condensado termomagnético
3

A resposta é sim! O Google acabou de provar isso ontem, quando o AlphaZero venceu o melhor programa de xadrez, usando apenas o conhecimento das regras e o autotreinamento puro, sem o conhecimento do xadrez humano. A resposta aceita está errada. O link para o artigo está aqui: link

zaifrun
fonte