Tenho uma pergunta possivelmente ingênua sobre o AlphaZero. Já o vi descrito como sendo reproduzido em um estilo "mais humano" do que outros computadores, mas, o que quer que seja, ganha cerca de 100 pontos ELO ao fazê-lo. Kasparov, e muitos outros, afirmaram que um ser humano forte em colaboração com um computador vencerá um computador forte (talvez em cerca de 100 ELO ??). Portanto, uma pergunta óbvia é: como o AlphaZero se compara a uma combinação de "centauros"?
Tendo visto apenas alguns jogos, o que noto é que a maioria dos computadores joga jogos abertos que maximizam sua própria mobilidade, mas o AlphaZero parece muito preocupado em limitar a mobilidade do oponente. Em um jogador humano, eu descreveria isso como uma questão de estilo, não mais ou menos humano.
Respostas:
A página 5 do artigo tem sua resposta:
"seletivamente" é a palavra-chave. O que isso significa? Vamos usar esta posição a seguir para o nosso exemplo:
Este é um jogo recente ganho por Caruana em 2017 London Chess Classic. O bispo branco está sendo atacado e você sabe que precisa movê-lo. Mas onde?
Possibilidades (sem perder uma peça):
O que Caruana estava pensando?
Este é o pensamento humano e um "movimento humano". Caruana não considerara Bh4, Be3 e Bd2 porque "pareciam" ruins. Ele estava focando apenas e apenas no movimento Bc1.
Os seres humanos jogam xadrez de maneira muito seletiva , descartamos jogadas irracionais porque não temos tempo para examinar todas as possibilidades igualmente.
Isso é o que o AlphaZero está tentando reivindicar no jornal. Eles afirmam que seu algoritmo, embora mais lento que o Stockfish, é capaz de escolher seletivamente movimentos melhores que o Stockfish na pesquisa. Enquanto o Stockfish é mais rápido, perde tempo com movimentos ruins. AlphaZero é mais lento, mas é mais preciso (como o que Caruana estava fazendo).
Por exemplo, AlphaZero pode gastar 80% de recursos em Bc1 e 20% em todos os outros movimentos de bispo. O bacalhau pode dar 25% para cada jogada (Bh4, Be3, Bd2, Bc1).
fonte
Os motores mais fortes enfatizam a observação muito profunda, à custa de uma função de avaliação superficial. No jornal AlphaZero, eles dizem que o Stockfish analisa 70 milhões de posições por segundo.
Os grandes mestres humanos olham para muito poucas posições comparadas aos motores, mas têm uma sensação melhor de quem é melhor em uma determinada posição.
O AlphaZero analisou apenas 80.000 posições por segundo, portanto, gasta muito mais tempo em sua função de avaliação.
Esse é o sentido em que eles queriam dizer "mais humano", nada mais.
fonte
O AlphaZero já parece jogar como um "centauro" regular -> com uma assistência do motor.
Como FM, eu teria muito mais prazer em jogar AlphaZero do que um motor comum.
Uma comparação seria jogar como Karpov com táticas perfeitas. (Jogo 9 AlphaZero joga um pedaço para 15moves, que é muito parecido com Tal).
Não é apenas estilo, o AlphaZero dá a impressão de entender melhor as posições que o Stockfish.
O AlphaZero também não sofre do Efeito Horizonte que TODAS as máquinas de xadrez sofreram até agora. Vez após vez, é capaz de avaliar corretamente uma posição que se move mais para baixo do que o Stockfish.
Aqui está um exemplo:
AlphaZero interpreta o rei no centro 16. Kxd2! em um jogo intermediário, julgando corretamente que as pretas não serão capazes de tirar vantagem disso.
É capaz de avaliar corretamente um sacrifício de peça 30. Bxg6! enquanto os motores regulares não conseguem ver que estão perdidos por vários movimentos.
Existem outros exemplos, como exchange Sacrifice no jogo 3.
fonte
É tão fácil pular em um vagão de banda dizendo que a peça de Alpha-Zero é 'mais' humana que os programas anteriores de xadrez de computador quanto é pular na carroça oposta e dizer que a peça de Alpha-Zero é totalmente 'alienígena'. Não está claro que o jogo do Alpha-zero seja "mais humano", especialmente dada a nossa tendência humana ao antropomorfismo.
O xadrez como uma luta da mente (humana)
Mas no xadrez essa tendência é verdadeira? Magnus Carlsen falou uma vez sobre como os computadores "tradicionais" em geral não têm criatividade humana, dizendo:
Magnus Carlsen não viu evidências de estilos humanos de jogo em computadores tradicionais de xadrez. Então, vamos examinar se a recente conquista de Alpha-Zero desfez essa perspectiva e nos levou a algo mais reminiscente de nós mesmos.
Os criadores do algoritmo indicam que, diferentemente do Stockfish, que usa um algoritmo de busca Alpha-Beta, o Alpha-Zero emprega um algoritmo de busca em árvore Monte-Carlo (MCTS), que aceita como entrada parâmetros ponderados construídos a partir de resultados anteriores . Shogi por Auto-Play com um Algoritmo Geral de Aprendizagem por Reforço ).
Portanto, o algoritmo não exibe nenhuma escolha. Na verdade, ele realiza uma pesquisa Monty-carlo aleatória, mas probabilística, em que os possíveis caminhos de pesquisa disponíveis são cada vez mais prejudicados pelos resultados anteriores. O Alpha-zero optou por otimizar seu estilo de jogo dessa maneira ou foi a escolha de seus programadores?
Inicialmente, havia todos os movimentos disponíveis, de modo que seu 'estilo' era inteiramente aleatório. No entanto, como sua pesquisa é cada vez mais otimizada e restrita por sucesso ou fracasso anteriores, seu estilo está realmente mudando para o modo com que os programadores o acorrentaram. Isso é "mais humano"? Compare isso com Magnus Carlesen, que às vezes escolhe menos movimentos ideais porque são mais criativos :
Xadrez como uma luta da mente (alienígena)
Os seres humanos podem escolher os critérios que orientam seu próprio estilo de jogo (por exemplo, muitas vezes escolhi impulso e erro no meu próprio estilo). Muitos vêem o jogo Alpha-zero no xadrez e se tornam decididamente alienígenas . Nick Hynes, um estudante de graduação do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) do MIT observa:
Da mesma forma, o GM Peter Heine Nielsen disse ao Chess.com :
Parece que a maioria reage ao estilo emergente de jogo do Alpha-zero como 'jogo alienígena', e não como 'mais humano'.
fonte
Este é um momento incrivelmente interessante para estar vivo.
Os computadores de xadrez a partir da década de 1970 foram algoritmos de busca baseados em árvores minimax usando poda alfa-beta. Esses programas ficaram cada vez mais fortes, tanto por causa dos avanços na velocidade e paralelismo do computador quanto por causa das melhorias na função de avaliação heurística usada para podar ramos e selecionar nós de folhas. Mas as pessoas há muito percebem o quanto o jogo de computador é materialista e chato, e muitas pessoas (inclusive eu) acham que é impossível codificar intuição "humana" em software.
Mas você já viu esses jogos?
O AlphaZero está exibindo peças incrivelmente bonitas, incluindo vários exemplos de sacrifício de materiais para obter vantagens posicionais a longo prazo. Isso lembra alguns dos jogos mais bonitos de mestres humanos, mas com precisão técnica incomparável. Este é o primeiro exemplo que vi na minha vida de algo gerado por computador e que também tem uma beleza profunda .
A reivindicação do centauro:
Já ouvi Garry dizer isso muitas vezes, mas não é verdade. Ou, pelo menos, não será mais verdade com o AlphaZero em cena.
Imagine o seguinte: há um saco de peças que possui 10.000 continuações relevantes, onde 5.000 delas são puramente táticas (ainda que não estejam relacionadas umas com as outras) e outras 5.000 são principalmente posicionais (mas principalmente não relacionadas). Como um humano poderia filtrar todas essas variações sem cometer um erro? Se o AlphaZero agora pode olhar para esses movimentos altamente criativos, que contribuição um humano poderia dar?
A última fronteira:
Ainda resta um lugar em que o cálculo bruto ainda supera as redes neurais profundas: os jogos finais. Não há intuição que supere a base da mesa. Mas as terminações que exigem uma base de tabela (porque uma árvore de pesquisa não pode ser suficientemente profunda para apenas calcular o movimento certo) são bastante raras. E você poderia simplesmente conectar uma base de tabela ao AlphaZero, mas isso destruiria a pureza de um mecanismo "autodidata", certo?
fonte
Como os humanos não têm capacidade de pesquisar profundamente, como os programas tradicionais de xadrez por computador (fritz, bacalhau e outros), eles criam "princípios estratégicos" ou regras básicas (controle central, desenvolvimento, segurança do rei) e conceitos ou truques aplicáveis em uma ampla variedade de situações de maneiras diferentes, como sacrifício, torres conectadas, pares de bispos, finais específicos, por exemplo, como encurralar o rei com uma torre e um peão.
Eu acho que o alfa zero reinventou independentemente muitos desses conceitos (percepções e conceitos) e também aprendeu vários novos - porque não era necessário que seu conhecimento fosse construído sobre as funções de avaliação humana e a forte busca minmax que sempre assume que o oponente é um gênio.
Certamente, esses princípios são conflitantes em algumas situações, é por isso que várias peças de abertura e armadilhas são cuidadosamente estudadas - por exemplo, não desenvolva a rainha tão cedo.
Por outro lado, os seres humanos também percebem que uma vez que você perde uma peça (sem troca), você enfraquece suas forças para que sejam extremamente cuidadosos para não perder uma peça sem compensação.
Penso que a peça de Alphazero liberou o xadrez do computador (e o humano) do medo servil de perder material pequeno e excesso de confiança na abertura de livros e valores de peças.
Os jogos Alphazero mostram coisas como os 'princípios estratégicos', como controle de centro, desenvolvimento, espaço e iniciativa, são muito mais importantes se o seu oponente for desleixado. Em outras palavras, 'sacrifício' não é realmente sacrifício, mas trocar uma peça por ganho em iniciativa, posição, movimento direcionado.
O Alphago (não o zero) confiava na avaliação humana, mas o alphazero configura toda a cadeia de avaliação para 'pesquisa ou simulação' como um processo único de ponta a ponta e cria uma maneira totalmente nova de jogar.
Se você pensa bem, grandes mestres do passado, como Morphy, Fischer e Kasparov, têm sido aplaudidos por esse tipo de jogo intuitivo, em que não são limitados pela avaliação escrita em pedra, aproveitando situações especiais que emergir. Eu acho que os jogos do alpha zero têm esse fator 'uau'.
Por que redes neurais. Enquanto programas de computador que usam representação simbólica e pesquisa discreta podem usar apenas 'uma' maneira de pensar, as redes neurais podem processar paralelamente situações com avaliações alternativas e conflitantes e mudar para a visão mais valiosa nas camadas posteriores.
fonte
Mais humano, no sentido de que os movimentos que ele joga parecem coincidir mais ou menos com uma abordagem humana: jogar por vantagem a longo prazo, sacrifícios posicionais, atividade por peça. Há uma aparente convergência com o conhecimento do xadrez humano e com os princípios estratégicos aceitos refinados ao longo dos séculos (por exemplo, "descobriu" muitas mesmas aberturas). Isso é notável, pois o AlphaZero não foi semeado com conhecimentos de xadrez construídos pelo homem.
Mas as semelhanças terminam aqui. AlphaZero leva para o próximo nível e faz melhor, e de maneiras que os humanos nunca conceberam. AlphaZero possui recursos "sobre-humanos" para citar o artigo: "AlphaZero alcançou um nível sobre-humano de jogo [...]" ( https://arxiv.org/pdf/1712.01815.pdf ). Além disso, não possui as fraquezas inerentes aos seres humanos: problemas de concentração, medo, cansaço, sentimentos, intuição etc. que limitam os seres humanos. E seu cérebro de silício permite combinações táticas além das capacidades humanas, quando necessário.
fonte
Quero agradecer a todos que responderam a essa pergunta, muitas vezes com sutileza e discernimento. A principal diferença nas respostas, parece-me, está na interpretação da palavra humano.
O AlphaZero não joga xadrez humano no sentido de descuidos e erros de cálculo, mas seu processo de "pensamento" parece corresponder, de forma acentuada, à maneira como penso que os jogadores mais fortes pensam. Você elabora, com bastante rapidez, uma lista de "movimentos de candidatos" que gostaria de jogar e, para os jogadores mais fortes, essa lista é incrivelmente precisa, até mesmo reproduzindo algo como um jogo reconhecidamente sensato em um minuto. O resto do tempo é gasto perguntando, quais dos movimentos nessa lista realmente funcionam? Petrosian disse que se sentiu mais em forma quando a jogada que ele jogou foi a que ele pensou pela primeira vez. Todos sabemos como é satisfatório quando o lance que mais queremos jogar acaba sendo taticamente jogável. Posso me relacionar com o algoritmo AlphaZero com muito mais facilidade do que com a pesquisa AlphaBeta,
O que parece mais interessante é como a máquina foi capaz de, por brincadeira, reconhecer os candidatos promissores. É aí que reside o potencial para uma verdadeira revolução. Gostaria de saber se isso só é possível em domínios como xadrez e ir, onde os objetivos podem ser claramente definidos. Mas acho impressionante que o AlphaZero pareça mostrar uma jogada proposital, mas o Stockfish não faz ideia do que está acontecendo.
fonte
Do jeito que eu entendo as redes neurais, a vantagem real de A0 é sua avaliação superior das posições do conselho. Essa avaliação incorpora tanto o conhecimento tático de curto prazo (que, em certo sentido, serve como um multiplicador do número de posições examinadas) quanto uma avaliação superior do valor estratégico.
fonte
Uma coisa que sinto que toda a discussão perdeu é que A0 pode jogar xadrez, shogi e ir, tudo muito bem e tudo por auto-treinamento. Isso é muito mais humano. Além disso, revelou novas idéias profundamente para os principais jogadores (como eu a entendo). Outros mecanismos são muito específicos de tarefas, A0 parece diferente. Eu gostaria de vê-lo jogar chess960.
fonte
Eu não acho que exista algo "humano" em Alpha. Apenas usou hardware muito mais forte e jogou xadrez de qualidade superior. Os bons movimentos de abertura que encontra (por exemplo, para fianchetto king side com Bg2) são totalmente devidos ao seu livro de abertura simulado. Os conceitos que me impressionaram e que eu formulei em 'O Segredo do Xadrez': http://davidsmerdon.com/?p=1970 , que Alpha usa pela primeira vez entre os principais motores, são cadeias mais longas avançadas, por exemplo, o d4 cadeia -e5-f6 que superou uma peça inteira no jogo de sacrifício Bg6 e criadores de retrocessos centrais, como visto nos jogos da Defesa Francesa entre os dois motores. Ambos os conceitos envolvem a busca de grandes profundidades, e provavelmente aqui o Alpha foi ajudado por seu tremendo hardware. Caso contrário, não vejo nada humano em sua peça. Muitos dos jogos foram, reconhecidamente,
fonte