Por alguma razão, o AlphaGo Zero não está recebendo tanta publicidade quanto o AlphaGo original, apesar de seus resultados incríveis. Começando do zero, ele já venceu o AlphaGo Master e passou por vários outros benchmarks. Ainda mais incrivelmente, isso é feito em 40 dias. O Google o nomeia como "indiscutivelmente o melhor jogador de Go do mundo" .
O DeepMind afirma que esta é uma "nova forma de aprendizado por reforço" - essa técnica é verdadeiramente nova? Ou houve outros momentos em que essa técnica foi usada - e se sim, quais foram seus resultados? Acho que os requisitos de que estou falando são: 1) nenhuma intervenção humana e 2) nenhuma peça histórica, mas são flexíveis.
Essa parece ser uma pergunta semelhante, mas todas as respostas parecem começar com a suposição de que o AlphaGo Zero é o primeiro de seu tipo.
fonte
Respostas:
O artigo AlphaGo Zero da Nature , "Dominando o jogo de ir sem conhecimento humano", afirma quatro grandes diferenças em relação à versão anterior:
Os pontos (1) e (2) não são novos no aprendizado de reforço, mas melhoram o software AlphaGo anterior , conforme indicado nos comentários da sua pergunta. Apenas significa que agora eles estão usando o Aprendizado por Reforço puro, começando com pesos inicializados aleatoriamente. Isso é ativado por algoritmos de aprendizado melhores e mais rápidos.
A alegação deles aqui é "Nossa principal contribuição é demonstrar que o desempenho sobre-humano pode ser alcançado sem o conhecimento do domínio humano". (p. 22)
Os pontos (3) e (4) são novos no sentido de que seu algoritmo é mais simples e mais geral do que sua abordagem anterior. Eles também mencionam que é uma melhoria em relação ao trabalho anterior de Guo et al.
A unificação da rede de política / valor (3) permite que eles implementem uma variante mais eficiente da pesquisa em árvore de Monte-Carlo para procurar boas jogadas e, simultaneamente, usando a árvore de pesquisa para treinar a rede mais rapidamente (4). Isso é muito poderoso.
Além disso, eles descrevem vários detalhes interessantes de implementação, como agrupar e reutilizar estruturas de dados para otimizar a pesquisa de novas mudanças.
O efeito é que ele precisa de menos poder de computação, rodando em 4 TPUs em vez de 176 GPUs e 48 TPUs para versões anteriores de seus softwares.
Isso definitivamente o torna "inovador" no contexto do software Go. Eu acredito que (3) e (4) também são "inovadores" em um contexto mais amplo e serão aplicáveis em outros domínios do Aprendizado por Reforço, como por exemplo, robótica.
fonte