O que é o "novo algoritmo de aprendizado por reforço" no AlphaGo Zero?

10

Por alguma razão, o AlphaGo Zero não está recebendo tanta publicidade quanto o AlphaGo original, apesar de seus resultados incríveis. Começando do zero, ele já venceu o AlphaGo Master e passou por vários outros benchmarks. Ainda mais incrivelmente, isso é feito em 40 dias. O Google o nomeia como "indiscutivelmente o melhor jogador de Go do mundo" .

O DeepMind afirma que esta é uma "nova forma de aprendizado por reforço" - essa técnica é verdadeiramente nova? Ou houve outros momentos em que essa técnica foi usada - e se sim, quais foram seus resultados? Acho que os requisitos de que estou falando são: 1) nenhuma intervenção humana e 2) nenhuma peça histórica, mas são flexíveis.

Essa parece ser uma pergunta semelhante, mas todas as respostas parecem começar com a suposição de que o AlphaGo Zero é o primeiro de seu tipo.

Dubukay
fonte
A aprendizagem por reforço não é nova. Quais técnicas o Google alegou ser a primeira?
HelloWorld
Há uma citação sobre isso no site vinculado e no artigo eles usam a frase "A rede neural no AlphaGo Zero é treinada a partir de jogos de auto-play por um novo algoritmo de aprendizado por reforço".
Dubukay
11
Jogar sozinho definitivamente não é novo. Existia antes do Google. Existem detalhes em seu algoritmo que os tornam "novos". Talvez alguém possa responder.
HelloWorld
2
Eu entendo isso - acho que estou tentando entender o que tornou a abordagem deles incrivelmente boa e se isso é algo que devemos esperar ver em outras áreas. É uma nova filosofia ou apenas um código realmente bom?
Dubukay
11
Encontrei uma cópia do artigo aqui: nature.com/articles/… (inclui o token de acesso ao compartilhamento, que é do blog que o vincula, portanto é um AFAICS de compartilhamento público legítimo). Mesmo depois de ler a descrição, embora seja difícil escolher a novidade real - todas as idéias individuais parecem ser técnicas de RL / jogo pré-existentes, pode ser apenas uma combinação específica delas que é nova
Neil Slater

Respostas:

6

O artigo AlphaGo Zero da Nature , "Dominando o jogo de ir sem conhecimento humano", afirma quatro grandes diferenças em relação à versão anterior:

  1. Somente autoaprendizagem (não treinada em jogos humanos)
  2. Usando apenas o tabuleiro e as pedras como entrada (sem recursos escritos à mão).
  3. Usando uma única rede neural para políticas e valores
  4. Um novo algoritmo de pesquisa em árvore que usa essa política combinada / rede de valores para orientar onde procurar boas jogadas.

Os pontos (1) e (2) não são novos no aprendizado de reforço, mas melhoram o software AlphaGo anterior , conforme indicado nos comentários da sua pergunta. Apenas significa que agora eles estão usando o Aprendizado por Reforço puro, começando com pesos inicializados aleatoriamente. Isso é ativado por algoritmos de aprendizado melhores e mais rápidos.

A alegação deles aqui é "Nossa principal contribuição é demonstrar que o desempenho sobre-humano pode ser alcançado sem o conhecimento do domínio humano". (p. 22)

Os pontos (3) e (4) são novos no sentido de que seu algoritmo é mais simples e mais geral do que sua abordagem anterior. Eles também mencionam que é uma melhoria em relação ao trabalho anterior de Guo et al.

A unificação da rede de política / valor (3) permite que eles implementem uma variante mais eficiente da pesquisa em árvore de Monte-Carlo para procurar boas jogadas e, simultaneamente, usando a árvore de pesquisa para treinar a rede mais rapidamente (4). Isso é muito poderoso.

Além disso, eles descrevem vários detalhes interessantes de implementação, como agrupar e reutilizar estruturas de dados para otimizar a pesquisa de novas mudanças.

O efeito é que ele precisa de menos poder de computação, rodando em 4 TPUs em vez de 176 GPUs e 48 TPUs para versões anteriores de seus softwares.

Isso definitivamente o torna "inovador" no contexto do software Go. Eu acredito que (3) e (4) também são "inovadores" em um contexto mais amplo e serão aplicáveis ​​em outros domínios do Aprendizado por Reforço, como por exemplo, robótica.

mjul
fonte
Eu acho que (4) é mencionado nas palestras de David Silver - palestra 10 sobre jogos clássicos - em muitos casos existentes, o MCTS é guiado pelo ML já treinado. No caso do AlphaGo Zero, isso é invertido e o resultado do MCTS é usado para definir as metas de aprendizado para o ML. No entanto, o que me faz pensar se é verdadeiramente "romance" é a possibilidade de fazer exatamente o que é mencionado na palestra. . .
Neil Slater