O jornal está aqui .
A política de implementação ... é uma política linear softmax baseada em recursos locais rápidos, calculados de forma incremental e baseados em padrões locais ...
Não entendo o que é política de distribuição e como ela se relaciona com a rede de políticas de seleção de uma movimentação. Alguma explicação mais simples?
Respostas:
Parece que a rede de políticas determina uma distribuição de probabilidade sobre os possíveis movimentos quando no estado do jogo . Quando o programa está pesquisando na árvore do jogo, ele o faz de maneira aleatória determina como ele faz essa pesquisa. A esperança é que essa função "guie" o programa para boas jogadas que um jogador forte provavelmente fará. Isso faz sentido, porque quando você pesquisa na árvore do jogo, os galhos que começam com erros são menos relevantes ao avaliar a posição atual do tabuleiro contra um oponente inteligente.p(a∣s) a s p
Quando eles dizem que a política de rollout (acredito que eles pegaram emprestado o termo "rollout" de gamão) é uma função softmax linear, estão se referindo a uma generalização da função sigmoide usada na regressão logística. Esta função assume a forma
onde é um vetor que é uma função da posição atual da placa (de acordo com o documento, o softmax linear é usado apenas na última etapa da rede de políticas) e é um vetor de pesos que juntos determinam a probabilidade de a política a rede escolherá a ação .x βi ai
fonte