O que é política de distribuição no artigo da AlphaGo?

O jornal está aqui .

A política de implementação ... é uma política linear softmax baseada em recursos locais rápidos, calculados de forma incremental e baseados em padrões locais ...

Não entendo o que é política de distribuição e como ela se relaciona com a rede de políticas de seleção de uma movimentação. Alguma explicação mais simples?

machine-learning monte-carlo reinforcement-learning games Olá Mundo
fonte

O papel parece estar atrás de um paywall ...

Vladislavs Dovgalecs

@xeon Não posso evitar isso. Tenho acesso total ao artigo, mas não posso carregá-lo aqui (leis de direitos autorais). Talvez pesquise no Google se alguém tiver uma cópia?

HelloWorld 16/03

@xeon airesearch.com/wp-content/uploads/2016/01/…

dsaxton

Respostas:

Parece que a rede de políticas determina uma distribuição de probabilidade sobre os possíveis movimentos quando no estado do jogo . Quando o programa está pesquisando na árvore do jogo, ele o faz de maneira aleatória determina como ele faz essa pesquisa. A esperança é que essa função "guie" o programa para boas jogadas que um jogador forte provavelmente fará. Isso faz sentido, porque quando você pesquisa na árvore do jogo, os galhos que começam com erros são menos relevantes ao avaliar a posição atual do tabuleiro contra um oponente inteligente. $p(a \mid s)$ $a$ $s$ $p$

Quando eles dizem que a política de rollout (acredito que eles pegaram emprestado o termo "rollout" de gamão) é uma função softmax linear, estão se referindo a uma generalização da função sigmoide usada na regressão logística. Esta função assume a forma

\frac{e^{β_{i}^{T} x}}{\sum_{j = 1}^{k} e^{β_{j}^{T} x}}

$\frac{e^{\beta^T_i x}}{\sum_{j=1}^{k} e^{\beta_j^T x}}$

onde é um vetor que é uma função da posição atual da placa (de acordo com o documento, o softmax linear é usado apenas na última etapa da rede de políticas) e é um vetor de pesos que juntos determinam a probabilidade de a política a rede escolherá a ação . $x$ $\beta_i$ $a_i$

dsaxton
fonte