Por que o sqrt (6) é usado para calcular o epsilon para inicialização aleatória de redes neurais?

Nos semana 5 notas de aula para Coursera Máquina Classe Aprendizagem de Andrew Ng , a fórmula seguinte é dado para calcular o valor de usado para inicializar com valores aleatórios: $\epsilon$ $\Theta$

No exercício , esclarecimentos adicionais são fornecidos:

Uma estratégia eficaz para a escolha de é ter por base o número de unidades da rede. Uma boa escolha de é $\epsilon_{init}$ $\epsilon_{init}$ , em queesão o número de unidades em camadas adjacentes para. $\epsilon_{init} = \frac{\sqrt{6}}{\sqrt{L_{in} - L_{out}}}$ $L_{in} = s_l$ $L_{out} = s_{l+1}$ $\Theta^{(l)}$

$\sqrt 6$ $\sqrt 5$ $\sqrt 7$ $\sqrt {6.1}$

machine-learning neural-networks random-generation Tom Hale
fonte

Respostas:

Acredito que essa seja a inicialização normalizada por Xavier (implementada em várias estruturas de aprendizado profundo, por exemplo, Keras, Cafe, ...) em Entendendo a dificuldade de treinar redes neurais profundas de avanço por Xavier Glorot e Yoshua Bengio.

Var [W_{i}] = \frac{2}{n_{i} + n_{i + 1}}

$\text{Var}[W_i] = \frac{2}{n_i + n_{i+1}}$

$[-\epsilon,\epsilon]$ $\epsilon^2/3$ $1/(2\epsilon)$ $=\int_{-\epsilon}^{\epsilon}x^2 \frac{1}{2\epsilon}dx$

seanv507
fonte

\sqrt{6}

$\sqrt 6$

2

$2$

Conecte o epsilon na fórmula de variação da variável aleatória uniforme em +/- x e o que você obtém?

seanv507

[- ϵ, ϵ]

$[-\epsilon, \epsilon]$

x^{2} / 3

$x^2 / 3$

explicação adicionada para a variância do uniforme RV ...

seanv507 23/07