Como o viés deve ser inicializado e regularizado?

13

Eu li alguns artigos sobre a inicialização do kernel e muitos documentos mencionam que eles usam a regularização L2 do kernel (geralmente com ).λ=0,0001

Alguém faz algo diferente do que inicializar o viés com zero constante e não regularizá-lo?

Documentos de inicialização do kernel

Martin Thoma
fonte

Respostas:

15

Das Stanford CS231N Notes ( http://cs231n.github.io/neural-networks-2/ ):

Inicializando os vieses. É possível e comum inicializar os vieses para zero, uma vez que a quebra de assimetria é fornecida pelos pequenos números aleatórios nos pesos. Para as não linearidades da ReLU, algumas pessoas gostam de usar um valor constante pequeno, como 0,01, para todos os vieses, pois isso garante que todas as unidades da ReLU sejam acionadas no início e, portanto, obtenham e propaguem algum gradiente. No entanto, não está claro se isso fornece uma melhoria consistente (na verdade, alguns resultados parecem indicar que isso apresenta um desempenho pior) e é mais comum usar simplesmente a inicialização com viés 0.

Nos LSTMs, é comum inicializar os vieses para 1 - veja, por exemplo, http://www.jmlr.org/proceedings/papers/v37/jozefowicz15.pdf .

Lukas Biewald
fonte