Tanto quanto sei, a justificativa para a inicialização do softmax bias é um pouco ondulada. Lembre-se de que a regressão softmax é a estimativa de probabilidade máxima (log) para , com o modelo sendo o seguinte:
Com a inicialização por viés, nossa intenção é encontrar um bom valor com o qual comece alto. Supondo que inicializamos com pequenos valores próximos de 0 e queW,b
y∼Cat(σ(Wx+b));σi(z)=expzi∑jexpzj.
bp(x,y|W,b)∝p(y|W,b,x)Wy é um rótulo em , portanto:
Adicionando as probabilidades de log para todos os exemplos independentes assumidos , a uma boa inicialização para minimizaria a probabilidade total aproximada de log de dados:
O gradiente do wrt acima é , com o vetor de contagens de cada classe. A função acima também é côncava,
[K]Wx≈0logp(y|W,b,x)=∑k=1K1y=klogσk(Wx+b)≈logσy(b)
{(xi,yi)}ni=1b∑i=1nlogσyi(b)=∑i=1nbyi−nlog∑k=1Kexpbk
bc−nσ(b)c∈NKveja a pergunta aqui sobre o max suave para uma prova.
Os dois fatos acima implicam que um máximo esteja disponível sempre que . Isso, por sua vez, sugere uma inicialização viável para o -ésimo termo do viés é realmente , a proporção de exemplos marcados com no conjunto de treinamento (também conhecido como estatísticas marginais). Você pode ver que pode adicionar qualquer constante a e obter outro viés para maximizar a probabilidade também; no entanto, um grande escala iria ficar no caminho de aprender . O relacionamento com o viés logístico não é coincidente - este tutorial discute a semelhança.σ(b)=c/nibiblogpiibW