Supondo uma normalização de dados razoavelmente razoável, a expectativa dos pesos deve ser nula ou próxima a ela. Pode ser razoável, então, definir todos os pesos iniciais como zero, porque um peso inicial positivo terá ainda mais se for realmente um peso negativo e vice-versa. Isso, no entanto, não funciona. Se todos os pesos forem iguais, todos terão o mesmo erro e o modelo não aprenderá nada - não há fonte de assimetria entre os neurônios.
Em vez disso, o que poderíamos fazer é manter os pesos muito próximos de zero, mas torná-los diferentes, inicializando-os em números pequenos e diferentes de zero. Isso é o que é sugerido no tutorial que você vinculou. Ele tem a mesma vantagem da inicialização com zero, pois está próximo do valor esperado da 'melhor estimativa', mas a simetria também foi quebrada o suficiente para o algoritmo funcionar.
Essa abordagem tem problemas adicionais. Não é necessariamente verdade que números menores funcionem melhor, especialmente se a rede neural for profunda. Os gradientes calculados na retropropagação são proporcionais aos pesos; pesos muito pequenos levam a gradientes muito pequenos e podem levar a rede a levar muito, muito mais tempo para treinar ou nunca concluir.
s qr t ( d)d[ - 1d√, 1d√]