Por que os pesos iniciais das redes neurais são inicializados como números aleatórios? Eu tinha lido em algum lugar que isso é feito para "quebrar a simetria" e isso faz a rede neural aprender mais rápido. Como quebrar a simetria faz com que ela aprenda mais rápido?
Será que inicializar os pesos para 0 seria uma ideia melhor? Dessa forma, os pesos seriam capazes de encontrar seus valores (positivos ou negativos) mais rapidamente?
Existe alguma outra filosofia subjacente por trás da randomização dos pesos, além de esperar que eles estivessem próximos dos seus valores ótimos quando inicializados?