Isso pode parecer bobagem para alguém que tem muita experiência com redes neurais, mas me incomoda ...
Quero dizer, randomizar pesos iniciais pode fornecer melhores resultados que seriam um pouco mais próximos da aparência da rede treinada, mas também pode ser exatamente o oposto do que deveria ser, enquanto 0,5 ou alguma outra média para a faixa de peso razoável o valor soaria como uma boa configuração padrão ...
Por que os pesos iniciais dos neurônios estão sendo randomizados, em vez de 0,5 para todos eles?
neural-networks
training
Matas Vaitkevicius
fonte
fonte
Respostas:
Os pesos iniciais em uma rede neural são inicializados aleatoriamente porque os métodos baseados em gradiente comumente usados para treinar redes neurais não funcionam bem quando todos os pesos são inicializados com o mesmo valor. Embora nem todos os métodos para treinar redes neurais sejam baseados em gradiente, a maioria deles é, e foi demonstrado em vários casos que inicializar a rede neural com o mesmo valor faz com que a rede demore muito mais tempo para convergir para uma solução ideal. Além disso, se você deseja treinar novamente sua rede neural porque ela ficou presa em mínimos locais, ela ficará presa nos mesmos mínimos locais. Pelas razões acima, não configuramos os pesos iniciais para um valor constante.
Referências: Por que a retropropagação não funciona quando você inicializa os pesos com o mesmo valor?
fonte
Você não deve atribuir tudo a 0,5 porque teria o problema "simetria de quebra".
fonte
Essa é uma pergunta muito profunda. Recentemente, houve uma série de artigos com prova de convergência da descida do gradiente para redes profundas super-parametrizadas (por exemplo, a Gradient Descent encontra mínimos globais de redes neurais profundas , uma teoria da convergência para o aprendizado profundo via excesso de parametrização ou a descida estocástica do gradiente otimiza a profundidade excessivamente parametrizada Redes ReLU ). Todos eles condicionam a prova da distribuição gaussiana aleatória de pesos. É importante que as provas dependam de dois fatores:
Pesos aleatórios tornam o ReLU mapeamento estatisticamente compressivo (até transformação linear)
Pesos aleatórios preservam a separação da entrada para qualquer distribuição de entrada - ou seja, se as amostras de entrada são distinguíveis, a propagação da rede não as tornará indistinguíveis
Essas propriedades muito difíceis de reproduzir com matrizes determinísticas, e mesmo que sejam reproduzíveis com matrizes determinísticas, o espaço NULL (domínio de exemplos contraditórios) provavelmente tornaria o método impraticável, e a preservação mais importante dessas propriedades durante a descida do gradiente provavelmente tornaria o método impraticável. Mas, no geral, é muito difícil, mas não impossível, e pode exigir alguma pesquisa nessa direção. Em situação análoga, houve alguns resultados para a Propriedade de Isometria Restrita para matrizes determinísticas no sensor comprimido .
fonte