Sem termo de regularização para unidade de viés na rede neural

13

De acordo com este tutorial sobre aprendizado profundo , a redução de peso (regularização) geralmente não é aplicada aos termos de viés b por quê?

Qual é o significado (intuição) por trás disso?

Harshit
fonte
Acho que já vi uma pergunta muito semelhante antes, mas não consigo encontrá-la ... Talvez você devesse revisar perguntas relacionadas e encontrar a resposta então. Além disso, talvez isso possa ser um pouco útil.
Richard Hardy

Respostas:

13

O sobreajuste geralmente requer que a saída do modelo seja sensível a pequenas alterações nos dados de entrada (ou seja, para interpolar exatamente os valores-alvo, você tende a precisar de muita curvatura na função ajustada). Os parâmetros de viés não contribuem para a curvatura do modelo, portanto, geralmente há pouco sentido em regularizá-los.

Dikran Marsupial
fonte
5

A motivação por trás de L2 (ou L1) é que, restringindo os pesos, restringindo a rede, é menos provável que você se ajuste demais. Faz pouco sentido restringir os pesos dos vieses, uma vez que os vieses são fixos (por exemplo, b = 1), portanto, funcionam como interceptações de neurônios, que fazem sentido receber uma maior flexibilidade.

Ramalho
fonte
1

Eu acrescentaria que o termo tendencioso é frequentemente inicializado com uma média de 1em vez de 0, portanto, podemos querer regularizá-lo de forma a não ficar muito longe de um valor constante 1como fazer 1/2*(bias-1)^2ao invés de 1/2*(bias)^2.

Talvez isso substitua o -1 peça por uma subtração à média dos vieses possa ajudar, talvez uma média por camada ou uma média geral. No entanto, esta é apenas uma hipótese que estou fazendo (sobre a subtração média).

Isso tudo depende da função de ativação também. Por exemplo: os sigmóides podem ser ruins aqui para gradientes de fuga se os desvios forem regularizados para compensações constantes altas.

Guillaume Chevalier
fonte
0

O tutorial diz que "a aplicação da redução de peso nas unidades de polarização geralmente faz apenas uma pequena diferença na rede final"; portanto, se isso não ajudar, você poderá parar de fazê-lo para eliminar um hiperparâmetro. Se você acha que regularizar o deslocamento ajudaria na sua configuração, faça uma validação cruzada; não há mal em tentar.

Emre
fonte