Por que a norma de lote tem escala e mudança aprendíveis?

11

Pelo que entendi, a norma de lote normaliza todos os recursos de entrada de uma camada para uma distribuição normal de unidade, . A média e variância \ mu, \ sigma ^ 2 são estimadas medindo seus valores para o mini lote atual.μ , σ 2N(μ=0,σ=1)μ,σ2

Após a normalização, as entradas são dimensionadas e alteradas pelos valores escalares:

x^i=γx^i+β

(Corrija-me se estiver errado aqui - é aqui que começo a ficar um pouco inseguro.)

γ e β são valores escalares e existe um par de cada para cada camada normatizada em lote. Eles são aprendidos junto com os pesos usando backprop e SGD.

Minha pergunta é: esses parâmetros não são redundantes porque as entradas podem ser dimensionadas e alteradas de qualquer forma pelos pesos na própria camada. Em outras palavras, se

y=Wx^+b

e

x^=γx^+β

então

y=Wx^+b

onde W=Wγ e b=Wβ+b .

Então, qual é o sentido de adicioná-los à rede já é capaz de aprender a escala e a mudança? Ou estou totalmente entendendo mal as coisas?

Timmmm
fonte

Respostas:

12

Há uma resposta perfeita no Deep Learning Book, Seção 8.7.1 :

Normalizar a média e o desvio padrão de uma unidade pode reduzir o poder expressivo da rede neural que contém essa unidade. Para manter o poder expressivo da rede, é comum substituir o lote de ativações de unidades ocultas H por γH + β, em vez de simplesmente H. normalizado. As variáveis ​​γ e β são parâmetros aprendidos que permitem que a nova variável tenha qualquer média e desvio padrão. À primeira vista, isso pode parecer inútil - por que definimos a média como 0 e, em seguida, introduzimos um parâmetro que permite que ela retorne a qualquer valor arbitrário β?

A resposta é que a nova parametrização pode representar a mesma família de funções da entrada que a antiga parametrização, mas a nova parametrização possui diferentes dinâmicas de aprendizado. Na antiga parametrização, a média de H foi determinada por uma interação complicada entre os parâmetros nas camadas abaixo de H. Na nova parametrização, a média de γH + β é determinada apenas por β. A nova parametrização é muito mais fácil de aprender com a descida do gradiente.

Timmmm
fonte