Por que a norma de lote tem escala e mudança aprendíveis?

Pelo que entendi, a norma de lote normaliza todos os recursos de entrada de uma camada para uma distribuição normal de unidade, . A média e variância são estimadas medindo seus valores para o mini lote atual. $\mathcal{N}(\mu=0,\sigma=1)$ $\mu, \sigma^2$

Após a normalização, as entradas são dimensionadas e alteradas pelos valores escalares:

{\hat{x}}_{i}^{'} = γ {\hat{x}}_{i} + β

$\hat{x}_i' = \gamma \hat{x}_i + \beta$

(Corrija-me se estiver errado aqui - é aqui que começo a ficar um pouco inseguro.)

$\gamma$ e $\beta$ são valores escalares e existe um par de cada para cada camada normatizada em lote. Eles são aprendidos junto com os pesos usando backprop e SGD.

Minha pergunta é: esses parâmetros não são redundantes porque as entradas podem ser dimensionadas e alteradas de qualquer forma pelos pesos na própria camada. Em outras palavras, se

y = W {\hat{x}}^{'} + b

$y = W \hat{x}' + b$

{\hat{x}}^{'} = γ \hat{x} + β

$\hat{x}' = \gamma \hat{x} + \beta$

então

y = W^{'} \hat{x} + b^{'}

$y = W' \hat{x} + b'$

onde $W' = W\gamma$ e $b'=W\beta + b$ .

Então, qual é o sentido de adicioná-los à rede já é capaz de aprender a escala e a mudança? Ou estou totalmente entendendo mal as coisas?

batch-normalization Timmmm
fonte

Respostas:

Há uma resposta perfeita no Deep Learning Book, Seção 8.7.1 :

Normalizar a média e o desvio padrão de uma unidade pode reduzir o poder expressivo da rede neural que contém essa unidade. Para manter o poder expressivo da rede, é comum substituir o lote de ativações de unidades ocultas H por γH + β, em vez de simplesmente H. normalizado. As variáveis γ e β são parâmetros aprendidos que permitem que a nova variável tenha qualquer média e desvio padrão. À primeira vista, isso pode parecer inútil - por que definimos a média como 0 e, em seguida, introduzimos um parâmetro que permite que ela retorne a qualquer valor arbitrário β?

A resposta é que a nova parametrização pode representar a mesma família de funções da entrada que a antiga parametrização, mas a nova parametrização possui diferentes dinâmicas de aprendizado. Na antiga parametrização, a média de H foi determinada por uma interação complicada entre os parâmetros nas camadas abaixo de H. Na nova parametrização, a média de γH + β é determinada apenas por β. A nova parametrização é muito mais fácil de aprender com a descida do gradiente.

Timmmm
fonte