Então, recentemente, há um artigo sobre Normalização de Camadas . Há também uma implementação no Keras.
Mas lembro-me de que existem artigos intitulados Normalização de Lote Recorrente (Cooijmans, 2016) e Redes Neurais Recorrentes Normalizadas em Lote (Laurent, 2015). Qual é a diferença entre esses três?
Existe esta seção de trabalho relacionado que eu não entendo:
A normalização de lotes foi estendida anteriormente para redes neurais recorrentes [Laurent et al., 2015, Amodei et al., 2015, Cooijmans et al., 2016]. O trabalho anterior [Cooijmans et al., 2016] sugere que o melhor desempenho da normalização recorrente de lotes seja obtido mantendo-se estatísticas de normalização independentes para cada etapa do tempo. Os autores mostram que a inicialização do parâmetro de ganho na camada de normalização de lote recorrente para 0,1 faz diferença significativa no desempenho final do modelo. Nosso trabalho também está relacionado à normalização do peso [Salimans e Kingma, 2016]. Na normalização do peso, em vez da variação, a norma L2 dos pesos recebidos é usada para normalizar as entradas somadas de um neurônio. Aplicar a normalização de peso ou a normalização de lote usando as estatísticas esperadas é equivalente a ter uma parametrização diferente da rede neural feed-forward original. A red parametrização na rede ReLU foi estudada no SGD Pathnormalized [Neyshabur et al., 2015]. Nosso método de normalização da camada proposto, no entanto, não é uma redefinição da rede neural original. O modelo de camada normalizada, portanto, possui propriedades de invariância diferentes dos outros métodos , que estudaremos na seção a seguir