Perguntas com a marcação «batch-normalization»

20
Como e por que a Normalização de lote usa médias móveis para rastrear a precisão do modelo enquanto ele treina?

Eu estava lendo o documento de normalização em lote (BN) (1) e não entendia a necessidade de usar médias móveis para rastrear a precisão do modelo e, mesmo se eu aceitasse que era a coisa certa a fazer, não entendo o que eles estão fazendo exatamente. Para meu entendimento (o que posso estar...

11
Por que a norma de lote tem escala e mudança aprendíveis?

Pelo que entendi, a norma de lote normaliza todos os recursos de entrada de uma camada para uma distribuição normal de unidade, . A média e variância \ mu, \ sigma ^ 2 são estimadas medindo seus valores para o mini lote atual.μ , σ 2N( μ = 0 , σ= 1 )N(μ=0,σ=1)\mathcal{N}(\mu=0,\sigma=1)μ ,...

8
Existem maneiras de lidar com o gradiente de fuga para saturar não linearidades que não envolvem normalização em lote ou unidades ReLu?

Eu queria treinar uma rede com não linearidades que sofrem com o desaparecimento (ou o problema do gradiente explodindo, embora principalmente o desaparecimento). Sei que a maneira padrão (atual) é usar a normalização de lote 1 [BN] 1 ou simplesmente abandonar a não linearidade e usar as unidades...

7
Como a normalização em lote calcula as estatísticas da população após o treinamento?

Eu estava lendo o documento de normalização em lote (BN) (1) e dizia: Para isso, uma vez treinada a rede, usamos a normalização x^=x−E[x]Var[x]+ϵ−−−−−−−−√x^=x−E[x]Var[x]+ϵ\hat{x} = \frac{x - E[x]}{ \sqrt{Var[x] + \epsilon}}usando a população , em vez de estatísticas de minilote. minha pergunta...