A normalização de lote é descrita neste documento como uma normalização da entrada para uma função de ativação com variáveis de escala e deslocamento e \ beta . Este artigo descreve principalmente o uso da função de ativação sigmóide, que faz sentido. No entanto, parece-me que alimentar uma entrada da distribuição normalizada produzida pela normalização em lote para uma função de ativação ReLU de max (0, x) é arriscado se \ beta não aprender a mudar a maioria das entradas além de 0, de modo que o ReLU não está perdendo informações de entrada. Ou seja, se a entrada para a ReLU fosse apenas normalizada, perderíamos muitas informações abaixo de 0. Existe alguma garantia ou inicialização de \ betaque garantirá que não perdemos essas informações? Estou faltando alguma coisa sobre como a operação do BN e da ReLU funciona?