Existe alguma função de ativação que possa tornar a normalização do lote obsoleta?

7

Enquanto aprendia a normalização de lotes, eu estava pensando por que não podemos resolver o "problema da escala de gradiente" usando uma função de ativação apropriada?

Como não podemos atrasar e dimensionar a função de ativação em vez de dimensionar todo o conjunto de dados e garantir que a variação seja preservada por meio dele?

Totem
fonte
11
Eu acho que você está um pouco errado, você está falando sobre normalização de dados em vez de normalização em lote, o primeiro é uma etapa de pré-processamento.
Mídia
Eu estava falando sobre normalizar em cada camada "automaticamente" ou normalizar no início e manter a forma dos dados através das camadas.
Totem

Respostas:

6

O que você descreve soa muito como Unidades Lineares Exponenciais em Escala (SELUs), que são o núcleo das Redes Neurais Auto-Normalizantes , que foram apresentadas no NIPS 2017.

Um breve resumo daqui é o seguinte:

Se a média e a variação da entrada estiverem em determinado intervalo, a média e a variação da saída devem (1) também nesse intervalo e (2) convergir para um ponto fixo após aplicar iterativamente a função de ativação.

Você pode querer dar uma olhada nos comentários do post do reddit . Se você quiser entendê-las completamente, poderá prosseguir com o apêndice de 90 páginas da pré-impressão arxiv .

Eles chamaram muita atenção quando foram apresentados, mas acho que eles não cumpriram as expectativas, pois ninguém parece estar falando sobre eles ultimamente na internet .

ncasas
fonte
Foi publicado seis meses após a edição do meu livro. A importância de acompanhar as novidades! Obrigado pelos detalhes. Existe uma razão pela qual "ninguém parece estar falando sobre eles"?
Totem
Não sei se existem razões técnicas ou não, mas talvez as pessoas estejam ficando céticas devido às práticas de " descida dos estudantes de graduação " ultimamente, o que dificulta a adoção, a menos que resultados SOTA espetaculares e consistentes.
N183 ncasas
Minha experiência com eluconfirma sua última afirmação: seu desempenho é muito parecido relu, não muito melhor ou pior, mas mais lento.
Maxim
Perdi sua resposta @ncasas, obrigado.
Totem