Enquanto aprendia a normalização de lotes, eu estava pensando por que não podemos resolver o "problema da escala de gradiente" usando uma função de ativação apropriada?
Como não podemos atrasar e dimensionar a função de ativação em vez de dimensionar todo o conjunto de dados e garantir que a variação seja preservada por meio dele?
machine-learning
Totem
fonte
fonte
Respostas:
O que você descreve soa muito como Unidades Lineares Exponenciais em Escala (SELUs), que são o núcleo das Redes Neurais Auto-Normalizantes , que foram apresentadas no NIPS 2017.
Um breve resumo daqui é o seguinte:
Você pode querer dar uma olhada nos comentários do post do reddit . Se você quiser entendê-las completamente, poderá prosseguir com o apêndice de 90 páginas da pré-impressão arxiv .
Eles chamaram muita atenção quando foram apresentados, mas acho que eles não cumpriram as expectativas, pois ninguém parece estar falando sobre eles ultimamente na internet .
fonte
elu
confirma sua última afirmação: seu desempenho é muito parecidorelu
, não muito melhor ou pior, mas mais lento.