É frequentemente mencionado que as unidades lineares retificadas (ReLU) substituíram as unidades softplus porque são lineares e mais rápidas de calcular.
O softplus ainda tem a vantagem de induzir esparsidade ou isso é restrito à ReLU?
A razão pela qual pergunto é que me pergunto sobre as consequências negativas da inclinação zero da ReLU. Essa propriedade não "prende" as unidades em zero, onde pode ser benéfico dar a elas a possibilidade de reativação?
machine-learning
neural-networks
brockl33
fonte
fonte
Respostas:
Encontrei uma resposta para sua pergunta na Seção 6.3.3 do livro Deep Learning . (Goodfellow et al., 2016):
Como referência para apoiar esta afirmação, eles citam o artigo Deep Sparse Rectifier Neural Networks (Glorot et. Al, 2011).
fonte
As ReLUs podem ser desativadas permanentemente, principalmente sob altas taxas de aprendizado. Essa é uma motivação por trás das ativações com vazamentos de ReLU e ELU, ambas com gradiente diferente de zero em quase todos os lugares.
O LeaL ReLU é uma função linear por partes, assim como no ReLU, que é tão rápida de calcular. O ELU tem a vantagem sobre o softmax e o ReLU, pois sua produção média está mais próxima de zero, o que melhora o aprendizado.
fonte