Quais são os benefícios do uso do ReLU sobre o softplus como funções de ativação?

21

É frequentemente mencionado que as unidades lineares retificadas (ReLU) substituíram as unidades softplus porque são lineares e mais rápidas de calcular.

O softplus ainda tem a vantagem de induzir esparsidade ou isso é restrito à ReLU?

A razão pela qual pergunto é que me pergunto sobre as consequências negativas da inclinação zero da ReLU. Essa propriedade não "prende" as unidades em zero, onde pode ser benéfico dar a elas a possibilidade de reativação?

brockl33
fonte
você já descobriu a resposta para isso?
Charlie Parker

Respostas:

4

Encontrei uma resposta para sua pergunta na Seção 6.3.3 do livro Deep Learning . (Goodfellow et al., 2016):

O uso de softplus é geralmente desencorajado. ... pode-se esperar que ele tenha vantagem sobre o retificador por ser diferenciável em qualquer lugar ou por saturar menos completamente, mas empiricamente não.

Como referência para apoiar esta afirmação, eles citam o artigo Deep Sparse Rectifier Neural Networks (Glorot et. Al, 2011).

Alexander Shchur
fonte
1
Penso que precisamos de mais esclarecimentos sobre "mas empiricamente não".
nbro
2

As ReLUs podem ser desativadas permanentemente, principalmente sob altas taxas de aprendizado. Essa é uma motivação por trás das ativações com vazamentos de ReLU e ELU, ambas com gradiente diferente de zero em quase todos os lugares.

O LeaL ReLU é uma função linear por partes, assim como no ReLU, que é tão rápida de calcular. O ELU tem a vantagem sobre o softmax e o ReLU, pois sua produção média está mais próxima de zero, o que melhora o aprendizado.

Hugh Perkins
fonte
O que significa "quase todos os lugares"?
nbro
1
"quase todos os lugares" é um termo técnico que significa algo como "exceto em alguns pontos infinitamente pequenos". Por exemplo, a ReLU com vazamento não tem gradiente definido em x = 0.
Hugh Perkins