Por que as unidades lineares retificadas são consideradas não lineares?

25

Por que as funções de ativação de unidades lineares retificadas (ReLU) são consideradas não lineares?

f(x)=max(0 0,x)

Eles são lineares quando a entrada é positiva e, do meu entendimento, para desbloquear o poder representativo das redes profundas, as ativações não lineares são uma obrigação; caso contrário, toda a rede poderá ser representada por uma única camada.

Aly
fonte
Há uma pergunta semelhante feita antes: stats.stackexchange.com/questions/275358/... embora provavelmente não é uma duplicata
Aksakal

Respostas:

33

RELUs são não linearidades. Para ajudar sua intuição, considere uma rede muito simples com 1 unidade de entrada x , 2 unidades ocultas yEu e 1 unidade de saída z . Com essa rede simples, poderíamos implementar uma função de valor absoluto,

z=max(0 0,x)+max(0 0,-x),

ou algo parecido com a função sigmóide comumente usada,

z=max(0 0,x+1)-max(0 0,x-1).

Combinando-os em redes maiores / usando mais unidades ocultas, podemos aproximar funções arbitrárias.

Função de rede RELU

Lucas
fonte
Esses tipos de ReLus construídos à mão seriam apriori e codificados como camadas? Em caso afirmativo, como você saberia que sua rede exigia um desses ReLus especialmente criados em particular?
Monica Heddneck 16/09
4
@MonicaHeddneck Você pode especificar suas próprias não linearidades, sim. O que faz uma ativação funcionar melhor que a outra é um tópico constante de pesquisa. Por exemplo, costumávamos usar sigmóides, , mas, devido ao problema de gradiente de fuga, as ReLUs se tornaram mais populares. Portanto, depende de você usar diferentes funções de ativação de não linearidade. σ(x)=11+e-x
Tarin Ziyaee 19/09/16
Como você aproximaria com ReLU fora da amostra? ex
Aksakal
1
@ Lucas, Então, basicamente, se combine (+)> 1 ReLUs, podemos aproximar qualquer função, mas se simplesmente reLu(reLu(....))for sempre linear? Além disso, aqui você muda xpara x+1, isso poderia ser pensado como Z=Wx+bonde W & b muda para dar variantes diferentes desse tipo x& x+1?
anu