Por que as unidades lineares retificadas são consideradas não lineares?

RELUs são não linearidades. Para ajudar sua intuição, considere uma rede muito simples com 1 unidade de entrada $x$ , 2 unidades ocultas $y_i$ e 1 unidade de saída $z$ . Com essa rede simples, poderíamos implementar uma função de valor absoluto,

z = max (0 0, x) + max (0 0, - x),

$z = \max(0, x) + \max(0, -x),$

ou algo parecido com a função sigmóide comumente usada,

z = max (0 0, x + 1) - max (0 0, x - 1) .

$z = \max(0, x + 1) - \max(0, x - 1).$

Combinando-os em redes maiores / usando mais unidades ocultas, podemos aproximar funções arbitrárias.

$\hskip2in$ Função de rede RELU

Lucas
fonte

Esses tipos de ReLus construídos à mão seriam apriori e codificados como camadas? Em caso afirmativo, como você saberia que sua rede exigia um desses ReLus especialmente criados em particular?

Monica Heddneck 16/09

@MonicaHeddneck Você pode especificar suas próprias não linearidades, sim. O que faz uma ativação funcionar melhor que a outra é um tópico constante de pesquisa. Por exemplo, costumávamos usar sigmóides, , mas, devido ao problema de gradiente de fuga, as ReLUs se tornaram mais populares. Portanto, depende de você usar diferentes funções de ativação de não linearidade.

σ (x) = \frac{1}{1 + e^{- x}}

$\sigma(x) = \frac{1}{1 + e^{-x}}$

Tarin Ziyaee 19/09/16

Como você aproximaria com ReLU fora da amostra?

e^{x}

$e^x$

Aksakal

@ Lucas, Então, basicamente, se combine (+)> 1 ReLUs, podemos aproximar qualquer função, mas se simplesmente reLu(reLu(....))for sempre linear? Além disso, aqui você muda xpara x+1, isso poderia ser pensado como Z=Wx+bonde W & b muda para dar variantes diferentes desse tipo x& x+1?

anu

Por que as unidades lineares retificadas são consideradas não lineares?

Respostas: