Por que as funções de ativação de unidades lineares retificadas (ReLU) são consideradas não lineares?
Eles são lineares quando a entrada é positiva e, do meu entendimento, para desbloquear o poder representativo das redes profundas, as ativações não lineares são uma obrigação; caso contrário, toda a rede poderá ser representada por uma única camada.
Respostas:
RELUs são não linearidades. Para ajudar sua intuição, considere uma rede muito simples com 1 unidade de entradax , 2 unidades ocultas yEu e 1 unidade de saída z . Com essa rede simples, poderíamos implementar uma função de valor absoluto,
ou algo parecido com a função sigmóide comumente usada,
Combinando-os em redes maiores / usando mais unidades ocultas, podemos aproximar funções arbitrárias.
fonte
reLu(reLu(....))
for sempre linear? Além disso, aqui você mudax
parax+1
, isso poderia ser pensado comoZ=Wx+b
onde W & b muda para dar variantes diferentes desse tipox
&x+1
?