Por definição, Relu é max(0,f(x))
. Em seguida, a sua inclinação é definida como:
1 if x > 0 and 0 if x < 0
.
Isso não significa que o gradiente é sempre 0 (desaparece) quando x <0? Então, por que dizemos que Relu não sofre com o problema de desaparecimento do gradiente?
fonte
Desaparecer significa que ele vai para 0, mas nunca será realmente 0. Ter gradientes de 0 facilita os cálculos, ter gradientes próximos de 0 significa que há alterações, apenas pequenas, o que significa aprendizado lento e problemas numéricos. 1 e 0 são dois dos números mais fáceis de calcular nesse tipo de problemas de otimização.
fonte