Parece-me que o ReLU com vazamento deve ter um desempenho muito melhor, pois o ReLU padrão não pode usar metade de seu espaço (x <0, onde o gradiente é zero). Mas isso não acontece e, na prática, a maioria das pessoas usa ReLU padrão.
neural-network
gradient-descent
Brans Ds
fonte
fonte
Respostas:
Uma razão pela qual as Unidades ReL foram introduzidas é contornar o problema de gradientes de fuga das unidades sigmoidais em -1 e 1.
Outra vantagem das unidades ReL é que elas saturam exatamente 0, permitindo representações esparsas, o que pode ser útil quando unidades ocultas são usadas como entrada para um classificador. O gradiente zero pode ser problemático nos casos em que a unidade nunca é ativada em um cenário baseado em gradiente quando a unidade não é ativada inicialmente.
Esse problema pode ser aliviado usando Unidades ReL com vazamento. Por outro lado, as unidades ReL com vazamento não têm a capacidade de criar uma representação esparsa com zero zero que pode ser útil em certos casos. Portanto, existe uma certa troca e, como em geral com a NN, depende dos casos de uso em que unidade tem um desempenho melhor. Na maioria dos casos, se as configurações iniciais puderem garantir que a Unidade ReL esteja ativada (por exemplo, definindo os desvios para pequenos valores positivos), seria de esperar que a ReL e as Unidades Rel com vazamentos tivessem um desempenho muito semelhante.
Além disso, a RelU com vazamento (se paramétrico) introduz outro parâmetro (a inclinação para ) que precisa ser aprendido durante o treinamento e, portanto, adiciona mais complexidade / tempo de treinamento.x<0
fonte