Há uma diferença entre ReLUs inoperantes e ReLUs que são silenciosas em muitas entradas - mas não em todas -. As ReLUs inativas devem ser evitadas, enquanto as ReLUs praticamente silenciosas podem ser úteis devido à escassez que elas induzem.
ReLUs inoperantes entraram em um regime de parâmetros em que estão sempre no domínio negativo da função de ativação. Isso pode acontecer, por exemplo, se o viés for definido como um grande valor negativo. Como a função de ativação é zero para valores negativos, essas unidades são silenciosas para todas as entradas. Quando uma ReLU é silenciosa, o gradiente da função de perda em relação aos parâmetros é zero, portanto, nenhuma atualização de parâmetro ocorrerá com o aprendizado baseado em gradiente. Como as ReLUs mortas são silenciosas para todas as entradas, elas ficam presas nesse regime.
Compare isso com uma ReLU silenciosa em muitas entradas, mas não em todas. Nesse caso, o gradiente ainda é zero quando a unidade está silenciosa. Se estivermos usando um procedimento de aprendizado on-line, como descida de gradiente minibatch / estocástico, nenhuma atualização de parâmetro ocorrerá para entradas que causem silêncio na unidade. Porém, ainda são possíveis atualizações para outras entradas, nas quais a unidade está ativa e o gradiente é diferente de zero.
Como as ReLUs mortas são silenciosas para todas as entradas, elas não contribuem para a rede e são desperdiçadas. De uma perspectiva teórica da informação, qualquer unidade que tenha o mesmo valor de saída para todas as entradas (zero ou não) não carrega informações sobre a entrada. As ReLUs praticamente silenciosas se comportam de maneira diferente para entradas diferentes e, portanto, mantêm a capacidade de transportar informações úteis.