A função de ativação deve ser monotônica nas redes neurais?

8

Muitas funções de ativação em redes neurais (sigmóide, tanh, softmax) são monotônicas, contínuas e diferenciáveis ​​(exceto algumas podem ser alguns pontos em que a derivada não existe).

Entendo o motivo da continuidade e diferenciabilidade, mas realmente não consigo entender o motivo da monotonidade.

Salvador Dalí
fonte

Respostas:

8

Durante a fase de treinamento, a retropropagação informa a cada neurônio quanto deve influenciar cada neurônio na próxima camada. Se a função de ativação não é monotônica, o aumento do peso do neurônio pode causar menos influência, o oposto do pretendido. O resultado seria um comportamento de escolha durante o treinamento, com pouca probabilidade de a rede convergir para um estado que produza um classificador preciso.

Kyle Jones
fonte
1
Apenas para esclarecer: a descida de gradiente encontra um mínimo local, mesmo com as funções de ativação monotônica. Pode levar apenas mais tempo.
Martin Thoma