Muitas funções de ativação em redes neurais (sigmóide, tanh, softmax) são monotônicas, contínuas e diferenciáveis (exceto algumas podem ser alguns pontos em que a derivada não existe).
Entendo o motivo da continuidade e diferenciabilidade, mas realmente não consigo entender o motivo da monotonidade.
machine-learning
neural-networks
Salvador Dalí
fonte
fonte