Por que as funções de ativação precisam ser monotônicas?

15

Atualmente, estou me preparando para um exame em redes neurais. Em vários protocolos de exames anteriores, li que as funções de ativação dos neurônios (nos perceptrons multicamadas) devem ser monotônicas.

Entendo que as funções de ativação devem ser diferenciáveis, ter uma derivada que não é 0 na maioria dos pontos e ser não linear. Não entendo por que ser monotônico é importante / útil.

Conheço as seguintes funções de ativação e são monotônicas:

  • ReLU
  • Sigmoid
  • Tanh
  • Softmax: Não sei se a definição de monotonicidade é aplicável às funções comf:RnRmn,m>1
  • Softplus
  • (Identidade)

No entanto, ainda não vejo nenhuma razão para, por exemplo, .φ(x)=x2

Por que as funções de ativação precisam ser monotônicas?

(Pergunta do lado relacionado: existe algum motivo pelo qual a função logaritmo / exponencial não é usada como uma função de ativação?)

Martin Thoma
fonte
1
@MartinThoma Você tem certeza de que o softmax é monotônico?
Meios
1
f:RnRmm>1m=1<Rnn>1
1
@MartinThoma Obrigado, na verdade também foi uma questão minha. Eu não sabia, e ainda não sei, se existe uma extensão para monotônico em funções com várias saídas. Coisas de matemática, você sabe!
Meios

Respostas:

13

O critério de monotonicidade ajuda a rede neural a convergir mais facilmente em um classificador mais preciso. Consulte esta resposta da stackexchange e o artigo da Wikipedia para obter mais detalhes e razões.

No entanto, o critério de monotonicidade não é obrigatório para uma função de ativação - Também é possível treinar redes neurais com funções de ativação não monotônicas. Apenas fica mais difícil otimizar a rede neural. Veja a resposta de Yoshua Bengio .

David Dao
fonte
-1

Fornecerei uma razão mais matemática do por que uma função monótona ajuda!

Usando http://mathonline.wikidot.com/lebesgue-s-theorem-for-the-differentiability-of-monotone-fun , assumindo que nossa função de ativação seja monótona, podemos dizer que, na linha real, nossa função será diferenciável. Portanto, o gradiente da função de ativação não será uma função errática. Será mais fácil encontrar os mínimos que estamos procurando. (computacionalmente barato)

Funções exponenciais e logarítmicas são funções bonitas, mas não são limitadas (portanto, o inverso do teorema de Lebesgue não é verdadeiro, pois Exp e Log são funções diferenciáveis ​​que não são limitadas na linha real). Então, eles falham quando queremos classificar nossos exemplos na fase final. O sigmóide e o tanh funcionam muito bem porque possuem gradientes fáceis de calcular e seu alcance é (0,1) e (-1,1), respectivamente.

Rohit Rawat
fonte
2
Existem infinitamente muitas funções diferenciáveis, mas não monótonas. Então, por que ter uma função monótona ajuda?
Martin Thoma