Atualmente, estou me preparando para um exame em redes neurais. Em vários protocolos de exames anteriores, li que as funções de ativação dos neurônios (nos perceptrons multicamadas) devem ser monotônicas.
Entendo que as funções de ativação devem ser diferenciáveis, ter uma derivada que não é 0 na maioria dos pontos e ser não linear. Não entendo por que ser monotônico é importante / útil.
Conheço as seguintes funções de ativação e são monotônicas:
- ReLU
- Sigmoid
- Tanh
- Softmax: Não sei se a definição de monotonicidade é aplicável às funções com
- Softplus
- (Identidade)
No entanto, ainda não vejo nenhuma razão para, por exemplo, .
Por que as funções de ativação precisam ser monotônicas?
(Pergunta do lado relacionado: existe algum motivo pelo qual a função logaritmo / exponencial não é usada como uma função de ativação?)
machine-learning
neural-network
Martin Thoma
fonte
fonte
Respostas:
O critério de monotonicidade ajuda a rede neural a convergir mais facilmente em um classificador mais preciso. Consulte esta resposta da stackexchange e o artigo da Wikipedia para obter mais detalhes e razões.
No entanto, o critério de monotonicidade não é obrigatório para uma função de ativação - Também é possível treinar redes neurais com funções de ativação não monotônicas. Apenas fica mais difícil otimizar a rede neural. Veja a resposta de Yoshua Bengio .
fonte
Fornecerei uma razão mais matemática do por que uma função monótona ajuda!
Usando http://mathonline.wikidot.com/lebesgue-s-theorem-for-the-differentiability-of-monotone-fun , assumindo que nossa função de ativação seja monótona, podemos dizer que, na linha real, nossa função será diferenciável. Portanto, o gradiente da função de ativação não será uma função errática. Será mais fácil encontrar os mínimos que estamos procurando. (computacionalmente barato)
Funções exponenciais e logarítmicas são funções bonitas, mas não são limitadas (portanto, o inverso do teorema de Lebesgue não é verdadeiro, pois Exp e Log são funções diferenciáveis que não são limitadas na linha real). Então, eles falham quando queremos classificar nossos exemplos na fase final. O sigmóide e o tanh funcionam muito bem porque possuem gradientes fáceis de calcular e seu alcance é (0,1) e (-1,1), respectivamente.
fonte