Parece padrão em muitos pacotes de redes neurais emparelhar a função objetivo a ser minimizada com a função de ativação na camada de saída.
Por exemplo, para uma camada de saída linear usada para regressão, é padrão (e geralmente apenas uma opção) ter uma função objetiva de erro ao quadrado. Outro emparelhamento usual é a saída logística e a perda de log (ou entropia cruzada). E ainda outro é softmax e multi log loss.
Usando a notação, para o valor de pré-ativação (soma dos pesos vezes das ativações da camada anterior), a para ativação, y para a verdade básica usada no treinamento, i para o índice do neurônio de saída.
Ativação linear acompanha erro quadrado 1
Ativação sigmóide vai com logloss / cruzada entropia objectivo-Σ∀i(yi*log(umi)+(1-yi)*log(1-umi))
Ativação do softmax
Esses são os que eu conheço e espero que muitos ainda não tenham ouvido falar.
No entanto, não parece tão ruim tentar a saída sigmóide com um objetivo de erro ao quadrado. Deve ser estável e convergir pelo menos.
tanh
Existem situações ao projetar a arquitetura de uma rede neural que você deve ou deve usar emparelhamentos "não-padrão" de ativação de saída e funções objetivas?
fonte