Li em outro lugar que a escolha da função de ativação da camada oculta em um NN deve se basear na necessidade de alguém , ou seja, se você precisar de valores no intervalo de -1 a 1, use tanh e sigmóide no intervalo de 0 a 1.
Minha pergunta é como alguém sabe qual é a sua necessidade ? É baseado no intervalo da camada de entrada, por exemplo, usa a função que pode abranger toda a gama de valores da camada de entrada ou reflete de alguma forma a distribuição da camada de entrada (função Gaussiana)? Ou a necessidade do problema / domínio é específica e a experiência / julgamento de alguém é necessária para fazer essa escolha? Ou é simplesmente "use o que dá o melhor erro de treinamento mínimo validado cruzadamente?"
machine-learning
classification
neural-networks
babelproofreader
fonte
fonte
1 + (1 / exp(-sum))
. Tornando a necessidade muito difícil de entender sem experimentar as duas em cada conjunto de dados. A necessidade, como você a descreve aqui, está ligada à relação real que está sendo aprendida, ou seja, um conjunto de dados binários aprenderá mais rapidamente ou de maneira alguma dadas ativações diferentes.Respostas:
A LeCun discute isso na Seção 4.4 do Efficient Backprop . A motivação é semelhante à motivação para normalizar a entrada como média zero (Seção 4.3). As saídas médias da função de ativação tanh são mais prováveis de serem próximas de zero do que o sigmóide, cuja saída média deve ser positiva.
fonte
A necessidade mencionada no primeiro parágrafo da pergunta está relacionada à função de ativação da camada de saída , e não à função de ativação da camada oculta. Ter saídas que variam de 0 a 1 é conveniente, pois significa que elas podem representar diretamente probabilidades. No entanto, o IIRC, uma rede com funções de ativação da camada de saída tanh pode ser trivialmente transformada em uma rede com a função de ativação da camada de saída logística, portanto, na prática, isso não importa muito.
IIRC o motivo do uso da função tanh em vez da ativação logística nas unidades ocultas, que é a alteração efetuada no peso usando a retropropagação depende tanto da saída do neurônio da camada oculta quanto da derivada da função de ativação, portanto, usando a ativação logística Na função, você pode zerar ao mesmo tempo, o que pode acabar com o congelamento da unidade de camada oculta.
Em resumo, use tanh para funções de ativação de camada oculta, escolha a função de ativação da camada de saída para aplicar as restrições desejadas na saída (opções comuns: linear - sem restrições, logística - a saída fica entre 0 e 1 e exponencial - a saída estritamente positiva).
fonte
O conceito geral de escolher sigmoide para o seu objetivo é escolher o de acordo com a regra, seus valores de saída estão no intervalo de pontos, torna a segunda derivada da função sigmoide máxima.
fonte