tanh vs. sigmóide na rede neural

16

Peço desculpas antecipadamente pelo fato de ainda estar me adiantando. Estou tentando entender os prós e os contras do uso de tanh (mapa -1 a 1) vs. sigmoide (mapa 0 a 1) para a minha função de ativação de neurônios. Da minha leitura, parecia uma coisa menor, com diferenças marginais. Na prática, para meus problemas, acho que o sigmóide é mais fácil de treinar e, estranhamente, o sigmóide parece encontrar melhor a solução geral. Com isso, quero dizer que, quando a versão sigmoide é concluída, o treinamento se dá bem no conjunto de dados de referência (não treinado), onde a versão tanh parece ser capaz de obter as respostas corretas sobre os dados de treinamento, mas não é satisfatória. Isso é para a mesma arquitetura de rede.

Uma intuição que tenho é que, com o sigmóide, é mais fácil para um neurônio desligar completamente, não fornecendo assim entrada para as camadas subseqüentes. O tanh tem mais dificuldade aqui, pois precisa cancelar perfeitamente suas entradas, caso contrário, sempre atribui valor à próxima camada. Talvez essa intuição esteja errada.

Postagem longa. Bottom line, qual é o comércio, e deve fazer uma grande diferença?

Mastim
fonte

Respostas:

23

No livro "Redes Neurais: Uma Fundação Abrangente", de Symon Haykin, há a seguinte explicação da qual cito:

Para que o tempo de aprendizado seja minimizado, deve-se evitar o uso de entradas médias diferentes de zero. Agora, no que diz respeito ao vetor de sinal aplicado a um neurônio na primeira camada oculta de um perceptron multicamada, é fácil remover a média de cada elemento de x antes de sua aplicação na rede. Mas e os sinais aplicados aos neurônios nas camadas ocultas e de saída restantes da rede? A resposta a esta pergunta está no tipo de função de ativação usada na rede. Se a função de ativação for não simétrica, como no caso da função sigmóide, a saída de cada neurônio fica restrita ao intervalo [ 0 , 1 ] . Essa escolha introduz uma fonte de viés sistemáticoxx[0,1]para os neurônios localizados além da primeira camada da rede. Para superar esse problema, precisamos usar uma função de ativação antissimétrica, como a função tangente hiperbólica. Com esta última opção, a saída de cada neurônio pode assumir valores positivos e negativos no intervalo , caso em que é provável que sua média seja zero. Se a conectividade de rede for grande, o aprendizado de retropropagação com funções de ativação antissimétricas pode gerar convergência mais rápida do que um processo semelhante com funções de ativação não simétricas, para as quais também há evidências empíricas (LeCun et al. 1991).[1,1]

A referência citada é:

  • Y. LeCun, I. Kanter e SASolla: "Propriedades de segunda ordem de superfícies de erro: tempo de aprendizagem e generalização", Advances in Neural Information Processing Systems, vol. 3, pp. 918-924, 1991.

Outra referência interessante é a seguinte:

  • Y. LeCun, L. Bottou, G. Orr e K. Muller: " BackProp eficiente ", em Orr, G. e Muller K. (Eds), Redes Neurais: Truques do comércio, Springer, 1998
tiagotvv
fonte
Os neurônios da ReLU parecem funcionar muito bem, apesar de seu viés. você tem alguma opinião sobre isso?
Arca-kun
@ Ark-kun, eu não sei muito sobre os neurônios ReLU, mas posso encaminhá-lo para este artigo, onde os autores explicam as vantagens dessa função de ativação. X. Glorot, A. Bordes e Y. Bengio "Redes neurais retificadoras esparsas profundas AISTATS 2011. jmlr.org/proceedings/papers/v15/glorot11a/glorot11a.pdf
tiagotvv
1

Essas duas funções de ativação são muito semelhantes, mas são deslocadas. Minha rede original não tinha termos de viés. Desde a adição de vieses, tudo fica muito mais estável. Com base na minha experiência, eu diria que um deles pode funcionar melhor para um aplicativo específico por razões complexas e possivelmente desconhecidas, mas a abordagem correta é incluir termos de viés para que a dependência no deslocamento da ativação possa ser diminuída ou eliminada.

Mastim
fonte
0

tanh

L=1nEu(yEuregistro(pEu)+(1-yEu)registro(1-pEu))

yEuEupEuEu

pEutanh

Andre Holzner
fonte
Você pode escalá-los, no entanto. tanh (X) -1 partes a derivados, e não têm o problema dos registos negativos
Pablo Arnau González