Duas funções de ativação comuns usadas no aprendizado profundo são a função tangente hiperbólica e a função de ativação sigmóide. Entendo que a tangente hiperbólica é apenas um redimensionamento e tradução da função sigmóide:
.
Existe uma diferença significativa entre essas duas funções de ativação e, em particular, quando uma é preferível à outra ?
Percebo que em alguns casos (como ao estimar probabilidades) as saídas no intervalo de são mais convenientes do que as saídas que variam de . Quero saber se existem outras diferenças além da conveniência que distinguem as duas funções de ativação.