Em uma arquitetura de rede neural, posso usar a função sigmóide em algumas camadas e a função tanh em outras? É uma boa escolha?
neural-network
Voxis
fonte
fonte
Respostas:
Sim você pode. Não há regras rígidas contra ter funções de ativação diferentes em qualquer camada, e a combinação desses dois tipos não deve apresentar dificuldades numéricas.
De fato, pode ser uma boa opção ter tanh em camadas ocultas e sigmóide na última camada, se seu objetivo é prever a associação de uma única classe ou probabilidades de classes múltiplas não exclusivas. A saída sigmóide se presta bem a prever uma probabilidade independente (usando, por exemplo, uma função objetiva de perda de log (também conhecida como entropia cruzada)).
Se é melhor ou não o uso do sigmoide em todas as camadas, dependerá de outros recursos da sua rede, dos dados e do problema que você está tentando resolver. Geralmente, a melhor maneira de descobrir qual é o melhor - pelo menos em termos de precisão - é experimentar algumas variações e ver quais são as melhores pontuações em um conjunto de dados de validação cruzada. Na minha experiência, geralmente há uma pequena diferença entre o uso de tanh ou sigmóide nas camadas ocultas.
fonte