Eu estava lendo o artigo Classificação ImageNet com redes neurais profundas convolucionais e, na seção 3, eles explicaram a arquitetura de sua rede neural convolucional e explicaram como preferiam usar:
não saturante não linearidade
porque era mais rápido treinar. Nesse papel eles parecem referir-se não-linearidades saturantes como as funções mais tradicionais usados no RNCs, o sigmóide e as funções tangente hiperbólica (isto é e como saturante).
Por que eles se referem a essas funções como "saturando" ou "não saturando"? Em que sentido essas funções "saturam" ou "não saturam"? O que esses termos significam no contexto de redes neurais convolucionais? Eles são usados em outras áreas do aprendizado de máquina (e estatística)?
machine-learning
neural-networks
terminology
conv-neural-network
Charlie Parker
fonte
fonte
Respostas:
Intuição
Uma função de ativação saturadora aperta a entrada.
Definições
Essas definições não são específicas para redes neurais convolucionais.
Exemplos
A função de ativação da Unidade Linear Retificada (ReLU), que é definida como não é saturada porque :f(x)=max(0,x) limz→+∞f(z)=+∞
A função de ativação sigmóide, que é definida como está saturando, porque esmaga números reais para variar entre :f(x)=11+e−x [0,1]
A função de ativação tanh (tangente hiperbólica) está saturando, pois esmaga números reais para variar entre :[−1,1]
(os números são de CS231n , licença MIT)
fonte
As funções de ativação mais comuns são LOG e TanH. Essas funções têm uma faixa compacta, o que significa que elas comprimem a resposta neural em um subconjunto limitado dos números reais. O LOG comprime entradas para saídas entre 0 e 1, o TAN H entre -1 e 1. Essas funções exibem comportamento limitador nos limites.
Na borda, o gradiente da saída em relação à entrada ∂yj / ∂xj é muito pequeno. Portanto, o Gradient é pequeno, portanto, pequenos passos para convergência, portanto, mais tempo para convergir.
fonte