Por que a função sigmóide padrão de fato, , é tão popular em redes neurais (não profundas) e em regressão logística?
Por que não usamos muitas das outras funções deriváveis, com tempo de computação mais rápido ou decaimento mais lento (para que o gradiente de fuga ocorra menos)? Poucos exemplos estão na Wikipedia sobre funções sigmóides . Um dos meus favoritos com decaimento lento e cálculo rápido é .
EDITAR
A questão é diferente da lista abrangente de funções de ativação em redes neurais com prós / contras, pois estou interessado apenas no 'porquê' e apenas no sigmóide.
logistic
neural-networks
least-squares
Mark Horvath
fonte
fonte
Respostas:
Citando-me desta resposta para uma pergunta diferente:
Isso explica por que esse sigmóide é usado na regressão logística.
Com relação às redes neurais, este post do blog explica como diferentes não linearidades, incluindo o logit / softmax e o probit usado em redes neurais, podem receber uma interpretação estatística e, assim, uma motivação. A idéia subjacente é que uma rede neural de várias camadas pode ser considerada como uma hierarquia de modelos lineares generalizados; de acordo com isso, funções de ativação são funções de link, que por sua vez correspondem a diferentes premissas distributivas.
fonte
Uma razão pela qual essa função pode parecer mais "natural" do que outras é que ela é inversa ao parâmetro canônico da distribuição de Bernoulli: (A função depdentro do expoente é chamada de parâmetro canônico.)
Talvez uma justificativa mais convincente venha da teoria da informação, onde a função sigmóide pode ser derivada como um modelo de entropia máxima . Grosso modo, a função sigmóide assume estrutura mínima e reflete nosso estado geral de ignorância sobre o modelo subjacente.
fonte
Eu me faço essa pergunta há meses. As respostas em CrossValidated e Quora listam boas propriedades da função sigmóide logística, mas tudo parece que adivinhamos essa função. O que eu perdi foi a justificativa para escolher. Finalmente encontrei um na seção 6.2.2.2 do livro "Deep Learning" de Bengio (2016) . Nas minhas próprias palavras:
Em resumo, queremos que o logaritmo da saída do modelo seja adequado para otimização baseada em gradiente da probabilidade de log dos dados de treinamento.
Motivação
Por que a função sigmóide logística?
Cortarz com P( Y= 1 | z)=max{0,min{1,z}} produz um gradiente zero para z fora de [0,1] . Precisamos de um gradiente forte sempre que a previsão do modelo estiver errada, porque resolvemos a regressão logística com descida do gradiente. Para regressão logística, não há solução de formulário fechado.
A função logística tem a boa propriedade de assintotar um gradiente constante quando a previsão do modelo está errada, uma vez que usamos a Estimativa de Máxima Verossimilhança para ajustar-se ao modelo. Isso é mostrado abaixo:
Para benefícios numéricos, a Estimativa de máxima verossimilhança pode ser feita minimizando a verossimilhança negativa dos dados de treinamento. Portanto, nossa função de custo é:
ComoP( Y= 0 | z) = 1 - P( Y= 1 | z) , podemos nos concentrar no caso Y= 1 . Então, a questão é como modelar P( Y= 1 | z) dado que temos z= wTx + b .
Os requisitos óbvios para a funçãof mapeando z para P( Y= 1 | z) são:
Todos esses requisitos são atendidos ao redimensionar as funções sigmóides . Ambosf(z)=11+e−z ef(z)=0.5+0.5z1+|z| cumpri-los. No entanto, as funções sigmóides diferem em relação ao seu comportamento durante a otimização baseada em gradiente da probabilidade logarítmica. Podemos ver a diferença conectando a função logísticaf(z)=11+e−z em nossa função de custo.
Alternativas
que fica assim:
fonte
Como a pergunta original mencionou o problema do gradiente em decomposição, gostaria de acrescentar que, para camadas intermediárias (onde você não precisa interpretar ativações como probabilidades de classe ou resultados de regressão), outras não-linearidades são frequentemente preferidas às funções sigmoidais. As mais destacadas são as funções retificadoras (como em ReLUs ), que são lineares sobre o domínio positivo e zero sobre o negativo. Uma de suas vantagens é que eles estão menos sujeitos ao problema do gradiente em decomposição, porque a derivada é constante sobre o domínio positivo. As ReLUs tornaram-se populares a tal ponto que os sigmóides provavelmente não podem mais ser chamados de padrão de fato.
fonte