Por que a função logística usa e em vez de 2?

7

A função sigmóide pode ser usada como função de ativação no aprendizado de máquina.

S(x)=11+ex=exex+1.

Se substitua e por 2,

def sigmoid2(z):
    return 1/(1+2**(-z))
x = np.arange(-9,9,dtype=float)
y = sigmoid2(x)
plt.scatter(x,y)

o enredo é semelhante.

insira a descrição da imagem aqui

Por que a função logística usa vez de 2?e

JJJohn
fonte

Respostas:

11

Como você minimizará mais tarde a probabilidade de log, na verdade não há grande diferença entre e . Você vê que a diferença é simplesmente uma constante. No entanto, pode-se argumentar que use vez de e também use vez de quando se trata da etapa de otimização. De fato, é possível usar e também muitas outras funções, que mostram algumas propriedades desejadas. Que são:log2x=xlog2logex=x
2xexlog2log2x

  • limxf(x)=1
  • limxf(x)=0
  • f(x)=f(x)+1 , (simétrico em(0,0.5)

Aqui está um exemplo de funções adequadas da wikipedia.

Andreas Look
fonte
9
Também acho que vale ressaltar que uma boa razão para usar como base é que a derivada de é . Sem fazer o cálculo real, acho que se a base fosse diferente, a fórmula diferiria apenas por uma constante novamente, mas é uma propriedade legal específica de . eσ(x)=11+exσ(x)=σ(x)(1σ(x))e
Calvin Godfrey
O mesmo vale para ao usar . 2xlog2
Andreas Veja
@AndreasLook Não sei ao certo o que você quer dizer. Se você usar , haverá um fator extra de na derivada (como Calvin Godfrey disse). 2xln(2)
Sfmiller940
Não, verifique o logaritmo binário. . log2(2x)=x
Andreas Veja
4

Portanto, existem muitas funções que parecem sigmóides, incluindo as 2 que você mencionou, mas há razões pelas quais é especial. A principal razão é que a função logística foi originalmente usada para modelar o crescimento populacional. E populações, assim como o interesse, podem aumentar com o tempo. Assim, se torna um objeto muito natural por esse motivo. Além disso, por razões teóricas relativas à função de ligação canônica de uma glm, a logística é um dos objetos teoricamente mais simples de se trabalhar, o que facilita a comprovação das coisas.ee

Emu anônimo
fonte
2
obrigado pela sua resposta. o que significa "função de ligação canônica de um glm"?
perfil completo de JJ
@baojieqh Para todos os modelos lineares generalizados, é necessário especificar um membro da família exponencial de distribuições. Todas essas distribuições compartilham uma propriedade em que podem ser escritas de tal maneira que uma função do parâmetro de escala da distribuição fique "sozinha" em um expoente (e a função é apenas uma função do parâmetro de escala). Essa função é a que as pessoas chamam de função de link canônico. Para a distribuição bernoulli / binomial, onde o parâmetro de escala é p, verifica-se que essa função é ln (p / (1-p)), que é a função de link de logit.
Aranglol 06/06/19
Portanto, a função de link canônico para a regressão logística, que assume uma distribuição de Bernoulli para cada linha, é o link de logit. Também existem outras propriedades teóricas que tornam desejável a função de ligação canônica. Mas tecnicamente não é necessário usá-lo; você pode usar o probit, por exemplo.
Aranglol 06/06/19
@aranglol graças para você comenta, você poderia dar uma olhada neste link math.stackexchange.com/q/3253634/656371
JJJohn
Isso parece ser apenas um apelo à afirmação de que " é especial", sem justificar por que é especial. Realmente, a única especialidade é a conveniência de que , o que significa que . e eddxax=axlnaddxex=ex
David Richerby
0

Vem do pressuposto básico do modelo que existe um / latente / não observável contínua que de algum modo se relaciona com os valores observados de . O modelo assume ainda que se o sinal de estiver acima de algum limite e, caso contrário, . A terceira e última suposição é que a distribuição subjacente de é a distribuição logística. Depois de ter essas suposições, é apenas uma questão de álgebra derivar o modelo.YYY=1YY=0Y

Você pode ler mais detalhes no meu blog .

Yossi Levy
fonte