Por que existem duas formulações / notações de perda logística diferentes?

23

Eu já vi dois tipos de formulações de perda logística. Podemos mostrar facilmente que eles são idênticos, a única diferença é a definição do rótulo .y

Formulação / notação 1, :y{0,+1}

L(y,βTx)=ylog(p)(1y)log(1p)

onde , em que a função logística mapeia um número real para um intervalo de 0,1.p=11+exp(βTx)βTx

Formulação / notação 2, :y{1,+1}

L(y,βTx)=log(1+exp(yβTx))

Escolher uma notação é como escolher um idioma, existem prós e contras para usar um ou outro. Quais são os prós e os contras dessas duas notações?


Minhas tentativas de responder a essa pergunta são: parece que a comunidade estatística gosta da primeira notação e a comunidade da ciência da computação gosta da segunda notação.

  • A primeira notação pode ser explicada com o termo "probabilidade", pois a função logística transforma um número real βTx em um intervalo de 0,1.
  • E a segunda notação é mais concisa e é mais fácil comparar com perda de dobradiça ou perda de 0-1.

Estou certo? Alguma outra visão?

Haitao Du
fonte
4
Estou certo de que isso já deve ter sido solicitado várias vezes. Por exemplo: stats.stackexchange.com/q/145147/5739
StasK
1
Por que você diz que a segunda notação é mais fácil de comparar com a perda de dobradiça? Só porque está definido em vez de ou algo mais? {1,1}{0,1}
Shadowtalker 27/08/16
1
Eu meio que gosto da simetria da primeira forma, mas a parte linear está enterrada bem fundo, então pode ser difícil trabalhar com ela.
Matthew Drury
@ssdecontrol, verifique esta figura, cs.cmu.edu/~yandongl/loss.html em que o eixo x é e o eixo y é o valor da perda. Essa definição é conveniente para comparar com 01 perda, perda de dobradiça, etc.yβTx
Haitao Du

Respostas:

12

A versão curta

  • sim
  • sim

A versão longa

O bom da modelagem matemática é que ela é flexível. Essas são realmente funções de perda equivalentes, mas derivam de modelos subjacentes muito diferentes dos dados.

Fórmula 1

A primeira notação deriva de um modelo de probabilidade de Bernoulli para , que é definido convencionalmente em { 0 , 1 } . Nesse modelo, o resultado / etiqueta / classe / previsão é representado por uma variável aleatória que segue uma distribuição . Portanto, sua probabilidade é: P ( Y = y | p ) = L ( p ; y ) = p y ( 1 - p ) 1 - y =y{0,1}B e r n o u l l i ( p )YBernoulli(p)

P(Y=y | p)=L(p;y)=py (1p)1y={1py=0py=1

para . Usar 0 e 1 como valores do indicador nos permite reduzir a função por partes no extremo direito para uma expressão concisa.p[0,1]

Como você apontou, é possível vincular a uma matriz de dados de entrada x deixando logit p = β T x . A partir daqui, a manipulação algébrica direta revela que o log L ( p ; y ) é o mesmo que o primeiro L ( y , β T x ) na sua pergunta (dica: ( y - 1 ) = - ( 1 - y ) ). Portanto, minimizando a perda de log em { 0 ,Yxlogitp=βTxlogL(p;y)L(y,βTx)(y1)=(1y) é equivalente à estimativa de máxima verossimilhança de um modelo de Bernoulli.{0,1}

Esta formulação é também um caso especial do modelo linear generalizado , que é formulada como para uma invertível, diferenciável função g e uma distribuição de D na família exponencial .YD(θ), g(Y)=βTxgD

Fórmula 2

Na verdade .. não estou familiarizado com a Fórmula 2. No entanto, definir em { - 1 , 1 } é padrão na formulação de uma máquina de vetores de suporte . Ajustar um SVM corresponde a maximizar max ( { 0 , 1 - y β T x } ) + λ β 2 .y{1,1}

max({0,1yβTx})+λβ2.

(y,β)+λβ2
λβL(y,βTx)
shadowtalker
fonte
py(1p)1y1y
7

Acho que o @ssdecontrol teve uma resposta muito boa. Eu só quero adicionar alguns comentários para a fórmula 2 para minha própria pergunta.

L(y,y^)=log(1+exp(yy^))

A razão pela qual as pessoas gostam dessa formulação é que ela é muito concisa e remove os "detalhes da interpretação da probabilidade".

y^yy^

L01(y,y^)=I[yy^>0]Lhinge(y,y^)=(1yy^)+Llogistic(y,y^)=log(1+exp(yy^))

insira a descrição da imagem aqui

yy^y^βTx

Haitao Du
fonte
Eu vejo o que você quer dizer sobre a comparação fácil
shadowtalker