Eu já vi dois tipos de formulações de perda logística. Podemos mostrar facilmente que eles são idênticos, a única diferença é a definição do rótulo .
Formulação / notação 1, :
onde , em que a função logística mapeia um número real para um intervalo de 0,1.
Formulação / notação 2, :
Escolher uma notação é como escolher um idioma, existem prós e contras para usar um ou outro. Quais são os prós e os contras dessas duas notações?
Minhas tentativas de responder a essa pergunta são: parece que a comunidade estatística gosta da primeira notação e a comunidade da ciência da computação gosta da segunda notação.
- A primeira notação pode ser explicada com o termo "probabilidade", pois a função logística transforma um número real em um intervalo de 0,1.
- E a segunda notação é mais concisa e é mais fácil comparar com perda de dobradiça ou perda de 0-1.
Estou certo? Alguma outra visão?
Respostas:
A versão curta
A versão longa
O bom da modelagem matemática é que ela é flexível. Essas são realmente funções de perda equivalentes, mas derivam de modelos subjacentes muito diferentes dos dados.
Fórmula 1
A primeira notação deriva de um modelo de probabilidade de Bernoulli para , que é definido convencionalmente em { 0 , 1 } . Nesse modelo, o resultado / etiqueta / classe / previsão é representado por uma variável aleatória que segue uma distribuição . Portanto, sua probabilidade é: P ( Y = y | p ) = L ( p ; y ) = p y ( 1 - p ) 1 - y =y {0,1} B e r n o u l l i ( p )Y Bernoulli(p)
para . Usar 0 e 1 como valores do indicador nos permite reduzir a função por partes no extremo direito para uma expressão concisa.p∈[0,1]
Como você apontou, é possível vincular a uma matriz de dados de entrada x deixando logit p = β T x . A partir daqui, a manipulação algébrica direta revela que o log L ( p ; y ) é o mesmo que o primeiro L ( y , β T x ) na sua pergunta (dica: ( y - 1 ) = - ( 1 - y ) ). Portanto, minimizando a perda de log em { 0 ,Y x logitp=βTx logL(p;y) L(y,βTx) (y−1)=−(1−y) é equivalente à estimativa de máxima verossimilhança de um modelo de Bernoulli.{0,1}
Esta formulação é também um caso especial do modelo linear generalizado , que é formulada como para uma invertível, diferenciável função g e uma distribuição de D na família exponencial .Y∼D(θ), g(Y)=βTx g D
Fórmula 2
Na verdade .. não estou familiarizado com a Fórmula 2. No entanto, definir em { - 1 , 1 } é padrão na formulação de uma máquina de vetores de suporte . Ajustar um SVM corresponde a maximizar max ( { 0 , 1 - y β T x } ) + λ ″ β ″ 2 .y {−1,1}
fonte
Acho que o @ssdecontrol teve uma resposta muito boa. Eu só quero adicionar alguns comentários para a fórmula 2 para minha própria pergunta.
A razão pela qual as pessoas gostam dessa formulação é que ela é muito concisa e remove os "detalhes da interpretação da probabilidade".
fonte