perda de dobradiça vs vantagens e desvantagens / limitações da perda logística

14

A perda de dobradiça pode ser definida usando e a perda de log pode ser definida como log ( 1 + exp ( - y i w T x i ) )max(0 0,1-yEuWTxEu)registro(1+exp(-yEuWTxEu))

Tenho as seguintes perguntas:

  1. Existem desvantagens da perda de dobradiça (por exemplo, sensível a valores discrepantes, como mencionado em http://www.unc.edu/~yfliu/papers/rsvm.pdf )?

  2. Quais são as diferenças, vantagens e desvantagens de uma em relação à outra?

user570593
fonte

Respostas:

22

A minimização da perda logarítmica leva a resultados probabilísticos bem comportados.

A perda de dobradiça leva a uma certa esparsidade (não garantida) no dual, mas não ajuda na estimativa de probabilidade. Em vez disso, ele pune erros de classificação (é por isso que é tão útil determinar margens): diminuir a perda de dobradiça vem com diminuir os erros de classificação nas margens.

Então, resumindo:

  • A perda logarítmica leva a uma melhor estimativa de probabilidade ao custo da precisão

  • A perda de dobradiça leva a uma melhor precisão e alguma esparsidade ao custo de muito menos sensibilidade em relação às probabilidades

Firebug
fonte
1
+1. Minimizar a perda logística corresponde à maximização da probabilidade binomial. Minimizar a perda de erro ao quadrado corresponde a maximizar a probabilidade gaussiana (é apenas regressão OLS; para a classificação de duas classes é realmente equivalente à LDA). Você sabe se minimizar a perda de dobradiça corresponde a maximizar alguma outra probabilidade? Ou seja, existe algum modelo probabilístico correspondente à perda de dobradiça?
Ameba diz Reinstate Monica
1
@amoeba É uma pergunta interessante, mas os SVMs não são inerentemente baseados em modelagem estatística. Dito isto, verifique esta resposta por Glen_b. Toda a discussão é sobre isso, mas para a dobradiça insensível ao epsilon.
Firebug 28/03
4

O @Firebug teve uma boa resposta (+1). De fato, eu tive uma pergunta semelhante aqui.

Quais são os impactos da escolha de diferentes funções de perda na classificação para aproximar a perda de 0-1

Eu só quero acrescentar mais outras grandes vantagens da perda logística: interpretação probabilística. Um exemplo pode ser encontrado aqui

Especificamente, a regressão logística é um modelo clássico na literatura estatística. (Consulte, O que o nome "Regressão logística" significa? Para a nomeação.) Há muitos conceitos importantes relacionados à perda logística, como maximizar a estimativa de probabilidade de log, testes de razão de verossimilhança e suposições sobre binômios. Aqui estão algumas discussões relacionadas.

Teste da razão de verossimilhança em R

Por que a regressão logística não é chamada de Classificação Logística?

Existe alguma suposição sobre regressão logística?

Diferença entre os modelos logit e probit

Haitao Du
fonte
1

Como o @ hxd1011 adicionou uma vantagem da entropia cruzada, adicionarei uma desvantagem.

O erro de entropia cruzada é uma das muitas medidas de distância entre distribuições de probabilidade, mas uma desvantagem é que as distribuições com caudas longas podem ser modeladas de maneira inadequada, com muito peso dado aos eventos improváveis.

Aerin
fonte