perda de dobradiça vs vantagens e desvantagens / limitações da perda logística

14

A perda de dobradiça pode ser definida usando e a perda de log pode ser definida como $\text{max}(0, 1-y_i\mathbf{w}^T\mathbf{x}_i)$ $\text{log}(1 + \exp(-y_i\mathbf{w}^T\mathbf{x}_i))$

Tenho as seguintes perguntas:

Existem desvantagens da perda de dobradiça (por exemplo, sensível a valores discrepantes, como mencionado em http://www.unc.edu/~yfliu/papers/rsvm.pdf )?
Quais são as diferenças, vantagens e desvantagens de uma em relação à outra?

machine-learning svm loss-functions computer-vision user570593
fonte

22

A minimização da perda logarítmica leva a resultados probabilísticos bem comportados.

A perda de dobradiça leva a uma certa esparsidade (não garantida) no dual, mas não ajuda na estimativa de probabilidade. Em vez disso, ele pune erros de classificação (é por isso que é tão útil determinar margens): diminuir a perda de dobradiça vem com diminuir os erros de classificação nas margens.

Então, resumindo:

A perda logarítmica leva a uma melhor estimativa de probabilidade ao custo da precisão
A perda de dobradiça leva a uma melhor precisão e alguma esparsidade ao custo de muito menos sensibilidade em relação às probabilidades

Firebug
fonte

1

+1. Minimizar a perda logística corresponde à maximização da probabilidade binomial. Minimizar a perda de erro ao quadrado corresponde a maximizar a probabilidade gaussiana (é apenas regressão OLS; para a classificação de duas classes é realmente equivalente à LDA). Você sabe se minimizar a perda de dobradiça corresponde a maximizar alguma outra probabilidade? Ou seja, existe algum modelo probabilístico correspondente à perda de dobradiça?

Ameba diz Reinstate Monica

1

@amoeba É uma pergunta interessante, mas os SVMs não são inerentemente baseados em modelagem estatística. Dito isto, verifique esta resposta por Glen_b. Toda a discussão é sobre isso, mas para a dobradiça insensível ao epsilon.

Firebug 28/03

4

O @Firebug teve uma boa resposta (+1). De fato, eu tive uma pergunta semelhante aqui.

Quais são os impactos da escolha de diferentes funções de perda na classificação para aproximar a perda de 0-1

Eu só quero acrescentar mais outras grandes vantagens da perda logística: interpretação probabilística. Um exemplo pode ser encontrado aqui

Especificamente, a regressão logística é um modelo clássico na literatura estatística. (Consulte, O que o nome "Regressão logística" significa? Para a nomeação.) Há muitos conceitos importantes relacionados à perda logística, como maximizar a estimativa de probabilidade de log, testes de razão de verossimilhança e suposições sobre binômios. Aqui estão algumas discussões relacionadas.

Teste da razão de verossimilhança em R

Por que a regressão logística não é chamada de Classificação Logística?

Existe alguma suposição sobre regressão logística?

Diferença entre os modelos logit e probit

Haitao Du
fonte

1

Como o @ hxd1011 adicionou uma vantagem da entropia cruzada, adicionarei uma desvantagem.

O erro de entropia cruzada é uma das muitas medidas de distância entre distribuições de probabilidade, mas uma desvantagem é que as distribuições com caudas longas podem ser modeladas de maneira inadequada, com muito peso dado aos eventos improváveis.

Aerin
fonte

perda de dobradiça vs vantagens e desvantagens / limitações da perda logística

Respostas: