Quais são os impactos da escolha de diferentes funções de perda na classificação para aproximar a perda de 0-1

27

Sabemos que algumas funções objetivas são mais fáceis de otimizar e outras são difíceis. E há muitas funções de perda que queremos usar, mas difíceis de usar, por exemplo, perda de 0-1. Portanto, encontramos algumas funções de perda de proxy para fazer o trabalho. Por exemplo, usamos perda de dobradiça ou perda logística para "aproximar" a perda de 0-1.

A trama a seguir vem do livro PRML de Chris Bishop . A perda de dobradiça é plotada em azul, a perda de log em vermelho, a perda quadrada em verde e o erro 0/1 em preto.

insira a descrição da imagem aqui

Entendo que a razão pela qual temos esse projeto (para perdas de dobradiça e logística) é que queremos que a função objetivo seja convexa.

Ao observar a perda de dobradiça e a perda logística, ele penaliza mais as instâncias fortemente classificadas incorretamente e, curiosamente, também penaliza as instâncias classificadas corretamente se forem fracamente classificadas . É um design realmente estranho.

Minha pergunta é: quais são os preços que precisamos pagar usando diferentes "funções de perda de proxy", como perda de dobradiça e perda logística?

Haitao Du
fonte
Na regressão, escolher a perda ao quadrado é mais fácil de fazer a otimização em comparação à perda de valor absoluto. Mas a perda ao quadrado é mais sensível aos valores extremos. Então, também deve ser sensível a determinado tipo de dados?
Haitao Du 07/07
4
Uma solução mais fácil é desenvolver probabilidades previstas ideais que não exijam uma função de utilidade. A função de utilidade / perda pode ser aplicada posteriormente pelo tomador de decisão real. Classificação é equivalente a tomar a decisão para o tomador de decisão e requer muito conhecimento antecipadamente.
31716 Frank Frank Harrell
@FrankHarrell Obrigado, e estou usando a abordagem mencionada no trabalho, onde separamos a previsão e a operação comercial. No entanto, isso ainda não é otimizado como um todo, mas uma solução local ambiciosa e ambiciosa, certo? É uma "política de avestruz"?
Haitao Du 07/07
2
Pode não levar a decisões ótimas. A função de perda / utilidade / custo não vem dos preditores de modelo.
31716 Frank Fellowski
1
+1. Minimizar a perda logística corresponde a maximizar a probabilidade binomial. Minimizar a perda de erro ao quadrado corresponde a maximizar a probabilidade gaussiana (é apenas regressão OLS; para a classificação de duas classes é realmente equivalente à LDA). Você sabe se minimizar a perda de dobradiça corresponde a maximizar alguma outra probabilidade? Ou seja, existe algum modelo probabilístico correspondente à perda de dobradiça?
Ameba diz Reinstate Monica

Respostas:

16

Alguns dos meus pensamentos podem não estar corretos.

Entendo que a razão pela qual temos esse projeto (para perdas de dobradiça e logística) é que queremos que a função objetivo seja convexa.

A convexidade é certamente uma propriedade legal, mas acho que a razão mais importante é que queremos que a função objetivo tenha derivadas diferentes de zero , para que possamos usar as derivadas para resolvê-la. A função objetivo pode ser não convexa, caso em que frequentemente paramos em alguns pontos ótimos locais ou pontos de sela.

e, curiosamente, também penaliza as instâncias classificadas corretamente se forem fracamente classificadas. É um design realmente estranho.

Eu acho que esse design aconselha o modelo a não apenas fazer as previsões corretas, mas também ter confiança nas previsões. Se não queremos que as instâncias classificadas corretamente sejam punidas, podemos, por exemplo, mover a perda de dobradiça (azul) para a esquerda por 1, para que elas não obtenham mais perda. Mas acredito que isso muitas vezes leva a piores resultados na prática.

Quais são os preços que precisamos pagar usando diferentes "funções de perda de proxy", como perda de dobradiça e perda logística?

Na IMO, escolhendo diferentes funções de perda, estamos trazendo diferentes suposições para o modelo. Por exemplo, a perda de regressão logística (vermelha) assume uma distribuição de Bernoulli, a perda MSE (verde) assume um ruído gaussiano.


Seguindo o exemplo de mínimos quadrados vs. regressão logística no PRML, adicionei a perda de dobradiça para comparação. insira a descrição da imagem aqui

Como mostra a figura, a perda de dobradiça e a regressão logística / entropia cruzada / probabilidade de log / softplus têm resultados muito próximos, porque suas funções objetivas são próximas (figura abaixo), enquanto o MSE geralmente é mais sensível aos valores extremos. A perda de dobradiça nem sempre tem uma solução única porque não é estritamente convexa.

insira a descrição da imagem aqui

No entanto, uma propriedade importante da perda de dobradiça é que os pontos de dados distantes do limite de decisão não contribuem para a perda; a solução será a mesma com os pontos removidos.

Os pontos restantes são chamados vetores de suporte no contexto do SVM. Enquanto o SVM usa um termo regularizador para garantir a propriedade de margem máxima e uma solução exclusiva.

dontloo
fonte
Obrigado pela resposta. É possível criar algumas demos para mostrar intuitivamente o impacto de diferentes perdas? Assim como mostramos o impacto de outliers de regressão usando perda ao quadrado vs. menos perda absoluta.
Haitao Du
@ hxd1011 de nada, vou tentar adicionar algumas demos mais tarde.
dontloo
2
A perda de dobradiça é convexa ...
Mustafa S Eisa
1
@ MustafaM.Eisa bem, obrigado, eu não quis dizer estritamente convexa ..
dontloo
@dontloo great simulation! Obrigado. Também tentarei fazer upload de algumas das minhas simulações mais tarde.
Haitao Du
6

Publicando uma resposta tardia, pois existe uma resposta muito simples que ainda não foi mencionada.

Quais são os preços que precisamos pagar usando diferentes "funções de perda de proxy", como perda de dobradiça e perda logística?

Quando você substitui a função de perda não convexa de 0-1 por uma substituta convexa (por exemplo, perda de dobradiça), agora está resolvendo um problema diferente daquele que você pretendia resolver (que é minimizar o número de erros de classificação). Assim, você obtém rastreabilidade computacional (o problema se torna convexo, o que significa que você pode resolvê-lo eficientemente usando ferramentas de otimização convexa), mas no caso geral não há realmente nenhuma maneira de relacionar o erro do classificador que minimiza a perda de "proxy" e a erro do classificador que minimiza a perda de 0-1 . Se você realmente se importava em minimizar o número de erros de classificação, eu argumento que esse é realmente um preço alto a pagar.

D

galoosh33
fonte
1

Idealmente, sua função de perda deve refletir a perda real incorrida pelos negócios. Por exemplo, se você estiver classificando mercadorias danificadas, a perda de classificação incorreta pode ser assim:

  • marcação de produtos danificados que não foram: perda de lucro com a venda potencial
  • não marcar mercadorias danificadas que foram danificadas: custo do processamento da devolução
Aksakal
fonte