Máquinas de vetores de suporte (SVMs) são o limite de temperatura zero da regressão logística?

8

Recentemente, tive uma rápida discussão com um amigo experiente que mencionou que os SVMs são o limite de temperatura zero da regressão logística. A lógica envolvia polítopos marginais e dualidade de fenchel. Eu não fui capaz de seguir.

Esta afirmação sobre SVMs é o limite de temperatura zero da regressão logística verdadeiro? E se sim, alguém pode descrever o argumento?

ted
fonte
Ambos estão relacionados, mas eu costumava pensar na regressão logística como melhor para obter a probabilidade de cada classe, enquanto os SVMs são melhores na decisão. Portanto, a regressão logística se encaixa perfeitamente na inferência bayesiana, proporcionando naturalmente um certo grau de confiança para cada classificação. Os SVMs, por outro lado, teriam uma escala melhor, pois apenas os vetores de suporte afetam a classificação. Estes são meus cinco centavos.
Ailton Andrade de Oliveira

Respostas:

5

No caso de SVM de margem rígida e dados linearmente separáveis, isso é verdade.

Um esboço intuitivo: a perda para cada ponto de dados na regressão logística desaparece quase como uma curva de decaimento exponencial à medida que você se afasta do limite de decisão (na direção correta, é claro). Essa decadência exponencial significa que os pontos mais próximos à fronteira sofrem muito mais perdas. À medida que a temperatura cai para 0, os pontos mais próximos do limite dominam completamente a perda, e a perda é determinada exatamente pela proximidade dos pontos mais próximos.

A regressão logística binária possui a perda de entropia cruzada: que é o rótulo é a probabilidade prevista em .y p ( 0 , 1 )-yregistrop-(1-y)registro(1-p)yp(0 0,1)

Normalmente, que é a função sigmóide. Com base no parâmetro de temperatura introduzido neste artigo , suspeito que a temperatura se refira a uma modificação da formulação: , onde é a temperatura e eu ' abandonei o termo tendencioso por simplicidade.σ p = σ ( w T xp=σ(WTx+b)στp=σ(WTxτ)τ

Considerando apenas o primeiro termo da perda, . Assuma todos , porque qualquer outra coisa significaria que está no lado errado do limite de decisão e incorreria em perda infinita como . Como o termo exponencial fica muito pequeno no limite, usamos a expansão taylor de primeira ordem para para escreverwTx>0xτ0log(1+z)-ylogpyexp(- w T x-yregistrop=yregistro(1+exp(-WTxτ))WTx>0 0xτ0 0registro(1+z)-yregistropyexp(-WTxτ)

Até agora, usamos apenas a perda para um único ponto de dados, mas a perda real é . Considere apenas rótulos positivos ( ). Então essa soma é dominada pelo termo em que é o menor (o mais próximo ao limite de decisão).yi=1wTxiEuyEuexp(-WTxEuτ)yEu=1WTxEu

Isso pode ser visto porque a razão entre o termo e o termo é que vai para o infinito ou 0 como , então somente o maior termo importa.j exp ( - w T x i / τ )Eujexp(-WTxEu/τ)exp(-WTxj/τ)=exp(WTxj-WTxEuτ)τ0 0WTxEu

Um argumento simétrico pode ser usado no segundo termo na perda.

Portanto, a perda do problema de regressão logística à medida que a temperatura chega a 0 é minimizada maximizando a distância mínima até o limite da decisão.

shimao
fonte