Recentemente, tive uma rápida discussão com um amigo experiente que mencionou que os SVMs são o limite de temperatura zero da regressão logística. A lógica envolvia polítopos marginais e dualidade de fenchel. Eu não fui capaz de seguir.
Esta afirmação sobre SVMs é o limite de temperatura zero da regressão logística verdadeiro? E se sim, alguém pode descrever o argumento?
Respostas:
No caso de SVM de margem rígida e dados linearmente separáveis, isso é verdade.
Um esboço intuitivo: a perda para cada ponto de dados na regressão logística desaparece quase como uma curva de decaimento exponencial à medida que você se afasta do limite de decisão (na direção correta, é claro). Essa decadência exponencial significa que os pontos mais próximos à fronteira sofrem muito mais perdas. À medida que a temperatura cai para 0, os pontos mais próximos do limite dominam completamente a perda, e a perda é determinada exatamente pela proximidade dos pontos mais próximos.
A regressão logística binária possui a perda de entropia cruzada: que é o rótulo é a probabilidade prevista em .y p ( 0 , 1 )- yregistrop - ( 1 - y) log( 1 - p ) y p ( 0 , 1 )
Normalmente, que é a função sigmóide. Com base no parâmetro de temperatura introduzido neste artigo , suspeito que a temperatura se refira a uma modificação da formulação: , onde é a temperatura e eu ' abandonei o termo tendencioso por simplicidade.σ p = σ ( w T xp = σ( wTx + b ) σ τp = σ( wTxτ) τ
Considerando apenas o primeiro termo da perda, . Assuma todos , porque qualquer outra coisa significaria que está no lado errado do limite de decisão e incorreria em perda infinita como . Como o termo exponencial fica muito pequeno no limite, usamos a expansão taylor de primeira ordem para para escreverwTx>0xτ→0log(1+z)-ylogp≈yexp(- w T x- yregistrop = yregistro( 1 + exp( - wTxτ) )) WTx > 0 x τ→ 0 registro( 1 + z) - yregistrop ≈ yexp( - wTxτ)
Até agora, usamos apenas a perda para um único ponto de dados, mas a perda real é . Considere apenas rótulos positivos ( ). Então essa soma é dominada pelo termo em que é o menor (o mais próximo ao limite de decisão).yi=1wTxi∑EuyEuexp( - wTxEuτ) yEu= 1 WTxEu
Isso pode ser visto porque a razão entre o termo e o termo é que vai para o infinito ou 0 como , então somente o maior termo importa.j exp ( - w T x i / τ )Eu j exp( - wTxEu/ τ)exp( - wTxj/ τ)= exp( wTxj- wTxEuτ) τ→ 0 WTxEu
Um argumento simétrico pode ser usado no segundo termo na perda.
Portanto, a perda do problema de regressão logística à medida que a temperatura chega a 0 é minimizada maximizando a distância mínima até o limite da decisão.
fonte