Qual é a função de perda do SVM de margem rígida?

23

max(0,1yi(wxi+b))

12w2+Cimax(0,1yi(wxi+b))
w2max(0,1yi(wxi+b))

No entanto, para o SVM de margem rígida, toda a função objetivo é apenas

12w2
Isso significa que o SVM de margem rígida apenas minimiza um regularizador sem nenhuma função de perda? Isso parece muito estranho.

Bem, se 12w2 é a função de perda nesse caso, podemos chamá-la de função de perda quadrática? Em caso afirmativo, por que a função de perda do SVM de margem rígida se torna regularizada no SVM de margem flexível e faz a alteração de perda quadrática para perda de dobradiça?

Roun
fonte
Pelo que entendi, margem rígida significa que você não aceita dados na sua margem. Como consequência, max (0, cálculo) retornará sempre 0.
fxm

Respostas:

26

O termo de perda de dobradiça imax(0,1yi(wxi+b)) na margem flexível SVM penaliza erros de classificação . No SVM de margem rígida, por definição, não há erros de classificação.

Isso realmente significa que o SVM de margem rígida tenta minimizar w2 . Devido à formulação do problema SVM, a margem é 2/w. Assim, minimizar a norma w é geometricamente equivalente a maximizar a margem. Exatamente o que queremos!

A regularização é uma técnica para evitar ajustes excessivos, penalizando grandes coeficientes no vetor de solução. Na margem rígida, SVM é a função de perda e um regularizador .w2L2

No SVM de margem flexível, o termo de perda de dobradiça também atua como um regularizador, mas nas variáveis ​​de folga em vez de e em e não em . regularização induz a , razão pela qual o SVM padrão é escasso em termos de vetores de suporte (em contraste com o SVM de mínimos quadrados).wL1L2L1

Marc Claesen
fonte
Você pode explicar os dois últimos parágrafos com mais detalhes e matemática?
Nain
0

Apenas para esclarecer, é minimizado sujeito à restrição de que os pontos são linearmente separáveis ​​(ou seja, é possível desenhar um hiperplano que separa perfeitamente os dois). Em outras palavras, os únicos valores permitidos de w que podemos considerar como soluções são aqueles que separam os dois conjuntos de pontos.

12w2

Agora, acredita-se que o SVM de margem rígida "superaiba" mais facilmente do que a margem flexível. É mais fácil imaginar isso com um RBF SVM com alto o suficiente , o que pode criar limites de decisão (excessivamente) complicados e (potencialmente) excessivamente ajustados. Quanto mais difícil a margem (emulada imprecisa com um "C" mais alto)), mais difícil a pesquisa tentará encontrar limites de decisão que classifiquem perfeitamente os dois conjuntos de pontos.γ

Quando passamos para a "margem suave", as restrições são relaxadas e substituídas por uma restrição pela introdução de "folga". Essa variável de folga é definida com o termo "perda de dobradiça". Após a simplificação, chega-se à dobradiça + l2 como termo de perda que todos associam aos SVMs. FWIW, gosto de enquadrar os SVMs como mais um problema de otimização, em vez do onipresente "siga os gradientes".

Ishan Patel
fonte