No entanto, para o SVM de margem rígida, toda a função objetivo é apenas
Isso significa que o SVM de margem rígida apenas minimiza um regularizador sem nenhuma função de perda? Isso parece muito estranho.
Bem, se é a função de perda nesse caso, podemos chamá-la de função de perda quadrática? Em caso afirmativo, por que a função de perda do SVM de margem rígida se torna regularizada no SVM de margem flexível e faz a alteração de perda quadrática para perda de dobradiça?
svm
loss-functions
Roun
fonte
fonte
Respostas:
O termo de perda de dobradiça∑imax(0,1−yi(w⊺xi+b)) na margem flexível SVM penaliza erros de classificação . No SVM de margem rígida, por definição, não há erros de classificação.
Isso realmente significa que o SVM de margem rígida tenta minimizar∥w∥2 . Devido à formulação do problema SVM, a margem é 2/∥w∥ . Assim, minimizar a norma w é geometricamente equivalente a maximizar a margem. Exatamente o que queremos!
A regularização é uma técnica para evitar ajustes excessivos, penalizando grandes coeficientes no vetor de solução. Na margem rígida, SVM é a função de perda e um regularizador .∥w∥2 L2
No SVM de margem flexível, o termo de perda de dobradiça também atua como um regularizador, mas nas variáveis de folga em vez de e em e não em . regularização induz a , razão pela qual o SVM padrão é escasso em termos de vetores de suporte (em contraste com o SVM de mínimos quadrados).w L1 L2 L1
fonte
Apenas para esclarecer, é minimizado sujeito à restrição de que os pontos são linearmente separáveis (ou seja, é possível desenhar um hiperplano que separa perfeitamente os dois). Em outras palavras, os únicos valores permitidos de w que podemos considerar como soluções são aqueles que separam os dois conjuntos de pontos.12∥w∥2
Agora, acredita-se que o SVM de margem rígida "superaiba" mais facilmente do que a margem flexível. É mais fácil imaginar isso com um RBF SVM com alto o suficiente , o que pode criar limites de decisão (excessivamente) complicados e (potencialmente) excessivamente ajustados. Quanto mais difícil a margem (emulada imprecisa com um "C" mais alto)), mais difícil a pesquisa tentará encontrar limites de decisão que classifiquem perfeitamente os dois conjuntos de pontos.γ
Quando passamos para a "margem suave", as restrições são relaxadas e substituídas por uma restrição pela introdução de "folga". Essa variável de folga é definida com o termo "perda de dobradiça". Após a simplificação, chega-se à dobradiça + l2 como termo de perda que todos associam aos SVMs. FWIW, gosto de enquadrar os SVMs como mais um problema de otimização, em vez do onipresente "siga os gradientes".
fonte