Função de custo SVM: definições antigas e novas

Estou tentando reconciliar diferentes definições da função de custo / perda do SVM de margem flexível na forma primária. Existe um operador "max ()" que eu não entendo.

Eu aprendi sobre o SVM há muitos anos no livro de graduação em nível " Introdução à mineração de dados " de Tan, Steinbach e Kumar, 2006. Ele descreve a função de custo do SVM de forma branda no capítulo 5, p. 267-268. Observe que não há menção a um operador max ().

Isso pode ser feito introduzindo variáveis de folga com valor positivo ( ) nas restrições do problema de otimização. ... A função objetivo modificada é dada pela seguinte equação: $\xi$

$f(\mathbf{w}) = \frac{\left \| \mathbf{w} \right \|^2}{2} + C(\sum_{i=1}^{N} \xi)^k$

onde $C$ e $k$ são parâmetros especificados pelo usuário que representam a penalidade de classificar incorretamente as instâncias de treinamento. Para o restante desta seção, assumimos $k$ = 1 para simplificar o problema. O parâmetro $C$ pode ser escolhido com base no desempenho do modelo no conjunto de validação.

Daqui resulta que o Lagrangiano para esse problema de otimização restrita pode ser escrito da seguinte maneira:

$L_{p} = \frac{\left \| \mathbf{w} \right \|^2}{2} + C(\sum_{i=1}^{N} \xi)^k - \sum_{i=1}^{N} \lambda_i (y_i (\mathbf{w} \cdot \mathbf{x_i} + b) - 1 + \xi_i) - \sum_{i=1}^{N} \mu_i \xi_i$

onde os dois primeiros termos são a função objetivo a ser minimizada, o terceiro termo representa as restrições de desigualdade associadas às variáveis de folga, e o último termo é o resultado dos requisitos de não negatividade nos valores dos $\xi_i$ 's.

Então isso foi de um livro de 2006.

Agora (em 2016), comecei a ler material mais recente no SVM. Na classe Stanford para reconhecimento de imagem , a forma primária da margem macia é declarada de uma maneira muito diferente:

Relação com a máquina de vetor de suporte binário. Você pode estar chegando a essa classe com experiência anterior com Máquinas de Vetor de Suporte Binário, onde a perda para o i-ésimo exemplo pode ser escrita como:

Da mesma forma, no artigo da Wikipedia sobre SVM , a função de perda é fornecida como:

De onde vem essa função "max"? Está contido nas duas primeiras fórmulas da versão "Introdução à mineração de dados"? Como conciliar as formulações antiga e nova? Esse livro está simplesmente desatualizado?

machine-learning classification svm data-mining loss-functions stackoverflowuser2010
fonte

A variável de folga é definida da seguinte forma (figura em Reconhecimento de padrões e Machine Learning). $\xi$

$\xi_i = 1- y_i(\omega x_i+b)$ se estiver no lado errado da margem (ou seja, ), caso contrário. $x_i$ $1- y_i(\omega x_i+b)>0$ $\xi_i=0$

Assim . $\xi_i=max(0, 1- y_i(\omega x_i+b))\qquad(1)$

Portanto, minimizar a primeira definição sujeita a restrição (1) é equivalente a minimizar a segunda definição (regularizador + perda de dobradiça)

f (w) = \frac{{‖ w ‖}^{2}}{2} + C (\sum_{i = 1}^{N} ξ)^{k}

$f(\mathbf{w}) = \frac{\left \| \mathbf{w} \right \|^2}{2} + C(\sum_{i=1}^{N} \xi)^k$

R (w) + C \sum m a x (0, 1 - y_{i} (ω x_{i} + b)) .

$R(w)+C\sum max(0, 1- y_i(\omega x_i+b)).$

Há outra pergunta que pode estar relacionada. Entendendo as restrições dos SVMs no caso não separável? .

dontloo
fonte

u por favor pode explicar por que zeta_i = 1-yi (wx_i + b) ..se x_i está no lado errado

Milan Amrut Joshi

Pergunta @MilanAmrutJoshi bom, eu realmente não tenho pensado sobre isso, esperando para ver se há alguma resposta para a pergunta que você acabou de enviar

dontloo

@MilanAmrutJoshi Eu acredito que tem algo a ver com a margem, já que há um termo na perda, acho que é igual a "encontrar o limite que a distância de todos os pontos do lado errado da margem é o menor "

| | w | |^{2}

$||w||^2$

dontloo

Função de custo SVM: definições antigas e novas

Respostas: