Otimizando uma máquina de vetores de suporte com programação quadrática

Estou tentando entender o processo de treinamento de uma máquina de vetores de suporte linear . Percebo que as propriedades dos SMVs permitem que elas sejam otimizadas muito mais rapidamente do que usando um solucionador de programação quadrática, mas, para fins de aprendizado, gostaria de ver como isso funciona.

Dados de treinamento

set.seed(2015)
df <- data.frame(X1=c(rnorm(5), rnorm(5)+5), X2=c(rnorm(5), rnorm(5)+3), Y=c(rep(1,5), rep(-1, 5)))
df
           X1       X2  Y
1  -1.5454484  0.50127  1
2  -0.5283932 -0.80316  1
3  -1.0867588  0.63644  1
4  -0.0001115  1.14290  1
5   0.3889538  0.06119  1
6   5.5326313  3.68034 -1
7   3.1624283  2.71982 -1
8   5.6505985  3.18633 -1
9   4.3757546  1.78240 -1
10  5.8915550  1.66511 -1

library(ggplot2)
ggplot(df, aes(x=X1, y=X2, color=as.factor(Y)))+geom_point()

Localizando o hiperplano de margem máxima

De acordo com este artigo da Wikipedia sobre SVMs , para encontrar o hiperplano de margem máxima que preciso resolver

\arg min_{(w, b)} \frac{1}{2} ‖ w ‖^{2}

$\arg\min_{(\mathbf{w},b)}\frac{1}{2}\|\mathbf{w}\|^2$ sujeito a (para qualquer i = 1, ..., n)

y_{i} (w \cdot x_{i} - b) \geq 1.

$y_i(\mathbf{w}\cdot\mathbf{x_i} - b) \ge 1.$

Como conecto meus dados de amostra a um solucionador de QP no R (por exemplo, quadprog ) para determinar ? $\mathbf{w}$

r svm optimization Ben
fonte

Você tem que resolver o problema duplo

@fcop você pode elaborar? Qual é o dual neste caso? Como faço para resolver usando R? etc.

Ben

Respostas:

DICA :

Quadprog resolve o seguinte:

\begin{aligned} min_{x} d^{T} x + 1 / 2 x^{T} D x \\ such that A^{T} x \geq x_{0} \end{aligned}

$\begin{align*} \min_x d^T x + 1/2 x^T D x\\ \text{such that }A^T x \geq x_0 \end{align*}$

Considere

x = (\begin{matrix} w \\ b \end{matrix}) and D = (\begin{matrix} I & 0 \\ 0 & 0 \end{matrix})

$x = \begin{pmatrix} w\\ b \end{pmatrix} \text{and } D=\begin{pmatrix} I & 0\\ 0 & 0 \end{pmatrix}$

onde sou a matriz de identidade. $I$

Se for e for : $w$ $p \times 1$ $y$ $n \times 1$

\begin{aligned} x & : (2 p + 1) \times 1 \\ D & : (2 p + 1) \times (2 p + 1) \end{aligned}

$\begin{align*} x &: (2p+1) \times 1 \\ D &: (2p+1) \times (2p+1) \end{align*}$

Em linhas semelhantes:

x_{0} = {(\begin{matrix} 1 \\ 1 \end{matrix})}_{n \times 1}

$x_0 = \begin{pmatrix} 1\\ 1 \end{pmatrix}_{n \times 1}$

Formule usando as dicas acima para representar sua restrição de desigualdade. $A$

direitos
fonte

Estou perdido. o que é ?

d^{T}

$d^T$

Ben

Qual é o coeficiente de na sua função objetiva? Não mas ?

w

$w$

| | w | |_{2}^{2}

$||w||^2_2$

w

$w$

precisa saber é o seguinte

Agradecemos a ajuda. Eu pensei que tinha descoberto isso, mas quando defino D = a matriz que você sugere, quadprogretorna o erro "matriz D na função quadrática não é positiva definida!"

Ben

HACK: Perturb , adicionando um pequeno valor, digamos na diagonal

D

$D$

1 e - 6

$1e-6$

rightskewed

Seguindo as dicas de rightskewed ...

library(quadprog)

# min(−dvec^T b + 1/2 b^T Dmat b) with the constraints Amat^T b >= bvec)
Dmat       <- matrix(rep(0, 3*3), nrow=3, ncol=3)
diag(Dmat) <- 1
Dmat[nrow(Dmat), ncol(Dmat)] <- .0000001
dvec       <- rep(0, 3)
Amat       <- as.matrix(df[, c("X1", "X2")])
Amat <- cbind(Amat, b=rep(-1, 10))
Amat <- Amat * df$Y
bvec       <- rep(1, 10)
solve.QP(Dmat,dvec,t(Amat),bvec=bvec)

plotMargin <- function(w = 1*c(-1, 1), b = 1){
  x1 = seq(-20, 20, by = .01)
  x2 = (-w[1]*x1 + b)/w[2]
  l1 = (-w[1]*x1 + b + 1)/w[2]
  l2 = (-w[1]*x1 + b - 1)/w[2]
  dt <- data.table(X1=x1, X2=x2, L1=l1, L2=l2)
  ggplot(dt)+geom_line(aes(x=X1, y=X2))+geom_line(aes(x=X1, y=L1), color="blue")+geom_line(aes(x=X1, y=L2), color="green")+
    geom_hline(yintercept=0, color="red")+geom_vline(xintercept=0, color="red")+xlim(-5, 5)+ylim(-5, 5)+
    labs(title=paste0("w=(", w[1], ",", w[2], "), b=", b))
}

plotMargin(w=c(-0.5065, -0.2525), b=-1.2886)+geom_point(data=df, aes(x=X1, y=X2, color=as.factor(Y)))

Ben
fonte