Como treinar um SVM via retropropagação?

10

Eu queria saber se era possível treinar um SVM (digamos um linear, para facilitar as coisas) usando a retropropagação?

Atualmente, estou em um obstáculo, porque só consigo pensar em escrever a saída do classificador como

f (x; θ, b) = sgn (θ \cdot x - (b + 1 1)) = sgn (g (x; θ, b))

$f(\mathbf{x};\theta,b) = \text{sgn}(\theta\cdot\mathbf{x} - (b+1)) = \text{sgn}(g(\mathbf{x};\theta,b))$

Portanto, quando tentamos calcular o "retrocesso" (erro propagado), obtemos desde a derivada de é

\begin{aligned} \frac{\partial E}{\partial x} & = \frac{\partial E}{\partial f (x; θ, b)} \frac{\partial f (x; θ, b)}{x} \\ = \frac{\partial E}{\partial f (x; θ, b)} \frac{\partial sgn (g (x; θ, b))}{\partial g (x; θ, b)} \frac{\partial g (x; θ, b)}{\partial x} \\ = δ \frac{d sgn (z)}{d z} θ \\ = δ \cdot 0 0 \cdot θ \\ = 0 0 \end{aligned}

$\begin{align} \frac{\partial E}{\partial \mathbf{x}} &= \frac{\partial E}{\partial f(\mathbf{x};\theta,b)} \frac{\partial f(\mathbf{x};\theta,b)}{\mathbf{x}} \\ &= \frac{\partial E}{\partial f(\mathbf{x};\theta,b)} \frac{\partial \text{sgn}(g(\mathbf{x};\theta,b))}{\partial g(\mathbf{x};\theta,b)} \frac{\partial g(\mathbf{x};\theta,b)}{\partial \mathbf{x}} \\ &= \delta \, \frac{d \text{sgn}(z)}{dz} \, \theta \\ &= \delta \cdot 0 \cdot \theta \\ &= \mathbf{0} \end{align}$

sgn (x)

$\text{sgn}(x)$

\frac{d sgn (x)}{d x} = {\begin{cases} 0 0 & E se x \neq 0 0 \\ 2 δ (x) & E se x = 0 0 \end{cases}

$\frac{d\text{sgn}(x)}{dx} = \begin{cases} 0 &\text{if $x \neq 0$}\\ 2\delta(x) &\text{if $x=0$} \end{cases}$

Da mesma forma, descobrimos que , o que significa que não podemos devolver nenhuma informação ou executar atualizações gradientes! $\partial E/\partial \theta = \partial E /\partial b = 0$

O que da?

machine-learning neural-networks svm gradient-descent backpropagation StevieP
fonte

14

Você está certo de que, se tentar otimizar diretamente a precisão do SVM em casos de treinamento, também chamada perda de 0-1, o gradiente desaparecerá. É por isso que as pessoas não fazem isso. :)

O que você está tentando fazer, no entanto, ainda não é realmente um SVM; é apenas um classificador linear geral. Um SVM em particular surge quando você substitui a função de perda de 0-1 por um substituto convexo conhecido como perda de dobradiça ; isso equivale à idéia de maximização da margem, que é essencial para a idéia de um SVM. Essa função de perda é (quase) diferenciável; o único problema é se alguma saída está exatamente no ponto de articulação, o que (a) acontece com probabilidade zero nas suposições mais razoáveis e (b) então você pode simplesmente usar 0 ou 1 como derivada (ou qualquer outro meio), em Nesse caso, você está tecnicamente fazendo descida de subgradiente.

Como você está falando de retropropagação, presumo que você esteja pelo menos um pouco familiarizado com a otimização de redes neurais. O mesmo problema ocorre com os classificadores de rede neural também; é por isso que as pessoas também usam outras funções de perda.

Dougal
fonte

A x + b

$A \mathbf{x} + b$

11

Sim, um SVM linear é basicamente equivalente a um NN de 1 camada com ativação linear no nó de saída e treinado por perda de dobradiça.

Dougal

5

Se você estiver interessado apenas no caso linear, a regressão logística (LR) é uma escolha melhor, pois é tanto convexa quanto analítica (você pode aumentar o valor se estiver interessado na regularização). Mas quando você escolhe não-linear, é aí que a parte complicada entra em cena. Para casos não lineares, não há uma maneira razoável de manter as coisas tanto convexas quanto analíticas, você precisará sacrificar uma das duas. Nas redes neurais você sacrifica a convexidade e em svms você sacrifica o holomorfismo.

estritamente falando, não há diferença entre LR e SVM, svms apenas prevêem em qual lado da linha um ponto se encontra, os LRs também levam em consideração a que distância estão do limite (na linha da margem-limite, o sigmóide fornece a probabilidade 0,5 no caso de LR). Os SVMs são forçados a fazer esse compromisso porque, para os núcleos não lineares, a intuição da distância de um hiperplano curvo (variedade algébrica é um termo melhor) não é a mesma que no caso linear; na verdade, o problema de resolver a menor distância de uma hiper superfície até um ponto específico é muito difícil (mais difícil que o próprio SVM), mas, por outro lado, o Vapnik percebeu apenas prever em que lado do limite um ponto se encontra é muito fácil, como no tempo O (1). Esse é o verdadeiro insight por trás do SVM, tornando-o a única alternativa de otimização convexa disponível na teoria estatística da aprendizagem. Mas meu sentimento é que você sacrifica um pouco demais, tanto o holomorfismo quanto a natureza probabilística estão perdidos. Mas para casos específicos, como os SVMs de ponta, são muito confiáveis e também são modelos científicos totalmente falsificáveis, ao contrário de suas alternativas não convexas.

Tldr: sim, o teorema do valor médio é usado para resgatar funções não analíticas. Em casos convexos e não analíticos, o torema do valor médio se transforma em uma desigualdade, estabelecendo algumas condições de contorno nos subgrupos que usam para fazer um sub gradiente decente

Franck Dernoncourt
fonte

11

O que LR significa para você?

Sycorax diz Restabelecer Monica em

@Sycorax regressão logística

Franck Dernoncourt

Como treinar um SVM via retropropagação?

Respostas: