Eu queria saber se era possível treinar um SVM (digamos um linear, para facilitar as coisas) usando a retropropagação?
Atualmente, estou em um obstáculo, porque só consigo pensar em escrever a saída do classificador como
Portanto, quando tentamos calcular o "retrocesso" (erro propagado), obtemos desde a derivada de é sgn(x)dsgn(x)
Da mesma forma, descobrimos que , o que significa que não podemos devolver nenhuma informação ou executar atualizações gradientes!
O que da?
Se você estiver interessado apenas no caso linear, a regressão logística (LR) é uma escolha melhor, pois é tanto convexa quanto analítica (você pode aumentar o valor se estiver interessado na regularização). Mas quando você escolhe não-linear, é aí que a parte complicada entra em cena. Para casos não lineares, não há uma maneira razoável de manter as coisas tanto convexas quanto analíticas, você precisará sacrificar uma das duas. Nas redes neurais você sacrifica a convexidade e em svms você sacrifica o holomorfismo.
estritamente falando, não há diferença entre LR e SVM, svms apenas prevêem em qual lado da linha um ponto se encontra, os LRs também levam em consideração a que distância estão do limite (na linha da margem-limite, o sigmóide fornece a probabilidade 0,5 no caso de LR). Os SVMs são forçados a fazer esse compromisso porque, para os núcleos não lineares, a intuição da distância de um hiperplano curvo (variedade algébrica é um termo melhor) não é a mesma que no caso linear; na verdade, o problema de resolver a menor distância de uma hiper superfície até um ponto específico é muito difícil (mais difícil que o próprio SVM), mas, por outro lado, o Vapnik percebeu apenas prever em que lado do limite um ponto se encontra é muito fácil, como no tempo O (1). Esse é o verdadeiro insight por trás do SVM, tornando-o a única alternativa de otimização convexa disponível na teoria estatística da aprendizagem. Mas meu sentimento é que você sacrifica um pouco demais, tanto o holomorfismo quanto a natureza probabilística estão perdidos. Mas para casos específicos, como os SVMs de ponta, são muito confiáveis e também são modelos científicos totalmente falsificáveis, ao contrário de suas alternativas não convexas.
Tldr: sim, o teorema do valor médio é usado para resgatar funções não analíticas. Em casos convexos e não analíticos, o torema do valor médio se transforma em uma desigualdade, estabelecendo algumas condições de contorno nos subgrupos que usam para fazer um sub gradiente decente
fonte