Qual é a relação entre um SVM e uma perda de dobradiça?

9

Meu colega e eu estamos tentando entender a diferença entre regressão logística e SVM. Claramente, eles estão otimizando diferentes funções objetivas. Um SVM é tão simples quanto dizer que é um classificador discriminativo que simplesmente otimiza a perda de dobradiça? Ou é mais complexo que isso? Como os vetores de suporte entram em ação? E as variáveis ​​de folga? Por que você não pode ter SVMs profundos da mesma maneira que você não pode ter uma rede neural profunda com funções de ativação sigmóide?

Simon
fonte

Respostas:

10

Aqui está minha tentativa de responder às suas perguntas:

  • Um SVM é tão simples quanto dizer que é um classificador discriminativo que simplesmente otimiza a perda de dobradiça? Ou é mais complexo que isso? Sim, você pode dizer isso. Além disso, não esqueça que ele também regulariza o modelo. Eu não diria SVM é mais complexa do que isso, no entanto, é importante mencionar que todas essas escolhas (por exemplo dobradiça perda e eu2 regularização) têm interpretações matemáticas precisas e não são arbitrárias. É isso que torna os SVMs tão populares e poderosos. Por exemplo, a perda de charneira é um convexo e contínuo superior ligada à perda de tarefas que, para os problemas de classificação binária, é o 0 0/1 perda. Note-se que 0 0/1a perda é não convexa e descontínua. A convexidade da perda de dobradiça torna todo o objetivo do treinamento da SVM convexo. O fato de ser um limite superior à perda de tarefas garante que o minimizador do limite não tenha um valor ruim na perda de tarefas. eu2 regularização de L 2 pode ser geometricamente interpretada como o tamanho da margem.

  • Como os vetores de suporte entram em ação? Os vetores de suporte desempenham um papel importante no treinamento de SVMs. Eles identificam o hiperplano de separação. Seja símbolo de um conjunto de treinamento e S V ( D ) D seja o conjunto de vetores de suporte que você obtém treinando um SVM em D (suponha que todos os hiperparâmetros sejam corrigidos a priori). Se jogarmos fora todas as amostras não SV de D e treinarmos outro SVM (com os mesmos valores de hiperparâmetro) nas amostras restantes (ou seja, em S V ( D ) ), obteremos o mesmo classificador exato de antes!DSV(D)DDDSV(D)

  • d(W,D)WDWDd(W,D)=min(x,y)DyWTx||W||2Wy{+1,-1}

  • Por que você não pode ter SVMs profundos? O objetivo SVM é convexo. Mais precisamente, é quadrático por partes; isso ocorre porque o regularizador é quadrático e a perda de dobradiça é linear por partes. Os objetivos do treinamento em modelos hierárquicos profundos, no entanto, são muito mais complexos. Em particular, eles não são convexos. Obviamente, é possível projetar um modelo discriminativo hierárquico com perda de dobradiça e regularização etc., mas não seria chamado de SVM. De fato, a perda de dobradiça é comumente usada em DNNs (Deep Neural Networks) para problemas de classificação.eu2eu2

Sobi
fonte