Aqui está minha tentativa de responder às suas perguntas:
Um SVM é tão simples quanto dizer que é um classificador discriminativo que simplesmente otimiza a perda de dobradiça? Ou é mais complexo que isso? Sim, você pode dizer isso. Além disso, não esqueça que ele também regulariza o modelo. Eu não diria SVM é mais complexa do que isso, no entanto, é importante mencionar que todas essas escolhas (por exemplo dobradiça perda e eu2 regularização) têm interpretações matemáticas precisas e não são arbitrárias. É isso que torna os SVMs tão populares e poderosos. Por exemplo, a perda de charneira é um convexo e contínuo superior ligada à perda de tarefas que, para os problemas de classificação binária, é o 0 / 1 perda. Note-se que 0 / 1a perda é não convexa e descontínua. A convexidade da perda de dobradiça torna todo o objetivo do treinamento da SVM convexo. O fato de ser um limite superior à perda de tarefas garante que o minimizador do limite não tenha um valor ruim na perda de tarefas. eu2 regularização de L 2 pode ser geometricamente interpretada como o tamanho da margem.
Como os vetores de suporte entram em ação?
Os vetores de suporte desempenham um papel importante no treinamento de SVMs. Eles identificam o hiperplano de separação. Seja símbolo de um conjunto de treinamento e S V ( D ) ⊆ D seja o conjunto de vetores de suporte que você obtém treinando um SVM em D (suponha que todos os hiperparâmetros sejam corrigidos a priori). Se jogarmos fora todas as amostras não SV de D e treinarmos outro SVM (com os mesmos valores de hiperparâmetro) nas amostras restantes (ou seja, em S V ( D ) ), obteremos o mesmo classificador exato de antes!DSV( D ) ⊆ DDDSV( D )
d( w , D )WDWDd( w , D ) = min( x , y) ∈ DyWTx| | w | |2Wy∈ { + 1 , - 1 }
Por que você não pode ter SVMs profundos?
O objetivo SVM é convexo. Mais precisamente, é quadrático por partes; isso ocorre porque o regularizador é quadrático e a perda de dobradiça é linear por partes. Os objetivos do treinamento em modelos hierárquicos profundos, no entanto, são muito mais complexos. Em particular, eles não são convexos. Obviamente, é possível projetar um modelo discriminativo hierárquico com perda de dobradiça e regularização etc., mas não seria chamado de SVM. De fato, a perda de dobradiça é comumente usada em DNNs (Deep Neural Networks) para problemas de classificação.eu2eu2