Eu li sobre SVMs e aprendi que eles estão resolvendo um problema de otimização e a idéia de margem máxima era muito razoável.
Agora, usando kernels, eles podem encontrar limites de separação não lineares, o que foi ótimo.
Até agora, eu realmente não tenho nenhuma idéia de como SVMs (uma máquina especial do kernel) e máquinas do kernel estão relacionadas a redes neurais?
Considere os comentários de Yann Lecun => aqui :
kernel methods were a form of glorified template matching
e aqui também :
Por exemplo, algumas pessoas ficaram deslumbradas com os métodos do kernel por causa da matemática fofa que o acompanha. Mas, como eu disse no passado, no final, as máquinas do kernel são redes rasas que realizam "correspondência glorificada de modelos". Não há nada de errado nisso (o SVM é um ótimo método), mas há terríveis limitações que todos devemos estar cientes.
Então, minhas perguntas são:
- Como o SVM está relacionado à rede neural? Como é uma rede rasa?
- O SVM resolve um problema de otimização com uma função objetivo bem definida, como está fazendo a correspondência de modelos? Qual é o modelo aqui para o qual uma entrada é correspondida?
Eu acho que esses comentários precisam de uma compreensão completa dos espaços de alta dimensão, redes neurais e máquinas de kernel, mas até agora eu tenho tentado e não consegui entender a lógica por trás disso. Mas é certamente interessante observar as conexões entre duas técnicas ml muito muito diferentes.
Edição: Eu acho que entender SVMs de uma perspectiva neural seria ótimo. Estou procurando uma resposta completa em matemática para as duas perguntas acima, de modo a realmente entender o vínculo entre SVMs e redes neurais, ambos no caso de SVM linear e SVM com o truque do kernel.
Respostas:
O SVM é uma rede neural de camada única com a perda de dobradiça como função de perda e ativação exclusivamente linear. O conceito foi aludido em threads anteriores, como este: NeuralNetwork de camada única com ativação RelU igual a SVM?
A Matriz de Gram (Kernel Matrix, se você preferir) é uma medida de similaridade. Como o SVM permite soluções esparsas, a previsão se torna uma questão de comparar sua amostra com os modelos, ou seja, os vetores de suporte.
fonte