Como os SVMs = Correspondência de modelos?

9

Eu li sobre SVMs e aprendi que eles estão resolvendo um problema de otimização e a idéia de margem máxima era muito razoável.

Agora, usando kernels, eles podem encontrar limites de separação não lineares, o que foi ótimo.

Até agora, eu realmente não tenho nenhuma idéia de como SVMs (uma máquina especial do kernel) e máquinas do kernel estão relacionadas a redes neurais?

Considere os comentários de Yann Lecun => aqui :

kernel methods were a form of glorified template matching

e aqui também :

Por exemplo, algumas pessoas ficaram deslumbradas com os métodos do kernel por causa da matemática fofa que o acompanha. Mas, como eu disse no passado, no final, as máquinas do kernel são redes rasas que realizam "correspondência glorificada de modelos". Não há nada de errado nisso (o SVM é um ótimo método), mas há terríveis limitações que todos devemos estar cientes.

Então, minhas perguntas são:

  1. Como o SVM está relacionado à rede neural? Como é uma rede rasa?
  2. O SVM resolve um problema de otimização com uma função objetivo bem definida, como está fazendo a correspondência de modelos? Qual é o modelo aqui para o qual uma entrada é correspondida?

Eu acho que esses comentários precisam de uma compreensão completa dos espaços de alta dimensão, redes neurais e máquinas de kernel, mas até agora eu tenho tentado e não consegui entender a lógica por trás disso. Mas é certamente interessante observar as conexões entre duas técnicas ml muito muito diferentes.

Edição: Eu acho que entender SVMs de uma perspectiva neural seria ótimo. Estou procurando uma resposta completa em matemática para as duas perguntas acima, de modo a realmente entender o vínculo entre SVMs e redes neurais, ambos no caso de SVM linear e SVM com o truque do kernel.

Rafael
fonte
Os SVMs são fáceis e rápidos de treinar, devido a um kernel apropriado. Algumas tarefas não precisam de uma rede neural profunda.
Vladislavs Dovgalecs
@xeon oi, você pode dar uma olhada na resposta, suponho que precise de melhorias. obrigado.
Rafael

Respostas:

7
  1. Como o SVM está relacionado à rede neural? Como é uma rede rasa?

O SVM é uma rede neural de camada única com a perda de dobradiça como função de perda e ativação exclusivamente linear. O conceito foi aludido em threads anteriores, como este: NeuralNetwork de camada única com ativação RelU igual a SVM?

  1. O SVM resolve um problema de otimização com uma função objetivo bem definida, como está fazendo a correspondência de modelos? Qual é o modelo aqui para o qual uma entrada é correspondida?

A Matriz de Gram (Kernel Matrix, se você preferir) é uma medida de similaridade. Como o SVM permite soluções esparsas, a previsão se torna uma questão de comparar sua amostra com os modelos, ou seja, os vetores de suporte.

Firebug
fonte
obrigado pela resposta, por favor, explique um pouco mais com algumas contas de preferência. Isso seria realmente ótimo :) #
244 Rafael Rafael
Entendo mais ou menos a questão da correspondência de modelos, mas não recebi a declaração: Como o SVM permite soluções esparsas ... o que as soluções esparsas precisam fazer aqui? A previsão por definição é feita por uma similaridade de pesagem com os modelos, portanto não entendo de onde vem a escarsidade. Além disso, adicione algumas linhas relacionadas à função de ativação de perda de dobradiça. Muito obrigado :)
Rafael