O que acontece quando treinamos uma máquina de vetores de suporte básico (kernel linear e sem margem flexível) em dados não linearmente separáveis? O problema de otimização não é viável, então o que o algoritmo de minimização retorna?
fonte
O que acontece quando treinamos uma máquina de vetores de suporte básico (kernel linear e sem margem flexível) em dados não linearmente separáveis? O problema de otimização não é viável, então o que o algoritmo de minimização retorna?
Eu acho que a máquina de vetores de suporte básico significa SVM de margem rígida. Então, vamos revisar:
Em resumo, queremos encontrar um hiperplano com a maior margem que possa separar todas as observações corretamente em nosso espaço de amostra de treinamento.
Dada a definição acima, qual é o problema de otimização que precisamos resolver?
max(margin)
margin
e também satisfazer a restrição: sem erros na amostraDe volta à sua pergunta, como você mencionou que o conjunto de dados de treinamento não é separável linearmente, usando o SVM de margem rígida sem transformações de recursos, é impossível encontrar um hiperplano que atenda a "Nenhum erro na amostra" .
Normalmente, resolvemos o problema de otimização do SVM pela programação quadrática, porque ele pode executar tarefas de otimização com restrições. Se você usar o Gradient Descent ou outros algoritmos de otimização que, sem satisfazer as restrições do SVM de margem rígida, ainda deverá obter um resultado, mas esse não é um hiperplano SVM de margem rígida.
A propósito, com dados não linearmente separáveis, geralmente escolhemos