Qual a diferença entre a Regressão do vetor de suporte e a SVM?

11

Eu sei o básico sobre SVM e SVR, mas ainda não entendi como o problema de encontrar um hiperplano que maximize a margem se encaixa no SVR.

Segundo, li algo sobre usado como margem de tolerância no SVR. O que isso significa?ϵ

Terceiro, existe alguma diferença entre os parâmetros da função de decisão usados ​​no SVM e no SVR?

encodeflush
fonte
Fiz uma tentativa de explicá-lo de uma maneira pictórica, usando a vista lateral stats.stackexchange.com/questions/82044/…
Lejafar

Respostas:

3

O SVM, tanto para classificação quanto para regressão, visa otimizar uma função por meio de uma função de custo, no entanto, a diferença está na modelagem de custos.

Considere esta ilustração de uma máquina de vetores de suporte usada para classificação.

insira a descrição da imagem aqui

Como nosso objetivo é uma boa separação das duas classes, tentamos formular um limite que deixe uma margem tão ampla quanto possível entre as instâncias mais próximas a ele (vetores de suporte), sendo possíveis as instâncias que caem nessa margem. incorrendo em um alto custo (no caso de uma margem suave SVM).

No caso de regressão, o objetivo é encontrar uma curva que minimize o desvio dos pontos. Com o SVR, também usamos uma margem, mas com um objetivo totalmente diferente - não nos importamos com instâncias que se encontrem dentro de uma certa margem ao redor da curva, porque a curva se encaixa um pouco bem. Essa margem é definida pelo parâmetro do SVR. Instâncias que caem dentro da margem não incorrem em nenhum custo, é por isso que nos referimos à perda como 'insensível ao epsilon'.ϵ

insira a descrição da imagem aqui

ξ+,ξϵ

Isso nos dá o problema de otimização (consulte E. Alpaydin, Introdução ao Machine Learning, 2ª Edição)

min12||w||2+Ct(ξ++ξ)

sujeito a

rt(wTx+w0)ϵ+ξ+t(wTx+w0)rtϵ+ξtξ+t,ξt0

Instâncias fora da margem de uma regressão SVM incorrem em custos na otimização, portanto, visando minimizar esse custo como parte da otimização refina nossa função de decisão, mas, na verdade , não maximiza a margem, como seria o caso na classificação SVM.

Isso deveria ter respondido as duas primeiras partes da sua pergunta.

ϵCγ

deemel
fonte