SVMs para classificação fazem sentido intuitivamente para mim: eu entendo como minimizar produz a margem máxima. No entanto, não entendo esse objetivo no contexto de regressão. Vários textos ( aqui e aqui ) descrevem isso como maximização da "planicidade". Por que queremos fazer isso? O que em regressão é equivalente ao conceito de "margem"?
Aqui estão algumas respostas tentadas, mas nenhuma que realmente ajudou a minha compreensão.
regression
svm
Yang
fonte
fonte
Respostas:
Uma maneira de pensar sobre o nivelamento é que ele torna minhas previsões menos sensíveis a perturbações nos recursos. Ou seja, se estou construindo um modelo com a forma onde meu vetor de característica x já foi normalizado, valores menores em θ significam que meu modelo é menos sensível a erros de medição / choques aleatórios / não - estacionariedade dos recursos, x . Dados dois modelos ( isto é, dois valores possíveis de θ ) que explicam os dados igualmente bem, eu prefiro o mais "plano".
Você também pode pensar em Ridge Regression como executando a mesma coisa sem o truque do kernel ou a formulação de regressão 'tube' do SVM.
edit : Em resposta aos comentários de @ Yang, mais algumas explicações:
fonte
shabbychef deu uma explicação muito clara da perspectiva da complexidade do modelo. Vou tentar entender esse problema de outro ponto de vista, caso possa ajudar alguém.
Basicamente, queremos maximizar a margem no SVC. É o mesmo no SVR, enquanto queremos maximizar o erro de previsão em uma precisão definida para uma melhor generalização. Aqui, se minimizarmos o erro de previsão em vez de maximizar, é mais provável que o resultado da previsão em dados desconhecidos seja super adaptado. Vamos pensar no "maximizar o erro de previsão" no caso unidimensional.e
No caso unidimensional, nosso objetivo é maximizar as distâncias de todos os pontos até a linha de tendência y = ω x + b dentro de e . Observe que definimos a restrição da precisão como e para que possamos maximizar a distância, e não minimizar . Então vamos dar uma olhada na equação muito simples da distância de um ponto a uma linha.(xi,yi) y=ωx+b e e
No momento, o numerador está limitado a . Para maximizar a distância, o que tentamos fazer é minimizar ω .e ω
Qualquer pessoa pode estender facilmente o caso unidimensional para o caso N-dimensional, pois a equação da distância será sempre a distância euclidiana .
Além disso, podemos ter uma revisão sobre o problema de otimização no SVR para a comparação [1].
Obrigado.
[1] Smola, A. e B. Schölkopf. Um tutorial sobre regressão de vetores de suporte. Estatística e Computação, vol. 14, nº 3, agosto de 2004, pp. 199–222.
fonte
At least, I don't think minimizingθ has anything to do with the concept margin as in a SVM classification setting.
It serves for a totally different goal that is well explained by the above two posts, i.e., reducing model complexity and avoiding overfitting.
fonte