No -SVR, o parâmetro é usado para determinar a proporção do número de vetores de suporte que você deseja manter em sua solução em relação ao número total de amostras no conjunto de dados. No -SVR, o parâmetro é introduzido na formulação do problema de otimização e é estimado automaticamente (idealmente) para você.ν ν ϵνννϵ
No entanto, no -SVR, você não tem controle sobre quantos vetores de dados do conjunto de dados se tornam vetores de suporte, podem ser alguns, podem ser muitos. No entanto, você terá controle total de quanto erro permitirá que seu modelo tenha, e qualquer coisa além do especificado será penalizado na proporção de , que é o parâmetro de regularização.£ CϵϵC
Dependendo do que eu quero, eu escolho entre os dois. Se estou realmente desesperado por uma solução pequena (menos vetores de suporte), escolho -SVR e espero obter um modelo decente. Mas se eu realmente quiser controlar a quantidade de erros no meu modelo e buscar o melhor desempenho, escolho -SVR e espero que o modelo não seja muito complexo (muitos vetores de suporte).ϵνϵ
Eu gosto das respostas de Pablo e Marc. Um ponto adicional:
No artigo citado por Marc está escrito (seção 4)
"A motivação de -SVR é que pode não ser fácil decidir o parâmetro . Portanto, aqui estamos interessados no possível intervalo de . Como esperado, os resultados mostram que está relacionado aos valores-alvo .ν ϵ ϵ ϵ y
[...]
Como o intervalo efetivo de é afetado pelos valores-alvo , uma maneira de resolver essa dificuldade para -SVM é escalando os valores-alvo antes de treinar os dados. Por exemplo, se todos os valores de destino forem redimensionados para , o intervalo efetivo de será , o mesmo que o de . Então pode ser mais fácil escolher ".ϵ y ϵ [−1,+1] ϵ [0,1] ν ϵ
Isso me leva a pensar que deveria ser mais fácil escalar suas variáveis de destino e usar -SVR, do que tentar decidir se deseja usar ou SVR.ϵ ϵ− ν−
O que você acha?
fonte