Por que o dimensionamento é importante para a classificação linear SVM?

15

Ao executar a classificação SVM linear, geralmente é útil normalizar os dados de treinamento, por exemplo, subtraindo a média e dividindo pelo desvio padrão, e depois dimensione os dados de teste com a média e o desvio padrão dos dados de treinamento. Por que esse processo muda drasticamente o desempenho da classificação?

Qinghua
fonte
1
Esta questão já foi respondida stackoverflow.com/questions/15436367/svm-scaling-input-values
jpmuc
Obrigado, juampa! No entanto, ainda não estou muito claro por que o conjunto de testes precisa ser escalado com a média e o padrão do conjunto de treinamento, e não o seu? Em alguns casos, o último parece ter um desempenho perfeitamente bom ou até melhor quando as duas classes de amostras estão bem equilibradas no conjunto de testes.
Qinghua 23/07
1
porque então você não está sendo consistente. Você está testando em dados diferentes. Imagine que você extraia as amostras de um N gaussiano (mu, sigma). Você treinou com N (0,1) (depois de centralização e escala), mas testados com N (mu, Sigma)
jpmuc
Relacionados: stats.stackexchange.com/questions/77876/...
Marc Claesen

Respostas:

12

Eu acho que isso pode ser esclarecido através de um exemplo. Digamos que você tenha dois vetores de entrada: X1 e X2. e digamos que X1 tenha intervalo (0,1 a 0,8) e X2 tenha intervalo (3000 a 50000). Agora seu classificador SVM será um limite linear no plano X1-X2. Minha afirmação é que a inclinação do limite de decisão linear não deve depender do intervalo de X1 e X2, mas da distribuição de pontos.

Agora vamos fazer uma previsão sobre o ponto (0.1, 4000) e (0.8, 4000). Quase não haverá diferença no valor da função, tornando o SVM menos preciso, pois terá menos sensibilidade aos pontos na direção X1.

Vineeth
fonte
7

O SVM tenta maximizar a distância entre o plano de separação e os vetores de suporte. Se um recurso (ou seja, uma dimensão neste espaço) tiver valores muito grandes, ele dominará os outros recursos ao calcular a distância. Se você redimensionar todos os recursos (por exemplo, para [0, 1]), todos eles terão a mesma influência na métrica da distância.

jrieke
fonte