O hiperplano ideal no SVM é definido como:
onde representa o limite. Se tivermos algum mapeamento que mapeia o espaço de entrada para algum espaço , podemos definir SVM no espaço , onde o hiperplano ideal será:ϕ Z Z
No entanto, sempre podemos definir mapeamento para que , , e o hiperplano ideal seja definido como & Phi; 0 ( x ) = 1 ∀ x w ⋅ & Phi; ( x ) = 0.
Questões:
Por que muitos artigos usam quando eles já têm mapeamento e estimam parâmetros limiar separadamente?ϕ w b
Existe algum problema para definir SVM como s.t. \ y_n \ mathbf w \ cdot \ mathbf \ phi (\ mathbf x_n) \ geq 1, \ forall ne estimamos apenas o vetor de parâmetros \ mathbf w , assumindo que definimos \ phi_0 (\ mathbf x) = 1, \ forall \ mathbf x ? s. t. y n w ⋅ φ ( x n )≥1,∀n w φ 0 ( x )=1,∀ x
Se a definição de SVM da pergunta 2. for possível, teremos e o limite será simplesmente , que não trataremos separadamente. Portanto, nunca usaremos a fórmula como para estimar de algum vetor de suporte . Direita?
Respostas:
Por que o viés é importante?
O termo de viés é, de fato, um parâmetro especial no SVM. Sem ele, o classificador sempre passará pela origem. Portanto, o SVM não fornece o hiperplano de separação com a margem máxima, se não passar pela origem, a menos que você tenha um termo de viés.b
Abaixo está uma visualização do problema de viés. Um SVM treinado com (sem) um termo de viés é mostrado à esquerda (direita). Embora os dois SVMs sejam treinados com os mesmos dados , eles parecem muito diferentes.
Por que o viés deve ser tratado separadamente?
Como Ben DAI apontou, o termo de viés deve ser tratado separadamente por causa da regularização. O SVM maximiza o tamanho da margem, que é (ou dependendo de como você o define).1b 21| | w | |2 2| | w | |2
Maximizar a margem é o mesmo que minimizar . Isso também é chamado de termo de regularização e pode ser interpretado como uma medida da complexidade do classificador. No entanto, você não deseja regularizar o termo de viés porque, o viés altera as pontuações da classificação para cima ou para baixo na mesma quantidade para todos os pontos de dados . Em particular, o viés não altera a forma do classificador ou seu tamanho da margem. Portanto, ...| | w | |2
Na prática, no entanto, é mais fácil inserir o viés no vetor de recursos, em vez de precisar lidar com um caso especial.
Nota: ao empurrar o viés para a função de recurso, é melhor fixar essa dimensão do vetor de recurso em um número grande, por exemplo, , para minimizar os efeitos colaterais da regularização do viés.ϕ0 0( x ) = 10
fonte
Às vezes, as pessoas simplesmente omitem a interceptação no SVM, mas acho que a razão pela qual talvez possamos penalizar a interceptação para omitir isso. ou seja,
podemos modificar os dados e para omitir a interceptação Como você dito, técnica semelhante pode ser usada na versão do kernel. w =(w0,wo t)tXW+b= X wx^=(1,x) w^=(w0,wT)T
No entanto, se colocarmos a interceptação nos pesos, a função objetivo será ligeiramente diferente da original. É por isso que chamamos de "penalizar".
fonte
Além das razões mencionadas acima, a distância de um ponto a um hiperplano definido pela inclinação e interceptação é É assim que o conceito de margem no SVM é movido. Se você alterar para incluir o termo de interceptação , a norma será afetada pelo tamanho da interceptação, o que fará com que o SVM seja otimizado para uma pequena interceptação, o que não faz sentido em muitos casos.x θ b |θTx+b|||θ|| θ b θ
fonte