No algoritmo SVM, por que o vetor w é ortogonal ao hiperplano de separação?

13

Sou iniciante em Machine Learning. No SVM, o hiperplano de separação é definido como . Por que dizemos vetor w ortogonal ao hiperplano de separação?y=WTx+bW

Chong Zheng
fonte
3
Uma resposta para uma pergunta semelhante (para redes neurais) está aqui .
bogatron
@ Bogatron - eu concordo completamente com você. Mas os meus apenas uma resposta específica SVM .
Untitledprogrammer
2
Exceto que não é. Sua resposta está correta, mas não há nada específico para SVMs (nem deveria haver). é simplesmente uma equação vetorial que define um hiperplano. wTx=b
bogatron

Respostas:

10

Geometricamente, o vetor w é direcionado ortogonalmente à linha definida por . Isto pode ser entendido como o seguinte:WTx=b

Primeiro, pegue . Agora está claro que todos os vetores, x , com produto interno em fuga com w satisfazem esta equação, ou seja, todos os vetores ortogonais w satisfazem essa equação.b=0 0xW

Agora traduza o hiperplano para longe da origem sobre um vetor a. A equação para o plano agora se torna: , ou seja, achamos que para o deslocamento b = a T w , que é a projeção do vetor a no vetor w .(x-uma)TW=0 0b=umaTWumaW

Sem perda de generalidade, podemos assim escolher uma perpendicular ao plano, caso em que o comprimento que representa a distância ortogonal mais curta entre a origem e o hiperplano.||uma||=|b|/||W||

Portanto, o vetor é ortogonal ao hiperplano de separação.W

untitledprogrammer
fonte
4

A razão pela qual é normal para o hiperplano é porque definimos que é dessa maneira:W

Suponha que tenhamos um (hiper) plano no espaço 3d. Seja um ponto neste plano, ou seja, P 0 = x 0 , y 0 , z 0 . Portanto, o vetor da origem ( 0 , 0 , 0 ) até este ponto é apenas < x 0 , y 0 , z 0 > . Suponha que tenhamos um ponto arbitrário P ( x , y , z ) no plano. O vetor que une PP0 0P0 0=x0 0,y0 0,z0 0(0 0,0 0,0 0)<x0 0,y0 0,z0 0>P(x,y,z)Pe é então dado por: P - P 0 = < x - x 0 , y - y 0 , z - z 0 > Observe que esse vetor está no plano.P0 0

P-P0 0= <x-x0 0,y-y0 0,z-z0 0>

Agora vamos n ser o (ortogonal) vector normal ao plano. Portanto: n( P - P 0 ) = 0 Assim: nP - Nn^

n^(P-P0 0)=0 0
Note-se que - nP 0 é apenas um número e é igual abem nosso caso, enquanto que n é apenasweP
n^P-n^P0 0=0 0
-n^P0 0bn^WPé . Então, por definição, w é ortogonal ao hiperplano.xW
Shehryar Malik
fonte
2

Seja o limite de decisão definido como WTx+b=0 0 . Considere os pontos xuma e xb , que estão no limite da decisão. Isso nos dá duas equações:

WTxuma+b=0 0WTxb+b=0 0

Subtraindo estas duas equações nos dá WT.(xuma-xb)=0 0 . Observe que o vetor xuma-xb fica no limite de decisão e é direcionado a partir de xbxumaWT.(xuma-xb)WTxuma-xb

adityagaydhani
fonte
0

Usando a definição algébrica de um vetor ortogonal a um hiperplano:

 x1 1,x2

WT(x1 1-x2)=(WTx1 1+b)-(WTx2+b)=0 0-0 0=0 0 .
Indominus
fonte