Como provar que a função de base radial é um kernel? Tanto quanto eu entendo, para provar isso, temos que provar um dos seguintes:
Para qualquer conjunto de vetores matriz = é semidefinido positivo.
Um mapeamento pode ser apresentado como = .
Qualquer ajuda?
svm
kernel-trick
Leo
fonte
fonte
Respostas:
O Zen usou o método 1. Aqui está o método 2: mapeiex para uma distribuição gaussiana esfericamente simétrica, centrada em x no espaço Hilbert L2 . O desvio padrão e um fator constante precisam ser ajustados para que isso funcione exatamente. Por exemplo, em uma dimensão,
Portanto, use um desvio padrão de e dimensionar a distribuição de Gauss para obterK(x,y)=⟨Φ(x),Φ(y)⟩. Esse último redimensionamento ocorre porque anormaL2de uma distribuição normal não é1em geral.σ/2–√ k(x,y)=⟨Φ(x),Φ(y)⟩ L2 1
fonte
Usarei o método 1. Verifique a resposta de Douglas Zare para obter uma prova usando o método 2.
I provará o caso quando são números reais, de modo que k ( x , y ) = exp ( - ( x - y ) 2 / 2 σ 2 ) . O caso geral segue mutatis mutandis do mesmo argumento, e vale a pena fazer.x,y k(x,y)=exp(−(x−y)2/2σ2)
Sem perda de generalidade, suponha que .σ2=1
Escreva , onde h ( t ) = exp ( - t 2k(x,y)=h(x−y) é a função característica de uma variável aleatóriaZcomdistribuiçãoN(0,1).
Para números reais e a 1 , … , a n , temos n ∑ j , k = 1 a jx1,…,xn a1,…,an
que implica que k é uma função semidefinida positiva, também conhecida como kernel.
Para entender esse resultado em maior generalidade, consulte o Teorema de Bochner: http://en.wikipedia.org/wiki/Positive-definite_function
fonte
Vou adicionar um terceiro método, apenas para variar: construir o kernel a partir de uma sequência de etapas gerais conhecidas por criar kernels pd. Deixe- denotar o domínio dos grãos abaixo e & Phi; os mapas de características.X φ
Escalonamentos: Se é um kernel pd, também é γ κ para qualquer constante γ > 0 .κ γκ γ>0
Prova: se é o mapa de características de κ , √φ κ é um mapa de recursos válido paraγκ.γ−−√φ γκ
Soma: Se e κ 2 são pd kernels, também é κ 1 + κ 2 .κ1 κ2 κ1+κ2
Prova: concatene os mapas de recursos e φ 2 , para obter x ↦ [ φ 1 ( x ) φ 2 ( x ) ] .φ1 φ2 x↦[φ1(x)φ2(x)]
Limites: Se são pd kernels e κ ( x , y ) : = lim n → ∞ κ n ( x , y ) existe para todos x , y , então k é pd.κ1,κ2,… κ(x,y):=limn→∞κn(x,y) x,y κ
Prova: Para cada e cada { ( x i , c i ) } m i = 1 ⊆ X × R temos que Σ m i = 1 c i κ n ( x i , x j ) c j ≥ 0 . Tomar o limite como n → ∞ fornece a mesma propriedade para κ .m,n≥1 {(xi,ci)}mi=1⊆X×R ∑mi=1ciκn(xi,xj)cj≥0 n→∞ κ
Produtos: Se e κ 2 são pd kernels, o mesmo acontece com g ( x , y ) = κ 1 ( x , y )κ1 κ2 .g(x,y)=κ1(x,y)κ2(x,y)
Prova: Segue-se imediatamente a partir do teorema do produto Schur , mas Schölkopf e Smola (2002) fornecem a seguinte prova agradável e elementar. Seja seja independente. Assim, C o v ( V i W i , V j W j ) = C o v ( V i , V j )
Prova: imediata da propriedade "produtos".
fonte