Mapa de recursos do kernel gaussiano

24

No SVM, o kernel gaussiano é definido como: onde x, y \ em \ mathbb {R ^ n} . Não conheço a equação explícita de \ phi . Eu quero saber.

K(x,y)=exp(xy222σ2)=ϕ(x)Tϕ(y)
x,yRnϕ

Eu também quero saber se

iciϕ(xi)=ϕ(icixi)
onde ciR . Agora, acho que não é igual, porque o uso de um kernel lida com a situação em que o classificador linear não funciona. Eu sei que ϕ projeta x para um espaço infinito. Portanto, se ele ainda permanecer linear, não importa quantas dimensões, svm ainda não poderá fazer uma boa classificação.
Vivian
fonte
por que esse kernel implica uma transformação? Ou você está se referindo ao espaço de recurso associado?
Placidia
Sim, qual é o espaço de recurso para queϕ()ϕT(x)ϕ(x)=exp(12σ2xx2)
user27886

Respostas:

20

Você pode obter a equação explícita de para o kernel gaussiano através da expansão da série Tailor de . Para simplificar a notação, assuma :ϕexxR1

ϕ(x)=ex2/2σ2[1,11!σ2x,12!σ4x2,13!σ6x3,]T

Isso também é discutido em mais detalhes nesses slides por Chih-Jen Lin, da NTU (slide 11 especificamente). Observe que nos slides é usado como parâmetro do kernel.γ=12σ2

A equação no OP vale apenas para o kernel linear.

Marc Claesen
fonte
2
Olá, mas esta equação acima serve apenas uma dimensão.
Vivian
Então, aqui, o espaço Hilbert do kernel em reprodução é um subespaço de , correto? 2
The_Anomaly 17/05
Existe também uma representação explícita do kernel da Lapônia?
Felix Crazzolara 23/06
13

Para qualquer kernel psd válido , existe um mapa de recursos φ : XH tal que . O espaço e embedding na verdade não precisam ser exclusivos, mas existe um par exclusivo importante conhecido como espaço Hilbert em reprodução (RKHS).k:X×XRφ:XHk(x,y)=φ(x),φ(y)HHφ(H,φ)

O RKHS é discutido por: Steinwart, Hush and Scovel, uma descrição explícita dos espaços de Hilbert do núcleo reprodutor dos núcleos Gaussian RBF , transações do IEEE sobre a teoria da informação 2006 ( doi , livre citeseer pdf ).

É um pouco complicado, mas tudo se resume a isso: defina como en:CC

en(z):=(2σ2)nn!zneσ2z2.

Seja uma sequência que varia entre todos os pares de números inteiros não negativos; se , talvez , , e assim por diante. Indique o ésimo componente da ésima tupla por .n:N0N0ddd=3n(0)=(0,0,0)n(1)=(0,0,1)n(2)=(0,1,1)jinij

Então o ésimo componente de é . Então mapeia vetores em para vetores complexos de dimensão infinita.iφ(x)j=1denij(xj)φRd

O problema disso é que ainda precisamos definir normas para esses vetores complexos de dimensão infinita de uma maneira especial; consulte o documento para obter detalhes.


Steinwart et al. também dá uma incorporação mais direta (a meu ver) a , o espaço Hilbert de funções quadráticas integráveis ​​de : Note-se que é ela própria uma função de a . É basicamente a densidade de um Gaussiano dimensional com média e covariância ; somente a constante de normalização é diferente. Assim, quando tomamos L2(Rd)RdR

Φσ(x)=(2σ)d2πd4e2σ2x22.
Φσ(x)RdRdx14σ2I
Φ(x),Φ(y)L2=[Φ(x)](t)[Φ(y)](t)dt,
estamos pegando o produto das funções de densidade gaussiana , que em si é um certo tempo constante de funções de densidade gaussiana. Quando você faz essa integral por , a constante que cai acaba sendo exatamente .tk(x,y)

Estes não são os únicos casamentos que funcionam.

Outra é baseada na transformação de Fourier, que o célebre artigo de Rahimi e Recht ( Recursos Aleatórios para Máquinas de Kernel em Grande Escala , NIPS 2007) se aproxima com grande efeito.

Você também pode fazer isso usando a série Taylor: efetivamente a versão infinita de Cotter, Keshet e Srebro, aproximações explícitas do kernel gaussiano , arXiv: 1109.4603 .

Dougal
fonte
1
Douglas Zare deu uma versão 1d da incorporação "mais direta" em um tópico interessante aqui .
Dougal
Aqui você encontra uma explicação mais "intuitiva" de que o pode mapear em um pedaço de dimensão igual ao tamanho da amostra de treinamento, mesmo para uma amostra infinita de treinamento: stats.stackexchange.com/questions/80398/…Φ
6

Parece-me que sua segunda equação só será verdadeira se for um mapeamento linear (e, portanto, K for um núcleo linear). Como o núcleo gaussiano não é linear, a igualdade não se mantém (exceto talvez no limite, pois σ vai a zero).ϕKσ

Dikran Marsupial
fonte
Obrigado pela sua resposta. Quando , a dimensão dos projetos do kernel gaussiano aumentaria. E por sua inspiração, agora acho que não é igual. Porque, usar o kernel apenas lida com a situação em que a classificação linear não funciona. σ0
Vivian