Eficiência de regressão de Kernel Ridge

10

A regressão de cume pode ser expressa como que é o rótulo previsto , o identificar matriz, o objeto que está tentando encontrar um rótulo para e o matriz de objetos tal que:

y^=(XX+aId)1Xx
Iddxdxxnxdnxi=(xi,1,...,Xi,d)Rdy^Idd×dxXn×dnxi=(xi,1,...,xi,d)Rd

X=(x1,1x1,2x1,dx2,1x2,2x2,dxn,1x1,2xn,d)

Podemos fazer o kernel da seguinte maneira:

y^=(K+aId)1k

onde K é a matriz n×n das funções do kernel K

K=(K(x1,x1)K(x1,x2)K(x1,xn)K(x2,x1)K(x2,x2)K(x2,xn)K(xn,x1)K(xn,x2)K(xn,xn))

e k o vetor de coluna n×1 das funções do kernel K

k=(K(x1,x)K(x2,x)K(xn,x))

Questões:

(a) se houver mais objetos que dimensões, faz sentido não usar kernels? Por exemplo, seja uma matriz , em seguida, será e acabaremos invertendo uma matriz vez dos matriz teríamos que inverter se usássemos kernels. Isso significa que, se , não devemos usar kernels?X 50×3 XX 3×33×350×50dnxiX50×3XX3×33×350×50dn

(b) o kernel mais simples possível deve ser usado? Parece que os kernels na regressão de crista são usados ​​para negar as influências da dimensionalidade e não para utilizar determinadas propriedades do espaço de recurso (diferentemente das máquinas de vetores de suporte). Embora os kernels possam alterar as distâncias entre os objetos, existem kernels populares frequentemente usados ​​na regressão de crista?

(c) qual é a complexidade do tempo da regressão de crista e / ou regressão de crista do núcleo?O

Hélice
fonte
'eficiência' tem um significado diferente nas estatísticas. Você quis dizer 'complexidade computacional'? (no título)
Memming 08/02
Eu quis dizer "eficiência algorítmica". Embora seja verdade que minhas perguntas reduzam isso essencialmente à "complexidade computacional".
Helix

Respostas:

5

(a) O objetivo do uso de um kernel é resolver um problema de regressão não linear neste caso. Um bom kernel permitirá que você resolva problemas em um espaço de recurso possivelmente com dimensões infinitas. Porém, usar um kernel linear e fazer a regressão da crista do kernel no espaço duplo é o mesmo que resolver o problema no espaço primal , ou seja, não traz nenhuma vantagem (é muito mais lento à medida que o número de amostras cresce conforme você observou).K(x,y)=xy

(b) Uma das opções mais populares é o kernel exponencial quadrado que é universal (veja ref abaixo). Existem muitos kernels, e cada um deles induzirá um produto interno diferente (e, portanto, métrico) ao seu espaço de recurso.K(x,y)=exp(τ2||xy||2)

(c) A implementação direta requer a solução de uma equação linear de tamanho , portanto é . Existem muitos métodos de aproximação mais rápidos, como a aproximação de Nyström. Esta é uma área de pesquisa ativa.O ( n 3 )nO(n3)

Referências:

  1. Bharath Sriperumbudur, Kenji Fukumizu e Gert Lanckriet. Sobre a relação entre universalidade, núcleos característicos e incorporação de medidas pelo RKHS. Journal of Machine Learning Research, 9: 773-780, 2010.
  2. Bernhard Schlkopf, Alexander J. Smola. Aprendendo com kernels: suporte a máquinas de vetores, regularização, otimização e além de 2002
Memming
fonte