Regressão linear regular vs. regressão RKHS

9

Estou estudando a diferença entre regularização na regressão RKHS e regressão linear, mas tenho dificuldade em entender a diferença crucial entre as duas.

Dados os pares entrada-saída , quero estimar uma função seguinte forma que é uma função do kernel. Os coeficientes podem ser encontrados resolvendo onde, com algum abuso de notação, a i, a é a primeira entrada da matriz K do núcleo é {\ displaystyle K (x_ {i}, x_ {j})} . Isso fornece \ begin {equação} \ alpha ^ * = (K + \ lambda nI) ^ {- 1} Y. \ end {equação}(xi,yi)f()

f(x)u(x)=i=1mαiK(x,xi),
K(,)αm
minαRn1nYKαRn2+λαTKα,
i,jKK(xi,xj)
α=(K+λnI)1Y.
Como alternativa, poderíamos tratar o problema como um problema normal de regressão linear / de crista:
minαRn1nYKαRn2+λαTα,
com solução
α=(KTK+λnI)1KTY.

Qual seria a diferença crucial entre essas duas abordagens e suas soluções?

MthQ
fonte
@MThQ - Sua descrição de regressão de cordilheira 'normal' ainda não está funcionando no dual? Apenas para esclarecer que acho que a regressão normal do cume está trabalhando no primal (onde é feita uma representação explícita do recurso).
Rnoodle 17/08/19

Respostas:

5

Como você provavelmente notou ao anotar os problemas de otimização, a única diferença na minimização é qual norma de Hilbert usar para penalizar. Ou seja, para quantificar quais são os valores 'grandes' de para fins de penalização. Na configuração do RKHS, usamos o produto interno do RKHS, , enquanto a regressão do cume penaliza com relação à norma euclidiana.ααtKα

Uma consequência teórica interessante é como cada efeitos do método do espectro do kernel reprodução . Pela teoria de RKHS, temos que é simétrico positivo definido. Pelo teorema espectral, podemos escrever onde é a matriz diagonal de valores próprios e é a matriz ortonormal de vetores próprios. Consequentemente, na configuração RKHS, Enquanto isso, na configuração de regressão Ridge, observe que por simetria, KKK=UtDUDU

(K+λnI)1Y=[Ut(D+λnI)U]1Y=Ut[D+λnI]1UY.
KtK=K2
(K2+λnI)1KY=[Ut(D2+λnI)U]1KY=Ut[D2+λnI]1UKY=Ut[D2+λnI]1DUY=Ut[D+λnD1]1UY.
Deixe o espectro de ser . Na regressão RKHS, os autovalores são estabilizados por . Na regressão de Ridge, temos . Como resultado, o RKHS modifica uniformemente os valores próprios, enquanto o Ridge adiciona um valor maior se o correspondente for menor.Kν1,,νnνiνi+λnνiνi+λn/νiνi

Dependendo da escolha do kernel, as duas estimativas para podem estar próximas ou distantes uma da outra. A distância no sentido de norma do operador será No entanto, isso ainda é limitado para um dadoα

αRKHSαRidge2=ARKHSYARidgeY2[D+λnI]1[D+λnD1]1Y2maxi=1,,n{|(νi+λn)1(νi+λn/νi)1|}Y2maxi=1,,n{λn|1νi|(νi+λn)(νi2+λn)}Y2
Y, portanto, seus dois estimadores não podem ser arbitrariamente distantes. Portanto, se o seu kernel estiver próximo da identidade, provavelmente haverá pouca diferença nas abordagens. Se seus kernels são muito diferentes, as duas abordagens ainda podem levar a resultados semelhantes.

Na prática, é difícil dizer definitivamente se um é melhor que o outro para uma dada situação. Como estamos minimizando em relação ao erro quadrado ao representar os dados em termos da função do kernel, estamos efetivamente escolhendo uma melhor curva de regressão no espaço correspondente das funções de Hilbert. Portanto, penalizar em relação ao produto interno da RKHS parece ser o caminho natural a seguir.

Adam B Kashlak
fonte
11
Você tem uma referência para isso?
Rnoodle 17/08/19