Estou estudando a diferença entre regularização na regressão RKHS e regressão linear, mas tenho dificuldade em entender a diferença crucial entre as duas.
Dados os pares entrada-saída , quero estimar uma função seguinte forma que é uma função do kernel. Os coeficientes podem ser encontrados resolvendo onde, com algum abuso de notação, a i, a é a primeira entrada da matriz K do núcleo é {\ displaystyle K (x_ {i}, x_ {j})} . Isso fornece \ begin {equação} \ alpha ^ * = (K + \ lambda nI) ^ {- 1} Y. \ end {equação}
Como alternativa, poderíamos tratar o problema como um problema normal de regressão linear / de crista:
com solução
Qual seria a diferença crucial entre essas duas abordagens e suas soluções?
Respostas:
Como você provavelmente notou ao anotar os problemas de otimização, a única diferença na minimização é qual norma de Hilbert usar para penalizar. Ou seja, para quantificar quais são os valores 'grandes' de para fins de penalização. Na configuração do RKHS, usamos o produto interno do RKHS, , enquanto a regressão do cume penaliza com relação à norma euclidiana.α αtKα
Uma consequência teórica interessante é como cada efeitos do método do espectro do kernel reprodução . Pela teoria de RKHS, temos que é simétrico positivo definido. Pelo teorema espectral, podemos escrever onde é a matriz diagonal de valores próprios e é a matriz ortonormal de vetores próprios. Consequentemente, na configuração RKHS, Enquanto isso, na configuração de regressão Ridge, observe que por simetria,K K K=UtDU D U
Dependendo da escolha do kernel, as duas estimativas para podem estar próximas ou distantes uma da outra. A distância no sentido de norma do operador será No entanto, isso ainda é limitado para um dadoα
Na prática, é difícil dizer definitivamente se um é melhor que o outro para uma dada situação. Como estamos minimizando em relação ao erro quadrado ao representar os dados em termos da função do kernel, estamos efetivamente escolhendo uma melhor curva de regressão no espaço correspondente das funções de Hilbert. Portanto, penalizar em relação ao produto interno da RKHS parece ser o caminho natural a seguir.
fonte