Regressão linear regular vs. regressão RKHS

Estou estudando a diferença entre regularização na regressão RKHS e regressão linear, mas tenho dificuldade em entender a diferença crucial entre as duas.

Dados os pares entrada-saída , quero estimar uma função seguinte forma que é uma função do kernel. Os coeficientes podem ser encontrados resolvendo onde, com algum abuso de notação, a é a primeira entrada da matriz do núcleo é . Isso fornece $(x_i,y_i)$ $f(\cdot)$

f (x) \approx u (x) = \sum_{i = 1}^{m} α_{i} K (x, x_{i}),

$\begin{equation}f(x)\approx u(x)=\sum_{i=1}^m \alpha_i K(x,x_i),\end{equation}$

K (\cdot, \cdot)

$K(\cdot,\cdot)$

α_{m}

$\alpha_m$

min_{α \in R^{n}} \frac{1}{n} ‖ Y - K α ‖_{R^{n}}^{2} + λ α^{T} K α,

$\begin{equation} {\displaystyle \min _{\alpha\in R^{n}}{\frac {1}{n}}\|Y-K\alpha\|_{R^{n}}^{2}+\lambda \alpha^{T}K\alpha},\end{equation}$

i, j

$i,j$

K

$K$

K (x_{i}, x_{j})

$K(x_{i},x_{j})$

α^{*} = (K + λ n I)^{- 1} Y .

$\begin{equation} \alpha^*=(K+\lambda nI)^{-1}Y. \end{equation}$ Como alternativa, poderíamos tratar o problema como um problema normal de regressão linear / de crista:

min_{α \in R^{n}} \frac{1}{n} ‖ Y - K α ‖_{R^{n}}^{2} + λ α^{T} α,

$\begin{equation} {\displaystyle \min _{\alpha\in R^{n}}{\frac {1}{n}}\|Y-K\alpha\|_{R^{n}}^{2}+\lambda \alpha^{T}\alpha},\end{equation}$ com solução

α^{*} = (K^{T} K + λ n I)^{- 1} K^{T} Y .

$\begin{equation} {\alpha^*=(K^{T}K +\lambda nI)^{-1}K^{T}Y}. \end{equation}$

Qual seria a diferença crucial entre essas duas abordagens e suas soluções?

regression generalized-linear-model regularization kernel-trick rbf-kernel MthQ
fonte

stats.stackexchange.com/questions/79192/…

Cagdas Ozgenc

@MThQ - Sua descrição de regressão de cordilheira 'normal' ainda não está funcionando no dual? Apenas para esclarecer que acho que a regressão normal do cume está trabalhando no primal (onde é feita uma representação explícita do recurso).

Rnoodle 17/08/19

Como você provavelmente notou ao anotar os problemas de otimização, a única diferença na minimização é qual norma de Hilbert usar para penalizar. Ou seja, para quantificar quais são os valores 'grandes' de para fins de penalização. Na configuração do RKHS, usamos o produto interno do RKHS, , enquanto a regressão do cume penaliza com relação à norma euclidiana. $\alpha$ $\alpha^tK\alpha$

Uma consequência teórica interessante é como cada efeitos do método do espectro do kernel reprodução . Pela teoria de RKHS, temos que é simétrico positivo definido. Pelo teorema espectral, podemos escrever onde é a matriz diagonal de valores próprios e é a matriz ortonormal de vetores próprios. Consequentemente, na configuração RKHS, Enquanto isso, na configuração de regressão Ridge, observe que por simetria, $K$ $K$ $K = U^tDU$ $D$ $U$

\begin{aligned} (K + λ n I)^{- 1} Y & = [U^{t} (D + λ n I) U]^{- 1} Y \\ = U^{t} [D + λ n I]^{- 1} U Y . \end{aligned}

$\begin{align} (K+\lambda nI)^{-1}Y &= [U^t(D+\lambda nI)U]^{-1}Y\\ &= U^t[D+\lambda nI]^{-1}UY. \end{align}$

K^{t} K = K^{2}

$K^tK=K^2$

\begin{aligned} (K^{2} + λ n I)^{- 1} K Y & = [U^{t} (D^{2} + λ n I) U]^{- 1} K Y \\ = U^{t} [D^{2} + λ n I]^{- 1} U K Y \\ = U^{t} [D^{2} + λ n I]^{- 1} D U Y \\ = U^{t} [D + λ n D^{- 1}]^{- 1} U Y . \end{aligned}

$\begin{align} (K^2+\lambda nI)^{-1}KY &= [U^t(D^2+\lambda nI)U]^{-1}KY\\ &= U^t[D^2+\lambda nI]^{-1}UKY\\ &= U^t[D^2+\lambda nI]^{-1}DUY\\ &= U^t[D+\lambda nD^{-1}]^{-1}UY. \end{align}$ Deixe o espectro de ser . Na regressão RKHS, os autovalores são estabilizados por . Na regressão de Ridge, temos . Como resultado, o RKHS modifica uniformemente os valores próprios, enquanto o Ridge adiciona um valor maior se o correspondente for menor.

K

$K$

ν_{1}, \dots, ν_{n}

$\nu_1,\ldots,\nu_n$

ν_{i} \to ν_{i} + λ n

$\nu_i\rightarrow\nu_i+\lambda n$

ν_{i} \to ν_{i} + λ n / ν_{i}

$\nu_i\rightarrow \nu_i + \lambda n/\nu_i$

ν_{i}

$\nu_i$

Dependendo da escolha do kernel, as duas estimativas para podem estar próximas ou distantes uma da outra. A distância no sentido de norma do operador será No entanto, isso ainda é limitado para um dado $\alpha$

\begin{aligned} ‖ α_{RKHS} - α_{Ridge} ‖_{ℓ^{2}} & = ‖ A_{RKHS} Y - A_{Ridge} Y ‖_{ℓ^{2}} \\ \leq ‖ [D + λ n I]^{- 1} - [D + λ n D^{- 1}]^{- 1} ‖_{\infty} ‖ Y ‖_{ℓ^{2}} \\ \leq max_{i = 1, \dots, n} {| (ν_{i} + λ n)^{- 1} - (ν_{i} + λ n / ν_{i})^{- 1} |} ‖ Y ‖_{ℓ^{2}} \\ \leq max_{i = 1, \dots, n} {\frac{λ n | 1 - ν_{i} |}{(ν_{i} + λ n) (ν_{i}^{2} + λ n)}} ‖ Y ‖_{ℓ^{2}} \end{aligned}

$\begin{align} \|{\alpha_\text{RKHS}-\alpha_\text{Ridge}}\|_{\ell^2} &= \|{ A_\text{RKHS}Y-A_\text{Ridge}Y }\|_{\ell^2}\\ &\le \|[D+\lambda nI]^{-1}-[D+\lambda n D^{-1}]^{-1}\|_\infty\|Y\|_{\ell^2}\\ &\le \max_{i=1,\ldots,n}\left\{| (\nu_i+\lambda n)^{-1} - (\nu_i+\lambda n/\nu_i)^{-1} |\right\}\|Y\|_{\ell^2}\\ &\le \max_{i=1,\ldots,n}\left\{ \frac{\lambda n|1-\nu_i|}{(\nu_i+\lambda n)(\nu_i^2+\lambda n)} \right\}\|Y\|_{\ell^2}\\ \end{align}$

Y

$Y$ , portanto, seus dois estimadores não podem ser arbitrariamente distantes. Portanto, se o seu kernel estiver próximo da identidade, provavelmente haverá pouca diferença nas abordagens. Se seus kernels são muito diferentes, as duas abordagens ainda podem levar a resultados semelhantes.

Na prática, é difícil dizer definitivamente se um é melhor que o outro para uma dada situação. Como estamos minimizando em relação ao erro quadrado ao representar os dados em termos da função do kernel, estamos efetivamente escolhendo uma melhor curva de regressão no espaço correspondente das funções de Hilbert. Portanto, penalizar em relação ao produto interno da RKHS parece ser o caminho natural a seguir.

Adam B Kashlak
fonte

Você tem uma referência para isso?

Rnoodle 17/08/19

Regressão linear regular vs. regressão RKHS

Respostas: