Eu entendi como a regressão da crista reduz os coeficientes em direção a zero geometricamente. Além disso, sei como provar isso no "Caso Ortonormal" especial, mas estou confuso de como isso funciona no caso geral via "Decomposição espectral".
20
Respostas:
A questão parece pedir uma demonstração de que a regressão de cume reduz as estimativas do coeficiente para zero, usando uma decomposição espectral. A decomposição espectral pode ser entendida como uma conseqüência fácil da Decomposição de Valor Singular (SVD). Portanto, este post começa com SVD. Explica-o em termos simples e depois ilustra-o com aplicações importantes. Em seguida, fornece a demonstração (algébrica) solicitada. (A álgebra, é claro, é idêntica à demonstração geométrica; apenas é apresentada em um idioma diferente.)
A fonte original desta resposta pode ser encontrada nas minhas notas do curso de regressão . Esta versão corrige alguns erros menores.
O que é o SVD
Qualquer matriz X , com p ≤ n , pode ser escrita X = U D V ′ onden×p X p≤n
é umamatriz n × p .U n×p
é um p × p matriz.V p×p
é umamatriz diagonal p × p .D p×p
Os critérios (1) e (2) afirmam que e V são matrizes ortonormais . Eles podem ser resumidos ordenadamente pelas condiçõesvocê V
Como conseqüência (que representa uma rotação), V V ′ = 1 p também. Isso será usado na derivação de regressão de cume abaixo.V VV′= 1p
O que isso faz por nós
Pode simplificar fórmulas. Isso funciona tanto algebricamente quanto conceitualmente. Aqui estão alguns exemplos.
As equações normais
Considere a regressão onde, como sempre, os ε são independentes e distribuídos identicamente de acordo com uma lei que tem expectativa zero e variância finita σ 2 . A solução de mínimos quadrados através da equações normais é β = ( X ' x ) - 1 X ' y . A aplicação do SVD e a simplificação da confusão algébrica resultante (o que é fácil) fornecem uma boa visão:y= Xβ+ ε ε σ2
A única diferença entre isso e é que os recíprocos dos elementos de D são usados! Em outras palavras, a "equação" y = X β é resolvida "invertendo" X : essa pseudo-inversão desfaz as rotações U e V ′ (apenas transpondo-as) e desfaz a multiplicação (representada por D ) separadamente em cada princípio direção.X′= VD U′ D y= Xβ X você V′ D
Para referência futura, aviso que "rodada" estimativas β são combinações lineares de "rodada" respostas L ' y . Os coeficientes são inversos dos elementos diagonais (positivos) de D , iguais a d - 1 i i .V′β^ você′y D d- 1eu eu
Covariância das estimativas do coeficiente
Recorde-se que a covariância dos estimativas é Usando o SVD, isso se torna σ 2 ( V D 2 V ′ ) - 1 = σ 2 V D - 2 V ′ . Em outras palavras, a covariância age como a de k variáveis ortogonais , cada uma com variações d 2 i i
A matriz Hat
A matriz do chapéu é Por meio do resultado anterior, podemos reescrevê-lo como H = ( U D V ' ) ( V D - 1 U ' ) = U U ' . Simples!
Análise própria (decomposição espectral)
O SVD pode diagnosticar e resolver problemas de colinearidade.
Aproximando os regressores
Regressão de Ridge
Deixe as colunas deX y X λ > 0
fonte