A prova de encolhimento de coeficientes usando regressão de crista através de "decomposição espectral"

20

Eu entendi como a regressão da crista reduz os coeficientes em direção a zero geometricamente. Além disso, sei como provar isso no "Caso Ortonormal" especial, mas estou confuso de como isso funciona no caso geral via "Decomposição espectral".

jeza
fonte
4
Você declarou que está confuso, mas qual é a sua pergunta?
whuber

Respostas:

30

A questão parece pedir uma demonstração de que a regressão de cume reduz as estimativas do coeficiente para zero, usando uma decomposição espectral. A decomposição espectral pode ser entendida como uma conseqüência fácil da Decomposição de Valor Singular (SVD). Portanto, este post começa com SVD. Explica-o em termos simples e depois ilustra-o com aplicações importantes. Em seguida, fornece a demonstração (algébrica) solicitada. (A álgebra, é claro, é idêntica à demonstração geométrica; apenas é apresentada em um idioma diferente.)

A fonte original desta resposta pode ser encontrada nas minhas notas do curso de regressão . Esta versão corrige alguns erros menores.


O que é o SVD

Qualquer matriz X , com p n , pode ser escrita X = U D V onden×pXpn

X=UDV
  1. é umamatriz n × p .Un×p

    • As colunas de têm comprimento 1 .U1
    • As colunas de são mutuamente ortogonais.U
    • Eles são chamados os principais componentes de .X
  2. é um p × p matriz.Vp×p

    • As colunas de têm comprimento 1 .V1
    • As colunas de são mutuamente ortogonais.V
    • Isso faz de uma rotação de R p .VRp
  3. é umamatriz diagonal p × p .D p×p

    • Os elementos diagonais não são negativos. Estes são os valores singulares de X .d11,d22,,dppX
    • Se desejarmos, podemos ordená-los do maior para o menor.

Os critérios (1) e (2) afirmam que e V são matrizes ortonormais . Eles podem ser resumidos ordenadamente pelas condiçõesUV

UU=1p, VV=1p.

Como conseqüência (que representa uma rotação), V V = 1 p também. Isso será usado na derivação de regressão de cume abaixo.VVV=1p

O que isso faz por nós

Pode simplificar fórmulas. Isso funciona tanto algebricamente quanto conceitualmente. Aqui estão alguns exemplos.

As equações normais

Considere a regressão onde, como sempre, os ε são independentes e distribuídos identicamente de acordo com uma lei que tem expectativa zero e variância finita σ 2 . A solução de mínimos quadrados através da equações normais é β = ( X ' x ) - 1 X ' y . A aplicação do SVD e a simplificação da confusão algébrica resultante (o que é fácil) fornecem uma boa visão:y=Xβ+εεσ2

β^=(XX)1Xy.

(XX)-1X=((vocêDV)(vocêDV))-1(vocêDV)=(VDvocêvocêDV)-1(VDvocê)=VD-2VVDvocê=VD-1você.

A única diferença entre isso e é que os recíprocos dos elementos de D são usados! Em outras palavras, a "equação" y = X β é resolvida "invertendo" X : essa pseudo-inversão desfaz as rotações U e V (apenas transpondo-as) e desfaz a multiplicação (representada por D ) separadamente em cada princípio direção.X=VDvocêDy=XβXvocêVD

Para referência futura, aviso que "rodada" estimativas β são combinações lineares de "rodada" respostas L ' y . Os coeficientes são inversos dos elementos diagonais (positivos) de D , iguais a d - 1 i i .Vβ^vocêyDdEuEu-1

Covariância das estimativas do coeficiente

Recorde-se que a covariância dos estimativas é Usando o SVD, isso se torna σ 2 ( V D 2 V ) - 1 = σ 2 V D - 2 V . Em outras palavras, a covariância age como a de k variáveis ortogonais , cada uma com variações d 2 i i

Cov(β^)=σ2(XX)-1.
σ2(VD2V)-1=σ2VD-2V.
k dEuEu2, que foram rotacionados em .Rk

A matriz Hat

A matriz do chapéu é Por meio do resultado anterior, podemos reescrevê-lo como H = ( U D V ' ) ( V D - 1 U ' ) = U U ' . Simples!

H=X(XX)-1X.
H=(vocêDV)(VD-1você)=vocêvocê.

Análise própria (decomposição espectral)

XX=VDvocêvocêDV=VD2V
XX=vocêDVVDvocê=vocêD2você,
  • XXXX
  • VXX
  • vocêXX

O SVD pode diagnosticar e resolver problemas de colinearidade.

Aproximando os regressores

vocêDVvocêy

Regressão de Ridge

Deixe as colunas de XyXλ>0 0

β^R=(XX+λ)-1Xy=(VD2V+λ1p)-1VDvocêy=(VD2V+λVV)-1VDvocêy=(V(D2+λ)V)-1VDvocêy=V(D2+λ)-1VVDvocêy=V(D2+λ)-1Dvocêy.

β^D-1=D-2D(D2+λ)-1DD2/(D2+λ)λ>0 0


Vβ^RvocêydEuEu-1dEuEu2/(dEuEu2+λ)λβ^R

dEuEu-1

whuber
fonte
1
@Glen_b Esse é um bom ponto: eu precisava ser explícito sobre qual fração estava considerando! Eu vou consertar isso.
whuber
1
vocêvocê=1pvocê11=1VV=1pVV-1(V-1)(V-1)=1pV-1=VVV=(V)V=1p
1
@ Máximo Obrigado pela boa sugestão. Eu incluí agora uma explicação na seção "Equações normais", onde o modelo de regressão é introduzido.
whuber
1
X
VDvocê=X=X=vocêDV.
você=VX
whuber
1
y^