Relação entre regressão de crista e regressão de PCA

19

Lembro-me de ter lido em algum lugar na web uma conexão entre regressão de cumeeira (com regularização ) e regressão PCA: enquanto estiver usando regressão regularizada com hiperparâmetro , se , a regressão será equivalente a remover o Variável de PC com o menor valor próprio.22λλ0 0

  • Por que isso é verdade?
  • Isso tem algo a ver com o procedimento de otimização? Ingenuamente, eu esperava que fosse equivalente ao OLS.
  • Alguém tem uma referência para isso?
Jose G
fonte
1
Você poderia explicar mais explicitamente como o PCA e a regressão estão conectados em sua declaração? A regressão distingue variáveis ​​dependentes de variáveis ​​independentes, enquanto que nada disso ocorre no PCA. Então, em quais variáveis ​​você está aplicando o PCA? Não podem ser apenas as variáveis ​​independentes, pois isso teria pouco a ver com a regressão. Mas se for aplicado a todas as variáveis, os vetores próprios são combinações lineares de todas. O que poderia significar para remover qualquer tal componente do conjunto de dados, uma vez que envolve a variável dependente?
whuber
1
A conexão (como eu entendo) é que, se você usar uma penalidade de regularização muito pequena, uma regressão regularizada por L2 removerá a variável que tem o menor valor próprio. Portanto, fazer SVD na matriz de design e remover a variável com o menor autovalor é equivalente a uma regressão com uma penalidade de regularização "branda" ... Essa é a explicação mais próxima que encontrei sobre isso: sites.stat.psu. edu / ~ jiali / course / stat597e / notes2 / lreg.pdf
Jose G
3
Sua referência parece demonstrar o oposto do que você está dizendo em seus comentários: para pequeno , há muito pouca mudança nos resultados. Nada é removido. De fato, vários slides parecem apontar a diferença entre a regressão penalizada por L 2 (na qual as estimativas são reduzidas para 0 ) e a "regressão PCA" (na qual os menores componentes são totalmente removidos - o que pode ser uma coisa muito ruim). algumas circunstâncias). λL20 0
whuber
2
Mmm .. encontrada outra referência: statweb.stanford.edu/~owen/courses/305/Rudyregularization.pdf Na corrediça, " e componentes principais", que diz que os projectos de regressão cume y para estes componentes com Dj grande * suspiro *yrEudge
Jose G
3
Você percebeu que p. 14 da última referência responde explicitamente à sua pergunta?
whuber

Respostas:

23

Seja a matriz preditora centrada n × p e considere sua decomposição de valor singular X = U S V com S sendo uma matriz diagonal com elementos diagonais s i .Xn×pX=USVSsi

Os valores ajustados dos mínimos quadrados (OLS) regressão são dadas por y S G S = X β S G S = X ( XX ) - 1 Xy = L Ly . Os valores ajustados da regressão de cumeeira é dado por y r i d g de e = X β r i d g de e = X ( XX

y^OLS=XβOLS=X(XX)1Xy=UUy.
Os valores ajustados da regressão PCA (PCR) comkcomponentes são dadas por y PCR=XPCUmaβPCR=L
y^rEudge=XβrEudge=X(XX+λEu)-1Xy=vocêdEuumag{sEu2sEu2+λ}vocêy.
k onde existem k uns seguidos por zeros.
y^PCR=XPCAβPCR=Udiag{1,,1,0,0}Uy,
k

A partir daqui, podemos ver que:

  1. Se , em seguida, y r i d g de e = y S G S .λ=0y^ridge=y^OLS

  2. λ>0sisi2λ

  3. kλ=0kλ=

  4. Isso significa que a regressão de crista pode ser vista como uma "versão suave" da PCR.

    siX

  5. A regressão de Ridge tende a ter um melhor desempenho na prática (por exemplo, para ter um desempenho validado mais alto).

  6. λ0 0y^rEudgey^OeuSsEu

Uma boa referência é The Elements of Statistical Learning , Seção 3.4.1 "Regressão de Ridge".


Veja também este tópico: Interpretação da regularização de crista em regressão e, em particular, a resposta de @BrianBorchers.

ameba diz Restabelecer Monica
fonte
sEu-βeueumast-sqvocêumares
k
vocêdiag(11,12,...,1k,0 0,...,0 0)vocêTy
Isso é lindo.
precisa
6

O Elements of Statistical Learning tem uma ótima discussão sobre essa conexão.

A maneira como interpretei essa conexão e lógica é a seguinte:

  • O PCA é uma combinação linear das variáveis ​​de recurso, tentando maximizar a variação dos dados explicados pelo novo espaço.
  • Os dados que sofrem de multicolinearidade (ou mais preditores que linhas de dados) levam a uma matriz de covariância que não possui classificação completa.
  • Com esta matriz de covariância, não podemos inverter para determinar a solução dos mínimos quadrados; isso faz com que a aproximação numérica dos coeficientes dos mínimos quadrados seja ampliada até o infinito.
  • A Regressão de Ridge introduz a penalidade Lambda na Matriz de Covariância para permitir a inversão e convergência da matriz dos Coeficientes LS.

A conexão PCA é que a Regressão de Cume está calculando as Combinações Lineares dos Recursos para determinar onde a multicolinearidade está ocorrendo. As Combinações Lineares de Recursos (Análise de Componentes Principais) com a menor variância (e, portanto, valores singulares menores e autovalores menores no PCA) são os mais penalizados.

Pense desta maneira; para as combinações lineares de recursos com menor variação, encontramos os recursos mais semelhantes, causando a multicolinearidade. Como o Ridge não reduz o conjunto de recursos, em qualquer direção que esta combinação linear esteja descrevendo, o recurso original correspondente a essa direção é mais penalizado.

MDornbos
fonte
2

Xβ=y,
X
X=vocêSVT,
S=diag(sEu)

β

βOeuS=VS-1vocêT
sEu

S-1β

Scume-1=diag(sEusEu2+α),βcume= VScume-1vocêT

S-1

SPCA-1=diag(1sEuθ(sEu-γ)),βPCA= VSPCA-1vocêT
θγ

Ambos os métodos enfraquecem o impacto dos subespaços correspondentes a valores pequenos. O PCA faz isso da maneira mais difícil, enquanto a crista é uma abordagem mais suave.

SmyReg-1=diag(R(sEu)),
R(x)x0 0R(x)x-1x

davidhigh
fonte