Lembro-me de ter lido em algum lugar na web uma conexão entre regressão de cumeeira (com regularização ) e regressão PCA: enquanto estiver usando regressão regularizada com hiperparâmetro , se , a regressão será equivalente a remover o Variável de PC com o menor valor próprio.
- Por que isso é verdade?
- Isso tem algo a ver com o procedimento de otimização? Ingenuamente, eu esperava que fosse equivalente ao OLS.
- Alguém tem uma referência para isso?
Respostas:
Seja a matriz preditora centrada n × p e considere sua decomposição de valor singular X = U S V ⊤ com S sendo uma matriz diagonal com elementos diagonais s i .X n × p X = U S V⊤ S sEu
Os valores ajustados dos mínimos quadrados (OLS) regressão são dadas por y S G S = X β S G S = X ( X ⊤ X ) - 1 X ⊤ y = L L ⊤ y . Os valores ajustados da regressão de cumeeira é dado por y r i d g de e = X β r i d g de e = X ( X ⊤ X
A partir daqui, podemos ver que:
Se , em seguida, y r i d g de e = y S G S .λ=0 y^ridge=y^OLS
Isso significa que a regressão de crista pode ser vista como uma "versão suave" da PCR.
A regressão de Ridge tende a ter um melhor desempenho na prática (por exemplo, para ter um desempenho validado mais alto).
Uma boa referência é The Elements of Statistical Learning , Seção 3.4.1 "Regressão de Ridge".
Veja também este tópico: Interpretação da regularização de crista em regressão e, em particular, a resposta de @BrianBorchers.
fonte
O Elements of Statistical Learning tem uma ótima discussão sobre essa conexão.
A maneira como interpretei essa conexão e lógica é a seguinte:
A conexão PCA é que a Regressão de Cume está calculando as Combinações Lineares dos Recursos para determinar onde a multicolinearidade está ocorrendo. As Combinações Lineares de Recursos (Análise de Componentes Principais) com a menor variância (e, portanto, valores singulares menores e autovalores menores no PCA) são os mais penalizados.
Pense desta maneira; para as combinações lineares de recursos com menor variação, encontramos os recursos mais semelhantes, causando a multicolinearidade. Como o Ridge não reduz o conjunto de recursos, em qualquer direção que esta combinação linear esteja descrevendo, o recurso original correspondente a essa direção é mais penalizado.
fonte
Ambos os métodos enfraquecem o impacto dos subespaços correspondentes a valores pequenos. O PCA faz isso da maneira mais difícil, enquanto a crista é uma abordagem mais suave.
fonte