Tenho várias perguntas sobre a penalidade de cordilheira no contexto de mínimos quadrados:
1) A expressão sugere que a matriz de covariância de X é reduzida em direção a uma matriz diagonal, o que significa que (assumindo que as variáveis sejam padronizadas antes do procedimento) a correlação entre as variáveis de entrada será reduzida. Esta interpretação está correta?
2) Se é uma aplicação de retração, por que não é formulada nas linhas de , assumindo que de alguma forma podemos restringir lambda a [0,1] faixa com uma normalização .
3) O que pode ser uma normalização para para que possa ser restrita a um intervalo padrão como [0,1].
4) Adicionar uma constante à diagonal afetará todos os autovalores. Seria melhor atacar apenas os valores singulares ou quase singulares? Isso é equivalente à aplicação do PCA ao X e à retenção dos principais componentes N-top antes da regressão ou tem um nome diferente (já que não modifica o cálculo da covariância cruzada)?
5) Podemos regularizar a covariância cruzada, ou ela tem algum uso, significando
onde um pequeno reduzirá a covariância cruzada. Obviamente, isso reduz todos os igualmente, mas talvez exista uma maneira mais inteligente de limiar rígido / flexível, dependendo do valor de covariância.β
fonte
Respostas:
Boas perguntas!
Sim, isso está exatamente correto. Você pode ver a penalidade de cumeeira como uma maneira possível de lidar com o problema de multicolinearidade que surge quando muitos preditores estão altamente correlacionados. A introdução da penalidade na crista reduz efetivamente essas correlações.
Eu acho que isso é parcialmente tradição, em parte o fato de que a fórmula de regressão de cume conforme declarada em sua primeira equação segue a seguinte função de custo:Se , o segundo termo pode ser eliminado e a minimização do primeiro termo ("erro de reconstrução") leva à fórmula OLS padrão para . Manter o segundo termo leva à fórmula para . Essa função de custo é matematicamente muito conveniente de lidar, e esse pode ser um dos motivos para preferir lambda "não normalizado".λ = 0 β β r i d g e
Uma maneira possível de normalizar é escalá-lo pela variação total , ou seja, usar vez de . Isso não confinaria necessariamente a , mas o tornaria "sem dimensão" e provavelmente resultaria em ideal menor que em todos os casos práticos (Nota: isso é apenas um palpite!).t r ( X ⊤ X ) λ t r ( X ⊤ X ) λ λ [ 0 , 1 ] λ 1λ t r ( X⊤X ) λ t r ( X⊤X ) λ λ [ 0 , 1 ] λ 1 1
"Atacar apenas pequenos autovalores" tem um nome separado e é chamado de regressão dos componentes principais. A conexão entre a PCR e a regressão de crista é que, na PCR, você efetivamente tem uma "penalidade de etapa" cortando todos os valores próprios após um certo número, enquanto a regressão de crista aplica uma "pena suave", penalizando todos os valores próprios, com os menores sendo penalizados mais. Isso é bem explicado em The Elements of Statistical Learning, de Hastie et al. (disponível gratuitamente on-line), seção 3.4.1. Veja também minha resposta em Relação entre regressão cume e regressão PCA .
Eu nunca vi isso feito, mas observe que você pode considerar uma função de custo no formatoIsso reduz seu a zero, mas a algum outro valor predefinido . Se alguém calcular a matemática, você chegará ao ideal dado por que talvez possa ser visto como "regularizando a covariância cruzada"?β β 0 β β = ( X ⊤ X + λ I ) - 1 ( X ⊤ y + λ β 0 ) ,
fonte
Um comentário adicional sobre a questão 4. Na verdade, a regressão de cume lida de maneira bastante eficaz com os pequenos valores próprios de enquanto deixa principalmente os grandes valores próprios sozinhos.XTX
Para ver isso, expresse o estimador de regressão de crista em termos da decomposição do valor singular de ,X
onde os vetores são mutuamente ortogonais e os também são mutuamente ortogonais. Aqui, os autovalores de são , . v i X T X σ 2 i i = 1 , 2 , … , nvocêEu vEu XTX σ2Eu i = 1 , 2 , … , n
Então você pode mostrar que
Agora, considere os "fatores de filtro" . Se , os fatores de filtro são 1 e obtemos a solução convencional de mínimos quadrados. Se e , o fator de filtro é essencialmente 1. Se , esse fator é essencialmente 0. Assim, os termos correspondentes aos autovalores pequenos são eliminados efetivamente, enquanto os correspondentes aos autovalores maiores são retidos.σ2Eu/ ( σ2Eu+ λ ) λ = 0 λ > 0 σ2Eu≫ λ σ2Eu≪ λ
Em comparação, a regressão dos componentes principais simplesmente usa fatores de 1 (para os valores próprios maiores) ou 0 (para os valores próprios menores que são descartados) nessa fórmula.
fonte
As perguntas 1, 2 e 3 estão vinculadas. Eu gosto de pensar que sim, introduzir uma penalidade Ridge em um modelo de regressão linear pode ser interpretado como um encolhimento nas eigen valores de . Para fazer essa interpretação, é preciso primeiro supor que esteja centrado. Essa interpretação é baseada na seguinte equivalência: com e . Se , segue-se imediatamente esse .X λ x + y = κ ( α x + ( 1 - α ) y ) , α = λX X
A técnica que você descreve como "atacando apenas os valores singulares ou quase singulares" também é conhecida como Análise de Espectro Singular (para fins de regressão linear) (consulte a Eq. 19), se "atacando", você quer dizer "remover " A covariância cruzada é inalterada.
A remoção de valores singulares baixos também é feita pela Regressão do Componente Principal . Na PCR, um PCA é realizado em e uma regressão linear é aplicada em uma seleção dos componentes obtidos. A diferença com a SSA é que ela afeta a covariância cruzada.X
fonte