Interpretação da regularização de crista em regressão

25

Tenho várias perguntas sobre a penalidade de cordilheira no contexto de mínimos quadrados:

βridge=(λID+XX)1Xy

1) A expressão sugere que a matriz de covariância de X é reduzida em direção a uma matriz diagonal, o que significa que (assumindo que as variáveis ​​sejam padronizadas antes do procedimento) a correlação entre as variáveis ​​de entrada será reduzida. Esta interpretação está correta?

2) Se é uma aplicação de retração, por que não é formulada nas linhas de , assumindo que de alguma forma podemos restringir lambda a [0,1] faixa com uma normalização .(λID+(1λ)XX)

3) O que pode ser uma normalização para para que possa ser restrita a um intervalo padrão como [0,1].λ

4) Adicionar uma constante à diagonal afetará todos os autovalores. Seria melhor atacar apenas os valores singulares ou quase singulares? Isso é equivalente à aplicação do PCA ao X e à retenção dos principais componentes N-top antes da regressão ou tem um nome diferente (já que não modifica o cálculo da covariância cruzada)?

5) Podemos regularizar a covariância cruzada, ou ela tem algum uso, significando

βridge=(λID+XX)1(γXy)

onde um pequeno reduzirá a covariância cruzada. Obviamente, isso reduz todos os igualmente, mas talvez exista uma maneira mais inteligente de limiar rígido / flexível, dependendo do valor de covariância.βγβ

Cagdas Ozgenc
fonte
A pena de cume vem de uma restrição que , por meio de um multiplicador de Lagrange na função objetivo MSE. LASSO é o mesmo, mas comem vez de. Estou no meu telefone e não posso postar facilmente uma derivação no momento. Mas estes são grandes questõesβ2T|β|
shadowtalker

Respostas:

19

Boas perguntas!

  1. Sim, isso está exatamente correto. Você pode ver a penalidade de cumeeira como uma maneira possível de lidar com o problema de multicolinearidade que surge quando muitos preditores estão altamente correlacionados. A introdução da penalidade na crista reduz efetivamente essas correlações.

  2. Eu acho que isso é parcialmente tradição, em parte o fato de que a fórmula de regressão de cume conforme declarada em sua primeira equação segue a seguinte função de custo:Se , o segundo termo pode ser eliminado e a minimização do primeiro termo ("erro de reconstrução") leva à fórmula OLS padrão para . Manter o segundo termo leva à fórmula para . Essa função de custo é matematicamente muito conveniente de lidar, e esse pode ser um dos motivos para preferir lambda "não normalizado".λ = 0 β β r i d g e

    L=yXβ2+λβ2.
    λ=0ββridge
  3. Uma maneira possível de normalizar é escalá-lo pela variação total , ou seja, usar vez de . Isso não confinaria necessariamente a , mas o tornaria "sem dimensão" e provavelmente resultaria em ideal menor que em todos os casos práticos (Nota: isso é apenas um palpite!).t r ( XX ) λ t r ( XX ) λ λ [ 0 , 1 ] λ 1λtr(XX)λtr(XX)λλ[0,1]λ1

  4. "Atacar apenas pequenos autovalores" tem um nome separado e é chamado de regressão dos componentes principais. A conexão entre a PCR e a regressão de crista é que, na PCR, você efetivamente tem uma "penalidade de etapa" cortando todos os valores próprios após um certo número, enquanto a regressão de crista aplica uma "pena suave", penalizando todos os valores próprios, com os menores sendo penalizados mais. Isso é bem explicado em The Elements of Statistical Learning, de Hastie et al. (disponível gratuitamente on-line), seção 3.4.1. Veja também minha resposta em Relação entre regressão cume e regressão PCA .

  5. Eu nunca vi isso feito, mas observe que você pode considerar uma função de custo no formatoIsso reduz seu a zero, mas a algum outro valor predefinido . Se alguém calcular a matemática, você chegará ao ideal dado por que talvez possa ser visto como "regularizando a covariância cruzada"?β β 0 β β = ( XX + λ I ) - 1 ( Xy + λ β 0 ) ,

    L=yXβ2+λββ02.
    ββ0β
    β=(XX+λI)1(Xy+λβ0),
ameba diz Restabelecer Monica
fonte
11
Você poderia explicar por que adicionar a significa que a matriz de covariância de é reduzida em direção a uma matriz diagonal? Esta é uma questão de álgebra puramente linear, suponho. X X XλIDXXX
Heisenberg
3
@Heisenberg, bem, é a matriz de covariância de (até um fator de escala de ). Computar requer a inversão dessa matriz de covariância. Na regressão de crista, invertemos , para que possamos ver como uma estimativa regularizada da matriz de covariância. Agora, o termo é uma matriz diagonal com na diagonal. Imagine que é muito grande; então a soma é dominada pelo termo diagonal e, assim, a covariância regularizada se torna cada vez mais diagonal à medida que cresce.X 1 / N β X X + λ I X X + λ I λ I λ λ λ I λXXX1/NβXX+λIXX+λIλIλλλIλ
Ameba diz Reinstate Monica
wrt Q5, Elements of Statistical Aprendizagem olha restrições suavidade para aplicações de processamento de imagem (PDA - página 447)
seanv507
10

Um comentário adicional sobre a questão 4. Na verdade, a regressão de cume lida de maneira bastante eficaz com os pequenos valores próprios de enquanto deixa principalmente os grandes valores próprios sozinhos. XTX

Para ver isso, expresse o estimador de regressão de crista em termos da decomposição do valor singular de , X

X=i=1nσiuiviT

onde os vetores são mutuamente ortogonais e os também são mutuamente ortogonais. Aqui, os autovalores de são , . v i X T X σ 2 i i = 1 , 2 , , nuiviXTXσi2i=1,2,,n

Então você pode mostrar que

βridge=i=1nσi2σi2+λ1σi(uiTy)vi.

Agora, considere os "fatores de filtro" . Se , os fatores de filtro são 1 e obtemos a solução convencional de mínimos quadrados. Se e , o fator de filtro é essencialmente 1. Se , esse fator é essencialmente 0. Assim, os termos correspondentes aos autovalores pequenos são eliminados efetivamente, enquanto os correspondentes aos autovalores maiores são retidos. σi2/(σi2+λ)λ=0λ>0σi2λσi2λ

Em comparação, a regressão dos componentes principais simplesmente usa fatores de 1 (para os valores próprios maiores) ou 0 (para os valores próprios menores que são descartados) nessa fórmula.

Brian Borchers
fonte
11
Isso é exatamente o que eu me referi brevemente na minha resposta, mas é muito bom tê-lo elaborado e demonstrado matematicamente, +1.
Ameba diz Reinstate Monica
5

As perguntas 1, 2 e 3 estão vinculadas. Eu gosto de pensar que sim, introduzir uma penalidade Ridge em um modelo de regressão linear pode ser interpretado como um encolhimento nas eigen valores de . Para fazer essa interpretação, é preciso primeiro supor que esteja centrado. Essa interpretação é baseada na seguinte equivalência: com e . Se , segue-se imediatamente esse .X λ x + y = κ ( α x + ( 1 - α ) y ) , α = λXX

λx+y=κ(αx+(1α)y),
κ=1+λ0λ<+0<α1α=λ1+λκ=1+λ0λ<+0<α1

A técnica que você descreve como "atacando apenas os valores singulares ou quase singulares" também é conhecida como Análise de Espectro Singular (para fins de regressão linear) (consulte a Eq. 19), se "atacando", você quer dizer "remover " A covariância cruzada é inalterada.

A remoção de valores singulares baixos também é feita pela Regressão do Componente Principal . Na PCR, um PCA é realizado em e uma regressão linear é aplicada em uma seleção dos componentes obtidos. A diferença com a SSA é que ela afeta a covariância cruzada.X

Vincent Guillemot
fonte
Obrigado. Na PCR, a covariância com y é calculada após a redução da dimensão, não? Essa é a diferença entre PCR e SSA? Seu gama (não o meu), como você seleciona para que o alfa seja [0,1] limitado?
Cagdas Ozgenc
11
γκ
Eu acho que você está correto sobre a diferença entre SSA e PCR, porém devemos anotá-la para ter certeza.
Vincent Guillemot