Por que a estimativa da crista se torna melhor que a OLS adicionando uma constante à diagonal?

59

Entendo que a estimativa de regressão de crista é o que minimiza a soma residual do quadrado e uma penalidade no tamanho deββ

βridge=(λID+XX)1Xy=argmin[RSS+λβ22]

No entanto, não entendo completamente o significado do fato de que βridge difere de βOLS ao adicionar apenas uma pequena constante à diagonal de XX . De fato,

βOLS=(XX)1Xy
  1. Meu livro menciona que isso torna a estimativa mais estável numericamente - por quê?

  2. A estabilidade numérica está relacionada ao encolhimento em direção a 0 da estimativa da crista, ou é apenas uma coincidência?

Heisenberg
fonte

Respostas:

76

Em uma regressão não compensada, geralmente é possível obter uma crista * no espaço de parâmetros, onde muitos valores diferentes ao longo da crista se dão tão bem ou quase tão bem quanto ao critério dos mínimos quadrados.

* (pelo menos, é uma cadeia na função de probabilidade - na verdade, eles são vales $ no critério RSS, mas continuarei chamando de cadeia, pois isso parece ser convencional - ou mesmo, como Alexis aponta nos comentários, eu poderia chamar isso de thalweg , sendo a contrapartida de uma cordilheira do vale)

Na presença de uma crista no critério dos mínimos quadrados no espaço dos parâmetros, a penalidade que você recebe com a regressão da crista se livra dessas cristas, empurrando o critério para cima à medida que os parâmetros se afastam da origem:

insira a descrição da imagem aqui
[ Imagem mais nítida ]

No primeiro gráfico, uma grande alteração nos valores dos parâmetros (ao longo da crista) produz uma alteração minúscula no critério RSS. Isso pode causar instabilidade numérica; é muito sensível a pequenas alterações (por exemplo, uma pequena alteração no valor dos dados, até truncamento ou erro de arredondamento). As estimativas de parâmetros são quase perfeitamente correlacionadas. Você pode obter estimativas de parâmetros muito grandes em magnitude.

Por outro lado, levantando o que a regressão da crista minimiza (adicionando a penalidade ) quando os parâmetros estão longe de 0, pequenas alterações nas condições (como um pequeno erro de arredondamento ou truncamento) não podem produzir mudanças gigantescas nos resultados resultantes. estimativas. O termo da penalidade resulta em encolhimento para 0 (resultando em algum viés). Uma pequena quantidade de viés pode comprar uma melhoria substancial na variação (eliminando essa crista).L2

A incerteza das estimativas é reduzida (os erros padrão estão inversamente relacionados à segunda derivada, que é aumentada pela penalidade).

A correlação nas estimativas de parâmetros é reduzida. Agora você não obterá estimativas de parâmetros muito grandes se o RSS para parâmetros pequenos não for muito pior.

Glen_b
fonte
4
Essa resposta realmente me ajuda a entender o encolhimento e a estabilidade numérica. No entanto, ainda não estou claro sobre como "adicionar uma pequena constante ao " alcança essas duas coisas. XX
Heisenberg
4
Adicionar uma constante à diagonal * é o mesmo que adicionar um parabolóide circular centrado em no RSS (com o resultado mostrado acima - ele "se afasta" do zero - eliminando a crista). * (Não é necessariamente pequena, isso depende de como você olha para ele e quanto você adicionou)0
Glen_b
6
Glen_b, o antônimo de "cume" no idioma inglês que você está procurando (esse caminho / curva ao longo do vale) é thalweg . O que eu aprendi há duas semanas e simplesmente adoro. Nem parece uma palavra em inglês! : D
Alexis
5
@ Alexis Isso sem dúvida seria uma palavra útil, então obrigado por isso. Provavelmente não soa inglês porque é uma palavra alemã (na verdade, o thal é o mesmo 'thal' que em " Neanderthal " = "Neander Valley" e weg = 'way'). [Como era, eu queria "cume" não porque não conseguia pensar no que chamá-lo, mas porque as pessoas parecem chamá-lo de cume, quer estejam olhando para probabilidade ou RSS, e eu estava explicando meu desejo de seguir a convenção, mesmo que pareça estranha. Thalweg seria uma excelente escolha para a palavra certa, se eu não estivesse seguindo o estranho thalweg da convenção.]
Glen_b 12/12/14
4
X se aproxima de uma matriz que não possui uma posição completa (e, portanto, X'X se torna quase singular) exatamente quando uma crista aparece na probabilidade. A crista é uma conseqüência direta de uma relação quase linear entre as colunas de , o que torna s (quase) linearmente dependente. Xβ
Glen_b
28

+1 na ilustração de Glen_b e nos comentários das estatísticas no estimador de Ridge. Gostaria apenas de adicionar um ponto de vista puramente matemático (álgebra linear) na regressão de Ridge, que responde às questões 1 e 2 do OP.

Primeira nota que é uma matriz semidefinida positiva simétrica - vezes a matriz de covariância da amostra. Por isso, tem a decomposição autônomaXXp×pn

XX=VDV,D=[d1dp],di0

Agora, como a inversão da matriz corresponde à inversão dos valores próprios, o estimador OLS requer (observe que ). Obviamente, isso só funciona se todos os autovalores forem estritamente maiores que zero, . Para isso é impossível; para é geralmente verdade - é nesse caso que geralmente estamos preocupados com a multicolinearidade .(XX)1=VD1VV=V1di>0pnnp

Como estatísticos, também queremos saber como pequenas perturbações nos dados alteram as estimativas. É claro que uma pequena alteração em qualquer leva a uma enorme variação em se for muito pequena.Xdi1/didi

Então, o que a regressão de Ridge faz é mover todos os autovalores para mais longe de zero,

XX+λIp=VDV+λIp=VDV+λVV=V(D+λIp)V,
que agora possui valores próprios . É por isso que escolher um parâmetro de penalidade positiva torna a matriz invertível - mesmo no caso de . Para a regressão de Ridge, uma pequena variação nos dados não tem mais o efeito extremamente instável que tem na inversão da matriz.di+λλ0pnX

A estabilidade numérica está relacionada ao encolhimento a zero, pois ambos são uma conseqüência da adição de uma constante positiva aos valores próprios: torna-o mais estável porque uma pequena perturbação em não altera muito o inverso; reduz-o para perto de já que agora o termo é multiplicado por que é mais próximo de zero do que a solução OLS com autovalores inversos .X0V1Xy1/(di+λ)1/d

Georg M. Goerg
fonte
2
Isso responde satisfatoriamente à parte da álgebra da minha pergunta! Juntamente com a resposta Glen_b, ele fornece uma explicação completa do problema.
Heisenberg
17

A demonstração de @ Glen_b é maravilhosa. Gostaria de acrescentar que, além da causa exata do problema e da descrição sobre como a regressão penalizada quadrática funciona, existe a conclusão de que a penalização tem o efeito líquido de encolher os coeficientes que não sejam a interceptação para zero. Isso fornece uma solução direta para o problema de sobreajuste, inerente à maioria das análises de regressão, quando o tamanho da amostra não é enorme em relação ao número de parâmetros estimados. Quase qualquer penalização em relação a zero por não interceptações melhorará a precisão preditiva em relação a um modelo não penalizado.

Frank Harrell
fonte