Como encontrar os coeficientes de regressão

14

Na regressão de crista, a função objetivo a ser minimizada é:

RSS+λβj2.

Isso pode ser otimizado usando o método multiplicador de Lagrange? Ou é uma diferenciação direta?

Minaj
fonte
1
Qual é a conexão entre o título (que incide sobre λ ) ea questão (que parece ser apenas sobre a βj )? Preocupa-me que "ser otimizado" possa ter interpretações distintamente diferentes, dependendo de quais variáveis ​​são consideradas aquelas que podem variar e quais devem ser corrigidas.
whuber
1
obrigado modificou a pergunta. Eu li que o λ é encontrado por validação cruzada - mas acredito que isso significa que você já possui o βj e usa dados diferentes para encontrar o melhor λ questão é - como você encontra os βj 's em primeiro lugar quando λ é desconhecido?
Minaj

Respostas:

22

Existem duas formulações para o problema da crista. O primeiro é

βR=argminβ(yXβ)(yXβ)

sujeito a

jβj2s.

Esta formulação mostra a restrição de tamanho nos coeficientes de regressão. Observe o que essa restrição implica; estamos forçando os coeficientes a mentir em uma bola ao redor da origem com raio .s

A segunda formulação é exatamente o seu problema

βR=argminβ(yXβ)(yXβ)+λβj2

que pode ser visto como a formulação multiplicadora de Largrange. Observe que aqui é um parâmetro de ajuste e valores maiores dele levarão a um encolhimento maior. Você pode prosseguir para diferenciar a expressão em relação a β e obter o conhecido estimador de cristaλβ

(1)βR=(XX+λI)1Xy

As duas formulações são completamente equivalentes , uma vez que existe um correspondência de um-para-um entre e λ .sλ

Deixe-me elaborar um pouco sobre isso. Imagine que você está no caso ideal ortogonal, . Esta é uma situação altamente simplificada e irrealista, mas podemos investigar o estimador um pouco mais de perto, então tenha paciência comigo. Considere o que acontece com a equação (1). O estimador de crista reduz paraXX=I

βR=(I+λI)1Xy=(I+λI)1βOLS

como no caso ortogonal, o estimador OLS é dado por . Olhando para este componente agora obtemosβOLS=Xy

(2)βR=βOLS1+λ

Observe então que agora o encolhimento é constante para todos os coeficientes. Isto pode não segurar no caso geral e de fato ele pode ser mostrado que as contrações vão diferir muito se houver degenerescências no matriz.XX

Mas vamos voltar ao problema de otimização restrita. Pela teoria KKT , uma condição necessária para otimizar é

λ(βR,j2s)=0

então ou β 2 R , j - s = 0 (neste caso, dizemos que a restrição é vinculativa). Se λ = 0 , não há penalidade e estamos de volta à situação normal do OLS. Suponha então que a restrição seja vinculativa e que estamos na segunda situação. Usando a fórmula em (2), temos entãoλ=0βR,j2s=0λ=0

s=βR,j2=1(1+λ)2βOLS,j2

de onde obtemos

λ=βOLS,j2s1

o relacionamento um a um reivindicado anteriormente. Espero que isso seja mais difícil de estabelecer no caso não ortogonal, mas o resultado é independente.

Olhe novamente para (2) e você verá que ainda estamos perdendo o . Para obter um valor ideal para isso, você pode usar a validação cruzada ou observar o rastreamento da crista. O último método envolve a construção de uma sequência de λ em (0,1) e a análise de como as estimativas mudam. Você então seleciona o λ que os estabiliza. A propósito, este método foi sugerido na segunda das referências abaixo e é o mais antigo.λλλ

Referências

Hoerl, Arthur E. e Robert W. Kennard. "Regressão de Ridge: estimativa enviesada para problemas não-ortogonais." Technometrics 12.1 (1970): 55-67.

Hoerl, Arthur E. e Robert W. Kennard. "Regressão de Ridge: aplicações a problemas não-ortogonais." Technometrics 12.1 (1970): 69-82.

JohnK
fonte
2
A regressão @Minaj Ridge tem encolhimento constante para todos os coeficientes (exceto a interceptação). É por isso que existe apenas um multiplicador.
JohnK
2
@amoeba This is a suggestion by Hoerl and Kennard, the people who introduced ridge regression in the 1970s. Based on their experience - and mine - the coefficients will stabilize in that interval even with extreme degrees of multicollinearity. Of course, this is an empirical strategy and so it is not guaranteed to work all the time.
JohnK
2
You could also just do the pseudo-observation method and get the estimates with nothing more complicated than a straight least squares regression program. You can also investigate the effect of changing λ in a similar fashion.
Glen_b -Reinstate Monica
2
@amoeba It is true that ridge is not scale invariant, that's why it is common practice to standardize the data beforehand. I have included the relevant references in case you want to take a look. They are immensely interesting and not so technical.
JohnK
2
@JohnK in effect ridge regression shrinks each β by a different amount, so the shrinkage isn't constant even though there is only one shrinkage parameter λ.
Frank Harrell
4

Meu livro Regression Modeling Strategies investiga o uso de AIC eficaz para escolherλ. This comes from the penalized log likelihood and the effective degrees of freedom, the latter being a function of how much variances of β^são reduzidos por penalização. Uma apresentação sobre isso está aqui . O rmspacote R pentraceencontraλ que otimiza a AIC efetiva e também permite vários parâmetros de penalidade (por exemplo, um para efeitos principais lineares, um para efeitos principais não lineares, um para efeitos de interação linear e outro para efeitos de interação não linear).

Frank Harrell
fonte
1
+1. What do you think of using leave-one-out CV error, computed via the explicit formula (i.e. without actually performing CV), for choosing λ? Do you have any idea about how it in practice compares to "effective AIC"?
amoeba says Reinstate Monica
I haven't studied that. LOOCV takes a lot of computation.
Frank Harrell
Not if the explicit formula is used: stats.stackexchange.com/questions/32542.
amoeba says Reinstate Monica
1
That formula works for the special case of OLS, not for maximum likelihood in general. But there is an approximate formula using score residuals. I do realize we are mainly talking about OLS in this discussion though.
Frank Harrell
1

I don't do it analytically, but rather numerically. I usually plot RMSE vs. λ as such:

enter image description here

Figure 1. RMSE and the constant λ or alpha.

Lennart
fonte
Does this mean you fix a certain value of λ and then differentiate the expression to find the βj's after which you compute RMSE and do the process all over again for new values of λ?
Minaj