Intuição para os graus de liberdade do LASSO

12

Zou et al. "Nos" graus de liberdade "do laço" (2007) mostram que o número de coeficientes diferentes de zero é uma estimativa imparcial e consistente para os graus de liberdade do laço.

Parece um pouco contra-intuitivo para mim.

  • Suponha que tenhamos um modelo de regressão (onde as variáveis ​​têm média zero)

y=βx+ε.
  • Suponhamos que um OLS sem restrições de estimar β é β S G S = 0,5 . Pode coincidir aproximadamente com uma estimativa do LASSO de β para uma intensidade de penalidade muito baixa.β^OLS=0.5β
  • Suponha-se ainda que uma estimativa LASSO para uma determinada intensidade penalidade λ é β G A S S S , λ * = 0,4 . Por exemplo, λ pode ser o "ideal" λ para o conjunto de dados em mãos encontrado usando a validação cruzada. β^LASSO,λ=0.4λλ
  • Se bem entendi, em ambos os casos os graus de liberdade são 1, pois nas duas vezes existe um coeficiente de regressão diferente de zero.

Questão:

  • Como é que os graus de liberdade em ambos os casos são os mesmos, embora β G A S S S , λ * = 0,4 sugere menos "liberdade" na montagem de β S G S = 0,5 ?β^LASSO,λ=0.4β^OLS=0.5

Referências:

Richard Hardy
fonte
1
ótima pergunta, isso mereceria mais atenção!
Matifou 25/05/19

Respostas:

8

Assuma que nos é dado um conjunto de de p observações -dimensional, x iR p , i = 1 , ... , n . Assumir um modelo da forma: Y i = p , x i+ ε onde ε ~ N ( 0 , σ 2 ) , p R p , e , n pxiRpi=1,,n

Yi=β,xi+ϵ
ϵN(0,σ2)βRp denotando o produto interno. deixar,seja uma estimativa deβusando o método de ajusteδ(OLS ou LASSO para nossos propósitos). A fórmula para os graus de liberdade dado no artigo (equação 1.2) é: DF ( β ) = N Σ i = 1 Cov ( β , x i, Y i )β^=δ({Yi}i=1n)βδ
df(β^)=i=1nCov(β^,xi,Yi)σ2.

Ao inspecionar essa fórmula, podemos supor que, de acordo com sua intuição, o verdadeiro DOF para o LASSO será realmente menor que o verdadeiro DOF do OLS; o coeficiente de retração efetuado pelo LASSO deve tender a diminuir as covariâncias.

Agora, para responder sua pergunta, a razão pela qual o DOF para o LASSO é o mesmo que o DOF para OLS no seu exemplo é apenas que você está lidando com estimativas (embora não imparciais), obtidas de um conjunto de dados específico amostrado no modelo , dos verdadeiros valores de DOF. Para qualquer conjunto de dados específico, essa estimativa não será igual ao valor verdadeiro (especialmente porque é necessário que a estimativa seja um número inteiro, enquanto o valor verdadeiro é um número real em geral).

No entanto, quando essas estimativas são calculadas sobre muitos conjuntos de dados amostrados no modelo, pela imparcialidade e pela lei de grandes números, essa média convergirá para o verdadeiro DOF. No caso do LASSO, alguns desses conjuntos de dados resultarão em um estimador em que o coeficiente é realmente 0 (embora esses conjuntos de dados possam ser raros se for pequeno). No caso do OLS, a estimativa do DOF é sempre o número de coeficientes, não o número de coeficientes diferentes de zero e, portanto, a média do caso OLS não conterá esses zeros. Isso mostra como os estimadores diferem e como o estimador médio para o LASSO DOF pode convergir para algo menor que o estimador médio para o OLS DOF.λ

e2crawfo
fonte
1
β^LASSO=0<1=1
A propósito, por que a estimativa de graus de liberdade precisa ser inteira? Sério? Permitam-me também observar que a notação interna do produto parece desnecessariamente complicada e raramente é usada neste site; notação de matriz seria suficiente. Mas a escolha é sua, é claro.
Richard Hardy
1
Sim, isso resume tudo. A estimativa de graus de liberdade deve ser um número inteiro para o LASSO (pelo menos para um único conjunto de dados) apenas porque a estimativa é o número de coeficientes diferentes de zero.
E2crawfo
1
A afirmação A estimativa de graus de liberdade deve ser um número inteiro para o LASSO, apenas porque a estimativa é que o número de coeficientes diferentes de zero me parece altamente tautológico. Em geral, não acho que o df precise ser inteiro, a partir da própria definição do df que você escreveu. Da mesma forma, no caso da cordilheira, não é necessariamente zero.
Matifou 23/05/19