Intuição para os graus de liberdade do LASSO

Zou et al. "Nos" graus de liberdade "do laço" (2007) mostram que o número de coeficientes diferentes de zero é uma estimativa imparcial e consistente para os graus de liberdade do laço.

Parece um pouco contra-intuitivo para mim.

Suponha que tenhamos um modelo de regressão (onde as variáveis têm média zero)

y = β x + ε .

$y=\beta x + \varepsilon.$

Suponhamos que um OLS sem restrições de estimar $\beta$ é . Pode coincidir aproximadamente com uma estimativa do LASSO de para uma intensidade de penalidade muito baixa. $\hat\beta_{OLS}=0.5$ $\beta$
Suponha-se ainda que uma estimativa LASSO para uma determinada intensidade penalidade $\lambda^*$ é . Por exemplo, pode ser o "ideal" para o conjunto de dados em mãos encontrado usando a validação cruzada. $\hat\beta_{LASSO,\lambda^*}=0.4$ $\lambda^*$ $\lambda$
Se bem entendi, em ambos os casos os graus de liberdade são 1, pois nas duas vezes existe um coeficiente de regressão diferente de zero.

Questão:

Como é que os graus de liberdade em ambos os casos são os mesmos, embora sugere menos "liberdade" na montagem de ? $\hat\beta_{LASSO,\lambda^*}=0.4$ $\hat\beta_{OLS}=0.5$

Referências:

Zou, Hui, Trevor Hastie e Robert Tibshirani. "Nos" graus de liberdade "do laço." The Annals of Statistics 35.5 (2007): 2173-2192.

regression lasso degrees-of-freedom shrinkage Richard Hardy
fonte

ótima pergunta, isso mereceria mais atenção!

Matifou 25/05/19

Assuma que nos é dado um conjunto de observações -dimensional, , . Assumir um modelo da forma: onde , , e $n$ $p$ $x_i \in \mathbb{R}^p$ $i = 1, \dotsc, n$

\begin{aligned} Y_{i} = ⟨ β, x_{i} ⟩ + ϵ \end{aligned}

$\begin{align} Y_i = \langle \beta, x_i\rangle + \epsilon \end{align}$

ϵ \sim N (0, σ^{2})

$\epsilon \sim N(0, \sigma^2)$

β \in R^{p}

$\beta \in \mathbb{R}^p$

denotando o produto interno.

⟨ \cdot, \cdot ⟩

$\langle \cdot, \cdot \rangle$

seja uma estimativa de

usando o método de ajuste

(OLS ou LASSO para nossos propósitos). A fórmula para os graus de liberdade dado no artigo (equação 1.2) é:

\hat{β} = δ ({Y_{i}}_{i = 1}^{n})

$\hat{\beta} = \delta(\{Y_i\}_{i=1}^n)$

β

$\beta$

δ

$\delta$

\begin{aligned} df (\hat{β}) = \sum_{i = 1}^{n} \frac{Cov (⟨ \hat{β}, x_{i} ⟩, Y_{i})}{σ^{2}} . \end{aligned}

$\begin{align} \text{df}(\hat{\beta}) = \sum_{i=1}^n \frac{\text{Cov}(\langle\hat{\beta}, x_i\rangle, Y_i)}{\sigma^2}. \end{align}$

Ao inspecionar essa fórmula, podemos supor que, de acordo com sua intuição, o verdadeiro DOF para o LASSO será realmente menor que o verdadeiro DOF do OLS; o coeficiente de retração efetuado pelo LASSO deve tender a diminuir as covariâncias.

Agora, para responder sua pergunta, a razão pela qual o DOF para o LASSO é o mesmo que o DOF para OLS no seu exemplo é apenas que você está lidando com estimativas (embora não imparciais), obtidas de um conjunto de dados específico amostrado no modelo , dos verdadeiros valores de DOF. Para qualquer conjunto de dados específico, essa estimativa não será igual ao valor verdadeiro (especialmente porque é necessário que a estimativa seja um número inteiro, enquanto o valor verdadeiro é um número real em geral).

No entanto, quando essas estimativas são calculadas sobre muitos conjuntos de dados amostrados no modelo, pela imparcialidade e pela lei de grandes números, essa média convergirá para o verdadeiro DOF. No caso do LASSO, alguns desses conjuntos de dados resultarão em um estimador em que o coeficiente é realmente 0 (embora esses conjuntos de dados possam ser raros se for pequeno). No caso do OLS, a estimativa do DOF é sempre o número de coeficientes, não o número de coeficientes diferentes de zero e, portanto, a média do caso OLS não conterá esses zeros. Isso mostra como os estimadores diferem e como o estimador médio para o LASSO DOF pode convergir para algo menor que o estimador médio para o OLS DOF. $\lambda$

e2crawfo
fonte

{\hat{β}}_{L A S S O} = 0

$\hat\beta_{LASSO}=0$

< 1

$<1$

= 1

$=1$

A propósito, por que a estimativa de graus de liberdade precisa ser inteira? Sério? Permitam-me também observar que a notação interna do produto parece desnecessariamente complicada e raramente é usada neste site; notação de matriz seria suficiente. Mas a escolha é sua, é claro.

Richard Hardy

Sim, isso resume tudo. A estimativa de graus de liberdade deve ser um número inteiro para o LASSO (pelo menos para um único conjunto de dados) apenas porque a estimativa é o número de coeficientes diferentes de zero.

E2crawfo

A afirmação A estimativa de graus de liberdade deve ser um número inteiro para o LASSO, apenas porque a estimativa é que o número de coeficientes diferentes de zero me parece altamente tautológico. Em geral, não acho que o df precise ser inteiro, a partir da própria definição do df que você escreveu. Da mesma forma, no caso da cordilheira, não é necessariamente zero.

Matifou 23/05/19

Intuição para os graus de liberdade do LASSO

Respostas: