Zou et al. "Nos" graus de liberdade "do laço" (2007) mostram que o número de coeficientes diferentes de zero é uma estimativa imparcial e consistente para os graus de liberdade do laço.
Parece um pouco contra-intuitivo para mim.
- Suponha que tenhamos um modelo de regressão (onde as variáveis têm média zero)
- Suponhamos que um OLS sem restrições de estimar é β S G S = 0,5 . Pode coincidir aproximadamente com uma estimativa do LASSO de β para uma intensidade de penalidade muito baixa.
- Suponha-se ainda que uma estimativa LASSO para uma determinada intensidade penalidade é β G A S S S , λ * = 0,4 . Por exemplo, λ ∗ pode ser o "ideal" λ para o conjunto de dados em mãos encontrado usando a validação cruzada.
- Se bem entendi, em ambos os casos os graus de liberdade são 1, pois nas duas vezes existe um coeficiente de regressão diferente de zero.
Questão:
- Como é que os graus de liberdade em ambos os casos são os mesmos, embora β G A S S S , λ * = 0,4 sugere menos "liberdade" na montagem de β S G S = 0,5 ?
Referências:
- Zou, Hui, Trevor Hastie e Robert Tibshirani. "Nos" graus de liberdade "do laço." The Annals of Statistics 35.5 (2007): 2173-2192.
regression
lasso
degrees-of-freedom
shrinkage
Richard Hardy
fonte
fonte
Respostas:
Assuma que nos é dado um conjunto de de p observações -dimensional, x i ∈ R p , i = 1 , ... , n . Assumir um modelo da forma: Y i = ⟨ p , x i ⟩ + ε onde ε ~ N ( 0 , σ 2 ) , p ∈ R p , e ⟨ ⋅ , ⋅n p xi∈Rp i=1,…,n
Ao inspecionar essa fórmula, podemos supor que, de acordo com sua intuição, o verdadeiro DOF para o LASSO será realmente menor que o verdadeiro DOF do OLS; o coeficiente de retração efetuado pelo LASSO deve tender a diminuir as covariâncias.
Agora, para responder sua pergunta, a razão pela qual o DOF para o LASSO é o mesmo que o DOF para OLS no seu exemplo é apenas que você está lidando com estimativas (embora não imparciais), obtidas de um conjunto de dados específico amostrado no modelo , dos verdadeiros valores de DOF. Para qualquer conjunto de dados específico, essa estimativa não será igual ao valor verdadeiro (especialmente porque é necessário que a estimativa seja um número inteiro, enquanto o valor verdadeiro é um número real em geral).
No entanto, quando essas estimativas são calculadas sobre muitos conjuntos de dados amostrados no modelo, pela imparcialidade e pela lei de grandes números, essa média convergirá para o verdadeiro DOF. No caso do LASSO, alguns desses conjuntos de dados resultarão em um estimador em que o coeficiente é realmente 0 (embora esses conjuntos de dados possam ser raros se for pequeno). No caso do OLS, a estimativa do DOF é sempre o número de coeficientes, não o número de coeficientes diferentes de zero e, portanto, a média do caso OLS não conterá esses zeros. Isso mostra como os estimadores diferem e como o estimador médio para o LASSO DOF pode convergir para algo menor que o estimador médio para o OLS DOF.λ
fonte