Por que a regressão da crista não reduz alguns coeficientes a zero como o laço?

16

Ao explicar a regressão do LASSO, o diagrama de um diamante e um círculo é frequentemente usado. Diz-se que, como o formato da restrição no LASSO é um diamante, a solução de mínimos quadrados obtida pode tocar o canto do diamante, levando a um encolhimento de alguma variável. No entanto, na regressão de crista, por ser um círculo, muitas vezes não toca o eixo. Eu não conseguia entender por que ele não pode tocar o eixo ou talvez tenha uma probabilidade menor do que o LASSO de reduzir determinados parâmetros. Além disso, por que o LASSO e a crista têm variação menor do que os mínimos quadrados comuns? A descrição acima é minha compreensão do cume e do LASSO e posso estar errado. Alguém pode me ajudar a entender por que esses dois métodos de regressão têm menor variação?

user10024395
fonte
1
Possível duplicata de Por que o Lasso fornece seleção variável?
Juho Kokkala
1
Ok, a parte da variação em negrito não é duplicada, pelo menos nesta questão; então talvez essa pergunta possa ser editada para focar nisso.
Juho Kokkala
Isso está bem explicado na figura 3.11 de web.stanford.edu/~hastie/local.ftp/Springer/OLD/…
@fcop eu li o livro, mas eu não entendo muito bem a matemática
user10024395
Mas para entender a imagem você não precisa de matemática?

Respostas:

25

Isto é sobre a variação

O OLS fornece o que é chamado de Melhor Estimador Linear Não Polarizado (AZUL) . Isso significa que, se você tomar qualquer outro estimador imparcial, ele provavelmente terá uma variação maior do que a solução OLS. Então, por que diabos devemos considerar algo além disso?

Agora, o truque da regularização, como o laço ou a crista, é adicionar um pouco de viés para tentar reduzir a variação. Porque quando você estimar o erro de previsão, é uma combinação de três coisas :

E[(yf^(x))2]=Bias[f^(x))]2+Var[f^(x))]+σ2
A última parte é o erro irredutível, por isso não temos controle sobre isso. Usando a solução OLS, o termo de polarização é zero. Mas pode ser que o segundo termo seja grande. Pode ser uma boa ideia ( se quisermos boas previsões ) adicionar algum viés e reduzir a variação.

Então, o que é este ? É a variação introduzida nas estimativas para os parâmetros em seu modelo. O modelo linear tem a forma y = X β + ϵ ,Var[f^(x))] Para se obter a solução OLS que resolver o problema de minimização arg min p | | y - X β | | 2 Este fornece a solução β OLS = ( X T X ) - 1 X t y O problema de minimização para regressão de cumeeira é semelhante: arg min β | | y - X β | |

y=Xβ+ϵ,ϵN(0,σ2I)
argminβ||yXβ||2
β^OLS=(XTX)1XTy
Agora, a solução torna-se β cume = ( X T X + λ I ) - 1 X T y Portanto, estamos adicionando este λ I (chamado de cume) na diagonal da matriz que invertido. O efeito que isso tem sobre a matriz X T X é que "puxa" o determinante da matriz para longe de zero. Assim, quando você o inverte, você não obtém grandes valores próprios. Mas isso leva a outro fato interessante, a saber, que a variação das estimativas de parâmetros se torna menor.
argminβ||yXβ||2+λ||β||2λ>0
β^Ridge=(XTX+λI)1XTy
λIXTX

Não tenho certeza se posso fornecer uma resposta mais clara do que isso. Tudo isso se resume à matriz de covariância dos parâmetros no modelo e à magnitude dos valores nessa matriz de covariância.

Tomei a regressão de cume como exemplo, porque é muito mais fácil de tratar. O laço é muito mais difícil e aindapesquisas ativas em andamento sobre esse tópico.

Esses slides fornecem mais algumas informações e este blog também possui algumas informações relevantes.

EDIT: O que quero dizer com a adição da crista o determinante é " puxado " para longe de zero?

XTX

det(XTXtI)=0
t
det(XTX+λItI)=0
det(XTX(tλ)I)=0
(tλ)titi+λλ

Aqui está um código R para ilustrar isso:

# Create random matrix
A <- matrix(sample(10,9,T),nrow=3,ncol=3)

# Make a symmetric matrix
B <- A+t(A)

# Calculate eigenvalues
eigen(B)

# Calculate eigenvalues of B with ridge
eigen(B+3*diag(3))

O que fornece os resultados:

> eigen(B)
$values
[1] 37.368634  6.952718 -8.321352

> eigen(B+3*diag(3))
$values
[1] 40.368634  9.952718 -5.321352

Portanto, todos os autovalores são alterados em exatamente 3.

Você também pode provar isso em geral usando o teorema do círculo de Gershgorin . Lá, os centros dos círculos que contêm os valores próprios são os elementos diagonais. Você sempre pode adicionar "suficiente" ao elemento diagonal para criar todos os círculos no semiplano real positivo. Esse resultado é mais geral e não é necessário para isso.

Gumeo
fonte
Você pode explicar como ele "afasta" o determinante do zero (matematicamente)? Graças
user10024395
@ user2675516 Eu editei minha resposta.
Gumeo 12/10
"Isso significa que, se você tomar qualquer outro estimador imparcial, ele provavelmente terá uma variação maior do que a solução OLS". Você quer dizer um viés mais alto que o OLS? Eu pensei que o OLS tivesse menos viés, então qualquer outra coisa teria um viés mais alto. Pls esclarecer
GeorgeOfTheRF
O @ML_Pro OLS tem um viés zero e, de todos os estimadores imparciais, possui a menor variação. Este é um teorema . Portanto, se você escolher qualquer outro, a variação aumentará. Mas se você se regulariza, apresenta viés.
Gumeo
Obrigado! Sua resposta me deixou curiosa. Você pode responder a essa nova pergunta que eu criei? stats.stackexchange.com/questions/294926/…
GeorgeOfTheRF
2

Regressão de Ridge

L2 = (y-xβ) ^ 2 + λ∑βi ^ 2

Resolverá esta equação apenas para um β por enquanto e depois você pode generalizar isso:

Então, (y-xβ) ^ 2 + λβ ^ 2 esta é a nossa equação para um β.

Nosso objetivo é minimizar a equação acima, ser capaz de fazer isso, equacionará isso em zero e tomará as derivadas erradas β

Y ^ 2- 2xyβ + x ^ 2 β ^ 2 + λβ ^ 2 = 0 ------- Usando (ab) ^ 2 expansão

Derivados parciais wrt

-2xy + 2x ^ 2β + 2βλ = 0

2β (x ^ 2 + λ) = 2xy

β = 2xy / 2 (x ^ 2 + λ)

Finalmente

β = xy / (x ^ 2 + λ)

Se você observar o denominador, ele nunca se tornará zero, pois estamos adicionando algum valor de λ (ou seja, hiper parâmetro). E, portanto, o valor de β será o mais baixo possível, mas não se tornará zero.

Regressão LASSO:

L1 = (y-xβ) ^ 2 + λ∑ | β |

Resolverá esta equação apenas para um β por enquanto e, posteriormente, você pode generalizar isso para mais β:

Então, (y-xβ) ^ 2 + λβ esta é a nossa equação para um β, aqui eu considerei o valor + ve de β.

Nosso objetivo é minimizar a equação acima, para poder fazer isso, equivale a zero e leva as derivadas erradas β

Y ^ 2-2xyβ + x ^ 2 β ^ 2 + λβ = 0 ------- Usando (ab) ^ 2 expansão

Derivados parciais wrt

-2xy + 2x ^ 2β + λ = 0

2x ^ 2β + λ = 2xy

2x ^ 2β = 2xy-λ

Finalmente

β = (2xy-λ) / (2X ^ 2)

Se você observar o numerador, ele se tornará zero, pois estamos subtraindo algum valor de λ (ou seja, hiper parâmetro). E, portanto, o valor de β será definido como zero.

Chetan Patil
fonte