Ao explicar a regressão do LASSO, o diagrama de um diamante e um círculo é frequentemente usado. Diz-se que, como o formato da restrição no LASSO é um diamante, a solução de mínimos quadrados obtida pode tocar o canto do diamante, levando a um encolhimento de alguma variável. No entanto, na regressão de crista, por ser um círculo, muitas vezes não toca o eixo. Eu não conseguia entender por que ele não pode tocar o eixo ou talvez tenha uma probabilidade menor do que o LASSO de reduzir determinados parâmetros. Além disso, por que o LASSO e a crista têm variação menor do que os mínimos quadrados comuns? A descrição acima é minha compreensão do cume e do LASSO e posso estar errado. Alguém pode me ajudar a entender por que esses dois métodos de regressão têm menor variação?
fonte
Respostas:
Isto é sobre a variação
O OLS fornece o que é chamado de Melhor Estimador Linear Não Polarizado (AZUL) . Isso significa que, se você tomar qualquer outro estimador imparcial, ele provavelmente terá uma variação maior do que a solução OLS. Então, por que diabos devemos considerar algo além disso?
Agora, o truque da regularização, como o laço ou a crista, é adicionar um pouco de viés para tentar reduzir a variação. Porque quando você estimar o erro de previsão, é uma combinação de três coisas :
Então, o que é este ? É a variação introduzida nas estimativas para os parâmetros em seu modelo. O modelo linear tem a forma y = X β + ϵ ,Var[f^(x))]
Para se obter a solução OLS que resolver o problema de minimização
arg min p | | y - X β | | 2
Este fornece a solução
β OLS = ( X T X ) - 1 X t y
O problema de minimização para regressão de cumeeira é semelhante:
arg min β | | y - X β | |
Não tenho certeza se posso fornecer uma resposta mais clara do que isso. Tudo isso se resume à matriz de covariância dos parâmetros no modelo e à magnitude dos valores nessa matriz de covariância.
Tomei a regressão de cume como exemplo, porque é muito mais fácil de tratar. O laço é muito mais difícil e ainda há pesquisas ativas em andamento sobre esse tópico.
Esses slides fornecem mais algumas informações e este blog também possui algumas informações relevantes.
EDIT: O que quero dizer com a adição da crista o determinante é " puxado " para longe de zero?
Aqui está um código R para ilustrar isso:
O que fornece os resultados:
Portanto, todos os autovalores são alterados em exatamente 3.
Você também pode provar isso em geral usando o teorema do círculo de Gershgorin . Lá, os centros dos círculos que contêm os valores próprios são os elementos diagonais. Você sempre pode adicionar "suficiente" ao elemento diagonal para criar todos os círculos no semiplano real positivo. Esse resultado é mais geral e não é necessário para isso.
fonte
Regressão de Ridge
L2 = (y-xβ) ^ 2 + λ∑βi ^ 2
Resolverá esta equação apenas para um β por enquanto e depois você pode generalizar isso:
Então, (y-xβ) ^ 2 + λβ ^ 2 esta é a nossa equação para um β.
Nosso objetivo é minimizar a equação acima, ser capaz de fazer isso, equacionará isso em zero e tomará as derivadas erradas β
Y ^ 2- 2xyβ + x ^ 2 β ^ 2 + λβ ^ 2 = 0 ------- Usando (ab) ^ 2 expansão
Derivados parciais wrt
-2xy + 2x ^ 2β + 2βλ = 0
2β (x ^ 2 + λ) = 2xy
β = 2xy / 2 (x ^ 2 + λ)
Finalmente
β = xy / (x ^ 2 + λ)
Se você observar o denominador, ele nunca se tornará zero, pois estamos adicionando algum valor de λ (ou seja, hiper parâmetro). E, portanto, o valor de β será o mais baixo possível, mas não se tornará zero.
Regressão LASSO:
L1 = (y-xβ) ^ 2 + λ∑ | β |
Resolverá esta equação apenas para um β por enquanto e, posteriormente, você pode generalizar isso para mais β:
Então, (y-xβ) ^ 2 + λβ esta é a nossa equação para um β, aqui eu considerei o valor + ve de β.
Nosso objetivo é minimizar a equação acima, para poder fazer isso, equivale a zero e leva as derivadas erradas β
Y ^ 2-2xyβ + x ^ 2 β ^ 2 + λβ = 0 ------- Usando (ab) ^ 2 expansão
Derivados parciais wrt
-2xy + 2x ^ 2β + λ = 0
2x ^ 2β + λ = 2xy
2x ^ 2β = 2xy-λ
Finalmente
β = (2xy-λ) / (2X ^ 2)
Se você observar o numerador, ele se tornará zero, pois estamos subtraindo algum valor de λ (ou seja, hiper parâmetro). E, portanto, o valor de β será definido como zero.
fonte