Qual é o laço na análise de regressão?

Respostas:

112

O LASSO (operador de seleção e contração menos absolutos) é um método de regressão que envolve a penalização do tamanho absoluto dos coeficientes de regressão.

Ao penalizar (ou restringir equivalentemente a soma dos valores absolutos das estimativas), você acaba em uma situação em que algumas das estimativas de parâmetros podem ser exatamente zero. Quanto maior a penalidade aplicada, mais estimativas são reduzidas para zero.

Isso é conveniente quando queremos uma seleção automática de característica / variável ou quando lidamos com preditores altamente correlacionados, em que a regressão padrão geralmente terá coeficientes de regressão 'muito grandes'.

https://web.stanford.edu/~hastie/ElemStatLearn/ (Download gratuito) tem uma boa descrição do LASSO e métodos relacionados.

dcl
fonte
Eu sou novo no site; esta é precisamente a informação que eu estava procurando; Muito Obrigado.
Paul Vogt
Existe um PDF sobre como resolvê-lo usando o Problema Duplo?
Royi 3/09/2015
O link está quebrado
Oliver Angelil 28/01
3

A regressão LASSO é um tipo de análise de regressão em que a seleção e a regulação de variáveis ​​ocorrem simultaneamente. Este método utiliza uma penalidade que afeta o valor dos coeficientes de regressão. À medida que a penalidade aumenta, mais coeficientes se tornam zero e vice-versa. Ele usa a técnica de normalização L1, na qual o parâmetro de ajuste é usado como quantidade de contração. À medida que o parâmetro de ajuste aumenta, o viés aumenta e, conforme diminui, a variação aumenta. Se for constante, então nenhum coeficiente é zero e, como é tende ao infinito, todos os coeficientes serão zero.

Shweta
fonte
2

Na regressão "normal" (OLS), o objetivo é minimizar a soma residual dos quadrados (RSS) para estimar os coeficientes

argminβRpi=1n(Yij=1pXijβj)2

No caso da regressão do LASSO, você estima os coeficientes com uma abordagem ligeiramente diferente:

argminβRpi=1n(Yij=1pXijβj)2+λj=1p|βj|

A nova peça é iluminada em vermelho, que é uma soma dos valores absolutos do coeficiente penalizados por , portanto controla a quantidade de regulação (L1).λλ

Observe que se , resultaria nos mesmos coeficientes da regressão linear simples. A fórmula mostra que, no caso de LASSO necessário que os regulamentos RSS e L1 (nova parte vermelha) sejam mínimos. Se , a penalidade L1 vermelha restringe o tamanho dos coeficientes, de modo que o coeficiente só pode aumentar se isso levar à mesma quantidade de redução no RSS. De maneira mais geral, a única maneira de aumentar os coeficientes é se ocorrermos uma diminuição comparável na soma residual dos quadrados (RSS). Assim, quanto mais alto você definirλ=0argminλ=1λquanto mais penalidade for aplicada aos coeficientes e menores forem os coeficientes, alguns poderão se tornar zero. Isso significa que o LASSO pode resultar em modelos parcimoniosos, fazendo a seleção de recursos e impede que o modelo se ajuste demais. Dito isso, você pode usar o LASSO se tiver muitos recursos e seu objetivo é prever dados a interpretar os coeficientes do seu modelo.

pedregulho
fonte
1
Obrigado pela sua resposta (+1). Este site suporta , você pode postar as fórmulas em ? Isso os tornaria legíveis para usuários com deficiência visual. Observe que você pode até usar cores como aqui (clique em "editar" para ver a resposta bruta) e sub-chaves como aqui para fazer figuras semelhantes. Obrigado. TEXTEX
Tim
@ Tim: Muito obrigado por isso! Foi uma ótima dica para clicar em editar para ver como é feito.
pedregulho