O coeficiente variável aumenta e depois cai à medida que o lambda diminui (LASSO)

8

Estou regredindo um preditor contínuo em mais de 60 variáveis ​​(contínuas e categóricas) usando o LASSO (glmnet).

Ao examinar o gráfico de rastreamento de variáveis, noto que, à medida que o log lambda aumenta, uma das principais variáveis ​​tem um coeficiente que realmente aumenta. Depois de um certo ponto, começa a diminuir como esperávamos.

Para garantir que isso não acontecesse, eu corri 10 modelos usando bootstraps e obtive resultados muito semelhantes.

Isso é possível ou há algum problema com os dados? Se legítimo, o que essa tendência no coeficiente da variável nos diz sobre a variável e a relação com a resposta?

Gráfico de rastreio de variável inicial 10 modelos de inicialização

matsuo_basho
fonte

Respostas:

10

Não é apenas possível, é uma ocorrência muito comum.

 λ||β||1λ

i|βi|logλ

Você sempre verá esse tipo de comportamento quando houver alguma correlação entre os preditores - pode haver um tipo de efeito de substituição.

|β4|+|β11|

Glen_b -Reinstate Monica
fonte
O que essa dinâmica diz sobre o efeito da variável na resposta em comparação com se ela estava apenas diminuindo com um aumento da lambda?
matsuo_basho
β4β11β4λx4
+1, mas seria possível obter um exemplo construtivo mostrando como e por que essas coisas acontecem?
Richard Hardy
Deixe-me fornecer alguns antecedentes do motivo pelo qual estou fazendo a pergunta. Eu gostaria de identificar as variáveis ​​mais importantes no modelo. Nos modelos que eu executo, vemos que as variáveis ​​4 e 11 ou 24 estão consistentemente no modelo quando o lambda é alto. Assim, podemos dizer que eles são importantes. Embora a variável 4 geralmente tenha um coeficiente positivo, a maneira como ela muda é um pouco confusa. Essa dinâmica nos diz algo sobre a interpretação do efeito das variáveis ​​na resposta?
matsuo_basho