Interpretação dos coeficientes de regressão do LASSO

12

Atualmente, estou trabalhando na construção de um modelo preditivo para um resultado binário em um conjunto de dados com ~ 300 variáveis ​​e 800 observações. Eu li muito neste site sobre os problemas associados à regressão gradual e por que não usá-la.

Eu estive lendo a regressão do LASSO e sua capacidade de seleção de recursos e tive sucesso em implementá-la com o uso do pacote "caret" e "glmnet".

Sou capaz de extrair o coeficiente do modelo com o ideal lambdae alphado "sinal de intercalação"; no entanto, não estou familiarizado com como interpretar os coeficientes.

  • Os coeficientes do LASSO são interpretados no mesmo método da regressão logística?
  • Seria apropriado usar os recursos selecionados no LASSO na regressão logística?

EDITAR

Interpretação dos coeficientes, como nos coeficientes exponenciados da regressão do LASSO, pois o log tem chances de uma alteração de 1 unidade no coeficiente, mantendo todos os outros coeficientes constantes.

https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faq-how-do-i-interpret-odds-ratios-in-logistic-regression/

Michael Luu
fonte
Você pode preencher um pouco o que você quer dizer com "interpretado da mesma maneira que a regressão logística"? Seria muito útil saber exatamente quais interpretações você gostaria de generalizar.
Matthew Drury
1
@ Matthew Drury - Muito obrigado por dedicar um tempo para me ajudar, pois meus cursos nunca foram além do LASSO. Em geral, pelo que aprendi durante meus cursos de pós-graduação, os coeficientes exponenciados de uma regressão logística produzem as chances de log de um aumento de 1 unidade no coeficiente, mantendo todos os outros coeficientes constantes.
Michael Luu
1
αλα
Até onde eu sei, o teste de significância para coeficientes não foi introduzido na maioria das implementações do LASSO. Portanto, não seria possível que, embora possamos determinar variáveis ​​estatisticamente significativas no OLS, não possamos fazê-lo com o LASSO, exceto fazendo uma afirmação mais fraca de que os coeficientes do LASSO das variáveis ​​correspondentes selecionadas são as variáveis ​​"importantes" a serem consideradas?
godspeed

Respostas:

13

Os coeficientes do LASSO são interpretados no mesmo método da regressão logística?

Permitam-me reformular: os coeficientes do LASSO são interpretados da mesma maneira que, por exemplo, os coeficientes de probabilidade máxima do OLS em uma regressão logística?

O LASSO (um método de estimativa penalizada) visa estimar as mesmas quantidades (coeficientes do modelo) que, digamos, a máxima verossimilhança do OLS (um método não compensado). O modelo é o mesmo e a interpretação permanece a mesma. Os valores numéricos do LASSO normalmente diferem dos da probabilidade máxima do OLS : alguns estarão mais próximos de zero, outros serão exatamente zero. Se uma quantidade sensata de penalização tiver sido aplicada, as estimativas do LASSO ficarão mais próximas dos valores verdadeiros do que as estimativas de máxima verossimilhança do OLS , que é um resultado desejável.

Seria apropriado usar os recursos selecionados no LASSO na regressão logística?

Não há nenhum problema inerente a isso, mas você pode usar o LASSO não apenas para seleção de recursos, mas também para estimativa de coeficientes. Como mencionei acima, as estimativas do LASSO podem ser mais precisas do que, digamos, as estimativas de máxima verossimilhança do OLS .

Richard Hardy
fonte
Muito obrigado por esta resposta! Faz muito sentido! Por favor, desculpe meu conhecimento limitado neste assunto. Como você mencionou em outro comentário, eu posso estar usando rede elástica em vez de LASSO por meio de sinal de intercalação, pois escolhe a lambda e alfa ideais. O mesmo se aplica aos coeficientes?
Michael Luu
Sim, seria. A lógica básica permanece a mesma.
Richard Hardy
Você escreve "a interpretação permanece a mesma". Você poderia me ajudar a entender esse ponto? Parece-me que a interpretação dos coeficientes de OLS em um cenário de regressão múltipla depende de gráficos de regressão parciais . No entanto, essa propriedade não se aplica aos coeficientes de laço, levando-me a acreditar que a interpretação seria diferente.
user795305
1
@ Ben, se assumirmos um modelo estatístico subjacente, podemos estimar seus parâmetros de maneiras diferentes, sendo dois populares os OLS e o laço. Os coeficientes estimados têm como alvo os mesmos alvos e ambos apresentam algum erro de estimativa (que, se ao quadrado, pode ser decomposto em viés e variância), portanto, nesse sentido, sua interpretação é a mesma. Agora é claro que os métodos não são os mesmos, então você obtém diferentes valores estimados do coeficiente. Se você se importa com os métodos e suas interpretações algébricas e geométricas, essas não são as mesmas. Mas as interpretações do assunto são as mesmas.
Richard Hardy
(1,...,p)T