LASSO para modelos explicativos: parâmetros encolhidos ou não?

9

Estou conduzindo uma análise em que o objetivo principal é entender os dados. O conjunto de dados é grande o suficiente para validação cruzada (10k), e os preditores incluem variáveis ​​contínuas e simuladas, e o resultado é contínuo. O objetivo principal era verificar se faz sentido expulsar alguns preditores, a fim de facilitar a interpretação do modelo.

Questões:

  1. Minha pergunta é "que vários explicam o resultado e são uma parte 'suficientemente forte' dessa explicação". Mas, para selecionar o parâmetro lambda para laço, use a validação cruzada, ou seja, a validade preditiva como critério. Ao fazer inferência, a validade preditiva é um proxy suficientemente bom para a pergunta geral que estou fazendo?

  2. Digamos que o LASSO tenha mantido apenas 3 dos 8 preditores. E agora me pergunto: "que efeito isso tem no resultado". Por exemplo, encontrei uma diferença de gênero. Após o encolhimento do laço, o coeficiente sugere que as mulheres tenham 1 ponto a mais que os homens. Mas sem o encolhimento (ou seja, no conjunto de dados real), eles obtêm 2,5 pontos a mais.

    • Qual deles eu consideraria meu efeito de gênero "real"? Indo apenas pela validade preditiva, seria o coeficiente reduzido.
    • Ou, em um contexto, digamos que estou escrevendo um relatório para pessoas pouco versadas em estatística. Qual coeficiente eu reportaria a eles?
mbokulic
fonte
11
Que tipo de modelo você está vendo? Modelo linear, logístico, poisson, etc.?
TrynnaDoStat
11
É um modelo linear, mas eu não acho que isso faz a diferença para a pergunta
mbokulic

Respostas:

7

Se seu objetivo é estimar com precisão os parâmetros em seu modelo, quão perto você está do modelo real é como deve selecionar seu modelo. A validade preditiva via validação cruzada é uma maneira de fazer isso e é a maneira preferida para selecionar na regressão do LASSO. λλ

Agora, para responder à pergunta sobre qual estimativa de parâmetro é a "estimativa real", deve-se examinar qual parâmetro é "mais próximo" do valor real do parâmetro. "Mais próximo" significa as estimativas de parâmetro que minimizam o viés? Nesse caso, o estimador menos quadrado é imparcial na regressão linear. O mais próximo significa a estimativa de parâmetro que minimiza o erro quadrático médio (MSE)? Em seguida, pode ser mostrado que existe uma especificação de regressão de crista que fornecerá estimativas que minimizem o MSE (semelhante ao LASSO, a regressão de crista reduz as estimativas de parâmetro em direção a zero, mas, diferente de LASSO, as estimativas de parâmetro não atingem zero). Similarmente,λ) Como estatístico, você deve determinar qual é a melhor estimativa e relatá-la (de preferência com alguma indicação da confiança da estimativa) para aqueles que não são bem versados ​​em estatística. O que é "melhor" pode ou não ser uma estimativa tendenciosa.

A glmnetfunção em R faz um bom trabalho ao selecionar bons valores de e, em resumo, selecionar através da validação cruzada e relatar as estimativas de parâmetros é uma maneira perfeitamente razoável de estimar o valor "real" dos parâmetros.λλλ

λ Um modelo bayesiano do LASSO que seleciona por probabilidade marginal é preferido por alguns, mas eu estou, talvez incorretamente, supondo que você esteja fazendo um modelo freqüentista do LASSO.λ

TrynnaDoStat
fonte
O que você quis dizer com "viés" em "o parâmetro estima que minimiza o viés"? E leio o resto corretamente se o leio assim: devo escolher o modelo que tem o menor número estimado de amostras fora da amostra (EME) (ou seja, na validação cruzada)? Desde cume está fora de questão desde que eu quero uma matriz de coeficientes esparsa, relatando os coeficientes lasso shrinked é o caminho a percorrer
mbokulic
@mbokulic Por viés, quero dizer viés estatístico. Refere-se à tendência de um processo de medição para estimar acima / abaixo o valor de um parâmetro populacional. Minha resposta está dizendo que depende do que você deseja. Se você não deseja um viés, fique com a regressão linear. Se você concorda com o viés e prefere minimizar o MSE, vá com o LASSO e faça a devida diligência ao selecionar . λ
TrynnaDoStat
interessante, nunca pensei nisso dessa maneira. Novamente, tenho que perguntar se entendi corretamente. Portanto, a regressão linear fornece a estimativa mais imparcial dos coeficientes populacionais (o exemplo "2,5 pontos mais alto" na minha pergunta original). Considerando que laço ou cume regr. minimizar MSE fora da amostra. Nesse caso, se você apenas deseja entender (não prever), a regressão linear parece melhor, embora você ainda deseje simplificar o modelo com, por exemplo, métodos passo a passo.
mbokulic
as respostas aqui são úteis. Eles sugerem que o OLS (regressão linear) tem o desempenho da amostra dentro da amostra, enquanto o laço é para fora da amostra. Além disso, eles sugerem que o OLS pode ser usado no conjunto restrito de preditores selecionados pelo laço. É exatamente isso que faz sentido para o meu objetivo de interpretação, mesmo que as estimativas do OLS se ajustem levemente.
mbokulic