Estou conduzindo uma análise em que o objetivo principal é entender os dados. O conjunto de dados é grande o suficiente para validação cruzada (10k), e os preditores incluem variáveis contínuas e simuladas, e o resultado é contínuo. O objetivo principal era verificar se faz sentido expulsar alguns preditores, a fim de facilitar a interpretação do modelo.
Questões:
Minha pergunta é "que vários explicam o resultado e são uma parte 'suficientemente forte' dessa explicação". Mas, para selecionar o parâmetro lambda para laço, use a validação cruzada, ou seja, a validade preditiva como critério. Ao fazer inferência, a validade preditiva é um proxy suficientemente bom para a pergunta geral que estou fazendo?
Digamos que o LASSO tenha mantido apenas 3 dos 8 preditores. E agora me pergunto: "que efeito isso tem no resultado". Por exemplo, encontrei uma diferença de gênero. Após o encolhimento do laço, o coeficiente sugere que as mulheres tenham 1 ponto a mais que os homens. Mas sem o encolhimento (ou seja, no conjunto de dados real), eles obtêm 2,5 pontos a mais.
- Qual deles eu consideraria meu efeito de gênero "real"? Indo apenas pela validade preditiva, seria o coeficiente reduzido.
- Ou, em um contexto, digamos que estou escrevendo um relatório para pessoas pouco versadas em estatística. Qual coeficiente eu reportaria a eles?
fonte
Respostas:
Se seu objetivo é estimar com precisão os parâmetros em seu modelo, quão perto você está do modelo real é como deve selecionar seu modelo. A validade preditiva via validação cruzada é uma maneira de fazer isso e é a maneira preferida para selecionar na regressão do LASSO. λ∗ λ
Agora, para responder à pergunta sobre qual estimativa de parâmetro é a "estimativa real", deve-se examinar qual parâmetro é "mais próximo" do valor real do parâmetro. "Mais próximo" significa as estimativas de parâmetro que minimizam o viés? Nesse caso, o estimador menos quadrado é imparcial na regressão linear. O mais próximo significa a estimativa de parâmetro que minimiza o erro quadrático médio (MSE)? Em seguida, pode ser mostrado que existe uma especificação de regressão de crista que fornecerá estimativas que minimizem o MSE (semelhante ao LASSO, a regressão de crista reduz as estimativas de parâmetro em direção a zero, mas, diferente de LASSO, as estimativas de parâmetro não atingem zero). Similarmente,λ ) Como estatístico, você deve determinar qual é a melhor estimativa e relatá-la (de preferência com alguma indicação da confiança da estimativa) para aqueles que não são bem versados em estatística. O que é "melhor" pode ou não ser uma estimativa tendenciosa.
Aλ λ
glmnet
função em R faz um bom trabalho ao selecionar bons valores de e, em resumo, selecionar através da validação cruzada e relatar as estimativas de parâmetros é uma maneira perfeitamente razoável de estimar o valor "real" dos parâmetros.λλ∗ Um modelo bayesiano do LASSO que seleciona por probabilidade marginal é preferido por alguns, mas eu estou, talvez incorretamente, supondo que você esteja fazendo um modelo freqüentista do LASSO.λ
fonte