Como faz sentido executar o OLS após a seleção de variáveis ​​do LASSO?

20

Recentemente, descobri que na literatura econométrica aplicada, ao lidar com problemas de seleção de características, não é incomum executar o LASSO seguido de uma regressão OLS usando as variáveis ​​selecionadas.

Fiquei me perguntando como podemos qualificar a validade de tal procedimento. Causará problemas como variáveis ​​omitidas? Alguma prova mostrando que é mais eficiente ou que os resultados são mais interpretáveis?

Aqui estão algumas discussões relacionadas:

Seleção variável com LASSO

Usando árvores após a seleção de variáveis ​​usando Lasso / Random

Se, como apontado, esse procedimento não é correto em geral, por que ainda existem tantas pesquisas fazendo isso? Posso dizer que é apenas uma regra de ouro, uma solução de compromisso, devido a algumas das propriedades desconfortáveis ​​do estimador do LASSO e ao gosto das pessoas por OLS?

ZLIU
fonte
Você poderia explicar o que significa fazer "regressão OLS" depois de executar o LASSO? O que, especificamente, esta etapa do OLS está tentando estimar que o LASSO não estimou?
whuber
2
Existem alguns documentos de trabalho recentes sobre o assunto. Muitos parecem exigir que o conjunto de variáveis ​​válidas seja escasso. Se essa suposição não se confirmar, o viés de variáveis ​​omitidas sim estaria presente. E as pessoas gostam de ols porque querem interpretar os coefs como imparciais dos efeitos marginais da amostra. A econometria está bastante presa nesse paradigma.
generic_user
4
No presente livro recente LASSO (free on-line), Seção 11.4 aparece para resolver este problema. Eu não li isso em detalhes, mas a introdução termina dizendo "Dada [uma estimativa do LASSO] que recupera corretamente o suporte de , podemos estimar muito bem ... simplesmente executando uma regressão de mínimos quadrados ordinária restrita a esse subconjunto ". β*β*β^ββ
GeoMatt22

Respostas:

12

Havia uma pergunta semelhante, há alguns dias, que tinha a referência relevante:

  • Belloni, A., Chernozhukov, V. e Hansen, C. (2014) "Inferência sobre os efeitos do tratamento após a seleção entre controles de alta dimensão", Review of Economic Studies, 81 (2), pp. 608-50 ( link )

Pelo menos para mim, o artigo é uma leitura bastante difícil, porque as provas por trás disso relativamente simples são bastante elaboradas. Quando você estiver interessado em estimar um modelo como

yi=αTi+Xiβ+ϵi

onde é o seu resultado, é um efeito de tratamento de interesse e é um vetor de controles em potencial. O parâmetro de destino é . Supondo que a maior parte da variação em seu resultado seja explicada pelo tratamento e um conjunto escasso de controles, Belloni et al. (2014) desenvolvem um método de seleção duplo-robusto que fornece estimativas de pontos corretas e intervalos de confiança válidos. Essa suposição de escarsidade é importante.T i X i αyiTiXiα

Se incluir alguns preditores importantes de mas você não souber quais são (variáveis ​​únicas, seus polinômios de ordem superior ou interações com outras variáveis), você poderá executar um procedimento de seleção em três etapas:y iXiyi

  1. regress em , suas praças, e as interações, e selecione importantes preditores usando LASSOx iyiXi
  2. regride em , seus quadrados e interações e selecione preditores importantes usando o LASSOX iTiXi
  3. regredir em e todas as variáveis ​​que foram selecionadas em uma das duas primeiras etapast iyiTi

Eles fornecem provas de por que isso funciona e por que você obtém os intervalos de confiança corretos etc. com esse método. Eles também mostram que se você executar apenas uma seleção do LASSO na regressão acima e depois regredir o resultado no tratamento e nas variáveis ​​selecionadas, obterá estimativas de pontos erradas e intervalos de confiança falsos, como Björn já disse.

O objetivo de fazer isso é duplo: comparar seu modelo inicial, em que a seleção de variáveis ​​foi guiada por intuição ou teoria, com o modelo de seleção com duplo robusto, fornece uma idéia de quão bom foi o seu primeiro modelo. Talvez seu primeiro modelo tenha esquecido alguns termos importantes ao quadrado ou de interação e, portanto, sofra de forma funcional especificada incorretamente ou de variáveis ​​omitidas. Em segundo lugar, Belloni et al. (2014) pode melhorar a inferência no seu parâmetro de destino porque regressores redundantes foram penalizados em seu procedimento.

Andy
fonte
Estimativas pontuais "corretas"?
Richard Hardy
3

Para executar uma seleção de variáveis ​​e executar novamente uma análise, como se nenhuma seleção de variáveis ​​tivesse acontecido e o modelo selecionado tivesse sido planejado desde o início, normalmente leva a tamanhos de efeito exagerados, valores de p inválidos e intervalos de confiança com cobertura abaixo da nominal. Talvez se o tamanho da amostra for muito grande e houver alguns efeitos enormes e muitos efeitos nulos, o LASSO + OLS pode não ser muito afetado por isso, mas, além disso, não vejo justificativa razoável e, nesse caso, o LASSO as estimativas também devem estar bem.

Björn
fonte
1
Mas por que o segundo modelo começa do zero como se nenhuma seleção de variável tivesse acontecido? O LASSO não seleciona variável explicativa com melhor poder preditivo? BTW eu pensei em fazer coisas LASSO matriz de matriz esparsa em glm novamente. Agora entendi que o LASSO em si é uma regressão.
SIslam