Recentemente, descobri que na literatura econométrica aplicada, ao lidar com problemas de seleção de características, não é incomum executar o LASSO seguido de uma regressão OLS usando as variáveis selecionadas.
Fiquei me perguntando como podemos qualificar a validade de tal procedimento. Causará problemas como variáveis omitidas? Alguma prova mostrando que é mais eficiente ou que os resultados são mais interpretáveis?
Aqui estão algumas discussões relacionadas:
Usando árvores após a seleção de variáveis usando Lasso / Random
Se, como apontado, esse procedimento não é correto em geral, por que ainda existem tantas pesquisas fazendo isso? Posso dizer que é apenas uma regra de ouro, uma solução de compromisso, devido a algumas das propriedades desconfortáveis do estimador do LASSO e ao gosto das pessoas por OLS?
Respostas:
Havia uma pergunta semelhante, há alguns dias, que tinha a referência relevante:
Pelo menos para mim, o artigo é uma leitura bastante difícil, porque as provas por trás disso relativamente simples são bastante elaboradas. Quando você estiver interessado em estimar um modelo como
onde é o seu resultado, é um efeito de tratamento de interesse e é um vetor de controles em potencial. O parâmetro de destino é . Supondo que a maior parte da variação em seu resultado seja explicada pelo tratamento e um conjunto escasso de controles, Belloni et al. (2014) desenvolvem um método de seleção duplo-robusto que fornece estimativas de pontos corretas e intervalos de confiança válidos. Essa suposição de escarsidade é importante.T i X i αyi Ti Xi α
Se incluir alguns preditores importantes de mas você não souber quais são (variáveis únicas, seus polinômios de ordem superior ou interações com outras variáveis), você poderá executar um procedimento de seleção em três etapas:y iXi yi
Eles fornecem provas de por que isso funciona e por que você obtém os intervalos de confiança corretos etc. com esse método. Eles também mostram que se você executar apenas uma seleção do LASSO na regressão acima e depois regredir o resultado no tratamento e nas variáveis selecionadas, obterá estimativas de pontos erradas e intervalos de confiança falsos, como Björn já disse.
O objetivo de fazer isso é duplo: comparar seu modelo inicial, em que a seleção de variáveis foi guiada por intuição ou teoria, com o modelo de seleção com duplo robusto, fornece uma idéia de quão bom foi o seu primeiro modelo. Talvez seu primeiro modelo tenha esquecido alguns termos importantes ao quadrado ou de interação e, portanto, sofra de forma funcional especificada incorretamente ou de variáveis omitidas. Em segundo lugar, Belloni et al. (2014) pode melhorar a inferência no seu parâmetro de destino porque regressores redundantes foram penalizados em seu procedimento.
fonte
Para executar uma seleção de variáveis e executar novamente uma análise, como se nenhuma seleção de variáveis tivesse acontecido e o modelo selecionado tivesse sido planejado desde o início, normalmente leva a tamanhos de efeito exagerados, valores de p inválidos e intervalos de confiança com cobertura abaixo da nominal. Talvez se o tamanho da amostra for muito grande e houver alguns efeitos enormes e muitos efeitos nulos, o LASSO + OLS pode não ser muito afetado por isso, mas, além disso, não vejo justificativa razoável e, nesse caso, o LASSO as estimativas também devem estar bem.
fonte