Estimei os parâmetros de regressão de um modelo de regressão linear usando o LASSO, enviei algumas variáveis para zero usando a validação cruzada e agora obtive um modelo final. Sabe-se que a regularização induz viés nas variáveis ativas, mas é um bom preço a pagar para se livrar de variáveis espúrias. O que faço agora que tenho meu modelo final com apenas um quinto das variáveis originais? Devo apenas lidar com o viés nas variáveis restantes como um campeão ou existe uma maneira inteligente de proceder?
regression
lasso
regularization
Rodeio
fonte
fonte
Respostas:
Uma abordagem comum é agora refazer a regressão (sem regularização) usando apenas as variáveis que foram selecionadas pelo LASSO.
Isso é chamado de "inferência pós-seleção". Veja Lee et al. 2016 para encontrar valores-p e intervalos de confiança nas estimativas resultantes.
fonte
Você pode se perguntar qual é o objetivo de construir esse modelo. Você está tentando obter um melhor desempenho de previsão? Ou você quer um modelo linear que seja estatisticamente significativo. Esses dois objetivos não estão necessariamente alinhados.
Do ponto de vista do aprendizado de máquina, você sempre quer saber que está se adaptando demais ou se adequando mal. Se você já está em adaptação, a regularização vai piorar.
fonte