Conheço os benefícios da regularização ao criar modelos preditivos (viés versus variação, impedindo o ajuste excessivo). Mas, estou me perguntando se é uma boa idéia também fazer regularização (laço, cume, rede elástica) quando o principal objetivo do modelo de regressão é a inferência nos coeficientes (ver quais preditores são estatisticamente significativos). Eu adoraria ouvir os pensamentos das pessoas, bem como links para periódicos acadêmicos ou artigos não acadêmicos sobre isso.
inference
lasso
ridge-regression
elastic-net
selectiveinference
user162381
fonte
fonte
Respostas:
O termo "regularização" abrange uma variedade muito ampla de métodos. Para os fins desta resposta, vou me limitar a "otimização penalizada", ou seja, adicionar uma penalidade de ou L 2 ao seu problema de otimização.eu1 eu2
Se for esse o caso, a resposta é definitiva "Sim! Bem, meio".
A razão para isso é que a adição de uma penalidade de ou L 2 à função de probabilidade leva à exatamente a mesma função matemática que a adição de um Laplace ou Gaussiano a antes da probabilidade de obter a distribuição posterior (passo do elevador: a distribuição anterior descreve a incerteza). dos parâmetros antes de ver os dados, a distribuição posterior descreve a incerteza dos parâmetros depois de ver os dados), o que leva à estatística bayesiana 101. A estatística bayesiana é muito popular e realizada o tempo todo com o objetivo de inferência dos efeitos estimados.eu1 eu2
Esse foi o "Sim!" parte. O "Bem" é que otimizar sua distribuição posterior é feito e é chamado de estimativa "Máximo A Posterior" (MAP). Mas a maioria dos bayesianos não usa a estimativa de MAP, eles fazem amostras da distribuição posterior usando algoritmos MCMC! Isso tem várias vantagens, uma das quais sendo que ela tende a ter menos viés descendente nos componentes de variação.
Por uma questão de brevidade, tentei não entrar em detalhes sobre as estatísticas bayesianas, mas se isso lhe interessa, esse é o lugar para começar a procurar.
fonte
Há uma grande diferença entre realizar estimativas usando penalidades do tipo cume e do tipo laço. Os estimadores do tipo Ridge tendem a encolher todos os coeficientes de regressão para zero e são enviesados, mas têm uma distribuição assintótica fácil de derivar porque não encolhem nenhuma variável para exatamente zero. O viés nas estimativas do cume pode ser problemático na realização subsequente de testes de hipóteses, mas eu não sou especialista nisso. Por outro lado, as penalidades do tipo laço / rede elástica reduzem muitos coeficientes de regressão a zero e, portanto, podem ser vistas como técnicas de seleção de modelo. O problema de executar inferência em modelos que foram selecionados com base em dados é geralmente chamado de problema de inferência seletiva ou inferência pós-seleção. Este campo tem visto muitos desenvolvimentos nos últimos anos.
Da mesma forma, o Lasso (ou rede elástica) restringe o espaço da amostra de forma a garantir que o modelo selecionado tenha sido selecionado. Esse truncamento é mais complicado, mas pode ser descrito analiticamente.
Com base nesse insight, é possível executar inferência com base na distribuição truncada dos dados para obter estatísticas de teste válidas. Para intervalos de confiança e estatísticas de testes, consulte o trabalho de Lee et al .: http://projecteuclid.org/euclid.aos/1460381681
Seus métodos são implementados no pacote R selectInference .
Estimativa ideal (e teste) após a seleção do modelo ser discutida em (para o laço): https://arxiv.org/abs/1705.09417
e seu pacote de software (muito menos abrangente) está disponível em: https://github.com/ammeir2/selectiveMLE
fonte
Eu recomendaria particularmente o LASSO se você estiver tentando usar a regressão para inferência com base em "quais preditores são estatisticamente significativos" - mas não pelo motivo que você poderia esperar.
Na prática, preditores em um modelo tendem a ser correlacionados. Mesmo se não houver multicolinearidade substancial, a escolha da regressão de preditores "significativos" entre o conjunto de preditores correlacionados pode variar substancialmente de amostra para amostra.
Então, sim, vá em frente e faça o LASSO para sua regressão. Em seguida, repita o processo completo de construção do modelo (incluindo a validação cruzada para escolher a penalidade do LASSO) em várias amostras de inicialização (algumas centenas) dos dados originais. Veja quão variável pode ser o conjunto de preditores "significativos" selecionados dessa maneira.
A menos que seus preditores sejam altamente ortogonais entre si, esse processo deve fazer você pensar duas vezes sobre a interpretação dos valores p em uma regressão em termos dos quais preditores individuais são "significativamente" importantes.
fonte