Usando regularização ao fazer inferência estatística

17

Conheço os benefícios da regularização ao criar modelos preditivos (viés versus variação, impedindo o ajuste excessivo). Mas, estou me perguntando se é uma boa idéia também fazer regularização (laço, cume, rede elástica) quando o principal objetivo do modelo de regressão é a inferência nos coeficientes (ver quais preditores são estatisticamente significativos). Eu adoraria ouvir os pensamentos das pessoas, bem como links para periódicos acadêmicos ou artigos não acadêmicos sobre isso.

user162381
fonte
4
A regularização pode ser vista com olhos bayesianos, o laço, por exemplo, corresponde a algum duplo exponencial anterior (com a escala escolhida pela validação cruzada). Então, uma possibilidade é ficar cheia.
b Kjetil HALVORSEN
1
determinar quais preditores são diferentes de zero é o objetivo do laço! Se você quiser determinar quais são estatisticamente significativamente diferente de zero, é extremamente vale a pena considerar métodos como lasso
user795305

Respostas:

8

O termo "regularização" abrange uma variedade muito ampla de métodos. Para os fins desta resposta, vou me limitar a "otimização penalizada", ou seja, adicionar uma penalidade de ou L 2 ao seu problema de otimização.eu1eu2

Se for esse o caso, a resposta é definitiva "Sim! Bem, meio".

A razão para isso é que a adição de uma penalidade de ou L 2 à função de probabilidade leva à exatamente a mesma função matemática que a adição de um Laplace ou Gaussiano a antes da probabilidade de obter a distribuição posterior (passo do elevador: a distribuição anterior descreve a incerteza). dos parâmetros antes de ver os dados, a distribuição posterior descreve a incerteza dos parâmetros depois de ver os dados), o que leva à estatística bayesiana 101. A estatística bayesiana é muito popular e realizada o tempo todo com o objetivo de inferência dos efeitos estimados.eu1eu2

Esse foi o "Sim!" parte. O "Bem" é que otimizar sua distribuição posterior é feito e é chamado de estimativa "Máximo A Posterior" (MAP). Mas a maioria dos bayesianos não usa a estimativa de MAP, eles fazem amostras da distribuição posterior usando algoritmos MCMC! Isso tem várias vantagens, uma das quais sendo que ela tende a ter menos viés descendente nos componentes de variação.

Por uma questão de brevidade, tentei não entrar em detalhes sobre as estatísticas bayesianas, mas se isso lhe interessa, esse é o lugar para começar a procurar.

Cliff AB
fonte
2
(+1) Mas se eu usei esses priores apenas porque eles dão boas previsões - de fato, posso muito bem tê-los sintonizado para esse fim - então o que devo fazer com as estimativas do MAP ou distribuições posteriores? (Obviamente, se eu elicitei os anteriores para representar o conhecimento sobre os parâmetros antes de ver os dados, sei exatamente o que fazer com eles.)
Scortchi - Reinstate Monica
1
@ Scortchi: esse é um ponto muito bom: usar a validação cruzada para escolher penalidades tira você do quadro Bayesiano clássico (tanto quanto eu sei). Construir um modelo com CV para escolher parâmetros de regularização não cairia coincidir com esta resposta, mas usar regularização com penalidades fixas, escolhido com base em informações de especialistas.
Cliff AB
2
Uma palavra de cautela: A abordagem anterior do + MCMC somente fornecerá resultados válidos se os posteriores de todos os possíveis coeficientes forem examinados e relatados. Caso contrário, estamos em um cenário de inferência seletiva e as metodologias de inferência mais ingênuas serão inválidas.
user3903581
1
(+1) Boa resposta! No entanto, acho que vale a pena esclarecer a frase "Mas a maioria dos bayesianos não usa estimativa MAP, eles amostram da distribuição posterior usando algoritmos MCMC!" Parece que você está tentando dizer que a maioria dos bayesianos usa toda a parte posterior na escolha de seu estimador. Para ver o problema, observe que uma estimativa para o MAP pode ser feita a partir da amostra para a distribuição posterior.
user795305
8

Há uma grande diferença entre realizar estimativas usando penalidades do tipo cume e do tipo laço. Os estimadores do tipo Ridge tendem a encolher todos os coeficientes de regressão para zero e são enviesados, mas têm uma distribuição assintótica fácil de derivar porque não encolhem nenhuma variável para exatamente zero. O viés nas estimativas do cume pode ser problemático na realização subsequente de testes de hipóteses, mas eu não sou especialista nisso. Por outro lado, as penalidades do tipo laço / rede elástica reduzem muitos coeficientes de regressão a zero e, portanto, podem ser vistas como técnicas de seleção de modelo. O problema de executar inferência em modelos que foram selecionados com base em dados é geralmente chamado de problema de inferência seletiva ou inferência pós-seleção. Este campo tem visto muitos desenvolvimentos nos últimos anos.

yN(μ,1)μμ|y|>c>0cycy

Da mesma forma, o Lasso (ou rede elástica) restringe o espaço da amostra de forma a garantir que o modelo selecionado tenha sido selecionado. Esse truncamento é mais complicado, mas pode ser descrito analiticamente.

Com base nesse insight, é possível executar inferência com base na distribuição truncada dos dados para obter estatísticas de teste válidas. Para intervalos de confiança e estatísticas de testes, consulte o trabalho de Lee et al .: http://projecteuclid.org/euclid.aos/1460381681

Seus métodos são implementados no pacote R selectInference .

Estimativa ideal (e teste) após a seleção do modelo ser discutida em (para o laço): https://arxiv.org/abs/1705.09417

e seu pacote de software (muito menos abrangente) está disponível em: https://github.com/ammeir2/selectiveMLE

user3903581
fonte
4

Eu recomendaria particularmente o LASSO se você estiver tentando usar a regressão para inferência com base em "quais preditores são estatisticamente significativos" - mas não pelo motivo que você poderia esperar.

Na prática, preditores em um modelo tendem a ser correlacionados. Mesmo se não houver multicolinearidade substancial, a escolha da regressão de preditores "significativos" entre o conjunto de preditores correlacionados pode variar substancialmente de amostra para amostra.

Então, sim, vá em frente e faça o LASSO para sua regressão. Em seguida, repita o processo completo de construção do modelo (incluindo a validação cruzada para escolher a penalidade do LASSO) em várias amostras de inicialização (algumas centenas) dos dados originais. Veja quão variável pode ser o conjunto de preditores "significativos" selecionados dessa maneira.

A menos que seus preditores sejam altamente ortogonais entre si, esse processo deve fazer você pensar duas vezes sobre a interpretação dos valores p em uma regressão em termos dos quais preditores individuais são "significativamente" importantes.

EdM
fonte
1
+1 Eu concordo com tudo escrito, resposta muito pragmática, mas por que não usar rede elástica em vez de LASSO? (dado que o OP também menciona isso também) A regularização da cadeia controlaria as correlações entre preditores um pouco mais proeminentemente.
usεr11852 diz Reinstate Monic
De fato, é possível calcular valores-p válidos, estimativas e intervalos de confiança em modelos que foram selecionados através do laço OU rede elástica, apenas precisa ser feito corretamente.
user3903581
@ user3903581 Não discuto que se pode obter valores p freqüentes do LASSO com frequência, no sentido de que uma hipótese nula verdadeira resultaria em um coeficiente tão grande menor do que em, digamos, 5% das amostras replicadas. O problema está nas tentativas muito frequentes de atribuir inferências causais apenas aos preditores assim considerados "significativos" sem considerar as questões levantadas pelos preditores correlacionados.
EdM