GLM após seleção ou regularização do modelo

12

Eu gostaria de colocar esta questão em duas partes. Ambos lidam com um modelo linear generalizado, mas o primeiro trata da seleção de modelos e o outro trata da regularização.

Antecedentes: Utilizo modelos GLMs (linear, logístico, regressão gama) para previsão e descrição. Quando me refiro às " coisas normais que se faz com uma regressão ", refiro-me amplamente à descrição com (i) intervalos de confiança em torno dos coeficientes, (ii) intervalos de confiança em torno de previsões e (iii) testes de hipótese relativos a combinações lineares dos coeficientes, como "é existe uma diferença entre o tratamento A e o tratamento B? ".

Você perde legitimamente a capacidade de fazer essas coisas usando a teoria normal de cada uma das seguintes opções? E se sim, essas coisas são realmente boas apenas para modelos usados ​​para previsões puras?

I. Quando um GLM foi ajustado através de algum processo de seleção de modelo (por concretude, diga que é um procedimento gradual baseado na AIC).

II Quando um GLM é ajustado através de um método de regularização (por exemplo, usando glmnet em R).

Eu acho que, para mim, a resposta é tecnicamente que você deve usar um bootstrap para as " coisas normais que se faz com uma regressão ", mas ninguém realmente cumpre isso.

Acrescentar:
Depois de obter algumas respostas e ler em outro lugar, eis a minha opinião sobre isso (para qualquer outra pessoa se beneficiar, além de receber correção).

I.
A) RE: Generalizar erro. Para generalizar as taxas de erro em novos dados, quando não há retenção definida, a validação cruzada pode funcionar, mas você precisa repetir o processo completamente para cada dobra - usando loops aninhados -, portanto, qualquer seleção de recurso, ajuste de parâmetro etc. deve ser feito de forma independente a cada vez. Essa idéia deve valer para qualquer esforço de modelagem (incluindo métodos penalizados).

B) RE: Teste de hipóteses e intervalos de confiança do GLM.Ao usar a seleção de modelo (seleção de recurso, ajuste de parâmetro, seleção de variável) para um modelo linear generalizado e um conjunto de retenção, é permitido treinar o modelo em uma partição e depois ajustá-lo nos dados restantes ou no conjunto de dados completo e use esse modelo / dados para executar testes de hipóteses etc. Se não existir um conjunto de espera, um bootstrap pode ser usado, desde que o processo completo seja repetido para cada amostra de bootstrap. Isso limita os testes de hipóteses que podem ser feitos, já que talvez uma variável nem sempre seja selecionada por exemplo.

C) RE: Não transmite previsão em futuros conjuntos de dados, ajuste um modelo proposital guiado pela teoria e alguns testes de hipóteses e até considere deixar todas as variáveis ​​no modelo (significativas ou não) (nos moldes de Hosmer e Lemeshow). Este é um tipo clássico de modelagem de regressão de conjunto de variáveis ​​pequenas e, em seguida, permite o uso de ICs e teste de hipóteses.

D) ER: Regressão penalizada. Nenhum conselho, talvez considere isso adequado apenas para previsão (ou como um tipo de seleção de recurso a ser aplicado a outro conjunto de dados como em B acima), pois o viés introduzido torna imprudentes os CIs e os testes de hipótese - mesmo com o bootstrap.

B_Miner
fonte
1
Às vezes, as pessoas fazem isso - inconscientemente (ou seja, mau uso da estatística, porque obtêm o resultado desejado) e conscientemente (elas iniciaram e não afetaram substancialmente o resultado). Seu ponto de vista é válido, e o professor Harrell aponta isso no prefácio de seu livro que a inicialização é benéfica.
suncoolsu
1
Aqui está algo como "sim" para o seu ponto (II): arxiv.org/abs/1001.0188
Alex

Respostas:

5

Você pode conferir o artigo de David Freedman, " Uma nota sobre as equações de regressão de triagem " .

Usando dados completamente não correlacionados em uma simulação, ele mostra que, se houver muitos preditores em relação ao número de observações, um procedimento de triagem padrão produzirá uma regressão final que contém muitos (mais do que por acaso) preditores significativos e um F altamente significativo estatística. O modelo final sugere que é eficaz na previsão do resultado, mas esse sucesso é falso. Ele também ilustra esses resultados usando cálculos assintóticos. As soluções sugeridas incluem a triagem de uma amostra e a avaliação do modelo no conjunto completo de dados e o uso de pelo menos uma ordem de magnitude a mais do que os preditores.

Charlie
fonte
Nota: Para que o bootstrap seja uma solução eficaz, você precisa inicializar todo o procedimento, iniciando antes de qualquer triagem, rastrear a amostra inicializada e calcular os coeficientes. Mas agora você tem conjuntos diferentes de preditores em cada regressão e não está mais claro como calcular a distribuição para nenhum deles. Entretanto, os intervalos de confiança de inicialização para os valores previstos do resultado podem ser eficazes.
1525 Charlie
@ charlie: [Eu li corretamente que você está falando apenas com I. (seleção de modelo) e não com II. (penalizado)] Você está dizendo que, para intervalos de previsão, é válido usar a seleção de modelo e depois inicializar as previsões desse modelo, mas para qualquer outra coisa é necessário inicializar todo o processo?
B_Miner 16/02
@charlie Em relação à solução sugerida de triagem em uma amostra. Isso seria no sentido de particionar os dados, (ab) usando um conjunto (seleção de modelo etc.) e aplicando esse modelo aos dados restantes - e nesses dados com o modelo que era adequado usando a teoria tradicional para testes de hipóteses, ICs etc?
B_Miner 16/02
Eu estava pensando apenas na seleção de modelos, mas isso ocorre em grande parte porque não sei muito sobre regressão penalizada. Eu diria que você precisa inicializar todo o processo para obter inferências sobre as previsões do modelo. A questão toda é que, em qualquer amostra, é provável que você encontre correlações espúrias que são ampliadas quando você inclui algumas variáveis ​​e deixa outras de fora. A única maneira de contornar isso é olhar para vários exemplos - ou seja, autoinicialização. Claro, ninguém realmente faz isso.
1616 Charlie
Certo, você usa uma partição de sua amostra para criar seu modelo usando procedimentos de seleção de modelo e, em seguida, faz sua inferência na outra partição ou na amostra completa.
1616 Charlie
2

Em relação a 1) Sim, você perde isso. Veja, por exemplo, Harrell Regression Modeling Strategies, um livro publicado por Wiley ou um artigo que apresentei com David Cassell chamado "Stopping Stepwise", disponível por exemplo, www.nesug.org/proceedings/nesug07/sa/sa07.pdf

Peter Flom - Restabelece Monica
fonte
Eu já vi esse artigo - muito interessante. Duas questões. 1) Vamos fazer regressão logística. Parece que a única maneira de conduzir testes de IC ou hipótese é construir um modelo no estilo de hosmer e lemeshow (impedindo qualquer conjunto de dados com grande p)? Então você fica "usando" o modelo apenas para estimativas pontuais? 2) Seu artigo discute o laço entre outras alternativas. Você pensa que isso permite testes de hipóteses posteriores ou é "simplesmente" fornecido como uma opção melhor de seleção de modelo?
B_Miner