AIC ou valor-p: qual escolher para a seleção do modelo?

22

Sou novato nessa coisa de R, mas não tenho certeza de qual modelo selecionar.

  1. Fiz uma regressão passo a passo, selecionando cada variável com base no AIC mais baixo. Eu vim com três modelos que não tenho certeza qual é o "melhor".

    Model 1: Var1 (p=0.03) AIC=14.978
    Model 2: Var1 (p=0.09) + Var2 (p=0.199) AIC = 12.543
    Model 3: Var1 (p=0.04) + Var2 (p=0.04) + Var3 (p=0.06) AIC= -17.09
    

    Estou inclinado a usar o modelo nº 3 porque ele tem o AIC mais baixo (ouvi dizer que negativo é bom) e os valores de p ainda são bastante baixos.

    Corri 8 variáveis ​​como preditores de Hatchling Mass e descobri que essas três variáveis ​​são os melhores preditores.

  2. Meu próximo passo a passo, escolhi o Modelo 2 porque, embora o AIC fosse um pouco maior, os valores de p eram todos menores. Você concorda que isso é o melhor?

    Model 1: Var1 (p=0.321) + Var2 (p=0.162) + Var3 (p=0.163) + Var4 (p=0.222)  AIC = 25.63
    Model 2: Var1 (p=0.131) + Var2 (p=0.009) + Var3 (p=0.0056)                  AIC = 26.518
    Model 3: Var1 (p=0.258) + Var2 (p=0.0254)                                   AIC = 36.905
    

obrigado!

MEL
fonte
Você poderia nos dizer a diferença entre (1) e (2)? Claramente algo mudou, porque o Modelo 3 em (1) e o Modelo 2 em (2) são nominalmente idênticos, mas os valores de p e AIC diferem.
whuber
2
Esta pergunta foi reeditada duas vezes, o que significa que não apenas precisamos fechá-las, mas também as respostas associadas que já foram fornecidas a você. Você poderia registrar sua conta (consulte as Perguntas frequentes ) e prestar atenção à política de postagem do StackExchange no futuro? Obrigado.
CHL
@ Whuber, eu tenho medo de não entender completamente sua pergunta. Provavelmente é minha falta de entendimento estatístico. Mas para tentar esclarecer. O Modelo 1 possui 4 variáveis, o Modelo 2 possui 3 variáveis ​​e o Modelo 3 possui 2 variáveis. As variáveis ​​estão na mesma ordem em todos os modelos (ou seja, variável um = temp em cada modelo). Acho que @GaBorgulya e @djma responderam minha pergunta perfeitamente. A variável 4 IS está correlacionada com a variável 3. AH-HA! Faz sentido. graças oodles!
MEL
Eu converti sua resposta para o comentário acima. Se você acha que uma das respostas atuais o ajudou ou respondeu à sua pergunta, não se esqueça de aceitá-la, como gentilmente lembrado por @richiemorrisroe. BTW, é bom ver que você registrou sua conta.
chl

Respostas:

23

AIC é uma medida de qualidade de ajuste que favorece menor erro residual no modelo, mas penaliza por incluir preditores adicionais e ajuda a evitar o ajuste excessivo. No seu segundo conjunto de modelos, o modelo 1 (aquele com o AIC mais baixo) pode ter melhor desempenho quando usado para previsão fora do seu conjunto de dados. Uma possível explicação para a adição de Var4 ao modelo 2 resulta em um AIC mais baixo, mas valores mais altos de p é que Var4 está um pouco correlacionado com Var1, 2 e 3. A interpretação do modelo 2 é, portanto, mais fácil.

GaBorgulya
fonte
31

Olhar valores p individuais pode ser enganoso. Se você tiver variáveis ​​colineares (com alta correlação), obterá grandes valores de p. Isso não significa que as variáveis ​​são inúteis.

Como regra geral rápida, selecionar seu modelo com os critérios da AIC é melhor do que observar os valores-p.

Um motivo para não selecionar o modelo com o AIC mais baixo é quando a taxa de variável para ponto de dados é grande.

Observe que a seleção do modelo e a precisão da previsão são problemas um tanto distintos. Se seu objetivo é obter previsões precisas, sugiro a validação cruzada de seu modelo, separando seus dados em um conjunto de treinamento e teste.

Um artigo sobre seleção de variáveis: Conjuntos estocásticos stepwise para seleção de variáveis

djma
fonte
4
Se seu objetivo é a precisão da previsão, você deseja usar o AIC (pois minimiza a divergência esperada de KL entre o modelo ajustado e a verdade). Se você deseja um procedimento consistente de seleção de modelo (fixo p, crescente n), pode usar, digamos, BIC. O uso de valores-p na regressão gradual para selecionar hipóteses é definitivamente não recomendado.
emakalic
8
@emakalic - apenas uma observação rápida, de que a AIC e a BIC são basicamente formas de escolher qual valor de p usar, em vez de fazer algo "fundamentalmente" diferente. Para AIC, temos um valor p de e para BIC temos um valor p equivalente a . 0,154|t|>registro(N)
probabilityislogic
-3

AIC é motivado pela estimativa do erro de generalização (como CP de Mallow, BIC, ...). Se você deseja o modelo para previsões, use melhor um desses critérios. Se você deseja que seu modelo explique um fenômeno, use valores-p.

Além disso, veja aqui .

JohnRos
fonte