Sou novato nessa coisa de R, mas não tenho certeza de qual modelo selecionar.
Fiz uma regressão passo a passo, selecionando cada variável com base no AIC mais baixo. Eu vim com três modelos que não tenho certeza qual é o "melhor".
Model 1: Var1 (p=0.03) AIC=14.978 Model 2: Var1 (p=0.09) + Var2 (p=0.199) AIC = 12.543 Model 3: Var1 (p=0.04) + Var2 (p=0.04) + Var3 (p=0.06) AIC= -17.09
Estou inclinado a usar o modelo nº 3 porque ele tem o AIC mais baixo (ouvi dizer que negativo é bom) e os valores de p ainda são bastante baixos.
Corri 8 variáveis como preditores de Hatchling Mass e descobri que essas três variáveis são os melhores preditores.
Meu próximo passo a passo, escolhi o Modelo 2 porque, embora o AIC fosse um pouco maior, os valores de p eram todos menores. Você concorda que isso é o melhor?
Model 1: Var1 (p=0.321) + Var2 (p=0.162) + Var3 (p=0.163) + Var4 (p=0.222) AIC = 25.63 Model 2: Var1 (p=0.131) + Var2 (p=0.009) + Var3 (p=0.0056) AIC = 26.518 Model 3: Var1 (p=0.258) + Var2 (p=0.0254) AIC = 36.905
obrigado!
Respostas:
AIC é uma medida de qualidade de ajuste que favorece menor erro residual no modelo, mas penaliza por incluir preditores adicionais e ajuda a evitar o ajuste excessivo. No seu segundo conjunto de modelos, o modelo 1 (aquele com o AIC mais baixo) pode ter melhor desempenho quando usado para previsão fora do seu conjunto de dados. Uma possível explicação para a adição de Var4 ao modelo 2 resulta em um AIC mais baixo, mas valores mais altos de p é que Var4 está um pouco correlacionado com Var1, 2 e 3. A interpretação do modelo 2 é, portanto, mais fácil.
fonte
Olhar valores p individuais pode ser enganoso. Se você tiver variáveis colineares (com alta correlação), obterá grandes valores de p. Isso não significa que as variáveis são inúteis.
Como regra geral rápida, selecionar seu modelo com os critérios da AIC é melhor do que observar os valores-p.
Um motivo para não selecionar o modelo com o AIC mais baixo é quando a taxa de variável para ponto de dados é grande.
Observe que a seleção do modelo e a precisão da previsão são problemas um tanto distintos. Se seu objetivo é obter previsões precisas, sugiro a validação cruzada de seu modelo, separando seus dados em um conjunto de treinamento e teste.
Um artigo sobre seleção de variáveis: Conjuntos estocásticos stepwise para seleção de variáveis
fonte
AIC é motivado pela estimativa do erro de generalização (como CP de Mallow, BIC, ...). Se você deseja o modelo para previsões, use melhor um desses critérios. Se você deseja que seu modelo explique um fenômeno, use valores-p.
Além disso, veja aqui .
fonte