Equivalência de valores AIC e p na seleção de modelos

9

Em um comentário à resposta desta pergunta , foi afirmado que o uso de AIC na seleção de modelos era equivalente a usar um valor-p de 0,154.

Eu tentei em R, onde usei um algoritmo de seleção de subconjunto "para trás" para descartar variáveis ​​de uma especificação completa. Primeiro, jogando fora a variável com o mais alto valor de p e interrompendo quando todos os valores de p estão abaixo de 0,154 e, em segundo lugar, removendo a variável que resulta em menor AIC quando removida até que nenhuma melhoria possa ser feita.

Acontece que eles fornecem aproximadamente os mesmos resultados quando eu uso um valor p de 0,154 como limite.

Isso é realmente verdade? Se sim, alguém sabe por que ou pode se referir a uma fonte que explica isso?

PS: Eu não poderia perguntar à pessoa comentando ou escrever um comentário, porque acabei de me inscrever. Estou ciente de que essa não é a abordagem mais adequada para seleção e inferência de modelos, etc.

Niels
fonte
(1) Modelagem prognóstica com análise de regressão logística: uma comparação dos métodos de seleção e estimativa em pequenos conjuntos de dados. Statistics in Medicine, 19, 1059-1079 (2), verdadeiro para variáveis ​​com df1, com base na definição aic. Mas poderia ser menor se os seus graus de liberdade de variáveis mais elevados
charles

Respostas:

13

A seleção de variáveis ​​feita usando testes estatísticos ou AIC é altamente problemática. Se estiver usando , o AIC usa um ponto de corte de = 2.0 que corresponde a . AIC quando usado em variáveis ​​individuais não faz nada de novo; apenas usa um mais razoável que 0,05. Um mais razoável (menos perturbador de inferência) é 0,5.χ2χ2α=0.157αα

Frank Harrell
fonte
+1 Passei tanto tempo construindo minha resposta (agora excluída) que nem vi essa postada nesse meio tempo. Eu teria votado apenas neste caso.
Glen_b -Reinstate Monica