Por que aplicar a seleção de modelos usando o AIC me fornece valores de p não significativos para as variáveis

14

Tenho algumas perguntas sobre a AIC e espero que você possa me ajudar. Eu apliquei a seleção de modelo (para trás ou para frente) com base na AIC em meus dados. E algumas das variáveis ​​selecionadas acabaram com valores de p> 0,05. Eu sei que as pessoas estão dizendo que devemos selecionar modelos com base no AIC em vez do valor-p, então parece que o AIC e o valor-p são dois conceitos diferentes. Alguém poderia me dizer qual é a diferença? O que eu entendo até agora é o seguinte:

  1. Para seleção reversa usando o AIC, suponha que tenhamos 3 variáveis ​​(var1, var2, var3) e o AIC deste modelo é AIC *. Se a exclusão de qualquer uma dessas três variáveis ​​não resultasse em um AIC significativamente menor que o AIC * (em termos de distribuição do quadrado do quadrado com df = 1), diríamos que essas três variáveis ​​são os resultados finais.

  2. Um valor p significativo para uma variável (por exemplo, var1) em um modelo de três variáveis ​​significa que o tamanho do efeito padronizado dessa variável é significativamente diferente de 0 (de acordo com Wald ou teste t).

Qual é a diferença fundamental entre esses dois métodos? Como o interpreto se houver algumas variáveis ​​com valores de p não significativos no meu melhor modelo (obtido via AIC)?

tiantianchen
fonte

Respostas:

13

AIC e suas variantes são mais perto de variações em R2 , em seguida, os valores de p de cada regressor. Mais precisamente, são versões penalizadas da probabilidade de log.

Você não deseja testar as diferenças do AIC usando o qui-quadrado. Você pode testar as diferenças da probabilidade de log usando o qui-quadrado (se os modelos estiverem aninhados). Para o AIC, quanto menor, melhor (na maioria das implementações). Nenhum ajuste adicional é necessário.

Você realmente deseja evitar métodos automatizados de seleção de modelos, se puder. Se você precisar usar um, tente LASSO ou LAR.

Peter Flom - Restabelece Monica
fonte
2
Obrigado pela resposta. Sim você está certo. A AIC não aplica nenhum teste; em vez disso, fornece uma medida simples de quão bom o modelo se encaixa na amostra e se o modelo também pode ser simples, adicionando a probabilidade de log -2 * com 2 * número_de_parâmetros. Talvez isso explique por que variáveis ​​com valores-p não significativos foram mantidas no modelo selecionado?
Tiantianchen
Qual modelo devemos escolher se tivermos dois modelos com AIC quase idêntico, mas em um temos termos mais significativos do que no outro?
Agus Camacho
O que você quiser.
Peter Flom - Restabelece Monica
11

χ12

Portanto, não é de surpreender que você o compare com um ponto de corte menor para valores de p que, às vezes, inclui variáveis ​​com valores de p mais altos que esse ponto de corte.

Glen_b -Reinstate Monica
fonte
você pode me indicar um URL ou referência para a conexão entre os valores AIC e p via quadrado de Wal? Obrigado.
meh
Isso é relativamente fácil de mostrar, usando o valor 2 como valor crítico, que corresponde a um valor-p de 15,73% (quando os graus de liberdade do teste são 1, como é o caso da seleção por etapas usando regressão linear modelos e variáveis ​​contínuas). Isso pode ser calculado como 1-chi2cdf (2,1).
George
@aginensky Não vi uma referência real, embora a conexão seja direta. Eu imagino que posso pesquisar no google, espere.
Glen_b -Reinstala Monica
@aginensky Lindsey, JK & Jones, B. (1998) Escolhendo entre modelos lineares generalizados aplicados a dados médicos. Statistics in Medicine , 17, 59-68. ... veja o meio da página 62. Haveria mais.
Glen_b -Reinstala Monica
@ Glen_b- obrigado, eu nunca tinha visto nada assim antes.
meh
9

Observe que nem os valores-p nem o AIC foram projetados para a seleção do modelo passo a passo; de fato, as suposições subjacentes a ambas (mas suposições diferentes) são violadas após o primeiro passo em uma regressão passo a passo. Como o @PeterFlom mencionou, LASSO e / ou LAR são alternativas melhores se você sentir a necessidade de seleção automatizada de modelos. Esses métodos puxam as estimativas que são grandes por acaso (que recompensam o acaso por etapas) de volta para 0 e, portanto, tendem a ser menos tendenciosas do que por etapas (e a tendência remanescente tende a ser mais conservadora).

Um grande problema com a AIC que geralmente é esquecido é o tamanho da diferença nos valores da AIC; é comum ver "quanto menor é melhor" e parar por aí (e procedimentos automatizados apenas enfatizam isso). Se você estiver comparando dois modelos e eles tiverem valores AIC muito diferentes, haverá uma preferência clara pelo modelo com o AIC mais baixo, mas geralmente teremos 2 (ou mais) modelos com valores AIC próximos uns dos outros, em neste caso, usar apenas o modelo com o menor valor de AIC perderá informações valiosas (e inferir coisas sobre termos que estão ou não nesse modelo, mas diferem nos outros modelos semelhantes, será sem sentido ou pior). Informações de fora dos dados em si (como o quão difícil / caro) é coletar o conjunto de variáveis ​​preditivas) podem tornar um modelo com AIC um pouco mais alto mais desejável para uso sem muita perda de qualidade. Outra abordagem é usar uma média ponderada dos modelos similares (isso provavelmente resultará em previsões finais semelhantes aos métodos penalizados, como regressão de cordilheira ou laço, mas o processo de pensamento que leva ao modelo pode ajudar na compreensão).

Greg Snow
fonte
Obrigado @GregSnow pela sua resposta. Posso perguntar quais são as premissas (diferentes) para a seleção de modelo com base em valor-p e AIC? A aplicação de uma direção bidirecional (frente / trás) ou a tentativa de um subconjunto completo resolverá mais ou menos o problema de encontrar o modelo ideal local de simplificação usando uma seleção progressiva para frente ou para trás? (embora o problema de overfitting existe sempre em AIC / método p-valor e LASSO e / ou LAR é um melhor opção)
tiantianchen
Como nenhum valor-p ou AIC foram projetados para a seleção de modelos, eles não têm suposições para a seleção de modelos. Ambos foram projetados para fazer uma única comparação, pense em quantas comparações ocorrem em uma regressão gradual, você realmente acha que o "melhor" passo é dado a cada vez?
Greg Neve
@GregSnow. Minha referência para aprender a AIC foi esta - stat.cmu.edu/~larry/=stat705/Lecture16.pdf, que parece colocar a AIC no negócio de seleção de modelos. Além disso, quando eu vi o AIC usado em modelos de séries temporais arima, ele sempre foi usado para a seleção de modelos.
Me #
@aginensky, Sim, AIC (e outros) são usados ​​para a seleção do modelo. Isso não significa que a AIC tenha sido projetada para a seleção de modelos, ou que seja apropriada para a seleção de modelos, ou que a seleção automatizada de modelos responda a uma pergunta significativa. Eu usei uma chave de fenda como martelo antes, o que não significa que seja uma boa ideia em geral.
Greg Neve
"Este artigo descreve como o problema da seleção de modelos estatísticos pode ser tratado sistematicamente usando um critério de informação (AIC) introduzido pelo autor em 1971" de Akaike, "Um novo olhar para a identificação do modelo estatístico". Portanto, mesmo que o AIC seja um martelo usado em um problema que é melhor resolvido por uma chave de fenda, era o ponto de vista do projetista desse martelo, que um martelo era a maneira correta de resolver esse problema. Correta ou incorretamente, o AIC foi projetado para a seleção de modelos. Eu ficaria feliz em ver uma visão diferente da AIC. Sinta-se livre para responder a isso, mas eu terminei.
meh
1

Minha experiência com o AIC é que, se as variáveis ​​parecem não significativas, mas ainda aparecem no modelo com o menor AIC, elas se tornam possíveis fatores de confusão.

Eu sugiro que você verifique se há confusão. A remoção dessas variáveis ​​não significativas deve alterar a magnetude de alguns coeficientes estimados restantes em mais de 25%.

Adiaba
fonte
Por favor, explique como o OP "pode ​​verificar se há confusão".
Jim
0

Eu acho que a melhor seleção de modelo é usando o pacote MuMIn. Esse será o resultado mais alto e você não precisará procurar os valores mais baixos da AIC. Exemplo:

d<-read.csv("datasource")
library(MuMIn)
fit<-glm(y~x1+x2+x3+x4,family=poisson,data=d)
get.models(dredge(fit,rank="AIC"))[1]
Ravi Mohan Tiwari
fonte
2
Dizer que código você pode usar não está realmente respondendo à pergunta, a menos que você possa explicar como isso aborda estatisticamente a pergunta. De qualquer forma, nada na pergunta é específico para um software específico.
Nick Cox