Tenho algumas perguntas sobre a AIC e espero que você possa me ajudar. Eu apliquei a seleção de modelo (para trás ou para frente) com base na AIC em meus dados. E algumas das variáveis selecionadas acabaram com valores de p> 0,05. Eu sei que as pessoas estão dizendo que devemos selecionar modelos com base no AIC em vez do valor-p, então parece que o AIC e o valor-p são dois conceitos diferentes. Alguém poderia me dizer qual é a diferença? O que eu entendo até agora é o seguinte:
Para seleção reversa usando o AIC, suponha que tenhamos 3 variáveis (var1, var2, var3) e o AIC deste modelo é AIC *. Se a exclusão de qualquer uma dessas três variáveis não resultasse em um AIC significativamente menor que o AIC * (em termos de distribuição do quadrado do quadrado com df = 1), diríamos que essas três variáveis são os resultados finais.
Um valor p significativo para uma variável (por exemplo, var1) em um modelo de três variáveis significa que o tamanho do efeito padronizado dessa variável é significativamente diferente de 0 (de acordo com Wald ou teste t).
Qual é a diferença fundamental entre esses dois métodos? Como o interpreto se houver algumas variáveis com valores de p não significativos no meu melhor modelo (obtido via AIC)?
fonte
Portanto, não é de surpreender que você o compare com um ponto de corte menor para valores de p que, às vezes, inclui variáveis com valores de p mais altos que esse ponto de corte.
fonte
Observe que nem os valores-p nem o AIC foram projetados para a seleção do modelo passo a passo; de fato, as suposições subjacentes a ambas (mas suposições diferentes) são violadas após o primeiro passo em uma regressão passo a passo. Como o @PeterFlom mencionou, LASSO e / ou LAR são alternativas melhores se você sentir a necessidade de seleção automatizada de modelos. Esses métodos puxam as estimativas que são grandes por acaso (que recompensam o acaso por etapas) de volta para 0 e, portanto, tendem a ser menos tendenciosas do que por etapas (e a tendência remanescente tende a ser mais conservadora).
Um grande problema com a AIC que geralmente é esquecido é o tamanho da diferença nos valores da AIC; é comum ver "quanto menor é melhor" e parar por aí (e procedimentos automatizados apenas enfatizam isso). Se você estiver comparando dois modelos e eles tiverem valores AIC muito diferentes, haverá uma preferência clara pelo modelo com o AIC mais baixo, mas geralmente teremos 2 (ou mais) modelos com valores AIC próximos uns dos outros, em neste caso, usar apenas o modelo com o menor valor de AIC perderá informações valiosas (e inferir coisas sobre termos que estão ou não nesse modelo, mas diferem nos outros modelos semelhantes, será sem sentido ou pior). Informações de fora dos dados em si (como o quão difícil / caro) é coletar o conjunto de variáveis preditivas) podem tornar um modelo com AIC um pouco mais alto mais desejável para uso sem muita perda de qualidade. Outra abordagem é usar uma média ponderada dos modelos similares (isso provavelmente resultará em previsões finais semelhantes aos métodos penalizados, como regressão de cordilheira ou laço, mas o processo de pensamento que leva ao modelo pode ajudar na compreensão).
fonte
Minha experiência com o AIC é que, se as variáveis parecem não significativas, mas ainda aparecem no modelo com o menor AIC, elas se tornam possíveis fatores de confusão.
Eu sugiro que você verifique se há confusão. A remoção dessas variáveis não significativas deve alterar a magnetude de alguns coeficientes estimados restantes em mais de 25%.
fonte
Eu acho que a melhor seleção de modelo é usando o pacote MuMIn. Esse será o resultado mais alto e você não precisará procurar os valores mais baixos da AIC. Exemplo:
fonte