AIC Stepwise - Existe controvérsia em torno deste tópico?

17

Eu li inúmeras publicações neste site que são incrivelmente contra o uso de seleção gradual de variáveis ​​usando qualquer tipo de critério, seja com base em valores-p, AIC, BIC, etc.

Entendo por que esses procedimentos são, em geral, muito ruins para a seleção de variáveis. o post provavelmente famoso de Gung aqui ilustra claramente o porquê; em última análise, estamos verificando uma hipótese no mesmo conjunto de dados que costumávamos apresentar a hipótese, que é apenas a dragagem de dados. Além disso, os valores de p são afetados por quantidades como colinearidade e outliers, que distorcem fortemente os resultados, etc.

No entanto, tenho estudado as previsões de séries temporais bastante ultimamente e deparei-me com o respeitado livro didático de Hyndman, no qual ele menciona aqui o uso da seleção gradual para encontrar a ordem ideal dos modelos ARIMA em particular. De fato, no forecastpacote em R, o conhecido algoritmo conhecido auto.arimapor padrão usa seleção por etapas (com AIC, não com valores p). Ele também critica a seleção de recursos com base em valor-p, que se alinha bem a várias postagens neste site.

Por fim, devemos sempre validar cruzadamente de alguma forma no final, se o objetivo é desenvolver bons modelos de previsão / previsão. No entanto, certamente isso é um desacordo aqui quando se trata do próprio procedimento para métricas de avaliação diferentes de p-values.

Alguém tem alguma opinião sobre o uso da AIC gradual neste contexto, mas também em geral fora desse contexto? Fui ensinado a acreditar que qualquer seleção gradual é ruim, mas, para ser honesto, auto.arima(stepwise = TRUE)está me dando melhores resultados da amostra do que, auto.arima(stepwise = FALSE)mas talvez isso seja apenas coincidência.

aranglol
fonte
Uma das poucas coisas que os analistas podem concordar é que a seleção de um "melhor" modelo geralmente funciona menos do que a combinação de vários modelos diferentes.
S. Kolassa - Restabelece Monica

Respostas:

20

Existem alguns problemas diferentes aqui.

  • Provavelmente, o principal problema é que a seleção do modelo (seja usando valores-p ou AICs, passo a passo ou todos os subconjuntos ou outra coisa) é principalmente problemática para inferência (por exemplo, obter valores-p com erro tipo I apropriado, intervalos de confiança com cobertura adequada). Para previsão , a seleção do modelo pode, de fato, escolher um ponto melhor no eixo de compensação da variação de polarização e melhorar o erro fora da amostra.
  • Para algumas classes de modelos, o AIC é assintoticamente equivalente ao erro de CV excluído [ver, por exemplo, http://www.petrkeil.com/?p=836 ], portanto, o uso do AIC como um proxy computacionalmente eficiente para o CV é razoável.
  • A seleção gradual é geralmente dominada por outros métodos de seleção de modelo (ou média ) (todos os subconjuntos, se possível em termos computacionais, ou métodos de encolhimento). Mas é simples e fácil de implementar, e se a resposta for clara o suficiente (alguns parâmetros correspondentes a sinais fortes, outros fracos, poucos intermediários), fornecerá resultados razoáveis. Novamente, há uma grande diferença entre inferência e previsão. Por exemplo, se você possui alguns preditores fortemente correlacionados, escolher o incorreto (do ponto de vista "verdade" / causal) é um grande problema de inferência, mas escolher o que acontece para fornecer a melhor AIC é um razoável estratégia de previsão (embora falhe se você tentar prever uma situação em que a correlação dos preditores seja alterada ...)

Conclusão: para dados de tamanho médio com uma relação sinal-ruído razoável, a seleção gradual baseada na AIC pode realmente produzir um modelo preditivo defensável ; veja Murtaugh (2009) para um exemplo.

Murtaugh, Paul A. "Desempenho de vários métodos de seleção de variáveis ​​aplicados a dados ecológicos reais". Cartas de ecologia 12, no. 10 (2009): 1061-1068.

Ben Bolker
fonte
(+1) Muito informativo. A abordagem usando AIC / BIC ou outros critérios de informação não deve ser misturada com estatísticas inferenciais usando valores- em nenhum caso, de acordo com o livro de Burnham & Anderson "Seleção de modelo e inferência multimodal: uma abordagem prática da teoria da informação". p
COOLSerdash
Por favor, não me inicie em Burnham e Anderson. github.com/bbolker/discretization
Ben Bolker