Eu li inúmeras publicações neste site que são incrivelmente contra o uso de seleção gradual de variáveis usando qualquer tipo de critério, seja com base em valores-p, AIC, BIC, etc.
Entendo por que esses procedimentos são, em geral, muito ruins para a seleção de variáveis. o post provavelmente famoso de Gung aqui ilustra claramente o porquê; em última análise, estamos verificando uma hipótese no mesmo conjunto de dados que costumávamos apresentar a hipótese, que é apenas a dragagem de dados. Além disso, os valores de p são afetados por quantidades como colinearidade e outliers, que distorcem fortemente os resultados, etc.
No entanto, tenho estudado as previsões de séries temporais bastante ultimamente e deparei-me com o respeitado livro didático de Hyndman, no qual ele menciona aqui o uso da seleção gradual para encontrar a ordem ideal dos modelos ARIMA em particular. De fato, no forecast
pacote em R, o conhecido algoritmo conhecido auto.arima
por padrão usa seleção por etapas (com AIC, não com valores p). Ele também critica a seleção de recursos com base em valor-p, que se alinha bem a várias postagens neste site.
Por fim, devemos sempre validar cruzadamente de alguma forma no final, se o objetivo é desenvolver bons modelos de previsão / previsão. No entanto, certamente isso é um desacordo aqui quando se trata do próprio procedimento para métricas de avaliação diferentes de p-values.
Alguém tem alguma opinião sobre o uso da AIC gradual neste contexto, mas também em geral fora desse contexto? Fui ensinado a acreditar que qualquer seleção gradual é ruim, mas, para ser honesto, auto.arima(stepwise = TRUE)
está me dando melhores resultados da amostra do que, auto.arima(stepwise = FALSE)
mas talvez isso seja apenas coincidência.
Respostas:
Existem alguns problemas diferentes aqui.
Conclusão: para dados de tamanho médio com uma relação sinal-ruído razoável, a seleção gradual baseada na AIC pode realmente produzir um modelo preditivo defensável ; veja Murtaugh (2009) para um exemplo.
Murtaugh, Paul A. "Desempenho de vários métodos de seleção de variáveis aplicados a dados ecológicos reais". Cartas de ecologia 12, no. 10 (2009): 1061-1068.
fonte