Estou interessado na seleção de modelos em uma configuração de série temporal. Por concretude, suponha que eu queira selecionar um modelo ARMA de um conjunto de modelos ARMA com diferentes ordens de atraso. A intenção final é a previsão .
A seleção do modelo pode ser feita por
- validação cruzada,
- uso de critérios de informação (AIC, BIC),
entre outros métodos.
Rob J. Hyndman fornece uma maneira de fazer a validação cruzada para séries temporais . Para amostras relativamente pequenas, o tamanho da amostra usado na validação cruzada pode ser qualitativamente diferente do tamanho da amostra original. Por exemplo, se o tamanho original da amostra for 200 observações, pode-se pensar em iniciar a validação cruzada, fazendo as primeiras 101 observações e expandindo a janela para 102, 103, ..., 200 observações para obter 100 resultados de validação cruzada. Claramente, um modelo razoavelmente parcimonioso para 200 observações pode ser muito grande para 100 observações e, portanto, seu erro de validação será grande. Assim, a validação cruzada provavelmente favorecerá sistematicamente modelos muito parcimoniosos. Este é um efeito indesejável devido à incompatibilidade nos tamanhos das amostras .
Uma alternativa à validação cruzada é usar critérios de informação para seleção de modelo. Como me preocupo com a previsão, usaria o AIC. Embora o AIC seja assintoticamente equivalente a minimizar o MSE de uma etapa fora da amostra para modelos de séries temporais (de acordo com este post de Rob J. Hyndman), duvido que isso seja relevante aqui, pois a amostra tamanhos que me interessam não são tão grandes ...
Pergunta: devo escolher o AIC ao longo da validação cruzada de séries temporais para amostras pequenas / médias?
Algumas perguntas relacionadas podem ser encontradas aqui , aqui e aqui .
fonte
Respostas:
Tirando as considerações teóricas de lado, o Critério de Informação de Akaike é apenas uma probabilidade penalizada pelos graus de liberdade. A seguir, a AIC responde pela incerteza nos dados ( -2LL ) e assume que mais parâmetros levam a um risco maior de sobreajuste ( 2k ). A validação cruzada apenas analisa o desempenho do conjunto de testes do modelo, sem outras suposições.
Se você se preocupa principalmente em fazer as previsões e pode assumir que o (s) conjunto (s) de teste seria razoavelmente semelhante aos dados do mundo real, faça uma validação cruzada. O possível problema é que, quando seus dados são pequenos e, ao dividi-los, você acaba com pequenos conjuntos de treinamento e teste. Menos dados para treinamento são ruins e menos dados para o conjunto de testes tornam os resultados da validação cruzada mais incertos (consulte Varoquaux, 2018 ). Se sua amostra de teste for insuficiente, você poderá ser forçado a usar o AIC, mas tenha em mente o que ele mede e quais podem ser as suposições.
Por outro lado, como já mencionado nos comentários, a AIC oferece garantias assintomáticas, e não é o caso de amostras pequenas. Amostras pequenas também podem ser enganosas quanto à incerteza nos dados.
fonte
Hm - se seu objetivo final é prever, por que você pretende fazer a seleção de modelos? Até onde eu sei, está bem estabelecido tanto na literatura estatística "tradicional" quanto na literatura de aprendizado de máquina que modelam a média é superior quando se trata de previsão. Simplificando, a média do modelo significa que você estima todos os modelos plausíveis, permite que todos prevejam e calculem a média de suas predições ponderadas pelas evidências relativas do modelo.
Uma referência útil para iniciar é https://journals.sagepub.com/doi/10.1177/0049124104268644
Eles explicam isso de maneira bastante simples e se referem à literatura relevante.
Espero que isto ajude.
fonte
Minha ideia é fazer as duas coisas e ver. É direto usar o AIC. Quanto menor a AIC, melhor o modelo. Mas não se pode depender da AIC e dizer que esse modelo é o melhor. Portanto, se você tiver um conjunto de modelos ARIMA, verifique cada um e verifique a previsão dos valores existentes e veja qual modelo prediz o mais próximo dos dados da série temporal existentes. Em segundo lugar, verifique também o AIC e, considerando os dois, faça uma boa escolha. Não há regras rígidas e rápidas. Basta ir para o modelo que prevê o melhor.
fonte