Eu tenho duas séries temporais (parâmetros de um modelo para homens e mulheres) e pretendo identificar um modelo ARIMA apropriado para fazer previsões. Minha série cronológica se parece com:
A plotagem e o ACF mostram não estacionário (os picos do ACF cortam muito lentamente). Assim, uso diferenciação e obtenho:
Esse gráfico indica que a série pode agora ser estacionária e a aplicação do teste kpss e do teste adf suporta essa hipótese.
Começando com a série Male, fazemos as seguintes observações:
- As autocorrelações empíricas em Lags 1,4,5,26 e 27 são significativamente diferentes de zero.
- A ACF é cortada (?), Mas estou preocupado com os picos relativamente grandes nos lag 26 e 27.
- Somente as autocorrelações parciais empíricas nos Lags 1 e 2 são significativamente diferentes de zero.
Apenas com base nessas observações, se eu tivesse que escolher um modelo puro de AR ou MA para as séries temporais diferenciadas, tenderia a escolher um modelo de AR (2) argumentando que:
- Não temos autocorrelações parciais significativas para lag superior a 2
- O ACF é interrompido, exceto na região em torno do atraso 27. (Esses poucos valores extremos são apenas um indicador de que um modelo ARMA misto seria apropriado?)
ou um modelo MA (1) argumentando que:
- O PACF corta claramente
- Temos para lags maiores 1 apenas 4 picos que excedem o valor crítico em magnitude. Este é "apenas" um a mais do que os três picos (95% de 60) que poderiam ficar fora da área pontilhada.
Não há características de um modelo ARIMA (1,1,1) e a escolha das ordens de peq de um modelo ARIMA com base no ACF e PACF para p + q> 2 fica difícil.
O uso de auto.arima () com o critério AIC (Devo usar AIC ou AICC?) Fornece:
- ARIMA (2,1,1) com Drift; AIC = 280.2783
- ARIMA (0,1,1) com tração; AIC = 280.2784
- ARIMA (2,1,0) com Drift; AIC = 281.437
Todos os três modelos considerados mostram resíduos de ruído branco:
Minhas perguntas resumidas são:
- Você ainda pode descrever o ACF da série cronológica como um corte, apesar dos picos em torno do atraso 26?
- Esses valores discrepantes são um indicador de que um modelo ARMA misto pode ser mais apropriado?
- Qual critério de informação devo escolher? AIC? AICC?
- Os resíduos dos três modelos com o AIC mais alto mostram comportamento de ruído branco, mas a diferença no AIC é apenas muito pequena. Devo usar aquele com o menor número de parâmetros, ou seja, um ARIMA (0,1,1)?
- Minha argumentação em geral é plausível?
- Existem outras possibilidades para determinar qual modelo pode ser melhor ou devo, por exemplo, os dois com a AIC mais alta e realizar backtests para testar a plausibilidade das previsões?
EDIT: Aqui estão os meus dados:
-5.9112948202 -5.3429985122 -4.7382340534 -3.1129015623 -3.0350910288 -2.3218904871 -1.7926701792 -1.1417358384 -0.6665592055 -0.2907748318 0.2899480865 0.4637205370 0.5826312749 0.3869227286 0.6268379174 0.7439125292 0.7641139207 0.7613140511 3.0143912244 -0.7339255839 2.0109976796 0.8282394650 -2.5668367983 5.9826406394 1.9569198553 2.3860893476 2.0883339390 1.9761894580 2.2601997245 2.2464027995 2.5131158613 3.4564765529 4.2307335557 4.0298688374 3.7626317439 3.1026407174 2.1690168737 1.5617407254 2.6790460788 0.4652054768 -0.0501046517 -1.0157683791 -0.5113698054 -0.0180401353 -1.9471272198 -0.2550365250 -1.1269988523 0.5152074134 0.2362626753 -2.9978337017 1.4924705528 -1.4907767844 -0.5492041416 -0.7313021018 -0.6531515868 -0.4094159299 -0.5525401626 -0.0611454515 -0.5256272882 -1.1235247363 -1.7299848758 -1.3807763611 -1.6999054476 -4.3155973110 -4.7843298990
fonte