Tenho um histórico moderado na previsão de séries temporais. Examinei vários livros de previsão e não vejo as seguintes perguntas abordadas em nenhum deles.
Eu tenho duas perguntas:
Como eu determinaria objetivamente (via teste estatístico) se uma determinada série temporal tem:
- Sazonalidade estocástica ou uma sazonalidade determinística
- Tendência estocástica ou uma tendência determinística
O que aconteceria se eu modelasse minhas séries temporais como uma tendência / sazonalidade determinística quando a série tivesse um componente claramente estocástico?
Qualquer ajuda para resolver essas questões seria muito apreciada.
Dados de exemplo para tendência:
7,657
5,451
10,883
9,554
9,519
10,047
10,663
10,864
11,447
12,710
15,169
16,205
14,507
15,400
16,800
19,000
20,198
18,573
19,375
21,032
23,250
25,219
28,549
29,759
28,262
28,506
33,885
34,776
35,347
34,628
33,043
30,214
31,013
31,496
34,115
33,433
34,198
35,863
37,789
34,561
36,434
34,371
33,307
33,295
36,514
36,593
38,311
42,773
45,000
46,000
42,000
47,000
47,500
48,000
48,500
47,000
48,900
time-series
forecasting
arima
stochastic-processes
previsor
fonte
fonte
Respostas:
1) Com relação à sua primeira pergunta, algumas estatísticas de testes foram desenvolvidas e discutidas na literatura para testar o nulo de estacionariedade e o nulo de uma raiz unitária. Alguns dos muitos documentos que foram escritos sobre esse assunto são os seguintes:
Relacionado à tendência:
Relacionado ao componente sazonal:
O livro Banerjee, A., Dolado, J., Galbraith, J. e Hendry, D. (1993), co-integração, correção de erros e a análise econométrica de dados não estacionários, Advanced Texts in Econometrics. A Oxford University Press também é uma boa referência.
2) Sua segunda preocupação é justificada pela literatura. Se houver um teste de raiz unitária, a estatística t tradicional que você aplicaria em uma tendência linear não segue a distribuição padrão. Ver, por exemplo, Phillips, P. (1987), regressão de séries temporais com raiz unitária, Econometrica 55 (2), 277-301.
Se uma raiz unitária existe e é ignorada, a probabilidade de rejeitar o nulo de que o coeficiente de uma tendência linear é zero é reduzida. Ou seja, acabaríamos modelando uma tendência linear determinística com muita frequência para um determinado nível de significância. Na presença de uma raiz de unidade, devemos transformar os dados, levando diferenças regulares aos dados.
3) Para ilustração, se você usar R, poderá fazer a seguinte análise com seus dados.
Primeiro, você pode aplicar o teste Dickey-Fuller para o nulo de uma raiz de unidade:
e o teste KPSS para a hipótese nula reversa, estacionariedade contra a alternativa de estacionariedade em torno de uma tendência linear:
Resultados: teste do ADF, no nível de significância de 5%, uma raiz unitária não é rejeitada; No teste KPSS, o nulo de estacionariedade é rejeitado em favor de um modelo com tendência linear.
Observação: o uso
lshort=FALSE
do nulo do teste KPSS não é rejeitado no nível de 5%, no entanto, ele seleciona 5 atrasos; uma inspeção adicional não mostrada aqui sugeriu que escolher 1-3 lags é apropriado para os dados e leva a rejeitar a hipótese nula.Em princípio, devemos nos guiar pelo teste para o qual fomos capazes de rejeitar a hipótese nula (e não pelo teste para o qual não rejeitamos (aceitamos) o nulo). No entanto, uma regressão da série original em uma tendência linear acaba não sendo confiável. Por um lado, o quadrado R é alto (acima de 90%), apontado na literatura como indicador de regressão espúria.
Por outro lado, os resíduos são autocorrelacionados:
Além disso, o nulo de uma raiz unitária nos resíduos não pode ser rejeitado.
Nesse ponto, você pode escolher um modelo a ser usado para obter previsões. Por exemplo, previsões baseadas em um modelo estrutural de série temporal e em um modelo ARIMA podem ser obtidas da seguinte maneira.
Uma trama das previsões:
As previsões são semelhantes nos dois casos e parecem razoáveis. Observe que as previsões seguem um padrão relativamente determinístico semelhante a uma tendência linear, mas não modelamos explicitamente uma tendência linear. O motivo é o seguinte: i) no modelo de tendência local, a variação do componente de inclinação é estimada como zero. Isso transforma o componente de tendência em uma deriva que tem o efeito de uma tendência linear. ii) ARIMA (0,1,1), um modelo com desvio é selecionado em um modelo para a série diferenciada. O efeito do termo constante em uma série diferenciada é uma tendência linear. Isso é discutido neste post .
Você pode verificar se, se for escolhido um modelo local ou um ARIMA (0,1,0) sem desvio, as previsões serão uma linha horizontal reta e, portanto, não terão nenhuma semelhança com a dinâmica observada dos dados. Bem, isso faz parte do quebra-cabeça dos testes de raiz unitária e dos componentes determinísticos.
Edição 1 (inspeção de resíduos): a autocorrelação e o ACF parcial não sugerem uma estrutura nos resíduos.
Como o IrishStat sugeriu, também é aconselhável verificar a presença de discrepâncias. Dois outliers aditivos são detectados usando o pacote
tsoutliers
.Observando o ACF, podemos dizer que, no nível de significância de 5%, os resíduos também são aleatórios nesse modelo.
Nesse caso, a presença de possíveis discrepantes não parece distorcer o desempenho dos modelos. Isso é suportado pelo teste de Jarque-Bera para normalidade; o nulo de normalidade nos resíduos dos modelos iniciais (
fit1
,fit2
) não é rejeitado no nível de significância de 5%.Editar 2 (gráfico de resíduos e seus valores) É assim que os resíduos se parecem:
E estes são seus valores em um formato csv:
fonte
Com relação aos dados não sazonais ... As tendências podem ser de duas formas y (t) = y (t − 1) + θ0 (A) Tendência estocástica ou Y (t) = a + bx1 + cx2 (B) determinística Tendência etc, onde x1 = 1,2,3,4 .... te x2 = 0,0,0,0,0,1,2,3,4, portanto, uma tendência se aplica às observações 1-te uma segunda tendência aplica-se às observações 6 a t.
Sua série não sazonal continha 29 valores. Usei o AUTOBOX, um software que eu havia ajudado a desenvolver de maneira totalmente automática. A AUTOBOX é um procedimento transparente, pois detalha cada etapa do processo de modelagem. Um gráfico das séries / valores ajustados / previsões é apresentado aqui . O uso da AUTOBOX para formar um modelo do tipo A levou ao seguinte . A equação é apresentada novamente aqui . As estatísticas do modelo são . Uma plotagem dos resíduos está aqui enquanto a tabela de valores previstos está aqui . A restrição da AUTOBOX para um modelo do tipo B levou a AUTOBOX a detectar uma tendência aumentada no período 14 :. !
Em termos de comparação de modelos: Como o número de observações ajustadas difere (26 e 29, respectivamente), não é possível usar métricas padrão (isto é, quadrado r, erro padrão dev, AIC etc.) para determinar a dominância, embora neste caso o aceno seja vá para A. Os resíduos de A são melhores devido à estrutura AR (2). As previsões de B são um pouco agressivas, enquanto o padrão das previsões A é mais intuitivo. Pode-se conter quatro observações e avaliar a precisão da previsão para uma previsão de 1 período a partir de 4 origens distintas (25,26,27 e 28).
fonte