Cálculo do erro de previsão com validação cruzada de séries temporais

Eu tenho um modelo de previsão para uma série temporal e quero calcular seu erro de previsão fora da amostra. No momento, a estratégia que estou seguindo é a sugerida no blog de Rob Hyndman (perto da parte inferior da página), que é assim (assumindo uma série temporal um conjunto de treinamento do tamanho ) $y_1,\dots,y_n$ $k$

Ajustar o modelo aos dados e deixe ser a previsão para a próxima observação. $y_t,\dots,y_{t+k-1}$ $\hat{y}_{t+k}$
Calcular o erro de previsão de como . $e_{t} = \hat{y}_{t+k} - y_{t+k}$
Repita para $t=1,\dots,n-k$
Calcule o erro quadrático médio como $\textrm{MSE}=\frac{1}{n-k}\sum_{t=1}^{n-k} e_t^2$

$m$ $\hat{y}_{t+k},\dots,\hat{y}_{t+k+m-1}$ $e_{t,1},\dots,e_{t,m}$

$m$

Eu apreciaria uma explicação aqui ou links para algum lugar onde eu possa encontrar resultados teóricos sobre os intervalos de confiança em torno do MSE (ou outras medidas de erro).

time-series forecasting Chris Taylor
fonte

Respostas:

Parece que você pode estar mais interessado em estimar erros usando o bootstrap de entropia máxima , em vez de validação cruzada. Isso permitirá que você gere várias instruções de inicialização de seus dados, que podem ser divididos em quantos conjuntos de treinamento / teste você desejar para calcular intervalos de confiança para suas previsões.

Rob Hyndman tem alguma discussão adicional sobre a validação cruzada de séries temporais em seu blog , onde ele implementa vários métodos diferentes de "rolagem" e previsão, mas é focado principalmente na implementação. Também tenho algumas implementações no meu blog . Talvez a abordagem mais simples seja calcular a média do seu erro em todas as janelas de tempo e, portanto, ignorar e possíveis correlações nos erros.

Até onde eu sei, o estado teórico da validação cruzada para dados de séries temporais está um pouco atrás do estado teórico da validação cruzada geral. Intuitivamente, espero que os erros aumentem à medida que o horizonte aumenta, o que sugere que você deve esperar erros correlatos em vários horizontes de previsão. Por que isso te preocupa?

Zach
fonte