Cálculo do erro de previsão com validação cruzada de séries temporais

13

Eu tenho um modelo de previsão para uma série temporal e quero calcular seu erro de previsão fora da amostra. No momento, a estratégia que estou seguindo é a sugerida no blog de Rob Hyndman (perto da parte inferior da página), que é assim (assumindo uma série temporal um conjunto de treinamento do tamanho k )y1,...,ynk

  1. Ajustar o modelo aos dados e deixe y t + k ser a previsão para a próxima observação.yt,...,yt+k-1y^t+k
  2. Calcular o erro de previsão de como .et=y^t+k-yt+k
  3. Repita para t=1,...,n-k
  4. Calcule o erro quadrático médio como MSE=1n-kt=1n-ket2

my^t+k,...,y^t+k+m-1et,1,...,et,m

m

Eu apreciaria uma explicação aqui ou links para algum lugar onde eu possa encontrar resultados teóricos sobre os intervalos de confiança em torno do MSE (ou outras medidas de erro).

Chris Taylor
fonte

Respostas:

11

Parece que você pode estar mais interessado em estimar erros usando o bootstrap de entropia máxima , em vez de validação cruzada. Isso permitirá que você gere várias instruções de inicialização de seus dados, que podem ser divididos em quantos conjuntos de treinamento / teste você desejar para calcular intervalos de confiança para suas previsões.

Rob Hyndman tem alguma discussão adicional sobre a validação cruzada de séries temporais em seu blog , onde ele implementa vários métodos diferentes de "rolagem" e previsão, mas é focado principalmente na implementação. Também tenho algumas implementações no meu blog . Talvez a abordagem mais simples seja calcular a média do seu erro em todas as janelas de tempo e, portanto, ignorar e possíveis correlações nos erros.

Até onde eu sei, o estado teórico da validação cruzada para dados de séries temporais está um pouco atrás do estado teórico da validação cruzada geral. Intuitivamente, espero que os erros aumentem à medida que o horizonte aumenta, o que sugere que você deve esperar erros correlatos em vários horizontes de previsão. Por que isso te preocupa?

Zach
fonte