Estou usando a biblioteca VAR de statsmodels do python para modelar dados de séries temporais financeiras e alguns resultados me intrigam. Eu sei que os modelos VAR assumem que os dados da série temporal são estacionários. Eu inadvertidamente ajustei uma série não estacionária de preços de log para dois títulos diferentes e, surpreendentemente, os valores ajustados e as previsões dentro da amostra foram muito precisos com resíduos estacionários relativamente insignificantes. O na previsão dentro da amostra foi de 99% e o desvio padrão das séries residuais previstas foi de cerca de 10% dos valores previstos.
No entanto, quando eu diferencio os preços do log e ajusto essa série temporal ao modelo VAR, os valores ajustados e previstos estão longe da marca, saltando em um intervalo apertado em torno da média. Como resultado, os resíduos fazem um trabalho melhor prevendo os retornos do log do que os valores ajustados, com o desvio padrão dos resíduos previstos 15X maiores que as séries de dados ajustadas, um valor de 0,007 para as séries de previsão.
Estou interpretando mal os resíduos ajustados versus os resíduos no modelo VAR ou cometendo algum outro erro? Por que uma série temporal não estacionária resultaria em previsões mais precisas do que uma série estacionária com base nos mesmos dados subjacentes? Eu trabalhei bastante com os modelos ARMA da mesma biblioteca python e não vi nada parecido com essa modelagem de dados de série única.
fonte
Respostas:
Dois fatos:
Quando você regride uma caminhada aleatória em outra caminhada aleatória e assume incorretamente a estacionariedade, seu software geralmente gera resultados estatisticamente significativos, mesmo que sejam processos independentes! Por exemplo, veja estas notas de aula. (O Google fará buscas aleatórias falsas e vários links aparecerão.) O que está errado? A estimativa OLS usual e os erros padrão são baseados em suposições que não são verdadeiras no caso de passeios aleatórios.
Fingir que as suposições usuais do OLS se aplicam e regredir dois passeios aleatórios independentes um do outro geralmente leva a regressões com enormes , coeficientes altamente significativos e tudo é totalmente falso! Quando há uma caminhada aleatória e você executa uma regressão nos níveis, as suposições usuais para OLS são violadas, sua estimativa não converge como , o teorema do limite central usual não se aplica e as estatísticas t e valores p sua regressão cospe está errada .R2 t → ∞
Se duas variáveis forem cointegradas , você poderá regredir uma na outra e seu estimador convergirá mais rapidamente do que o normal, um resultado conhecido como super consistência. Por exemplo. confira a Time Series de John Cochrane, reserve on - line e procure por "superconsistente".
fonte