Quando registrar uma série temporal antes de ajustar um modelo ARIMA

26

Anteriormente, usei o Forecast Pro para prever séries temporais univariadas, mas estou mudando meu fluxo de trabalho para R. O pacote de previsão para R contém muitas funções úteis, mas uma coisa que ele não faz é qualquer tipo de transformação de dados antes de executar automaticamente .arima (). Em alguns casos, o forecast pro decide registrar dados de transformação antes de fazer previsões, mas ainda não descobri o porquê.

Portanto, minha pergunta é: quando devo transformar minhas séries temporais antes de tentar os métodos ARIMA nela?

/ edit: depois de ler suas respostas, vou usar algo assim, onde x é minha série temporal:

library(lmtest)
if ((gqtest(x~1)$p.value < 0.10) {
    x<-log(x)
}

Isso faz sentido?

Zach
fonte

Respostas:

21

Algumas advertências antes de prosseguir. Como costumo sugerir aos meus alunos, use as auto.arima()coisas apenas como uma primeira aproximação ao seu resultado final ou se você deseja ter um modelo parcimonioso ao verificar se o seu modelo baseado em teoria rival se sai melhor.

Dados

Você deve começar claramente pela descrição dos dados de séries temporais com os quais está trabalhando. Na macroeconomia, você geralmente trabalha com dados agregados, e os meios geométricos (surpreendentemente) têm mais evidências empíricas para os dados de séries temporais macro, provavelmente porque a maioria deles se decompõe em tendência de crescimento exponencial .

A propósito, a sugestão de Rob "visualmente" funciona para séries temporais com parte sazonal clara , pois os dados anuais que variam lentamente são menos claros para os aumentos na variação. Felizmente, a tendência de crescimento exponencial é geralmente vista (se parece ser linear, não há necessidade de registros).

Modelo

Y(t)=X1 1α1 1(t)...Xkαk(t)ε(t)

Na econometria financeira, os logs são comuns devido à popularidade dos retornos dos logs, porque ...

As transformações de log possuem boas propriedades

αEuY(t)XEu(t)

Nos modelos de correção de erros, temos uma suposição empiricamente mais forte de que as proporções são mais estáveis ( estacionárias ) do que as diferenças absolutas.

Na econometria financeira, é fácil agregar os retornos do log ao longo do tempo .

Existem muitas outras razões não mencionadas aqui.

Finalmente

Observe que a transformação de log geralmente é aplicada a variáveis ​​não-negativas (nível). Se você observar as diferenças de duas séries temporais (exportação líquida, por exemplo), nem é possível fazer o registro, é necessário procurar dados originais em níveis ou assumir a forma de tendência comum que foi subtraída.

[ adição após edição ] Se você ainda deseja um critério estatístico para quando fazer a transformação de log, uma solução simples seria qualquer teste de heterocedasticidade. No caso de uma variação crescente, eu recomendaria o teste de Goldfeld-Quandt ou similar. Em R, ele está localizado library(lmtest)e é denotado por gqtest(y~1)função. Basta regredir no termo de interceptação, se você não tiver nenhum modelo de regressão, yé sua variável dependente.

Dmitrij Celov
fonte
Obrigado pela informação. Com o teste GQ, quanto menor o valor de p, maior a probabilidade de a distribuição ser heterocedástica?
Zach
@Zach: exatamente, tome 5%, por exemplo, é claro, se você não planeja fazer mineração de dados. Pessoalmente, começo pelas suposições do modelo.
Dmitrij Celov
@Dmitrij. Obrigado. Eu só quero ter certeza de que estou interpretando a saída corretamente.
Zach
29

Plote um gráfico dos dados contra o tempo. Se parecer que a variação aumenta com o nível da série, faça os registros. Caso contrário, modele os dados originais.

Rob Hyndman
fonte
3
Aqui está uma pergunta: qual é o efeito se você pegar logs e eles não forem solicitados? Eu gostei ao trabalhar com séries temporais que exigem uma transformação de log, porque (como eu o entendo) os coeficientes são proporções e, em pequenos valores, quase porcentagens. (Ex exp (0,05) = 1,051.)
Wayne
4

Por seus frutos, você deve conhecê-los

A suposição (a ser testada) é que os erros do modelo têm variação constante. Observe que isso não significa os erros de um modelo assumido. Quando você usa uma análise gráfica simples, está assumindo essencialmente um modelo linear no tempo.

Portanto, se você tiver um modelo inadequado, como pode ser sugerido por uma plotagem casual dos dados em relação ao tempo, poderá concluir incorretamente sobre a necessidade de uma transformação de energia. Box e Jenkins fizeram isso com o exemplo Airline Data. Eles não contabilizaram três valores incomuns nos dados mais recentes; portanto, concluíram incorretamente que havia maior variação nos resíduos no nível mais alto da série.

Para mais informações sobre esse assunto, consulte http://www.autobox.com/pdfs/vegas_ibf_09a.pdf

IrishStat
fonte
1

Você pode querer transformar séries de logarítmos quando elas são de alguma forma naturalmente geométricas ou quando o valor temporal de um investimento implica que você estará comparando com uma obrigação de risco mínima com um retorno positivo. Isso os tornará mais "linearizáveis" e, portanto, adequados para um relacionamento de recorrência diferenciado simples.

DWin
fonte
11
As transformações são como drogas: algumas são boas para você e outras não. Se você não está interessado em testar hipóteses estatísticas, pode assumir o que quiser. Testes paramétricos de hipótese têm suposições sobre o preço do erro; ignore-os por sua conta e risco.
precisa saber é o seguinte
11
Tão verdade. Eu disse que o processo precisava ser geométrico. Falha na transformação também pode levar a erros de inferência. Não vejo onde sugeri que se ignore as suposições relativas às condições de inferência válida.
Dwin
11
stats.stackexchange.com/questions/6498/… incluiu uma discussão sobre quando e por que transformar. O "fato" de que o original deries é "geométrico" não infere que os resíduos de um modelo adequado têm um desvio padrão proporcional à média. Poderia MAS, mas tem que ser empiricamente comprovado ou pelo menos testado.
precisa saber é o seguinte